讨论:生物网上资源
生物学课本只是信息来源的一个方面。要想追上日新月异的生物学前沿, 还需要善于利用网上的生物学资源。本文整理了若干编者学习过程中发现的生物学资料库,都可以免费查阅。有些网站可能要翻墙访问。
NCBI
全称:National Center for Biotechnology Information(美国国立生物技术信息中心)
网址:http://www.ncbi.nlm.nih.gov
NCBI不是一个数据库,而是很多数据库汇集在一个网站上。
Taxonomy
Taxonomy是NCBI中的生物分类数据库。它采用根据分子生物学的最新发现建立的生物进化关系树,因此跟一般生物课本上介绍的生物分类都不太一样。它收录得非常全,只要是目前能测定部分DNA,建立与其它物种关系的物种,都有收录。
GenBank
GenBank是NCBI最重要的数据库,但对于中学阶段而言比较“鸡肋”。它收录的是已经测定的所有DNA片段的数据。当然对于绝大多数物种,我们还没有测定它的基因组。我们只是获取了其中比较重要的部分,比如核糖体(特别是16S、18S)序列。GenBank的数据可以以FASTA格式下载。GenBank有两个子库:dbEST和dbGSS。
dbEST是表达序列标签数据库。
dbGSS是单端测序中的短片段数据库,将来用于拼成完整的序列。
Gene
Gene收录各种基因的相关资料。比如在基因组中的位置、常见变异及其产生的表现型,等等。
Genome
Genome是基因组数据库,比如人的基因组测定结果可以在上面下载。
dbSNP
dbSNP是单核苷酸变异数据库。
SRA和Trace
SRA和Trace是和GenBank紧密关联的两个数据库。它们收录测序过程中产生的原始数据。
OMIM
全称:Online Mendelian Inheritance in Man(人类孟德尔式遗传数据库)
OMIM是人类遗传病数据库,既可以用基因名搜,也可以用症状搜。但是很多遗传病还没有确定控制它的基因。
KEGG、MetaCyc、Reactome
KEGG网址:http://www.kegg.jp
MetaCyc网址:http://metacyc.org
Reactome网址:http://www.reactome.org
之所以把这三个放在一起是因为它们都是生物反应和通路数据库。KEGG和MetaCyc比较老成,Reactome则是EMBL(欧洲分子生物学中心)推出的新秀。KEGG比较传统,收录的是常见通路在不同物种中的细节不同。MetaCyc收录了很多不常见的通路,比如胆固醇合成的完整过程,包括形成羊毛固醇后的15步反应。Reactome主要收录细胞生物学通路,也有很多不常见通路,比如新发现的细胞程序性坏死(Necroptosis)的过程。
UniProt
UniProt是EMBL推出的蛋白质数据库,事无巨细地收录了我们对每个蛋白质掌握的每个细节,包括序列、三维结构、细胞中的位置、残基修饰、相关疾病,等等。
Rfam
Rfam是EMBL推出的非编码RNA数据库,收录RNA的结果、功能、表达的物种等。
dbPTM
全称:Database of Post-Translational Modifications(蛋白质翻译后修饰数据库)
网址:http://dbptm.mbc.nctu.edu.tw
dbPTM是蛋白质残基修饰数据库,整合了多个数据库的资料,比UniProt略全。
TCDB
全称:Transporter Classification Database(跨膜转运器分类数据库)
TCDB是跨膜转运器的数据库,包括原核生物和真核生物的转运器。
IUPHAR
全称:International Union of Basic and Clinical Pharmacology(国际基础与临床药理学学会)
网址:http://www.guidetopharmacology.org
IUPHAR主要收录人和哺乳动物细胞内能作为药物目标(“靶”)的蛋白质、以及它们对应的药物。
Drugs、PDR
PDR全称:Physicians' Desk Reference(医师案头手册)
Drugs网址:http://www.drugs.com
PDR网址:http://www.pdr.net
这两个网站都是收录药物信息的。
IntEnz
全称:Integrated Relational Enzyme Database(酶的关系型数据库)
网址:http://www.ebi.ac.uk/intenz/
该数据库也是EMBL推出的,收录各种酶的信息。它是“关系型数据库”,也就是可以根据酶的特征反查酶,比如可以列出所有需要某种辅酶的酶,或所有需要某个底物的酶。
GeneMANIA
全称:Gene Multiple Association Network Integration Algorithm(基因多种联系网络构建算法)
该数据库是多伦多大学开发的基于MANIA算法的蛋白质联系数据库。它是世界最大的蛋白质联系数据库,收集了9个模式物种的蛋白质的超过一亿种联系。这些联系可分类为:直接物理联系(配体和受体、酶和抑制蛋白……)、共激活联系(具有相同的调控因子)、功能联系(在AmiGO数据库中记录有参与相同生物过程)等。