生物信息数据库及工具简介整理
现介绍生物信息数据库及工具。
国际核苷酸序列数据库协作 (INSDC),包含NLM-NCBI(美国),ENA(欧洲,EMBL与EBI参与),DDBJ(日本),
其创始成员是信息和系统研究组织、日本国家遗传学研究所 (ROIS-NIG)、欧洲分子生物学实验室 - 欧洲生物信息学研究所 (EMBL-EBI) 和美国国立卫生研究院的一个组成部分,国家医学图书馆-国家生物技术信息中心 (NLM-NCBI)。
NCBI(National Center for Biotechnology Information,美国国家生物技术信息中心)
已故的参议员克劳德·佩珀(Claude Pepper)认识到计算机信息处理方法对于进行生物医学研究的重要性,并发起了立法。他于1988年11月4日在美国国立卫生研究院(NIH)成立了美国国家生物技术信息中心(NCBI)并作为美国国家医学图书馆(NLM)的一个部门。选择了在NLM是因为它有创建和维护生物医学数据库方面的经验,又因为它是NIH的一部分,因此可以建立计算分子生物学的研究计划。 NIH的集体研究组成了世界上最大的生物医学研究机构。(机翻)
(原文:The late Senator Claude Pepper recognized the importance of computerized information processing methods for the conduct of biomedical research and sponsored legislation that established the National Center for Biotechnology Information (NCBI) on November 4, 1988, as a division of the National Library of Medicine (NLM) at the National Institutes of Health (NIH). NLM was chosen for its experience in creating and maintaining biomedical databases, and because as part of NIH, it could establish an intramural research program in computational molecular biology. The collective research components of NIH make up the largest biomedical research facility in the world.)[1]
PubMed诞生于1996年。最常用的文摘型数据库。其收录范围不仅包括Medline,还有大部分PMC和NIH基金资助作者的文献,NCBI书籍等。PubMed还提供链接到文献全文所在网站的全文链接。早期 PubMed 数据库主要的任务,是将 Mesh 目录(MEDlINE的早期目录,主题词表)中收录的医学主题与大量有关医学研究的文献相匹配。这意味着,PubMed最早的发布时间应该是在 1971 年,也就是 MEDLINE 数据库第一次正式发布的时间。
MEDLINE始建于1966年(追溯收录至1946年),是NLM的期刊文献记录数据库。1983年,MEDLINE推出电子版,网上数据每日更新,光盘版每月更新。MEDLINE有严格的文献选择委员会LSTRC进行选刊。目前MEDLINE的文献都收录在PubMed中。
PMC全称为PubMed Central,建立于2000年,由NCBI进行管理,是可以免费获取全文的生物医学和生命科学全文数据库,保存了NLM收录印刷杂志的电子副本。PMC的部分bookreview内容没有收录于PubMed。
Entrez是NCBI开发的检索系统,可以查Genbank,PubMed(文献数据库)等数据库的信息。
Genbank是由NCBI建立的DNA数据库,包含EST(表达序列标签)和STS(序列标记位点)等。
- GBFF是Genbank的原始文件格式,包含很多注释,
- LOCUS表示基因座名字,核酸序列长度,分子类别,拓扑类型,更新日期
- ACCESSION检索号,数据在数据库当中唯一不变的检索编号,用GCA_起始
- VERSIONS版本号格式为“检索号.数字”,初始为1,更改时版本号增加(从2015开始NCBI淘汰了写在版本号旁边的改一次变一次的GI
- FEATs(FEATUREs)重要注释内容<其中包含dna来源质粒/基因组?的source,RBS,CDS,promoter启动子)
- SOURCE表示来源生物物种的俗名,如小鼠和人
- KEYWORDS用于检索的关键词
- REFERENCE参考文献
- ORIGRINS核酸序列 ATCTTGCATAC,用“//”双斜线结束
Gempept NCBI关于肽段的数据库
- the GenPept database is a collection of sequences based on translations from annotated coding regions in GenBank.GenPept 数据库是基于 GenBank 中带注释编码区的翻译的序列集合。
Unigene
UniGene最初是在缺乏参考基因组的情况下作为转录序列的基因导向分组,用于广泛的生物体。我们后来加入了基于基因组的分组。UniGene已被用作近似表达谱的来源,可用cDNA克隆的索引,并作为转录导向资源设计的指南。然而,随着短读测序技术的出现,每年提交给NCBI的est越来越少,并且具有相当规模的研究社区的大多数生物体都可以获得参考基因组。因此,UniGene的使用和需求显著下降。于2019年7月关闭网页版,仍可以在NCBI找到数据库
- FASTA使用于序列比对的,格式第一部分是序列名字,与>相连,第二部分用空格与序列名字相隔,表示注释信息,可以没有。第三部分bp一行60字母
- FASTQ测序仪原始数据,共四行
- 第一行: 用“@”开头,写read的名称
- 第二行: 测序序列,ATCGN(识别不出来的时候写N
- 第三行:用“+”开头,描述
- 第四行: 用ASCII码表示的read质量分数 数据库
- Refseq,来自NCBI的参考序列计划,提供非冗余的标准序列,包括基因组,蛋白质和染色体
- dBEST,表达序列标签数据库,由NCBI维护
- ESTs是从不同生物体中提取的短序列片段,通常是基因的转录产物。这些ESTs是通过cDNA文库构建和测序获得的,可以提供有关特定基因的信息。ESTs的测序往往是高通量的,可以快速识别和记录大量的基因序列。
ORFfinder由NCBI开发,用于寻找原核生物ORF(ORF是可能的CDS)
BLAST是由ncbi开发的序列比对工具,基于局部序列比对,寻找序列之间的相似者
- 返回值
- E值Expect,∈[0,1],表示随机配对的可能性,E值越大,随机可能性越大
- 相似性/一致性Identities,匹配上的碱基数占总序列长的百分数。
- score得分,来自打分矩阵,分数高同源性强
- Gaps两序列之间缺少或多出的对不上部分,缺失或插入,用——表示
- Strand
- plus/plus +/+表示两条序列是相同方向的
- plus/minus +/-表示两条序列一正一反,5-3与3-5
- 类型
- BLASTn,对比核酸及其互补序列与核酸库
- BLASTp,对比蛋白质与蛋白库
- BLASTx,将核酸翻译为蛋白质后比对
- tBLASTn,将蛋白质翻译为核酸后比对核酸
- tBLASTx,将核酸翻译成蛋白质后与数据库中翻译成蛋白质的核酸进行比对
- psi-BLAST用位置特异权重矩阵搜索,适合远缘物种相似蛋白/家族新蛋白
- phi-BLAST模式发现迭代BLAST,仅输出序列中含有特殊模式的对齐
- 精准度phiBLAST>BLASTp>psiBLAST,范围psiBLAST>BLASTp>phiBLAST
数据库
Assembly数据库
标签:综合基因组数据库
一个提供有关组装的基因组结构,组装名称和其他元数据,统计报告以及与基因组序列数据的链接的信息的数据库。(机翻)
(原文:A database providing information on the structure of assembled genomes, assembly names and other meta-data, statistical reports, and links to genomic sequence data.)
Assembly数据库包含有关组装基因组结构的信息,如AGP文件中所示或完整测序的染色体的集合。 该数据库提供了版本化的程序集登录号,该编号可跟踪程序集的更改,这些更改是通过随着时间的推移提交组来更新的。 该Web资源提供有关程序集的元数据,例如程序集名称(和备用名称),简单的程序集统计报告(重叠群,脚手架的类型和数量; N50)以及更新的历史视图。 它还跟踪提交给国际核苷酸序列数据库协作(INSDC)的程序集(即DDBJ,ENA或GenBank)与NCBI参考序列(RefSeq)项目中表示的程序集之间的关系。(机翻)
(原文:The Assembly database has information about the structure of assembled genomes as represented in an AGP file or as a collection of completely sequenced chromosomes. The database provides a versioned Assembly accession number that tracks changes to assemblies as they are updated by submitting groups over time. The web resource provides meta-data about assemblies such as assembly names (and alternate names), simple statistical reports of the assembly (type and number of contigs, scaffolds; N50s) and a history view of updates. It also tracks the relationship between an assembly submitted to the International Nucleotide Sequence Database Collaboration ( INSDC ), i.e. DDBJ , ENA or GenBank , and the assembly represented in the NCBI Reference Sequence (RefSeq) project.)
网页视图:

网页地址:https://www.ncbi.nlm.nih.gov/assembly[2][3]
BioCollections数据库
标签:标本数据库
是用于文化收藏,博物馆,草本植物和其他自然历史收藏(包括达尔文核心机构和收藏代码)的链接元数据的精选数据集,以及用于将标本ID映射到收藏站点上的网页的链接。Biocollections存储“结构化凭证”(机构代码:可选集合代码:样本ID,如:/culture_collection="ISBC:CMF:1866")中使用的首字母缩略词,用于向国际核苷酸序列数据库(INSDC)(GenBank,欧洲核苷酸档案库(ENA)和日本DNA数据库(DDBJ))和NCBI的BioSample提交的序列条目。(机翻)
(原文:BioCollections is a curated dataset of metadata for culture collections, museums, herbaria and other natural history collections, including Darwin Core institution and collection codes, and URL formulae for mapping specimen ids to web pages at the collection site. Biocollections stores acronyms used in “structured vouchers” for sequence entries submitted to the International Nucleotide Sequence Database (INSDC)(GenBank, European Nucleotide Archive (ENA), and DNA Databank of Japan (DDBJ)) and NCBI’s BioSample.)
注意:本数据库不收录来自个人的生物标本藏品,仅指向各馆藏数据库。
查询:
代码 | 意思 | 注文 | |
---|---|---|---|
[icode] | 检索机构代码(部分代码) | ||
[uicode] | 检索唯一的机构代码 | ||
[ccode] | 检索对应的收藏代码(/specimen_voucher="UAM:Mamm:24119") | 哺乳类:Mamm
鱼类:Fish 昆虫:Ento | |
[iname] | 搜索机构名称 | ||
[cname] | 搜索收藏类型 | ||
[all] | 以上所有 | ||
按类别搜索 | collection type museum[prop] | 检索博物馆 | |
collection type herbarium[prop] | 检索植物标本室 | ||
collection type culture collection[prop] | 检索文化类型收集 |

网页视图:

网页地址:https://www.ncbi.nlm.nih.gov/biocollections[2][4][5]
BioProject数据库(旧称:Genome Project)
标签:项目计划数据库
生物项目是与来自单个组织或财团的单个计划相关的生物数据的集合。 BioProject记录为用户提供了一个单一的位置,可以找到该项目生成的各种数据的链接,并存储到INSDC成员维护的档案数据库中。 BioProject的典型示例包括用于对多种细菌菌株进行测序的多分离项目,或特定生物的基因组和转录组的单分离项目。您提供的有关这项研究工作的描述对于为实验数据提供上下文非常重要。一个基因组学,功能基因组学和遗传学研究的集合,并链接到它们产生的数据集。该资源描述了项目的范围,材料和目标,并提供了一种检索数据集的机制,这些数据集由于注释不一致,多次独立提交以及通常存储在不同数据库中的多种数据类型的不同性质而常常很难找到。(机翻)
(原文:A BioProject is a collection of biological data related to a single initiative originating from a single organization or from a consortium. A BioProject record provides users a single place to find links to the diverse data generated for that project and deposited into the archival databases maintained by members of the INSDC. Typical examples of a BioProject include a multiisolate project for sequencing multiple strains of a bacterial species, or a monoisolate project for the genome and transcriptome of a particular organism. The description you supply about this research effort is important for providing context to your experimental data. A collection of genomics, functional genomics, and genetics studies and links to their resulting datasets. This resource describes project scope, material, and objectives and provides a mechanism to retrieve datasets that are often difficult to find due to inconsistent annotation, multiple independent submissions, and the varied nature of diverse data types which are often stored in different databases.)
大型计划:
The 1000 Genomes Project (human)千人基因组计划(ID:28889)


The human ENCODE (ENCyclopedia Of DNA Elements) project人类DNA元素百科全书计划(ID:30707)
NIH Human Microbiome Project (HMP) Roadmap Project人类微生物组计划(ID:43021)
浏览计划样式:

网页视图:

网页地址:https://www.ncbi.nlm.nih.gov/bioproject[2]
BioSample数据库
标签:实验材料数据库
BioSystems数据库
UCSC基因组浏览器
UCSC 基因组浏览器是由加州大学圣克鲁斯分校(UCSC)的在线可下载基因组浏览器。提供来自各种脊椎动物和无脊椎动物物种以及主要模式生物的基因组序列数据,是一个图形查看器.

可以看到,UCSC浏览器上可以看到各个数据库对同一基因组片段的注释,而这里恰好是音猬因子SHH所在处。自上而下有:
- 蓝色的GENCODE
- 深蓝色的RefSeq
- 绿色的OMIM(在线人类孟德尔遗传),收集了有关人类遗传病的突变。
- 黄色的ENCODE
- 等等等等

关于RefSeq的条带,四条条带代表四个剪接变体,细线是被剪掉的内含子,较细的粗线是UTR,较粗的粗线是蛋白质编码序列。细线上的小箭头是转录方向的意思。
BLAT
BLAT(BLAST-like比对工具)也出自UCSC,最初目的是快速的将小鼠基因组和人类基因组对齐,速度提升了数百倍。
EMBL(European Molecular Biology Laboratory)欧洲分子生物学实验室
总部位于德国海德堡,1974年由欧洲14个国家加上亚洲的以色列共同发起建立,现在由欧洲29个成员国政府支持组成,目的在于促进欧洲国家之间的合作来发展分子生物学的基础研究和改进仪器设备、教育工作等。
UniProt:联合蛋白质序列数据库
- 起源:TrEMBL、Swiss-Prot、PIR-PSD三个数据库的数据合并而成.2002 年,PIR 与其国际合作伙伴 EBI(欧洲生物信息学研究所)和 SIB(瑞士生物信息学研究所)一起获得了 NIH 的资助,创建了 UniProt。 通过统一 PIR-PSD、Swiss-Prot 和 TrEMBL 数据库,实现蛋白质序列和功能的单一全球数据库。
- Uniprot提供亚细胞定位,翻译后修饰
- Uniprot是包含蛋白质序列,功能信息,论文索引的蛋白质数据库,整合了包括EBI,SIB,PIR三大数据库的资源。
- EMBL-EBI是指欧洲生物信息学研究所(European Bioinformatics Institute),EMBL的一部分。1982年建立了先进的核苷酸序列数据库(EMBL-DNA),可进行核苷酸序列检索及序列相似性查询。TrEMBL
- SIB,瑞士生物信息学研究所,维护着ExPASy的服务器,Swissprot
- ExPASy是一个集成了多种生物信息学工具和数据库的平台,专门用于蛋白质和蛋白质组学的研究。除了蛋白质相关的数据外,ExPASy还提供了其他生物信息学资源,如代谢通路数据库(KEGG京都代谢通路基因什么什么库)等。其中,Protparam工具是经常使用的功能,它可以根据蛋白质序列估计蛋白质的等电点(pi)、疏水性等特性。
- Protscale判断蛋白质序列的疏水性,返回的结果是疏水性曲线,亲水用负值表示,疏水用正值表示。原理是滑动窗口
- Prosite数据库是一个用于存储和提供蛋白质序列和结构特征的资源。 主要功能是提供蛋白质的功能和结构信息可以识别功能域和模式,可用于蛋白质家族和亲缘关系的研究,预测蛋白质结构与功能
- ProtParam是一个工具,它允许计算存储在UniProtKB中的给定蛋白质或用户输入的蛋白质序列的各种物理和化学参数。计算参数包括分子量、理论pI、氨基酸组成、原子组成、消光系数、估计半衰期、不稳定性指数、脂肪族指数和亲水性大平均值。
- AACompIdent是一种工具,允许从其氨基酸组成鉴定蛋白质。它在Swiss-Prot和/或TrEMBL数据库中搜索氨基酸组成最接近给定氨基酸组成的蛋白质。
- ExPASy是一个集成了多种生物信息学工具和数据库的平台,专门用于蛋白质和蛋白质组学的研究。除了蛋白质相关的数据外,ExPASy还提供了其他生物信息学资源,如代谢通路数据库(KEGG京都代谢通路基因什么什么库)等。其中,Protparam工具是经常使用的功能,它可以根据蛋白质序列估计蛋白质的等电点(pi)、疏水性等特性。
- PIR Protein information resource,由美国国家生物医学研究基金会(NBRF)于1984年成立,用于支持基因组学、蛋白质组学和系统生物学研究和科学研究。提供蛋白质数据库和分析工具,包括蛋白质序列数据库 (PSD)。PIR-PSD
- 数据库的关系
通过INSDC等得到原始数据,处理后存入UniParc。
UniParc作为数据仓库,再分别给UniProtKB,Proteomes,UniRef提供可靠的数据集。 这里的UniProtKB 由两个子库构成 Swiss-Prot,TrEMBL。
Swiss-Prot 经过人工验证和注释,是高质量的蛋白质注释数据。但人工效率在高速增长的蛋白质数据面前显得极其低效。因此,注释这些数据需要大量时间,为了弥补这一问题。TrEMBL 被建立用于存储由机器自动翻译和预测的蛋白质序列。导致蛋白质数据冗余↑可信度↓。
简而言之,在UniProtKB数据库中Swiss-Prot是由TrEMBL经过手动注释后得到的高质量非冗余数据库,也是我们今后常用的蛋白质数据库之一。
- Uniprot内部有UniPrac,Uniref,UniProtKB三层,由粗糙到精细列
- 第一层次:UniPrac(Uniprot archive,档案馆):三个子库中所有序列的直接合并,信息比较粗糙,冗余。UniParc由于数据冗余,将相同序列合并一条,唯一编号。
- 第二层次:UniRef(UniProt Reference Clusters):去除了重复序列,UniRef100即去除了完全相同的冗余序列后的剩余,UniRef90即去除了相似性在90%以上的相似序列后的剩余,依此类推。
- 第三层次:UniProtKB(UniProt KnowledgeBase):详细注释的,有文献和其他数据库链接的精品数据库,有UniProtKB/TrEMBL(自动注释)和UniProtKB/Swissprot(人工注释)两部分。<TrEMBL和Swissprot热血沸腾的组合技>
- 还有Proteomes库是蛋白质组数据库
蛋白质结构数据库
蛋白质物理特性识别
Compute pI/Mw
- 计算蛋白质的 等电点(pI) 和 分子量(Mw),基于氨基酸序列的电荷分布和组成。
- 输入:蛋白质氨基酸序列(FASTA格式)。输出:pI和Mw的数值结果。
ExPasy的protogram数据库亦有记载
一级结构数据库
PDB蛋白质结构数据库(Protein Data Bank)是美国Brookhaven国家实验室于1971年创建的,由结构生物信息学研究合作组织(RCSB)维护。
- PDB数据库以文本文件形式存储分子数据,每个分子形用一个独立的文件。早期的分子文件的文件名后缀为“.pdb”,1997年以后每1种生物大分子对应1组(3个)相关文件分别是:全文文件(后缀为“.full”相当于原来的“.pdb”文件)、书目文件(后缀为“.biblio”)和图形文件(后缀为“.gif”)。
- PDB数据库是生物大分子的原子坐标和描述蛋白质和其他重要生物大分子相关信息的存储库。结构生物学家使用x 射线晶体学、核磁共振光谱和冷冻电子显微镜等方法来确定分子中每个原子相对于彼此的位置,然后存储这些信息,并由PDB数据库注释并公开发布到档案中。
二级结构数据库
DSSP工具:DSSP程序是一个二级结构分配(以及更多信息)的数据库,涵盖PDB中的所有蛋白质条目。DSSP也是从PDB条目计算DSSP条目的程序。DSSP并不预测二级结构。
- 根据氢键模式和主链构象,将蛋白质的每个残基分类为特定的二级结构类型。算残基之间的氢键能量,用于确定二级结构的边界。计算每个残基的溶剂可及表面积(ASA),反映其在蛋白质表面的暴露程度。
- 输入:蛋白质的三维结构文件(通常为PDB格式)。输出:包含每个残基的二级结构类型、氢键信息、溶剂可及性等数据的文本文件。
Pfam数据库重视蛋白质结构域和家族(基于序列同源性)分为Pfam-A和Pfam-B。。Pfam数据库主要用于蛋白质家族的分类和功能注释。
- Pfam-A是手工整理的高质量家族集合,
- Pfam-B是自动生成的家族集合,具有更广泛但相对较低的准确性
- 关注功能相关的蛋白质区域(如结构域),而非完整蛋白质的结构。
- 分类依据:
- 序列相似性,通过隐马尔可夫模型(HMM)比对识别保守区域。
- 基于多序列比对和进化关系。
- 层次结构:
- 超家族(Clan):多个家族在进化或功能上的关联。
- 家族(Family):具有显著序列相似性的结构域集合
- Pfam的链接都已经重新定位到Interpro了,也是EMBL-EBI生的
CATH数据库提供蛋白质三维结构与分类,关注结构的拓扑和进化起源。
- 蛋白质三维结构的层次化分类(从二级结构到进化关系)以三维结构特征为依据,结合序列和功能信息进行分类
- 分类层次:
- Class(类别):基于二级结构组成(如全α、全β、α+β、α/β)。
- Architecture(架构):描述二级结构的空间排布(如β桶、α螺旋束)。
- Topology(拓扑):基于折叠方式和连接性。
- Homologous Superfamily(同源超家族):进化相关的蛋白质。
SCOP数据库分类强调进化同源性,基于结构与进化关系分类,由专家手动分类,强调超家族内的远缘同源关系。
- 分类层次:
- Class(类别):基于二级结构类型(如全α、全β等)。
- Fold(折叠方式):具有相似拓扑结构的蛋白质。
- Superfamily(超家族):推测具有共同祖先的结构相似蛋白质。
- Family(家族):明确序列同源性的蛋白质集合。
- SCOPe引入自动化分类,但核心仍保留手动注释。
<这段deepseek写的,我对着笔记查了一下>
蛋白质三级结构预测
- I-TASSER穿线法预测:有相似才能用从PDB中识别结构模板,并通过基于迭代模板的碎片组装模拟构建完整的原子模型(将蛋白质“穿入”已有的蛋白质结构模板)。 接着通过蛋白质功能数据库BioLiP对3D模型进行重新线程化,从而预测功能。
- 有人把ITASSER归进从头建模了
- Swissmodel同源建模:按照FASTA格式输入氨基酸序列,要有相似度>30%的蛋白质模板
- 同源建模也称为比较建模,根据与已知结构的序列同源性预测蛋白质结构。基于“如果两个蛋白质具有足够高的序列相似性,它们很可能具有非常相似的三维结构”的原理。如果蛋白质序列之一具有已知结构,则可以以高置信度将该结构复制/映射到未知蛋白质。
- 质量评估:其中相似度值,即序列同源性经比对后结果在 40% 以上,则待预测蛋白与模板蛋白结构大概为同源蛋白,则同源建模方法可用于预测该蛋白三维结构。根据GMQE值及QMEAN值评价结果,都是全局比对。
- GMQE值在0-1之间,越接近1则建模质量越好
- QMEAN值关于覆盖率区间为-4-0,越接近0则匹配度越好。
- 此功能在Modelle(蛋白质复合体同源建模)与Discovery Studio与AlphaFold-Multimer亦有记载
- QUARK从头计算:从头经历复杂的算法归纳到能量最低,此事在Alphafold亦有记载
- Rosetta综合以上算法,但亦有说同源建模的
蛋白质功能与结构域数据库&预测
- InterPro是集成的蛋白质结构域和功能位点数据库,包含关于蛋白质家族、域、重复序列、和作用位点等数据资源。InterPro通过将蛋白质分类为家族并预测结构域和重要位点来提供蛋白质的功能分析。为了以这种方式对蛋白质进行分类,InterPro 使用由组成 InterPro 联盟的多个不同数据库(称为成员数据库)提供的预测模型(称为特征)。
- InterPro包含很多来自不同数据库的人工注释文件,形成了一个给定的蛋白质家族、结构域和功能位点的独特描述。
- Interpro数据库成员包括Coils 、Gene3D、Pfam、PRINTS、ProSitePatterns、ProSiteProfiles、SMART、SUPERFAMILY、 TIGRFAM、ProDom、PIR 数据库,每两个月更新一次
- EBI生的,可能假阳性
- Pfam数据库是一个庞大的蛋白质家族集合,每个家族都由多个序列比对和隐马尔可夫模型(HMMs)表示
- SMART 是一个用于蛋白质结构域鉴定、注释的在线分析工具。它的数据与UniProt、Ensembl和STRING数据库同步
- 您可以在两种不同的模式下使用 SMART:正常模式或基因组模式。主要区别在于所使用的基础蛋白质数据库。
- 在 Normal SMART 中,数据库包含 Swiss-Prot、SP-TrEMBL 和稳定的 Ensembl 蛋白质组。即使删除了相同的蛋白质,Normal SMART 中的蛋白质数据库具有显著的冗余性,
- 在 Genomic SMART 中,仅使用完全测序基因组的蛋白质组;后生动物的 Ensembl 和其余的 Swiss-Prot。如果您使用 SMART 来探索结构域架构,或者想要在各种基因组中查找确切的结构域计数,请考虑切换到基因组模式。结构域标注页中的数字会更准确,架构查询结果中不会有很多对应同一个基因的蛋白片段。
蛋白相互作用库
- DIPTM 数据库对实验确定的蛋白质之间的相互作用进行了编目。它结合了来自各种来源的信息,以创建一组单一、一致的蛋白质-蛋白质相互作用。存储在 DIP 数据库中的数据既由专家策展人手动管理,也使用计算方法自动管理
- BioGRID(Biological General Repository for Interaction Datasets)数据库 生物相互作用网络,是由大量单个蛋白质或遗传相互作用以及RNA,DNA,膜,碳水化合物和小分子代谢物的相互作用聚集形成的,BioGRID致力于所有主要模式生物物种和人类的蛋白质,遗传和药物相互作用的管理和存储
- 合并了DrugBank中的化学-蛋白质相互作用记录
- 为了协调和统一不同模式生物研究中使用的各种遗传相互作用术语,BioGRID与WormBase(线虫数据库)合作开发了新的标准化遗传相互作用结构术语或GIST。GIST已设计为使用通用遗传相互作用术语精确指定遗传相互作用
- BioGRID ORCS:用于CRISPR筛选数据的存储单元
- STRING功能性蛋白质关联网络。收集多个公共数据库,包括UniProt、KEGG、NCBI和Gene Ontology整合并生成一个全面的蛋白质相互作用网络数据库。
- 返回结果是网状的蛋白质互作消息
蛋白质多序列比对
多序列比对MSA是指把多条(3 条或以上)有系统进化关系的蛋白质分子的氨基酸序列或核酸序列进行比对,尽可能地把相同的碱基或氨基酸残基排在同一列上。对齐的碱基或氨基酸残基在进化上是同源的,即来自共同祖先。
序列比对主要是为了寻找相似的序列,相似的序列往往起源于一个共同的祖先序列,它们很可能有相似的空间结构和生物学功能,有利于推测这个未知结构和功能的蛋白质的结构和功能。
- Tcoffee核酸和蛋白质都可以
- 基本原理是首先构建一个包含有clustalw得到的序列两两比对和fasta得到的局部两两比对数据的库,并且给每个比对一个权重.然后把结果进行整合,最后是progressive比对过程.
- Rcoffee可以根据预测的RNA二级结构对比序列
- ClustralW有快慢两种模式,
- 原理是两两比对->两两之间距离矩阵->NJ建Binary进化树作为guidetree->用progressive的方法添加序列到树上直到比对完成
- 有Accurate慢和Appropriate快两种模式,Accruate比Tcoffee快,Appropriate比Muscle慢
- Muscle
- 它之所以比clustalw快一方面是因为没有进行两两序列比对,用序列间共有的word数表征序列间的相似性;另一方面用UPGMA代替NJ构建guide tree. 如果没有对于结果的refinement过程,时间更短,时间复杂度为O(NL^2),也就是说时间和序列数成线性关系.
蛋白质数据质量评估
- PROCHECK
- 在对蛋白的二级结构进行评估之时,一个重要的指标就是二面角φ, ψ是否在合理范围之内, 其中φ代表 α 碳原子和氮原子间的键的旋转度phi, ψ代表α碳原子和羰基碳原子间的键的旋转度。PROCHECK可以计算给定PDB文件的所有φ, ψ二面角, 然后给出总的评估结果,并将结果绘制成Ramachandran图表示。
- 不少于90%的二面角分布在图中的合理(蓝色)区域,则蛋白结构合理
- VERIFY_3D
- 对同源建模所得模型的质量进行了可视化分析,用来判断模型与氨基酸序列之间的兼容性。
- 对氨基酸残基数大于100的蛋白质,VERIFY_3D的评估结果更准确。
- 当不低于80%的氨基酸残基得分大 0.2时,即可认为目的蛋白建模所得模型属于高质量的模型结构。
- ProQ - 蛋白质质量评价<这个没找到总结> ProQ 是一种基于神经网络的预测器,它基于许多 结构特征可预测蛋白质模型的质量。ProQ 是 优化以找到正确的模型,与其他方法相比 经过优化以查找原生结构。两个质量衡量标准是 预测 LGscore 和 MaxSub。 LGscore 是 P 值的 -log,MaxSub 范围为 0-1,其中 0 为 微不足道和 1 个非常显著。
跨膜序列预测
- TMHMM由丹麦的CBS维护,使用隐马尔可夫模型预测跨膜蛋白序列
- TMpred预测蛋白质的跨膜结构域(TMDs),基于氨基酸疏水性分析。输入蛋白质序列,输出跨膜区的位置、与拓扑结构(膜内/膜外方向)
信号肽SignalP
- 预测蛋白质的 信号肽及其切割位点,判断是否为分泌蛋白或膜蛋白。
- 输入:蛋白质序列。输出:信号肽位置、切割位点概率、分泌类型(Sec/SPI/Tat)。
螺旋曲结构预测COILS
COILS 是一个程序,可将序列与已知平行双股盘绕线圈的数据库进行比较,并得出相似性分数。通过将此分数与球状和卷曲螺旋蛋白中的分数分布进行比较,该程序然后计算该序列将采用卷曲螺旋构象的概率。
PSORT蛋白质亚细胞定位[6]
蛋白质修饰预测
NMT蛋白质甲基化预测
NetPho蛋白质磷酸化预测
NetAcet蛋白质乙酰化
搞人小数据库,考了之后就把名字全记下来了
调控元件与内含子/外显子
- PLACE植物顺式作用元件数据库(Plant Cis-Acting Regulatory DNA Elements),存储植物启动子区域的功能性调控元件。
- 输入:DNA序列(如启动子区域)。输出:匹配的调控元件名称、位置及功能注释。
- Augustus真核生物基因结构预测
- 基于隐马尔可夫模型(HMM)和物种特异性训练数据预测基因结构。
- 可以直接预测训练之后的物种。若不存在被训练过的物种,需要准备训练集和测试集进行训练 可靠的基因结构序列的要求如下: 之后随机将注释数据集分成训练集和测试集,测试集要足够多的基因(100~200个),并且要足够的随机。 a. 提供基因的编码部分,包含上游几KB。通常,基因越多越好。还得保证有足够多的外显子,这样子才能训练内含子 b. 这些基因的基因结构一定足够准确。不过,也不需要百分百正确,只要保证起始密码子和终止密码子是准确的。 c. 需要保证这些基因没有冗余,不同序列如果有几乎相同的注释后氨基酸序列,那么仅仅取其中一个 d. 一条序列允许有多个基因,基因可以在正链也可以在负链,但是这些基因间不能有重叠,每个基因只要其中一个转录本,存放格式是GenBank
- 输入:基因组DNA序列。输出:预测的基因模型(外显子、内含子、CDS区域)、蛋白质序列。
- 基于隐马尔可夫模型(HMM)和物种特异性训练数据预测基因结构。
- ORFfinder
- 识别DNA序列中的 开放阅读框ORF,基于遗传密码表扫描可能的编码区域。
- 输入:DNA序列。输出:ORF的位置、长度、翻译的氨基酸序列。
基因比对
BWA-MEM自动选择全局/局部算法,长序列更适合
SOAP快,短序列更加合适
NovoAlign慢而准确