闽台鸽网_台鸽_信鸽_鸽子家园

UniProt蛋白质数据库简介

闽台鸽网 2021-02-18 15:33 闽台鸽网 126
1 UniProt数据库及其前身的创建历史 1.1 国际上最早创建的蛋白质序列数据库PIR-PSD 蛋白质序列数据库的创建可以追溯到半个多世纪以前。二十世纪六十年代中期,美国国家生物医学基金

1 UniProt数据库及其前身的创建历史 1.1 国际上最早创建的蛋白质序列数据库PIR-PSD

蛋白质序列数据库的创建可以追溯到半个多世纪以前。二十世纪六十年代中期,美国国家生物医学基金会(National Biomedical Foundation, NBRF) Margaret Dayhoff领导的研究小组着手收集蛋白质序列数据,以《蛋白质序列和结构图集》(Atlas of Protein Sequence and Structure)为书名编著出版,以后又多次更新,一共出了5卷;最后一卷共470页,于1978年出版。1983年,Dayhoff不幸病逝(1925-1983),她的同事Winona Barker继续从事蛋白质序列收集和蛋白质家族分类研究。1984年,这一项目获美国国立卫生研究院(National Institutes of Health, NIH)资助,Barker和NBRF主任Robert Ledley一起,成立了蛋白质信息资源部(Protein Information Resource, PIR),开发了蛋白质资源鉴定系统(Protein Identification Resource)。该系统包括数据库和分析软件两部分,其中数据库则以蛋白质序列为主,也包括核酸序列[]。1988年,NBRF联合德国慕尼黑蛋白质序列信息中心(Munich Information Center for Protein Sequence, MIPS)和日本国际蛋白质信息数据库(Japan International Protein Information Database, JIPID),在原有PIR的基础上成立了国际蛋白质序列数据库(PIR-International Protein Sequence Database, PIR-PSD)。PIR-PSD是当时数据量最大的蛋白质序列数据库,根据序列注释信息的不同,将所收集的蛋白质序列分为PIR1-PIR4四个不同级别[]。

1.2 人工审阅和注释的瑞士蛋白质序列数据库Swiss-Prot

1986年,瑞士日内瓦大学医学院Amos Bairoch创建了蛋白质序列数据库Swiss-Prot,并作为他博士学位论文的一部分[]。Swiss-Prot数据库的格式借鉴1981年创建的欧洲核酸序列数据库(EMBL),其数据来源除上述PIR-PSD数据库外,还包括核酸序列数据库EMBL中编码区序列翻译得到的蛋白质序列,以及文献中收集的蛋白质序列。该数据库的特色是对序列条目进行人工审阅和注释,包括物种分类学来源、功能、定位、表达等,同时也包括与其它数据库的链接。1987年起,Swiss-Prot由日内瓦大学和位于德国海德堡的欧洲分子生物学实验室(European Molecular Biology Laboratory, EMBL)共同管理和发布。1994年,EMBL下属欧洲生物信息学研究所(European Bioinformatics Institute, EBI)在英国剑桥南郊基因组园区建立,成为仅次于美国NCBI的国际生物信息中心,欧洲分子生物学实验室负责维护的数据库移交EBI。

1.3 核酸序列翻译所得的蛋白质序列数据库TrEMBL

20世纪90年代,随着核酸序列测定技术的发展,核酸序列数据激增,由核酸序列通过计算机程序翻译得到的蛋白质序列也急剧增长。1996年,欧洲生物信息学研究所Rolf Apweiler和瑞士日内瓦大学Bairoch共同创建了蛋白质序列数据库TrEMBL,作为Swiss-Prot数据库的补充和后备,专门存放核酸序列数据库EMBL中蛋白质编码序列翻译所得氨基酸序列。1998年,瑞士生物信息研究所(Swiss Institute of Bioinformatics,SIB)成立,主要负责管理、维护、发布和进一步开发Swiss-Prot数据库,而EBI主要负责管理、维护和发布TrEMBL数据库。

1.4 蛋白质数据库UniProt

2002年,获美国国立卫生研究院(National Institutes of Health)和美国科学基金会(National Science Foundation)、欧盟(European Union),以及瑞士联邦政府教育和科研联合办公室等机构资助,Swiss-Prot、TrEMBL和PIR三个国际上主要蛋白质序列数据库合并,建立了通用蛋白质资源(Universal Protein Resource, UniProt),统一收集、管理、注释、发布蛋白质序列数据及注释信息[]。UniProt的核心数据是蛋白质序列,因此也常被称为蛋白质序列数据库,或简称蛋白质数据库。目前,UniProt已经成为欧洲生命科学大数据联盟(European Life Science Infrastructure for Biological Information, ELIXIR)主要核心数据资源之一,研究开发团队共100多人,欧洲生物信息学研究所Alex Bateman、瑞士生物信息研究所Alan Bridge和美国特拉华大学(University of Delaware)生物信息学和计算生物学中心Cathy Wu共同担任项目负责人,基金资助来源包括美国和欧洲多个政府部门。UniProt从创建至今,一直遵循人类基因组计划实施时国际科学界达成的共识,即基因组、蛋白组等生物信息数据资源应该为全人类共享,为世界各国公众提供无偿服务。不言而喻,UniProt已经成为生命科学研究和生物技术开发不可或缺的蛋白质序列信息资源。

2 UniProt数据库主要内容

UniProt包括三个主要部分,即蛋白质知识库(UniProt Knowledgebase, UniProtKB)、蛋白质序列归档库(UniProt Sequence Archive, UniParc)和蛋白质序列参考集(UniProt Reference Clusters, UniRef)。为适应蛋白组学研究的需要,UniProt数据库还新增了蛋白组(Proteome)和参考蛋白组数据。此外,UniProt数据库还包括文献引用(Literature Citations)、物种分类学来源(Taxonomy)、亚细胞定位(Subcellular Locations)、数据库交叉链接(Cross-reference Databases)、相关疾病(Diseases)和关键词(Keywords)等辅助数据。

2.1 蛋白质知识库UniProtKB

热门标签

ICP备案号: 闽ICP备07501955号-11
闽台鸽网版权所有
返回顶部