结构蛋白质序列数据集

结构蛋白质序列数据集

135人浏览

背景描述

这是从结构生物信息学研究协作组织(RCSB)蛋白质数据库(PDB)检索的蛋白质数据集。

PDB档案库是原子坐标和描述蛋白质和其他重要生物大分子的其他信息的储存库。结构生物学家使用诸如X射线晶体学,NMR光谱学和低温电子显微术的方法来确定分子中每个原子相对于彼此的位置。然后他们存储这些信息,然后由wwPDB注释并公开发布到存档中。

不断发展的PDB反映了世界各地实验室正在进行的研究。这使得在研究和教育中使用数据库既令人兴奋又具有挑战性。结构可用于生命中心过程中涉及的许多蛋白质和核酸,因此您可以访问PDB档案以查找核糖体,癌基因,药物靶标甚至整个病毒的结构。但是,找到所需信息可能是一项挑战,因为PDB会存档许多不同的结构。您经常会发现给定分子或部分结构的多种结构,或已经从其天然形式修饰或失活的结构。

 

数据说明

有两个数据文件。两者都安排在蛋白质的“结构ID”上:

  • pdb_data_no_dups.csv包含蛋白质元数据,其中包括蛋白质分类,提取方法等的详细信息。
  • data_seq.csv包含> 400,000个蛋白质结构序列。