中文糖尿病标注数据集
背景描述
瑞金医院糖尿病数据集
以人工智能辅助糖尿病知识图谱构建为题,通过糖尿病相关的教科书、研究论文来进行糖尿病文献挖掘并构建糖尿病知识图谱。
糖尿病是代谢性疾病,也是慢性疾病,中国是世界上糖尿病患者最多的国家,病人达到1.1亿,每年有130万人死于糖尿病及其相关疾病。糖尿病病因复杂,表现出的症状多种多样,这为糖尿病的诊断和治疗带来了很大的困难。此数据集旨在通过糖尿病相关的教科书、研究论文来做糖尿病文献挖掘并构建糖尿病知识图谱。参赛选手需要设计高准确率,高效的算法来挑战这一科学难题。
第一赛季课题为“基于糖尿病临床指南和研究论文的实体标注构建”,第二赛季课题为“基于糖尿病临床指南和研究论文的实体间关系构建”。
官方提供的数据只包含训练集,真正用于最终排名的测试集没有给出。
数据说明
数据集来源于中文糖尿病领域权威期刊,数据包括基础研究、临床研究、药物使用、临床病例、诊治方法等多个方面,时间跨度达到7年,涵盖了近年来糖尿病领域最广泛的研究内容和热点。数据集的标注者都具有医学背景。依托于该数据集,包括医生、科研人员、企业开发者就能开展用于临床诊断的知识库,知识图谱,辅助诊断等产品开发,进一步探索研究糖尿病的奥秘。
实体标注格式:分三列,以tab分割:第一列为实体id,以字符T开始,后接数字,如“T16”,该id在同个文件中唯一;第二列为实体的位置坐标以及类别;第三列为实体对应的文字,如“I型糖尿病”。第二列由三部分组成,以空格分割。其中第一部分为实体类别,如“Disease”;第二部分为实体起始位置,如“100”;第三部分为实体终止位置,如“110”。对于存在换行现象的实体,则以分号分割实体在两行的位置,如“Disease 18 20;21 25”表示该实体起始位置为18到25,在20的位置换行。
关系标注格式:分两列,以tab分割:第一列为关系id,以字符R开始,后接数字,如“R18”,该id在同个文件中唯一;第二列为关系的类别以及实体组成,由三部分组成,以空格分割。其中第一部分为关系类别,如“Test_Disease”;第二部分为关系中起始的实体,以“Arg1:”起始,后接实体id;第三部分为关系中被指向的实体,以“Arg2:”起始,后接实体id。