简介:商品标题(长)、url、价格、描述、品牌和类目(多类目用$连接,单类目里也有可能有/分隔,比如“手机/手机配件$手机通讯$手机”);可构建商品-品牌-类目三元组?
数据量:2000000
数据格式:txt,\t分隔符,可直接用
文件:data2020\spider\all.json或all.csv
领域:学校
数据量:100
数据量:数据缺失
数据格式:rdf./ttl/nq格式,三元组结构不清晰
文件:chineseconceptnet.csv
领域:常识
简介:数据为繁体字,xxx会想让你xxx,xxx能做的事情有xxx,你可以在xxx找到xxx等
数据量:624805
数据格式:csv格式,\t分隔符,三元组需要提取过滤,有/c/zh前缀等;有部分数据列粘合在了一起;有activity字段的才有三元组关系(需进一步细致分析)
数据样例:/a/[/r/CapableOf/,/c/zh/逃避壓力/,/c/zh/睡覺/]/r/CapableOf/c/zh/逃避壓力/c/zh/睡覺{"dataset":"/d/conceptnet/4/zh","license":"cc:by/4.0","sources":[{"activity":"/s/activity/ptt/petgame","contributor":"/s/contributor/petgame/pet_15677"}],"surfaceEnd":"睡覺","surfaceStart":"逃避壓力","surfaceText":"[[逃避壓力]]能做的事情有[[睡覺]]。","weight":1.0}/a/[/r/AtLocation/,/c/zh/雞毛/,/c/zh/雞舍/]/r/AtLocation/c/zh/雞毛/c/zh/雞舍{"dataset":"/d/conceptnet/4/zh","license":"cc:by/4.0","sources":[{"activity":"/s/act...
文件:entities.json
简介:实体类别和名字,如label为Check,name为食道X线钡餐检查,一个类别有多个实体,Disease类别的name除了名字外还有预防成因等。
数据量:44656
数据格式:json格式,整体为json数组
数据样例:[{"label":"Disease","name":{"name":"肺泡蛋白质沉积症","desc":"肺泡蛋白质沉积症(简称PAP),又称Rosen-Castle-man-Liebow综合征,是一种罕见疾病。该病以肺泡和细支气管腔内充满PAS染色阳性,来自肺的富磷脂蛋白质物质为其特征,好发于青中年,男性发病约3倍于女性。","prevent":"1、避免感染分支杆菌病,卡氏肺囊肿肺炎,巨细胞病毒等。\n2、注意锻炼身体,提高免疫力。","cause":"病因未明,推测与几方面因素有关:如大量粉尘吸入(铝,二氧化硅等),机体免疫功能下降(尤其婴幼儿),遗传因素,酗酒,微生物感染等,而对于感染,有时很难确认是原发致病因素还是继发于肺泡蛋白沉着症,例如巨细胞病毒,卡氏肺孢子虫,组织胞浆菌感染等均发现有肺泡内高蛋白沉着。\n虽然启动因素尚不明确,但基本上同意发病过程为脂质代谢障碍所致,即由于机体内,外因素作用引起肺泡表面活性物质...
[DatasetPart2]文件:medical.json
数据量:8808
数据格式:json格式,一行一个病症
数据样例:{"_id":{"$oid":"5bb578b6831b973a137e3ee6"},"name":"肺泡蛋白质沉积症","desc":"肺泡蛋白质沉积症(简称PAP),又称Rosen-Castle-man-Liebow综合征,是一种罕见疾病。该病以肺泡和细支气管腔内充满PAS染色阳性,来自肺的富磷脂蛋白质物质为其特征,好发于青中年,男性发病约3倍于女性。","category":["疾病百科","内科","呼吸内科"],"prevent":"1、避免感染分支杆菌病,卡氏肺囊肿肺炎,巨细胞病毒等。\n2、注意锻炼身体,提高免疫力。","cause":"病因未明,推测与几方面因素有关:如大量粉尘吸入(铝,二氧化硅等),机体免疫功能下降(尤其婴幼儿),遗传因素,酗酒,微生物感染等,而对于感染,有时很难确认是原发致病因素还是继发于肺泡...
[DatasetPart3]文件:relations.json
简介:实体关系,共12个,(疾病)推荐食谱、(疾病)宜吃、(疾病)忌吃、(科室)属于(科室)、(疾病)所属科室、(疾病)常用药品、(药品在售)生产药品、(疾病)好评药品、(疾病)诊断检查、(疾病)症状、(疾病)并发症、(疾病)治疗方法
数据量:312159
数据样例:[{"start_entity_type":"Disease","end_entity_type":"Food","rel_type":"recommand_eat","rel_name":"推荐食谱","rels":[{"start_entity_name":"藏毛囊肿","end_entity_name":"白菜肉末粥"},{"start_entity_name":"甲沟炎","end_entity_name":"蛋花空心菜汤"},]},{"start_entity_type":"Disease","end_entity_type":"Food",...
文件:opencyc-Chinese-2012-06-19.owl
简介:中英翻译对照,数据经由google翻译api获得
数据量:161276个节点/关系
数据格式:.owl格式,需二次提取和理解owl文件格式
数据样例: 文件:rdfosmchinaall.json 领域:地理位置 简介:地点中英文名和经纬度对照(不全有英文名),一个地名可能对应多个经纬度point,一个point只对应一个名字,信息来自OpenStreetMap 数据量:1716个中文地名,331192个经纬度位置 数据格式:json格式,需二次提取对应关系,有等效的节点,需进一步理解数据 [DatasetPart2]文件:rdfwikichinaall.json 简介:地点中英文名和经纬度对照(不全有英文名),一个地名可能对应多个经纬度point,一个point只对应一个名字,信息来自wiki 数据量:1707个中文地名,330946个经纬度位置 数据格式:json格式,需二次提取对应关系 文件:biterm/biterm/*.txt 领域:38个领域|术语翻译 简介:材料科学、出版、农业、艺术等领域术语中英翻译对照(共现次数最多的1w个术语) 数据量:380000 数据格式:txt格式,\t分隔符,可直接使用 数据样例:文化culture山西高等学校社会科学学报SocialSciencesJournalofCollegesofShanxi和谐社会harmonioussociety中国China创新innovation长春大学学报JournalofChangchunUniversity统计研究StatisticalResearch教育education湖南师范大学社会科学学报JournalofSocialScienceofHunanNormalUniversity大学生collegestudents襄樊学院学报JournalofXiangfanUniversity... [DatasetPart2]文件:techabs/abstract/*.txt 简介:材料科学、出版、农业、艺术等领域论文摘要(每个领域随机10w个摘要) 数据量:3551049行 数据格式:txt格式,可直接使用 数据样例:本文概述了YMF—6耐酸型FRP(纤维—树脂复合材料)基体材料的配方设计与测试数据。同时,介绍了YMF—6耐酸型FRP基体材料在大型酸槽修复中的应用情况,为YMF—6耐酸型FRP基体材料的应用,提供了使用依据分析了磷酸镁水泥的原料制备、水化机理及主要水化产物,介绍了磷酸镁水泥凝结影响因素、强度影响因素研究现状,在此基础上对磷酸镁水泥的应用前景及亟需解决的问题进行了初步探讨。简要介绍了自分层涂料及其研究和发展;总结了在自分层涂料的研究中,筛选树脂和预测涂料自分层倾向所遵循的理论模型;分析了助剂和填料对涂料分层的影响;介绍了自分层涂料涂层(膜)的检测方法。... [DatasetPart3]文件:techner/NER_subset/*.txt 简介:材料科学、出版、农业、艺术等领域基于techterm术语采用远程监督方式生成的领域术语识别(每个领域3w个训练句子),结构为句子->术语数组 数据量:1140000 数据样例:复合材料MSCs/-βTCP与自体骨的骨再生能力相当。['复合材料']加涂层的试样在1250℃氧化遵循分段抛物线规律。['涂层','氧化']运用表面热力学基本原理研究了活性金属/陶瓷体系的粘着功。['热力学','陶瓷体','金属']通过电导率(σ)测试。['电导率']不同温度下复合材料的MSP强度显示出不同的组织依存性。['复合材料']... [DatasetPart4]文件:techqa/encoded_QA/*.txt 简介:各领域三元组关系(基于techKG10)基于模板转化为的qa句。(techKG10是从TechKG中抽取的子集,规则为;领域术语的tf*idf在前10%;每个实体至少出现在10个三元组中) 数据格式:不可用,三元组关系只有节点id没有内容;暂未找到节点id和节点内容的对应文件 数据样例:11192350在什么时候发表了论文《43607926》?12734281。4360792612734281published_year11192350的研究兴趣是什么?25575032,01779750,25911907,42464314,31174103,22630855,42613488,29048116,12580553,01171186,08103493,16122327,13633522,10339260,14505887,36847773,25061852,33481245,06639445。1119235025575032research_interest... [DatasetPart5]文件:techre/sub_RE/*.txt 简介:材料科学、出版、农业、艺术等领域基于techKG10、采用远程监督方式生成的领域关系抽取(每个领域20w个训练bags,每个bag6个句子) 数据量:18663452行 数据样例:复合材料构件碳纤维复合材料NA特别是碳纤维复合材料构件。非晶相莫来石NA在硅酸盐溶液中获得的陶瓷膜由莫来石、α-Al2O3、γ-Al2O3晶态相和SiO2非晶相组成。水煤浆锅炉hierarchical结合带侧边风的油/水煤浆两用燃烧器在这种型式锅炉上的实际应用情况。文化自主创新NA为自主创新提供必需的文化支撑。... [DatasetPart6]文件:techterm/术语/*.txt 简介:材料科学、出版、农业、艺术等领域的术语(每个领域术语来自techKG中tf*idf最高的术语中随机1w条) 数据样例:inorganicnon-metallicmaterials复合材料metallicmaterialsfoundationaldisciplineinmaterialsscience修志工作中国地方志地方志事业... 文件:data/*.txt 领域:11个领域|词语 简介:IT、财经、成语、地名、历史名人、诗词、医学、饮食、法律、汽车、动物领域词语和DF值,词频统计语料来自CSDN博客、新浪新闻、搜狗语料。(源数据缺失,补充下载) 数据量:157173 数据样例:信鸽220963黄蜂118861水母78147随时随地52510全力以赴36156丰富多彩34727余波未平32967民以食为天3900任重而道远3742一言以蔽之2183... 文件:yidu-n7k/code.txt 领域:临床医疗|术语 简介:临床医疗手术的术语,有两列分别为编号术语 数据量:9867行,9468个非重复术语(有的术语有两个标号) 数据样例:00操作和介入NEC00.0治疗性超声00.0100头和颈部血管治疗性超声00.0101头部血管治疗性超声00.0102颈部血管治疗性超声00.0200心脏治疗性超声90.8上消化道标本和呕吐物的显微镜检查90.8x00上消化道标本和呕吐物的显微镜检查90.9下消化道标本和大便的显微镜检查90.9x00下消化道标本和大便的显微镜检查... [DatasetPart2]文件:yidu-n7k/*.xlsx 简介:临床医疗术语标准化前后对照,有训练集、测试集、验证集;有两列分别为原始词标准词 数据量:answer.xlsx:2000;1901个术语在术语词典里train.xlsx:4000;3801个术语在术语词典里val.xlsx:1000;950个术语在术语词典里 数据格式:xlsx格式,可直接使用 数据样例:原始词标准词横结肠造口还纳术横结肠造口闭合术右肾上腺巨大肿瘤切除术肾上腺病损切除术左侧单侧乳房根治性切除术单侧根治性乳房切除术经皮三叉神经半月节射频热凝术三叉神经半月节射频热凝术经内镜支撑喉镜下双侧声带小结摘除术内镜下声带病损切除术肋骨病损切除术肋骨病损切除术腰椎间盘髓核切除术腰椎髓核切除术双侧腔镜下交感神经切断术(胸腔镜下)胸腔镜下交感神经切断术... 文件:yidu-s4k/subtask1*yidu-s4k/subtask1* 领域:临床医疗|实体识别 简介:临床医疗术语命名实体识别,有训练集、测试集;有实体识别的原文和startendpos 数据量:train1001,test379 数据格式:txt/json格式,可直接使用 [DatasetPart2]文件:yidu-s4k/subtask2_* 简介:临床医疗病症(器官)转移和病灶大小识别,有已标注训练集、测试集和无标注原文本;train结构为原文肿瘤原发部位原发病灶大小转移部位 数据量:train999(去重后),test400,unlabled1000 数据格式:xlsx/txt格式,可直接使用 数据样例:原文肿瘤原发部位原发病灶大小转移部位"1.结合临床,右乳癌,较前(2015-06-23)片基本变化不著;双肺转移,较前部分缩小,部分变化不著,部分略增大;肝转移,较前好转;双侧腋窝、纵隔多发小淋巴结,变化不著;右侧内乳区饱满,变化不著;脑多发转移2.左肺胸膜局限性增厚,局部钙化,变化不著。右侧乳腺乳头上方见不规则软组织密度肿块影,约4.6CM×3.2CM,边缘浅分叶,局部与周围腺体及乳头区皮肤分界不清,胸肌间脂肪间隙模糊,增强扫描见显著不均匀强化,其内见片状低密度影。左乳未见异常密度灶。双侧腋窝见多发小淋巴结,大者短径约0.6CM。右侧内乳区显示饱满。纵隔内左侧下肺静脉旁及下段食管旁见小淋巴结影。双肺野散在分布大小不等结节灶,大者直径约1.7CM,边缘清晰,局部与胸膜及纵隔关系密切,增强扫描可见强化。左肺胸膜增厚,局部呈结节样;局部见多发钙化灶并致局部肋骨欠规则。扫描野肝实质内见多个低密度灶,大者直径约0.8CM,边缘尚清晰,增强扫描边缘强化显著。脑实质内示多发结节灶,大者直径约0.7CM,增强扫描可见环形强化。脑室池无扩张。脑沟回无增宽。中线结构居中。"右乳4.6C... 文件:firstreleaseowl.owl 领域:百科 简介:PKU-PIE知识库的类别\谓词的定义信息;对应原url的数据集PKU-PIEontologyOWL 数据量:753个owl节点 数据格式:owl文件,需二次处理 [DatasetPart2]文件:firstreleasetriple.ttl.bz2\firstreleasetriple.ttl 简介:维基百科实体的类别三元组;对应原url的数据集instancetypetriple 数据量:921968行 数据格式:ttl文件,需二次处理 数据样例: [DatasetPart3]文件:traveltriple.ttl.bz2\traveltriple.ttl 数据量:161184行 [DatasetPart4]文件:allfieldtriple.ttl.bz2 简介:本知识库内全领域实体的优质三元组数据集;对应原url的数据集AllFieldTriples 数据量:数据缺失,据介绍有5000w+ 文件:peg/peg.ttl 领域:医疗|病人事件 简介:使用三家上海三甲医院的电子病历数据,构建了包括3个专科、173395个医疗事件、501335个事件时序关系以及与5313个知识库概念链接的医疗数据集。 数据量:1840752行;176981个resource 文件:data/graph.json 领域:菜谱 简介:node实体,包含菜谱名称、类型、耗时、口味、工艺、做法;node信息包括material原料和recipe食谱两类,link关系包括食谱和原料之间的主食材/辅料及用量的关系 数据量:82个食谱/原料;100个link 数据格式:json文件,可直接使用 [DatasetPart2]文件:data/ingre_func.json 简介:食物的营养价值和食用功效 数据量:1234 数据格式:json文件,unicode编码 数据样例:{"艾草":{"营养价值":"1.现代药理发现,艾叶挥发油含量多,1.8-桉叶素(占50%以上),其它有α-侧柏酮、倍半萜烯醇及其酯。风干叶含矿物质10.13%,脂肪2.59%,蛋白质25.85%,以及维生素A、B1、B2、C等。\n2.茎、叶都含有挥发性芳香油。它所产生的奇特芳香,可驱蚊蝇、虫蚁,净化空气。","食用功效":"1、理气血,逐寒湿;温经,止血,安胎。治心腹冷痛,泄泻转筋,久痢,吐衄,下血,月经不调,崩漏,带下,胎动不安,痈疡,疥癣。\n2、抗真菌作用、平喘作用、利胆作用、抑制血小板聚集作用、止血作用、对胃肠道及子宫的作用、对心血管系统作用、抗过敏作用等。"},"鹌鹑":{"营养价值":"鹌鹑为雉科动物。俗话说:“要吃飞禽,鸽子鹌鹑。”鹌鹑肉、蛋,味道鲜美,营养丰富。鹌鹑又简称鹑,是一种头小、尾巴短、不善飞的赤褐色小鸟,鹌鹑肉是典型的高蛋白、低脂肪、低胆固醇食物,特别适合中老年人以及高血压、肥胖症患者食用。鹌鹑可与补药之王人参相媲美,誉为"动物人参"。\n鹌鹑肉质鲜美,含脂... [DatasetPart3]文件:data/recipe.json 简介:菜谱的菜名、主食材/辅料和用量、耗时、口味、工艺、做法、类型。 数据量:19669 数据样例:{"香肠炒菜干":{"主食材":[["香肠","2根"],["菜干","200g"]],"辅料":[["豆豉","2匙"],["蒜","少许"],["葱","1颗"],["酱油","2匙"],... 文件:invest-on-invent-kg.json 领域:投资 简介:企业投资公司/专利,投资方、被投资公司、被投资公司融资阶段、被投资专利 数据量:394204个节点;investor5322;company11960;patent376922 数据样例:{"@graph":[{"@id":"0","@type":"investor","name":"瑞华林投资","relationship":{"investCompany":[{"@id":"5617","@type":"company","round":"新三板定增","date":"2016-03-04"}]}},{"@id":"11219","@type":"comp... 文件:cqzg-kg\东周列国知识图谱\人物关系.xlsx 领域:历史 简介:春秋战国时期人物之间关系三元组,人物1人物2关系 数据量:613 数据格式:xlsx文件,可直接使用 数据样例:人物1人物2关系齐桓公齐襄公兄弟齐襄公文姜兄妹|情人文姜宣姜姐妹文姜鲁恒公夫妻... [DatasetPart2]文件:cqzg-kg\东周列国知识图谱\人物信息.xlsx 数据量:436 [DatasetPart3]文件:cqzg-kg\东周列国知识图谱\事件信息.xlsx 简介:春秋战国时期的战争事件会盟事件序列事件(主事件&子事件)通用事件死亡事件成语事件同义词等 数据格式:xlsx文件,可直接使用,每种事件分别放在不同的xlsx表 文件:openentity\OpenEntity\entity.txt 领域:全领域?百科? 简介:实体 数据量:762942 数据格式:txt文件,可直接使用 数据样例:学长刘勇商周上海人民企业集团黑龙江机电销售有限公司中华人民共和国驻德意志联邦共和国大使馆中共开封市郊区委员会组织部党员教育中心... [DatasetPart2]文件:openentity\OpenEntity\concept.txt 简介:概念 数据量:18726 数据样例:同学人专家光阴路线图布告... [DatasetPart3]文件:openentity\OpenEntity\hyper.txt 简介:实体-概念 数据量:3180379 数据格式:txt文件,;分隔符,可直接使用 数据样例:学长;同学学长;人刘勇;专家中共开封市郊区委员会组织部党员教育中心;中心中共开封市郊区委员会组织部党员教育中心;空间... [DatasetPart4]文件:openentity\OpenEntity\triple.txt 简介:实体三元组,(关系跟上面的概念不一样) 数据量:2983078 数据样例:学长;外文名;SeniorStudents/Senior学长;拼音;xuézhǎng学长;中文名;学长中华人民共和国驻德意志联邦共和国大使馆;职能;使馆中华人民共和国驻德意志联邦共和国大使馆;地点;德国中华人民共和国驻德意志联邦共和国大使馆;中文名;中华人民共和国驻德意志联邦共和国大使馆中华人民共和国驻德意志联邦共和国大使馆;性质;公办... [DatasetPart5]文件:openentity\OpenEntity\bigcilin_schema.jsonbigcilin_open_schema.xlsx 简介:schame文件 数据量:188853 数据格式:json/xlsx文件,可直接使用 文件:ECSD-master\Do* 领域:电商|情感词汇 数据量:DoN|否定词|29;DoP|多极性观点|99;DoUM|中性观点|82;DoUN|负面观点|2084;DoUP|正面观点|844 数据格式:文本格式,可直接使用 数据样例:|正面观点表达|DoUP|844|...物有所值,实惠,舒服...||中性观点表达|DoUM|82|...美中不足,一般,凑合...||负面观点表达|DoUN|2084|...伤不起,差评,贵...||多极性观点表达|DoP|99|...水水的,大,高...||否定词|DoN|29|...不,不怎么,没那么...|... 文件:dbmovies.json 领域:电影 数据量:4587 文件:data.json 领域:股票 简介:港股、a股、美股部分股票的上市场所、公司名、公司总裁、行业、员工人数、注册地址、股票代码、邮编等 数据量:25527 文件:wn-data-cmn.tab 领域:wordnet 简介:wordnet数据,cmn:lemma 数据量:79810 数据格式:tab文件,\t分隔符,需二次处理 数据样例:02062744-ncmn:lemma鲸02689973-acmn:lemma鲸+的02005399-ncmn:lemma鲸头鹳02005238-ncmn:lemma鲸头鹳属02005102-ncmn:lemma鲸头鹳科02158619-ncmn:lemma鲸尾叶突15049902-ncmn:lemma鲸油14781989-ncmn:lemma鲸油02062209-ncmn:lemma鲸目02062430-ncmn:lemma鲸目动物02689973-acmn:lemma鲸目哺乳动物+的02062209-ncmn:lemma鲸类02689973-acmn:lemma鲸类+的14781989-ncmn:lemma鲸脂01993830-ncmn:lemma鲸虱01993714-ncmn:lemma鲸虱属14758252-ncmn:lemma鲸须14758252-ncmn:lemma鲸骨03323319-ncmn:lemma鲸骨衬箍02062744-ncmn:lemma鲸鱼... [DatasetPart2]文件:wn-cmn-lemon.xml 简介:uniquewords? 数据样例:决斗录音磁带归来迷走神经+的极不公正+地怕二价盐大地线神志清醒知性+的心绞痛怀抱大志者无忧无虑适于掘地+的苦恼引言展出美洲黑杜鹃机器螺钉氢溴酸盐姑茑微小+的不干净+的肯定的回答面部白臀野牛南极不及格+的用铅笔写小腓鱼葡萄核去分化矮矮胖胖可改动+的... [DatasetPart3]文件:wn-cmn-lmf.xml 简介:synsets 文件:Artificial-Intelligence-Terminology-master\data*.md 领域:AI术语 数据量:500 数据格式:md格式,需要二次处理 数据样例:ActivationFunction|激活函数|[1]/[2]Accumulatederrorbackpropagation|累积误差逆传播|[1]AdaptiveResonanceTheory/ART|自适应谐振理论|[1]... 文件:airportcnschema.json 领域:机场 数据量:12547 数据样例:"@graph":[{"@id":"a6f547d1a465d0a66e32e61585b40cdf0883a61c","@type":["Airport","CivicStructure","Place","Thing"],"address":{"@type":["PostalAddress","Thing"],"addressCountry":"MarshallIslands","city":"4"},"geo":{... 文件:santirelationships.json 领域:三体|人物 简介:三体人物关系 数据量:20个节点,23个人物名,四个关系 文件:*.nt 领域:知识库实体resource? 简介:cndbpediazhwikipkubasebelief-engine知识库实体名字和resource的对应关系;没太看懂; 数据量:interest_triple_actor_final_pku_label.nt;15529;ml_train_data_zhishime.nt;500;zhwiki_labels_zh.nt;575770;interest_triple_actor_final_belief_label.nt;4695;interest_triple_actor_final_pku_label.nt;15529;ml_train_data.nt;600;cndbpediaDump_26.nt;358986;zhwiki_labels_zh.nt;575770 数据格式:nt文件,需二次处理 数据样例:==========MLALgorithm使用实例-领域与百科数据集之间的匹配\领域与百科数据集之间的匹配\interest_triple_actor_final_pku_label.nt========== pkubaseresource-label-名字 文件:smart-home-wordnet.csv 领域:家电控制 简介:空调、洗衣机、冰箱、热水器等不同种类家电的控制语义及词汇 数据量:1379 数据格式:csv文件,元组关系需要二次整理 数据样例:_id:id_labels:labelnametitleunitoff_shelve:longcold_warmfrequencylocen_nametypeadaptable_automobile_modefreezing_mediumurlimage_start:id_end:id_type:labelname12449:System系统类WordNet2450:sceneCulturalEntertainmentWordNet2451:CulturalEntertainment文化娱乐WordNet2479:scenePersonalServiceWordNet2480:PersonalService个性化服务WordNet2481:sceneSceneServiceWordNet2482... 文件:fin-temporal-hypergraph.owl 领域:金融 简介:面对金融领域多元关系表示的困境和时序事件表示需求,结合超图概念和事件5W(When,Where,Why,What,Who)定义,构建了可通用化的金融时序超… 数据格式:不懂 [DatasetPart2]文件:data.nt 简介:三种多元关系:(环形)交叉持股—形成环形有向拓扑、一人兼多家公司董事—形成星型外向拓扑、(债券)共同担保—形… 数据量:52 文件:*.json-ld 领域:气象 数据量:768359 数据格式:json格式,可直接使用 文件:paper-kg.json 领域:论文 数据量:31478个paper;604378个引用被引用关系 数据样例:{"@id":"f6370fe63ff9c7191335c3e5de8d4b6935ae1792","@type":"paper","fieldsOfStudy":"ComputerScience","relationship":{"inCitations":[{"@type":"paper","@id":"8ba747f106944eff37e6cca1fc62a4b56cc58d86"}],"outCitations":[{"@type":"paper",... 文件:7Lore_triple.csv 简介:百科知识图谱,包含了事物、事实、概念、规则等 数据量:文件损坏,据说有8000w百科三元组,重新下载文件也损坏 文件:graph.json 领域:企业|投资/融资 数据量:3582 数据样例:{"name":"北京恒康屠宰有限公司","financingEvent":[],"legalRepresentative":"郭文福","registeredCapital":200.0,"paidUpCapital":200.0,"status":"开业","foundingDate":"2009-12-10","creditCode":"91110115697664906X","taxID":"91110115697664906X","regId":"110115012476732","organizationCode":"69766490-6","type":"有限责任公司(自然人投资或控股)","industry":"制造业","approvalDate":"2017-12-15",... 文件:ekg-jsonld/EKG-JSON/*.json*.jsonld 领域:企业 数据量:共69979个关系 数据格式:json格式,有的为utf-8有的为utf-9-sig编码;.json文件的关系需按照binding-subject-value进行合并 文件:SciKG_min_1.0\SciKG_min_1.0.txt 领域:科技 简介:计算机科学领域,由概念、专家和论文、专家职位、隶属机构、研究兴趣、论文标题、中文名、作者、摘要、出版地点、年份、论文子父节点等信息;概念定义大多来自维基百科,专家和论文为概念对应的顶尖专家和论文; 数据量:20502个概念;206240个专家;512698篇论文 数据格式:txt格式(内部是json格式),可直接使用 数据样例:[{"id":1,"name":"Generalandreference","name_zh":"\u4e00\u822c\u548c\u53c2\u8003","level":0,"definition":"","definition_zh":"","child_nodes":[2,155],"parent":0,"experts":[{"id":"53f4cc4adabfaeebdcf80ce2","name":"KeesVanDeemter","name_zh":"","position":"","h_index":... 简介:乳腺癌临床试验语义标注,注解、检查、资格标准、患者、试验等信息 数据量:5k~1w 数据格式:nt格式,需要二次处理;一个nt文件为单独一个关系?大概有 文件:Disease.csv 领域:医疗|疾病知识 简介:疾病简介、科室分类、患病比例、易感人群、治疗方式、治愈率、病因、症状、推荐食谱、推荐药物等 数据量:483272行(关系);14955个疾病 数据格式:csv格式,可直接使用 数据样例:百日咳[疾病],简介,"百日咳(pertussis,whoopingcough)是由百日咳杆菌所致的急性呼吸道传染病。其特征为阵发性痉挛性咳嗽,咳嗽末伴有特殊的鸡鸣样吸气吼声。病程较长,可达数周甚至3个月左右,故有百日咳之称。多见于5岁以下的小儿,幼婴患本病时易有窒息、肺炎,脑病等并发症,病死率高。百日咳患者,阴性感染者及带菌者为传染源。潜伏期末到病后2-3周传染性最强。百日咳经呼吸道飞沫传播。典型患者病程6-8周,临床病程可分3期:1.卡他期,从发病到开始出现咳嗽,一般1-2周。2,痉咳期,一般2-4周或更长,阵发性痉挛性咳嗽为本期特点。3,恢复期,一般1-2周,咳嗽发作的次数减少,程度减轻,不再出现阵发性痉咳。一般外周血白细胞计数明显增高,分类以淋巴细胞为主。在诊断本病时要注意与支气管异物及肺门淋巴结结核鉴别。近年来幼婴及成人发病有增多趋势。"百日咳[疾病],一级科室分类,疾病百日咳[疾病],二级科室分类,儿科百日咳[疾病],三级科室分类,小儿内科百日咳[疾病],医保疾病,否百日咳[疾病],患病比例,0.5%百日咳[疾病],易感人群,多见于小儿百日咳[疾病],传染... 文件:emergency.rdf 领域:突发事件 数据量:540个事件,37种事件 数据格式:rdf格式,需二次处理 文件:ntriples.nt 领域:图书 简介:图书标题、评分、作者、作者国籍、译者、译者国籍、出版社、出版日期、价格、标签等;共计172112条三元组,包括9335本图书,10566个人,1030家出版社 数据量:172112个三元组;9335本书;10238个人;1030家出版社 数据格式:nt文件,需要二次处理 文件:*.json 领域:音乐 数据格式:json文件,一行为一首歌,三元组关系需要再提取 数据样例:{"_id":"1346104327","name":"多想在平庸的生活拥抱你","artist_ids":["12429072"],"artist_names":["隔壁老樊"],"album_id":"75019098","album_name":"我曾","lyric":"[by:Lucky-SN]-作曲:隔壁老樊-作词:隔壁老樊-制作人:段小林-编曲:黄超-**-世界上有很多的东西-你生不带来死不带去-你能带走的只有自己和自己的脾气-你曾拥有最美的爱情-你听过最美丽的旋律-触摸过一个人孤独的恐惧-也看到过最美的风景-我跌跌撞撞奔向你-你也不能一个人离去-我们在一起说过-无论如何一起经历了风雨-平平淡淡安安静静的老去-**-世界上有很多的东西-你生不带来死不带去-你能带走的只有自己和自己的脾气-你曾拥有最美的爱情-你听过最美丽的旋律-触摸过一个人孤独的恐惧-也看到过最美的风景-我跌跌撞撞奔向你-你也不能一个人离去-我们在一起说过-无论如何一起经历了风雨-平平... 文件:microeco.json 领域:微观经济学|术语名词 简介:微观经济学中的知识逻辑,市场主体、市场客体、市场行为,关系为is、include、positivelyrelated、negativelyrelated。 数据量:58 数据源链接:找不到 文件:data-concept-instance-relations.txt 简介:类型/关系实体count? 数据量:33377320个三元组;5376525个关系?(第一列);12501526个实体?(第二列) 数据格式:txt文件,\t为分隔符,每列含义需再确定 数据样例:factorage35167freerichcompanydatumsize33222freerichcompanydatumrevenue33185statecalifornia18062supplementmsmglucosaminesulfate15942factorgender14230factortemperature13660metalcopper11142issuestresspaindepressionsickness11110variableage9375informationname9274statenewyork8925socialmediumfacebook8919materialplastic8628supplementalmaterialcds8175supplementalmat... 文件:medicalai.json 领域:医疗、人工智能词汇 简介:通过8种器官,20余种疾病作为疾病前缀,通过“DeepLearning”,“Automatic”,“NeuralNetwork”,“CNN”“Net”等深度学习关键词作为模板进行文件检索在期刊网站上爬去搜索标题、只要、关键词。 数据量:85个实体,213个关系 数据格式:json文件,一行为一个实体 文件:medical.json 简介:疾病名称、描述、所属科目、预防、病因、症状、是否支持医保、传染性、发病率、治愈率、治疗费、推荐食物、推荐药物、推荐药物细节等信息 数据量:8808个病症 数据格式:json文件,一行一个病症 {"_id":{"$oid":"5bb578b6831b973a137e3ee7"},"name":"百日咳","desc":"百日咳(pertussis,whoopingcough)是由百日咳杆菌所致的急性呼吸道传染病。其特征为阵发性痉挛性咳嗽,咳嗽末伴有特殊的鸡鸣样吸气吼声。病程较长,可达数周甚至3个月左右,故有百日咳之称。多见于5岁以下的小儿,幼婴患本病时易有窒息、肺炎,脑病等并发症,病死率高。百日咳患者,阴性感染者及带菌者为传染源。潜伏期末到病后2-3周传染性最强。百日咳经呼吸道飞沫传播。典型患者病程6-8周,临床病程可分3期:1.卡他期,从发病到开始出现咳嗽,一般1-2周。2,痉咳期,一般2-4周或更长,阵发性痉挛性咳嗽为本期特点。3,恢复期,一般1-2周,咳嗽发作的次数减少,程度减轻,不再出现阵发性痉咳。一般外周血白细胞计数明显增高,分类以淋巴细胞为主。在诊断本病时要注意与支气管异物及肺门淋巴结结核鉴别。近年来幼婴及成人发病有增多趋势。","category":["疾病百科","儿科","小儿... 文件:kglol.rdf 领域:英雄联盟 简介:英雄联盟人物名字、类型、昵称、各种技能值、与其他英雄的关系等信息 数据量:168个英雄? 数据格式:rdf文件,需二次处理 文件:有色行业产业链图谱.json 领域:“有色”行业 简介:有色金属、贵金属、稀土、金属非金属新材料板块的产品产业链信息。展示行业内部结构的关系有“下位行业”、“主要产品”、“下位产品”;展示产品上下游的关系有“下游”。如稀土氧化物-下位产品-氧化钇(Y2O3),有色金属行业-下位行业-黄金行业 数据量:255个关系 数据样例:{"row":[{"name":"稀土氧化物"},{"name":"下位产品"},{"name":"氧化钇(Y2O3)"}],"meta":[{"id":5448,"type":"node","deleted":false},{"id":7037,... 文件:casia-kb-tourist-attraction.nt 领域:旅游景点 简介:旅游景点的中文名、拼音、所在地、别名、总面积、景点个数、特点等,馆藏名字、所在博物馆等,名人名字、所涉及地点等信息;抽取自百度百科和互动百科; 数据量:1982个关系 文件:图谱构建代码和可视化代码\graph\城市信息.csv 领域:城市 简介:城市名字、行政级别、rgdp、车牌前缀、别名、人口数、所在省、英文名等信息 数据量:342个城市 数据格式:csv文件,可直接使用 数据样例:,城市名,英文名,别名,人口数量,地区生产总值,车牌号,行政级别,省份0,玉林市,Yulin,郁林,736.97万,1679.77亿元,桂K,地级市,广西壮族自治区1,盐城市,Yancheng,盐渎、瓢城、登瀛、百河之城,821.35万,5702.26亿元,苏J,地级市,江苏省2,宿州市,Suzhou,宿城、云都、蕲城郡,568.14万,1978.75亿元,皖L,地级市,安徽省3,葫芦岛市,Huludao,筝岛,锦西,275.8万,807.1亿元,辽P,地级市,辽宁省... [DatasetPart2]文件:图谱构建代码和可视化代码\graph\城市接壤数据.csv 简介:城市接壤信息:被接壤城市、城市 数据量:1900 数据样例:city_1,city池州市,安庆市六安市,安庆市九江市,安庆市巢湖市,安庆市铜陵市,安庆市黄冈市,安庆市滁州市,蚌埠市亳州市,蚌埠市淮北市,蚌埠市淮南市,蚌埠市宿州市,蚌埠市... 文件:zhishimejson\zhishime_json\baidubaikehudongbaikezhwiki*\home\wl\zhishime2**.json 摘要、类别、信息等分别单独存于*_abstrace_zh*、*_categories_*等json文件数据量:52559540个百科;4252402个百科链接对应关系;大概16583415个词条实体? 数据样例:======3.0_baidubaike_abstracts_zh.json========== 文件:zhontodump*.rdf 简介:词条的名字、subject、关系、相似、等信息;数据源于wikidatazh部分 数据量:共61801244行;大概总共有2930151个实体? 文件:baiketriples\baike_triples.txt 数据量:65001293;大概总共有9412272个实体? 数据格式:txt文件,\t分隔符,可直接使用 [DatasetPart2]文件:m2e\m2e.txt 简介:mentiontoentity 数据量:1120313 数据样例:!感叹号""(标点符号)""(长度单位)"10·28"暴力恐怖袭击案件10·28暴力恐怖袭击案"118"组织、领导传销系列案"1·18"组织、领导传销系列案"12.4"全国法制宣传日全国法制宣传日"20110805"特大跨省贩卖毒品案"2011·08·05"特大跨省贩卖毒品案"333"素质教育的理论与实践"3·3·3"素质教育的理论与实践HACCPHACCPHDHD(HD水溶性去屑因子)HK11A1式7.62mm轻机枪hk11a1式7.62mm轻机枪HK13式5.56mm轻机枪HK13式5.56mm轻机枪... 文件:dsc.nlp-bigdatalab.org\dsc.nlp-bigdatalab.org.ttl 领域:医疗|症状 数据量:1008765;大概总共有144605个实体? 数据格式:ttl文件,需要二次处理 文件:全部保险产品清单.xls 领域:保险 简介:保险公司的保险产品的类别、定位、销售状态和链接;可构建公司-保险类型-保险产品三元组? 数据量:15529 数据格式:csv格式,可直接用 华为开发者空间发布 让每位开发者拥有一台云主机 在此一键设置昵称,即可参与社区互动! *长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。