中科大自然语言处理与信息检索共享平台
搜狗实验室
中文文本分类数据集THUCNews
THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档,划分出14个候选分类。
中文完形填空数据集
清华大学开放中文词库
中华古诗词数据库
最全中华古诗词数据集,唐宋两朝近一万四千古诗人,接近5.5万首唐诗加26万宋诗.两宋时期1564位词人,21050首词。
上百种预训练中文词向量
《口袋妖怪》跨语种命名对照数据集
任天堂游戏《口袋妖怪》中所有小精灵名字的德、英、法、日、韩、中6种语言对照,中文包含繁简体两种格式。
中国宗教用户关键词列表
1998年《人民日报》词性标注库
中文突发事件语料库
中国股市爬取信息数据集
中文语料小数据
包含了中文命名实体识别、中文关系识别、中文阅读理解等一些小量数据。
Tushare财经数据接口
TuShare是一个免费、开源的python财经数据接口包。
保险行业语料库
中文人名语料库
包含中文常见人名、中文古代人名、中文翻译人名、中文姓氏、中文称谓、中文成语等数据。
中文简称数据集
汉字拆字字典
中文实体情感知识库
刻画人们如何描述某个实体,包含新闻、旅游、餐饮,共计30万对。
THE END