ML能用上的实用数据集

丰富的线上&线下活动,深入探索云世界

做任务,得社区积分和周边

最真实的开发者用云体验

让每位学生受益于普惠算力

让创作激发创新

资深技术专家手把手带教

遇见技术追梦人

技术交流,直击现场

海量开发者使用工具、手册,免费下载

极速、全面、稳定、安全的开源镜像

开发手册、白皮书、案例集等实战精华

为开发者定制的Chrome浏览器插件

机器学习数据集

机器学习中重要的一步是创建或寻找合适的数据来训练和检验算法。使用好的数据集可以帮助你规避或发现算法中的错误,改善程序的结果。在多数情况下,创建自己的数据集是一件费时的事。本文会向介绍一些有用的数据集,用于文本分类和图像分类问题。

文本分类

本节将介绍一些用于普通文本分类任务的数据集,如垃圾信息检测、情感分析和文档主题分类。

垃圾信息–非垃圾信息

垃圾信息过滤任务在文本分类中很常见,因此,用于这类任务的数据集很多。

SMS垃圾短信语料库

SMS垃圾短信语料库由两类文本信息组成,每个短信都被标记为垃圾信息或正常信息。这个数据集有大(1002条正常信息,322条垃圾信息)、小(1002条正常信息,82条垃圾信息)两种版本可下载。

Enron数据集

如果想研究垃圾电子邮件过滤,你可能会对Enron数据集感兴趣,该数据集收集了成千上万的邮件,都被分为垃圾邮件和正常邮件。有未处理和经过预处理的版本可供下载。

其它你可能会感兴趣的垃圾邮件分类的数据集有:SpamAssassin公共邮件语料库、TREC公共垃圾邮件语料库、Spambase数据集。

情感分析

可通过机器学习解决的另一个任务是文本情感分析,其中一个例子就是判断文本对某个主题陈述的是支持意见还是反对意见。

Twitter情感分析训练语料库

如果你对推文(tweet)的情感分类感兴趣,Twitter情感分析训练语料库可能是你需要的。它由超过100万条tweets组成,存于一个.csv文件中,每条语料都被标记为支持(1)或反对(0)。

影评数据集

影评数据集包含更复杂的文本,收集了1,000条正面影评和1,000条负面影评,未处理的.html文件形式和已处理的文本形式皆可获得。这个数据集的一部分作为语句集,还被标记了主观或客观的标签。

更多关于情感分类的更好用的数据集被整理形成一个列表,放在KavitaGanesan的博客中。

主题分类

20Newsgroups

路透社-21578

一个经常使用的用于评估文本分类算法的数据集是路透社-21578,它由出现在1987年路透社新闻专线中的文本组成,由路透社公司员工整理。通常只是使用这个数据集的一些子集,作为类别不均匀分布的文档使用。通常情况下,使用最频繁的文档只占了10或90个类别。

图像分类

这一节将介绍一些在用机器学习解决图像分类问题时有用的数据集,列出的数据集从简单的手写数字,到复杂物体的图像,会对学习图像分类和测试算法很有帮助。

数字和字母

MNIST

MNIST数据集是学习图像分类经常使用的数据集,包含上千张从0到9的手写数字的小二进制图像,划分为训练集和测试集。可以从YannLeCun的网站下载IDX文件格式,如果你想使用png格式的图像做数据,可以从这找到转化的版本。

MNIST数据集摘录

Chars74K

另一个可通过机器学习解决的任务是字符识别,基于这个目的,可以用Chars74K数据集可用来训练和测试。它拥有超过74,000张字母和数字图像,被分成64个不同的种类。字母都是手写体,通过自然图片和电脑字体获得。由于种类更多,并且数据是彩色图像,这个数据集比MNIST集复杂得多。

人脸

正面人脸图像

正面人脸图像数据集是为评估图像中正面人脸识别程序而建立的,包含人的图像以及通过x、y坐标给出的人脸在图片中的位置信息。这里可以下载该数据集。

正面人脸图像数据集摘录

复杂场景中标记人脸

面部检测中经常使用的数据集是复杂场景中标记人脸数据集,拥有从网络中收集的超过13,000张图片。很多人不止一次出现在数据集中的图片中,对面部识别评估很有用。

复杂场景中标记人脸数据集摘录

动物

Oxford-IIIT宠物数据集

如果你在找大规模的猫狗数据集,你可以看看牛津-IIIT宠物数据集,有37个包含不同种类猫狗的类别,每个类别有200张图片。与很多其它数据集不同,它的图片的大小不一,更酷的是这个数据集不仅提供图像,还有动物的面部位置信息,以及图像的前景、背景信息(见下图)。

KTH-ANIMALS

如果你需要更普遍的动物数据集,KTH-ANIMALS值得一看。它可以从这下载,提供了19种不同类别的图像。每一类有大约100张不同大小的图片,和牛津-IIIT宠物数据集一样,也提供了前景、背景信息。

各种物体

CIFAR-10andCIFAR-100

对于更高级的图像分类应用,你可能对CIFAR数据集感兴趣。这些数据集包含大小为32×32像素的彩色图像,可以从AlexKrizhevsky的网站下载。

CIFAR-10数据集由60,000张图片组成,平均分布于10个种类。如果你需要拥有更多种类的更复杂的数据集,你可以使用CIFAR-100数据集,它提供了100个类,20个超类的图片。

这两个CIFAR数据集都有python、matlab或二进制版本提供下载。如果你更喜欢用png图像作为数据,可以使用这个工具进行转换。

STL-10

CIFAR数据集提供的图片很小,因此如果你想使用更高分辨率的图片,STL-10数据集可能更吸引你。这个数据集包含10个类的标记图片,与CIFAR-10数据集相似,但是图像大小有96×96像素。每个类含有较少的标记样例,但却有很大的未标记图像集,可以用作非监督训练。

THE END
1.需求明显增长,规模不断扩大——宠物消费市场调查在张晓林看来,物联网、WiFi集成等技术的发展,以及手机远程控制和数据传输能力的提升,是智能养宠市场不断扩大的前提和底座。未来,随着数字化智能化步伐加快,智能设备将助力实现宠物全生命周期管理和健康监测,在此过程中产生的大量宠物行为数据,也将更好满足消费者科学化、精细化养宠需求,为企业进行技术创新和产...http://www.xinhuanet.com/fortune/20240319/112e0d58dbdb467ebfff8e3db140797b/c.html
2.乖宝宠物(301498)股票股价股价行情财报数据报告雪球为您提供乖宝宠物(301498)股票实时行情,资金流向,新闻资讯,研究报告,社区互动,交易信息,个股点评,公告,财务指标分析等与乖宝宠物(301498)股票相关的信息与服务.https://xueqiu.com/S/SZ301498
3.RFID基础知识7·低频应用嘲与案例行业新闻利用RFID低频技术实现对宠物的跟踪识别,给每一个宠物分配RFID标签芯片,芯片完善的记录了宠物的基本信息,监管部门通过RFID读写器对芯片标签数据进行非接触式的读取或修改,在应用软件业务上进行个人或集体的宠物集中身份信息溯源管理,快速定位、自动识别、高效的可追溯性,提高整个城市宠物的管理水平。 http://www.xiaoyuanyikatong.cn/xingyexinwen/878.html
1.那些跨界到宠物赛道的巨头们,混的咋样了?澎湃号·湃客得益于人们对宠物价值的进一步认可和消费能力的提升,我国宠物市场经济呈现持续增长的趋势。据艾媒咨询数据,2023年中国宠物经济产业规模达5928亿元,预计到2028年市场规模有望达11500亿元。 向好的市场趋势使得各大巨头纷纷跨界布局宠物赛道,试图在这个充满潜力的领域分得一杯羹。 https://www.thepaper.cn/newsDetail_forward_29330446
2.宠物行业深度报告系列一:宠物行业成长空间大跨界布局事件增多升级搭建物质基础;(2)高城镇化率下的城市工作压力,单身率增加,使一线高收入年轻人面临巨大的孤独感和精神压力,导致养宠陪伴的需求持续增加;(3)老龄化率迅速增长,根据统计局数据,2023年国内60 岁以上人口数为3 亿人,占总人口比例的21%,退休老人生活较为枯燥,宠物的陪伴弥补老人精神空虚,银发经济有望推动宠物产业...https://stock.hexun.com/2024-11-15/215569761.html
3.人工智能相关数据集分享(一)中国人工智能数据库有哪些26.2万条中文金融新闻数据集(66.6MB) 27.中文图书分类数据集(49.8MB) 28.英文歌词数据集(69.1MB) 29.特朗普政府发表的声明和简报(63.6MB) 爬虫类数据集 1.6000条周杰伦微博超话数据!(1.1MB) https://www.heywhale.com/mw/dataset/5d3551bdcf76a60036f605aa ...https://blog.csdn.net/ktsmeb/article/details/118615219
4.每日新闻5、来伊份布局宠物消费产业链,产业生态圈再下一城 6、松下电器浙江再落一子,投资1亿美元加码厨电科技项目 7、美的加大零售店开设力度,拓展澳大利亚市场 8、九毛九国际启动IPO路演预热,计划筹集2亿美元 9、Tiffany第三季度香港销售额暴跌49%,中国内地延续双位数增长 ...https://maimai.cn/article/detail?fid=1377583565&efid=SOUDf_nbzSgM8b-uph3tLQ
5.2020国内食品饮料行业年度投资并购事件:既是创业的春天,也是投资...宠幸宠物成立于2004年,旗下包含多个子品牌,例如,"宠幸"是以生产销售猫狗日用品、医疗用品、猫狗主粮等产品为主,而"卫仕"目前已成为国内相对领先的宠物营养品品牌。根据界面新闻的数据,近两年来,卫仕品牌在天猫、京东的双11活动中均居于宠物营养品类目销售第一的位置。在2020年双11期间,卫仕天猫旗舰店、京东自营旗舰...https://36kr.com/p/1065082659890568.html
6....超1.25亿户:成养宠主力,养猫人群超过养狗人群数据显示,截至2021年年末,养宠人群中,养水族类占比8.3%,养爬行类宠物的占比为5.8%;啮齿类占比4.5%;鸟类占比3.6%。 在所有宠物中,养猫和狗的人群数量仍然占比最大,均超过50%。2021年我国饲养犬猫的人群数量达到6844万人,其中近一半是“90后”宠物主。 https://www.cqcb.com/shishijingwei/2022-07-10/4951351.html
7.快讯!谛宝诚宠物DR装机逾1000台宠物天空明年1月,谛宝诚的云平台将凭借着自身百万级影像存储,向“世界第一大动物DR影像数据库”的挑战发起冲击。同时谛宝诚也将成为全世界宠物医疗行业首个敢于挑战吉尼斯世界纪录的公司。 中国农大教授、动物影像学专家谢富强老师、行业知名动物外科专家高晓刚院长,两位行业大咖的莅临也为千台装机庆典现场增光添彩,谢富强老师说,...https://petssky.com/news/china-38849
8....小心“宠物依赖症”数据显示,超七成的年轻人喜欢高消费养宠,“穷啥不能穷毛孩子”,追求消费性价比的年轻人,在养宠物上面的花销却比养自己要舍得很多。家住晋江的小周,去年养了一只2岁的拉布拉多,他算了下,每月仅狗粮花费就要500多元,再加上玩具、衣服、洗澡、打理、看病疫苗、驱虫等费用,养宠初期花销高达5000多元。 https://www.qzwb.com/gb/content/2024-10/23/content_9079115.htm
9.“降共赢·提质发展”第二届中国宠物产业峰会在深圳举行深圳新闻网2023年11月24日讯(记者 张俊达)11月23日,第二届中国宠物产业峰会在深圳宝安国际会展中心举行。本届峰会由中国畜牧业协会宠物产业分会主办,上海万耀亚宠展览有限公司承办,国家饲料工程技术研究中心、新瑞鹏宠物医疗集团对本次峰会协办支持。 本届峰会聚焦“健康共赢·提质发展”主题,包括天津雀巢普瑞纳宠物食...https://www.sznews.com/news/content/mb/2023-11/24/content_30609836.htm