中国农业大学计算中心资源共享23个优秀的机器学习训练公共数据集

Twitter情绪分析和Sentiment140数据集

BBC新闻数据集

垃圾短信分类器数据集

CelebA数据集

YouTube-8M数据集

纸币验证数据集

LabelMe数据集

声纳数据集

皮马印第安人糖尿病数据集

小麦种子数据集

Jeopardy!数据集

鲍鱼数据集

假新闻检测数据集

ImageNet数据集

这是迄今为止我最喜欢的数据集。我在最近写的书里的大多数示例都来自于它。简单来说,如果你在Iris数据集上做实验做腻了就可以尝试一下这一个。它由KristenGorman博士和南极洲LTER的帕尔默科考站共同创建。该数据集本质上是由两个数据集组成的,每个数据集包含344只企鹅的数据。

就像Iris一样,这个数据集里有来自帕尔默群岛3个岛屿的3种不同种类的企鹅,分别是Adelie、Chinstrap和Gentoo。或许“Gentoo”听起来很耳熟,那是因为GentooLinux就是以它命名的!此外,这些数据集包含每个物种的culmen维度。这里culmen是鸟喙的上脊。在简化的企鹅数据中,culmen长度和深度被重命名为变量culmen_length_mm和culmen_depth_mm。

我们加载数据,看看它是什么样的:

data=pd.read_csv(f".\\Datasets\\penguins_size.csv")data.head()

我们使用Pandas库来做数据可视化,并且加载的是一个更简单的数据集。

它是练习解决分类和聚类问题的好帮手。在这里,你可以尝试各种分类算法,如决策树、随机森林、SVM,或把它用于聚类问题并练习使用无监督学习。

在以下链接中可以获得有关PalmerPenguins数据集的更多信息:

我们加载数据,看看它是什么样的。首先,我们使用数据集的每小时数据来执行操作:

data=pd.read_csv(f".\\Datasets\\hour.csv")data.head()

每日数据是下面的样子:

data=pd.read_csv(f".\\Datasets\\day.csv")data.head()

由于该数据集包含的信息种类繁多,因此非常适合练习解决回归问题。你可以尝试对其使用多元线性回归,或使用神经网络。

在以下链接中可以获得关于该数据集的更多信息:

这是一个经典之作。如果你喜欢葡萄树或计划成为索马里人,肯定会更中意它的。该数据集由两个数据集组成。两者都包含来自葡萄牙VinhoVerde地区的葡萄酒的化学指标,一种用于红葡萄酒,另一种用于白葡萄酒。由于隐私限制,数据集里没有关于葡萄种类、葡萄酒品牌、葡萄酒售价的数据,但有关于葡萄酒质量的信息。

data=pd.read_csv(f".\\Datasets\\winequality-white.csv")data.head()

以下链接中可以找到关于这个数据集的更多信息:

虽然我说过会尽量不推荐其他人都推荐的那种数据集,但这个数据集实在太经典了。许多教程、示例和书籍都使用过它。这个数据集由14个特征组成,包含美国人口普查局收集的关于马萨诸塞州波士顿地区住房的信息。这是一个只有506个样本的小数据集。

data=pd.read_csv(f".\\Datasets\\boston_housing.csv")data.head()

该数据集非常适合练习回归任务。请注意,因为这是一个小数据集,你可能会得到乐观的结果。

从以下链接中可以找到关于这个数据集的更多信息:

这也是一个经典数据集。它实际上起源于1989年,但它确实很有趣。该数据集包含由拉布拉多鹅湾的雷达系统收集的数据。该系统由16个高频天线的相控阵列组成,旨在检测电离层中的自由电子。一般来说,电离层有两种类型的结构:“好”和“坏”。这些雷达会检测这些结构并传递信号。数据集中有34个自变量和1个因变量,总共有351个观测值。

data=pd.read_csv(f".\\Datasets\\ionsphere.csv")data.head()

这显然是一个二元(2类)分类问题。有趣的是,这是一个不均衡的数据集,所以你也可以用它做这种练习。在这个数据集上实现高精度也非易事,基线性能在64%左右,而最高精度在94%左右。

MNIST数据集是用于练习图像分类和图像识别的著名数据集,然而它有点被滥用了。如果你想要一个简单的数据集来练习图像分类,你可以试试FashionMNIST。它曾被《机器学习终极指南》拿来做图像分类示例。

本质上,这个数据集是MNIST数据集的变体,它与MNIST数据集具有相同的结构,也就是说它有一个60,000个样本的训练集和一个10,000个服装图像的测试集。所有图像都经过尺寸归一化和居中。图像的大小也固定为28×28,这样预处理的图像数据被减到了最小水平。它也可作为某些框架(如TensorFlow或PyTorch)的一部分使用。

它最适合图像分类和图像生成任务。你可以使用简单的卷积神经网络(CNN)来做尝试,或者使用生成对抗网络(GAN)使用它来生成图像。

这是一个包含猫狗图像的数据集。这个数据集包含23,262张猫和狗的图像,用于二值图像分类。在主文件夹中,你会找到两个文件夹train1和test。

train1文件夹包含训练图像,而test文件夹包含测试图像。请注意,图像名称以cat或dog开头。这些名称本质上是我们的标签,这意味着我们将使用这些名称定义目标。

这个数据集有两重目标。首先,它可用于练习图像分类以及对象检测。其次,你可以在这里面找到无穷无尽的可爱图片。

机器学习和深度学习技术在医疗保健领域中的应用正在稳步增长。如果你想练习并了解使用此类数据的效果,这个数据集是一个不错的选择。在该数据集中,数据是通过处理乳房肿块的细针穿刺(FNA)的数字化图像提取出来的。该数据集中的每个特征都描述了上述数字化图像中发现的细胞核的特征。

该数据集由569个样本组成,其中包括357个良性样本和212个恶性样本。这个数据集中有三类特征,其中实值特征最有趣。它们是从数字化图像中计算出来的,包含有关区域、细胞半径、纹理等信息。

data=pd.read_csv(f".\\Datasets\\breast-cancer-wisconsin.csv")data.head()

这个医疗保健数据集适合练习分类和随机森林、SVM等算法。

在过去几年中,情绪分析成为了一种监控和了解客户反馈的重要工具。这种对消息和响应所携带的潜在情绪基调的检测过程是完全自动化的,这意味着企业可以更好更快地了解客户的需求并提供更好的产品和服务。

这一过程是通过应用各种NLP(自然语言处理)技术来完成的。这些数据集可以帮助你练习此类技术,实际上非常适合该领域的初学者。Sentiment140包含了使用TwitterAPI提取的1,600,000条推文。它们的结构略有不同。

data=pd.read_csv(f".\\Datasets\\training.1600000.processed.noemoticon.csv")data.head()

如前所述,这是一个用于情绪分析的数据集。情绪分析是最常见的文本分类工具。该过程会分析文本片段以确定其中包含的情绪是积极的、消极的还是中性的。了解品牌和产品引发的社会情绪是现代企业必不可少的工具之一。

data=pd.read_csv(f".\\Datasets\\BBCNewsTrain.csv")data.head()

垃圾消息检测是互联网中最早投入实践的机器学习任务之一。这种任务也属于NLP和文本分类工作。所以,如果你想练习解决这类问题,SpamSMS数据集是一个不错的选择。它在实践中用得非常多,非常适合初学者。

顾名思义,该数据集最适合用于垃圾邮件检测和文本分类。它也经常用在工作面试中,所以大家最好练习一下。

如果你想研究人脸检测解决方案、构建自己的人脸生成器或创建深度人脸伪造模型,那么这个数据集就是你的最佳选择。该数据集拥有超过20万张名人图像,每张图像有40个属性注释,为你的研究项目提供了一个很好的起点。此外,它还涵盖了主要的姿势和背景类别。

我们可以用这个数据集解决多种问题。比如,我们可以解决各种人脸识别和计算机视觉问题,它可用来使用不同的生成算法生成图像。此外,你可以使用它来开发新颖的深度人脸伪造模型或深度伪造检测模型。

这是最大的多标签视频分类数据集。它来自谷歌,拥有800万个带有注释和ID的YouTube分类视频。这些视频的注释由YouTube视频注释系统使用48000个视觉实体的词汇表创建。该词汇表也可供下载。

请注意,此数据集可用作TensorFlow记录文件。除此之外,你还可以使用这个数据集的扩展——YouTube-8MSegments数据集。它包含了人工验证的分段注释。

你可以使用以下命令下载它们:

这个数据集可以为任何产品创建情绪分析的入门模型,你可以使用它来快速创建可用于生产的模型。

这是一个有趣的数据集。你可以使用它来创建可以检测真钞和伪造钞票的解决方案。该数据集包含了从数字化图像中提取的许多指标。数据集的图像是使用通常用于印刷检查的工业相机创建的,图像尺寸为400x400像素。这是一个干净的数据集,包含1372个示例且没有缺失值。

data=pd.read_csv(f".\\Datasets\\data_banknote_authentication.csv")data.head()

它是练习二元分类和应用各种算法的绝佳数据集。此外,你可以修改它并将其用于聚类,并提出将通过无监督学习对这些数据进行聚类的算法。

简而言之,有两种方法可以利用这个数据集。你可以通过LabelMeMatlab工具箱下载所有图像,也可以通过LabelMeMatlab工具箱在线使用图像。

标记好的数据如下所示:

它是用于对象检测和对象识别解决方案的绝佳数据集。

如果你对地质学感兴趣,会发现这个数据集非常有趣。它是利用声纳信号制成的,由两部分组成。第一部分名为“sonar.mines”,包含111个模式,这些模式是使用在不同角度和不同条件下从金属圆柱体反射的声纳信号制成的。

第二部分名为“sonar.rocks”,由97个模式组成,同样是通过反射声纳信号制成,但这次反射的是岩石上的信号。它是一个不均衡数据集,包含208个示例、60个输入特征和一个输出特征。

data=pd.read_csv(f".\\Datasets\\sonar.csv")data.head()

该数据集非常适合练习二元分类。它的制作目标是检测输入是地雷还是岩石,这是一个有趣的问题,因为最高的输出结果达到了88%的准确率。

这是另一个用于分类练习的医疗保健数据集。它来自美国国家糖尿病、消化和肾脏疾病研究所,其目的是根据某些诊断指标来预测患者是否患有糖尿病。

该数据集包含768个观测值,具有8个输入特征和1个输出特征。它不是一个均衡的数据集,并且假设缺失值被替换为0。

data=pd.read_csv(f".\\Datasets\\pima-indians-dataset.csv")data.head()

它是另一个适合练习二元分类的数据集。

这个数据集非常有趣和简单。它特别适合初学者,可以代替Iris数据集。该数据集包含属于三种不同小麦品种的种子信息:Kama、Rosa和Canadian。它是一个均衡的数据集,每个类别有70个实例。种子内部内核结构的测量值是使用软X射线技术检测的。

data=pd.read_csv(f".\\Datasets\\seeds_dataset.csv")data.head()

这个数据集有利于提升分类技能。

这个数据集很不错,包含216,930个Jeopardy问题、答案和其他数据。它是可用于你NLP项目的绝佳数据集。除了问题和答案,该数据集还包含有关问题类别和价值的信息。

data=pd.read_csv(f".\\Datasets\\joepardy.csv")data.head()

这是一个丰富的数据集,可用于多种用途。你可以运行分类算法并预测问题的类别或问题的价值。不过你可以用它做的最酷的事情可能是用它来训练BERT模型。

从本质上讲这是一个多分类问题,然而,这个数据集也可以被视为一个回归问题。它的目标是使用提供的指标来预测鲍鱼的年龄。这个数据集不均衡,4,177个实例有8个输入变量和1个输出变量。

data=pd.read_csv(f".\\Datasets\\abalone.csv")data.head()

该数据集可以同时构建为回归和分类任务。这是一个很好的机会,可以使用多元线性回归、SVM、随机森林等算法,或者构建一个可以解决这个问题的神经网络。

我们生活在一个狂野的时代。假新闻、深度造假和其他类型的欺骗技术都成了我们日常生活的一部分,无论我们喜欢与否。这个数据集提供了另一个非常适合练习的NLP任务。它包含标记过的真实和虚假新闻,以及它们的文本和作者。

data=pd.read_csv(f".\\Datasets\\fake_news\\train.csv")data.head()

这是另一个NLP文本分类任务。

最后这个数据集是计算机视觉数据集中的王者——ImageNet。该数据集是用来衡量所有新的深度学习和计算机视觉技术创新的基准。没有它,深度学习的世界就不会变成今天这样的状态。ImageNet是一个按照WordNet层次结构组织的大型图像数据库。这意味着每个实体都用一组称为-synset的词和短语来描述。每个同义词集分配了大约1000个图像。基本上,层次结构的每个节点都由成百上千的图像描述。

它是学术和研究界的标准数据集。它的主要任务是图像分类,但你也可以将其用于各种任务。

THE END
1.最全猫咪品种介绍,你都知道吗?波斯猫暹罗猫豹猫英国短毛猫苏格兰...美国短毛猫 波米拉猫(博美拉猫) 黑猫(祖先为安哥拉猫,波斯猫) 土耳其梵猫( 土耳其凡湖猫) 西伯利亚猫 橙眼白猫(祖先为安哥拉猫,波斯猫) 美国反耳猫(美国卷耳猫) 美国硬毛猫 马恩岛猫( 海曼岛猫、曼克斯猫) 曼切堪猫 布履阑珊猫 缅因库恩猫(缅因猫) ...https://dy.163.com/article/G6GC6BV40517NPVF.html
2.OpenCV检测眼睛猫脸行人车牌实战(附Python源码)二、猫脸检测 opencv还提供了两个训练好的检测猫脸的级联分类器,分别是haarcascade_frontcatface.xml和haarcascade_frontcatface_extended.xml,前者的判断标准比较高,较为精确,但可能有些猫脸识别不出来,后者的判断标准比较低,只要类似猫脸就会被认为是猫脸,使用猫脸分类器不仅可以判断猫脸的位置,还可以识别图像中有...https://developer.aliyun.com/article/1400298
3.宠物识别悦保科技-宠物AI识别技术,依据宠物猫狗的“面部+鼻纹”关键点信息,拍照识别建立宠物身份档案,适用宠物保险、城市宠物管理、宠物医疗、养犬登记、宠物食品、宠物用品等多种场景,基于脸部信息的猫狗生物识别技术具有高度宠物友好性和操作简便性,应用前景广泛。http://www.ybinsure.com/ocrpet
4.猫狗图片image.zip卷积神经网络算法识别猫狗图片.zip 【国外优秀毕设项目】 卷积神经网络(Convolutional Neural Networks, CNNs)是深度学习中的一种特殊类型的神经网络,主要用于处理具有类似网格结构的数据,如图像和视频。CNNs在多个行业中都有广泛的应用,以下是一些主要的应用领域: 1. **计算机视觉**: - 图像识别:CNNs在图像分类任务...https://www.iteye.com/resource/qq_36794290-12255187
5.2012年6月,谷歌成立“猫脸识别”项目,组建了10一个神经网络节点,让...2012年6月, 谷歌 成立“猫脸识别”项目,组建了10一个神经网络节点,让AI天天去看猫片。 但效果并不理想,粗糙的模型依然无法识别各品种的猫。 十年过去,AI不仅会认猫,还能生成一段故事完整的猫片。https://xueqiu.com/2923233990/282072854
6.心理诊疗室:那些隐藏在热点事件背后的心理动因有家暴行为的男性,一般分为两种:一种是偶尔为之,后果不严重,他们也会为自己的失控真心改正,学会建设性的沟通方式。这种人相当少。另一种就是更为普遍的家暴男,他们把家暴作为固定而日常的沟通方式。 美国临床心理学家雷诺尔·沃柯曾对400名遭受家暴的妻子研究,发现了家庭暴力具有周期性: ...https://story.hao.360.cn/topic/LNrZQkrnNHC7Qw
7.识别猫品种软件排行榜前十名偏玩手游盒子分享十大识别猫品种软件排行榜前十名手机应用,编辑为您推荐手机识别猫品种软件排行榜第一名到前5名到前十名的应用。找识别猫品种软件有哪些、识别猫品种软件哪个好用,上偏玩手游盒子https://m.pianwan.com/s/zj-7573598
8.“猫脸识别”专利公开能够精准识别每一只猫咪企查查APP显示,一项“猫脸识别方法、系统、电子装置及存储介质”发明专利获得授权,授权公开号为CN112926479A。 摘要显示,该专利可获取在预定地点采集的猫的正脸图像;对正脸图像进行猫脸关键点提取并进行仿射变换,得到固定点;将固定点输入预先训练的猫脸识别模型后,得到至少一个猫脸标签,不同猫的猫脸标签不同。通过猫...https://www.gamersky.com/tech/202205/1480427.shtml
9.掌握猫咪AI变脸模板:轻松打造个性化猫脸特效教程猫咪变脸模板是基于深度学技术的一种应用。通过训练大量的猫脸图片,可学到猫脸的特征,从而实现对猫脸的自动识别和替换。这类技术不仅可以实现猫脸与猫脸之间的变换还能将猫脸与人类或其他动物的脸部实行融合,产生特别的视觉效果。 ## 二、制作步骤 1. 素材准备:我们需要准备一张目标猫脸图片,以及一张用作替换的...http://www.slrbs.com/jrzg/aizhishi/450020.html
10.喵星人驾到!荷兰工程师自制猫脸识别门禁加罗在写给美国商业内幕网站的电子邮件中说,他家门上没有专供猫咪出入的猫洞,于是想到为这只猫制作猫脸识别装置,方便它进入。 加罗耗费数小时,在迷你电脑上加装相机模块、面部识别软件和动态监测感应器等,制成猫脸识别设备。当感应器检测到移动物体时,设备拍照发送给云端的面部识别软件,识别移动物体身份。如果设备判断...https://news.cctv.com/m/a/index.shtml?id=ARTIeP7ucYCvf5RjiIqFByqH180304
1.26种猫咪一次认全!主人,你确定不来看看我吗?26种猫咪一次认全!主人,你确定不来看看我吗? 摘要: 1.波斯猫它的名字就代表着贵族7.挪威森林猫性格内向,独立性强,聪颖敏捷机灵10.加菲猫性情独立,不爱吵闹,能慰藉主人心的短脚猫19.西伯利亚森林猫安静而有力,生存能力强,不畏严寒22.埃及猫法老王猫,敏感独立26. ......https://www.goudemaoning.com/article-103129-1.html
2.探秘猫界的多样性不同种类的猫咪介绍及精彩图片在世界上,共有36个正式承认的猫科动物种类。每一种都有其独特的外观和性格,这些特点使它们成为宠物爱好者心目中的理想伴侣。以下是六种最受欢迎的家猫品种及其独特之处。 英国短毛(British Shorthair) 英国短毛是一只体型中等、肌肉发达的大型猫,以其平静、友好的性格而著称。它拥有一个圆润的小脸和宽阔的额头,以及...https://www.stddjzkkll.cn/ren-wu/479454.html
3.探索猫咪世界了解最受欢迎的品种探索猫咪世界:了解最受欢迎的品种 猫是人类家中的一员,它们以其独立性、优雅和温柔赢得了人们的心。随着时间的推移,猫的品种不断多样化,形成了众多独特而迷人的品种。以下是对一些最受欢迎猫品种的介绍。 斑马脸波斯(Persian) 斑马脸波斯是一种典型的大型长毛猫,其特https://www.tepnz.com/zi-xun/546825.html
4.猫脸检测—12种猫分类数据集.zip获取猫脸关键点数据集资源《猫脸检测与12种猫分类数据集详解》 在人工智能领域,图像识别技术扮演着至关重要的角色,尤其在动物识别、人脸识别等应用中。本文将深入探讨一个专门用于猫脸检测的数据集——"猫脸检测—12种猫分类数据集.zip",它是一个专门为训练和评估机器学习模型设计的宝贵资源。 该数据集包含2160张猫的图片,这些图片被精心...https://download.csdn.net/download/weixin_44906759/85274024
5.Python实战之OpenCV实现猫脸检测python今天给大家带来的是关于Python的相关知识,文章围绕着OpenCV实现猫脸检测展开,文中有非常详细的介绍及代码示例,需要的朋友可以参考下https://www.jb51.net/article/215973.htm
6.猫奴の逆袭——一个技术宅猫奴和他的猫脸识别智能喂猫器!有没有一种东西,能让喵星人好好吃饭,而且吃得健康,还保证几只喵星人都能身体倍儿棒,吃嘛嘛香呢?既然没有,Muchi想,那我就自己发明一个。 经过一段时间的钻研和试验,Muchi组建了团队42ARK,成功发明了Bistro——一款附带猫脸识别系统的智能喂猫器。https://www.douban.com/note/378660517/
7.别再指着拉布拉多叫金毛犬“狗脸识别”帮你认清狗子品种大家是不是遇到过到朋友家看到家里的狗子很可爱,对着人家的拉布拉多就喊出了“这金毛真可爱”的尴尬场面。而伴随着手机性能和Ai技术的不断发展。现在,很多平台都已经推出了“狗脸识别”、“猫脸识别”甚至是拍照识。https://news.zol.com.cn/789/7898343.html
8.猫的识别神经网络神经网络猫狗分类猫的识别 神经网络 神经网络猫狗分类 一个CNN神经网络猫狗分类代码 前言 数据集获取 CNN Model 数据预处理(tf.data.Dataset) main() 如何使用保存的model 结语 前言 经过几天的学习和打磨程序,笔者逐渐熟悉了如何利用Tensorflow搭建机器学习模型,如何预处理数据集,以及在训练过程中,怎样实现随机地使神经元失活和...https://blog.51cto.com/u_16213575/9437995
9.FastBond2阶段2ESP32S3功能是真的强大,esp-idf也是真的复杂,整个项目基于已有的例程,却也遇到了重重困难,总算是逐一解决了。AI做猫脸识别速度挺快,识别率也挺不错的,不过当放入狗脸时,还是有蛮大几率误识别的,不得不说是个蛮大的缺憾。感谢电子森林举办的这次活动,让我完完整整地体验了一把在ESP32S3上AI开发之路。https://www.eetree.cn/project/2176
10.一身金钱袍,猫脸性残暴,爬树且游水,嗜肉不食草(打一动物名)刷刷题APP(shuashuati.com)是专业的大学生刷题搜题拍题答疑工具,刷刷题提供一身金钱袍,猫脸性残暴,爬树且游水,嗜肉不食草(打一动物名)的答案解析,刷刷题为用户提供专业的考试题库练习。一分钟将考试题Word文档/Excel文档/PDF文档转化为在线题库,制作自己的电子错题https://www.shuashuati.com/ti/e9560e6b92884de9ad0af3942499dd42.html?fm=bd425c1b335ad06a1d6d59db54a695300d
11.如何准确识别猫咪品种(宠物猫咪品种辨识详解)宠物美容头部大而圆,眼睛圆而大,英国短毛猫的体型较为圆胖。英国短毛猫的毛质较为浓密,颜色也相对单一,与美国短毛猫不同的是,多为蓝色或黑色。 波斯猫 眼睛大而圆,特征是脸圆,鼻子扁平、波斯猫属于长毛猫的一种,它们的外貌优雅。多为白色,棕色等单一颜色,灰色,波斯猫的毛发柔软且长。 https://www.pettb.cn/article-12769-1.html