收藏90+深度学习开源数据集整理:包括目标检测工业缺陷图像分割等多个方向(附下载)...

AI-TOD在28,036包括张航拍摄的图像8个类别的700,621与现有航拍图像中的目标检测数据集相比,AI-TOD中目标的平均规模约为12.8像素远小于其他数据集。

现有的EarthVision数据集要么适用于语义分割,要么适用于对象检测。iSAID是航空图像实例分割的第一个基准数据集。大规模密集注释的数据集包含2,806张高分辨率图像15个类别的655,451个对象实例。iSAID其显著特点如下:(a)大量具有高空间分辨率的图像,(b)十五个重要而常见的类别,(c)各类大量实例,(d)大量的实例图像标记在每个类别中,这可能有助于学习上下文信息,(e)对象尺度的巨大变化,通常在同一图像中包含小、中和大对象,(f)图像中不同方向对象的不平衡和不均匀分布,描绘真实的生活空气条件,(g)几个小尺寸物体,外观模糊,只能通过上下文推理来解决,(h)由专业注释人员执行的准确实例注释,由符合良好标准的专家注释人员交叉检查和验证定义的指导方针。

图片

在TinyPerson中有1610标记图像和759未标记图像(两者主要来自同一视频集)共有72651个注释。

DeepScores数据集的目标是在场景理解的背景下,推广小物体识别的最新技术。DeepScores分为高质量的乐谱图像3000000书面音乐包含不同形状和大小的符号。拥有近1亿个小对象,使我们的数据集不仅独一无二,而且是最大的公共数据集。DeepScores对象分类、检测和语义分割的基本事实。因此,DeepScores总的来说,它对计算机视觉提出了挑战,超过了光学音乐识别(OMR)研究范围。

WiderPerson数据集是野外行人检测的基准数据集,其图像选自广泛的场景,不再局限于交通场景。我们选择了13,382图像并标记了大约400K有各种遮挡注释。我们随机选择8000/1000/4382图像作为训练、验证和测试子集。与CityPersons和WIDERFACE我们不发布测试图像的边界框的基本事实。我们将评估用户需要提交最终预测文件。

NWPUVHR-10Dataset用于空间物体的检测10拥有级地理遥感数据集650包含目标图像和150共计背景图像800目标类型包括飞机、船舶、油罐、棒球场、网球场、篮球场、田径场、港口、桥梁和汽车10个类别。

Inria航空图像标记解决了遥感的核心主题:自动像素级标记(论文链接)。

数据集特点:

覆盖面积810平方公里(405405测试平方公里);

空间分辨率为0.3m航空正射校正彩色图像;

两种语义的地面实际数据:构建和非构建(仅公开披露训练子集);

从人口密集的地区(如旧金山金融区)到高山城镇(如奥地利蒂罗尔),这些图像涵盖了不同的城市住宅区Lienz)。

它是一个开放的遥感图像目标检测数据集。数据集包括飞机、油箱、操场和立交桥。这个数据集的格式是PASCALVOC。数据集包括四个文件,每个文件用于一个对象。

446张照片中有4993架飞机。

189张照片中的191个操场。

176张图片中的180座天桥。

油箱,1586个油箱在165张图片中。

从Internet(例如YouTube或Google)上图/视频收集的四个小物体数据集,包括四种类型的图像,可用于小物体目标检测的研究。

数据集包括四类:

fly:飞行数据集包含600个视频帧,平均每帧86个±39个物体(648×72@30fps)。32张图像用于训练(1:6:187),50张图像用于测试(301:6:600)。

honeybee:蜜蜂数据集包含118张图像,平均每张图像28张±6个蜜蜂(640×480)。训练和测试集平均分配数据集。训练只有前32张图像。

seagull:海鸥数据集包含三个高分辨率图像(624×964)平均每个图像866±107海鸥。训练第一张图片,测试其他图片。

fish:鱼数据集,包含387帧视频数据,平均每帧56±9条鱼(300×410@30fps)。训练32张图像(1:3:94),测试65张图像(193:3:387)。

COCO2017是2017年发布的COCO一个版本的数据集主要用于COCO物体检测任务、重点检测任务和全景分割任务于2017年后持有。

该数据集由早期火灾和烟雾的图像数据集组成。数据集由手机在真实场景中拍摄的早期火灾和烟雾图像组成。大约有7000张图像数据。图像是在各种照明条件(室内外场景)、天气等条件下拍摄的。该数据集非常适合早期火灾和烟雾探测。可用于火灾和烟雾识别、检测、早期火灾和烟雾、异常检测等。数据集还包括典型的家庭场景,如垃圾焚烧、纸塑焚烧、田间作物焚烧、家庭烹饪。本文仅含100张左右。

该数据库由七个不同织物结构的245张4096x256像素图像组成。数据库中有140个无缺陷图像,每种类型的织物20个,除此之外,有105幅纺织行业中常见的不同类型的织物缺陷(12种缺陷)图像。图像的大尺寸允许用户使用不同的窗口尺寸,从而增加了样本数量。

H2O由V-COCO数据集中的10301张图像组成,其中添加了3635张图像,这些图像主要包含人与人之间的互动。所有的H2O图像都用一种新的动词分类法进行了注释,包括人与物和人与人之间的互动。该分类法由51个动词组成,分为5类:

描述主语一般姿势的动词

与主语移动方式有关的动词

与宾语互动的动词

描述人与人之间互动的动词

涉及力量或暴力的互动动词

图像中的垃圾(GINI)数据集是SpotGarbage引入的一个数据集,包含2561张图像,956张图像包含垃圾,其余的是在各种视觉属性方面与垃圾非常相似的非垃圾图像。

NAO包含7934张图像和9943个对象,这些图像未经修改,代表了真实世界的场景,但会导致最先进的检测模型以高置信度错误分类。与标准MSCOCO验证集相比,在NAO上评估时,EfficientDet-D7的平均精度(mAP)下降了74.5%。

该数据集包括小众印度车辆的图像,如Autorikshaw、Tempo、卡车等。该数据集由用于分类和目标检测的小众印度车辆图像组成。据观察,这些小众车辆(如autorickshaw、tempo、trucks等)上几乎没有可用的数据集。这些图像是在白天、晚上和晚上的不同天气条件下拍摄的。该数据集具有各种各样的照明、距离、视点等变化。该数据集代表了一组非常具有挑战性的利基类车辆图像。该数据集可用于驾驶员辅助系统、自动驾驶等的图像识别和目标检测。

椅子数据集包含大约1000个不同三维椅子模型的渲染图像。

SUN09数据集包含12000个带注释的图像,其中包含200多个对象类别。它由自然、室内和室外图像组成。每个图像平均包含7个不同的注释对象,每个对象的平均占用率为图像大小的5%。对象类别的频率遵循幂律分布。发布者使用397个采样良好的类别进行场景识别,并以此搭配最先进的算法建立新的性能界限。

使用迄今为止公开共享的全球最大的开放检索信息数据集。Unsplash数据集由250000多名贡献摄影师创建,并包含了数十亿次照片搜索的信息和对应的照片信息。由于Unsplash数据集中包含广泛的意图和语义,它为研究和学习提供了新的机会。

HICO-DET是一个用于检测图像中人-物交互(HOI)的数据集。它包含47776幅图像(列车组38118幅,测试组9658幅),600个HOI类别,由80个宾语类别和117个动词类别构成。HICO-DET提供了超过150k个带注释的人类对象对。V-COCO提供了10346张图像(2533张用于培训,2867张用于验证,4946张用于测试)和16199人的实例。

上海科技数据集是一个大规模的人群统计数据集。它由1198张带注释的群组图像组成。数据集分为两部分,A部分包含482张图像,B部分包含716张图像。A部分分为训练和测试子集,分别由300和182张图像组成。B部分分为400和316张图像组成的序列和测试子集。群组图像中的每个人都有一个靠近头部中心的点进行注释。总的来说,该数据集由33065名带注释的人组成。A部分的图像是从互联网上收集的,而B部分的图像是在上海繁忙的街道上收集的。

大约9000多张独特的图片。该数据集由印度国内常见垃圾对象的图像组成。图像是在各种照明条件、天气、室内和室外条件下拍摄的。该数据集可用于制作垃圾/垃圾检测模型、环保替代建议、碳足迹生成等。

当前大多数高级人脸识别方法都是基于深度学习而设计的,深度学习取决于大量人脸样本。但是,目前尚没有公开可用的口罩遮挡人脸识别数据集。为此,这项工作提出了三种类型的口罩遮挡人脸数据集,包括口罩遮挡人脸检测数据集(MFDD),真实口罩遮挡人脸识别数据集(RMFRD)和模拟口罩遮挡人脸识别数据集(SMFRD)。基于这些数据集,可以开发口罩遮挡人脸的各种应用。本项目开发的多粒度口罩遮挡人脸识别模型可达到95%的准确性,超过了行业报告的结果。

单图像、多类分类问题

40多个分类

总共超过50,000张图片

逼真的大型数据库

该数据集中含有自行车、摩托车、汽车、货车的图像数据,可用于CNN模型以实现车辆识别和车辆分类,其中自行车、摩托车、汽车数据来自2005PASCAL视觉类挑战赛(VOC2005)所使用的数据的筛选处理结果,货车图片来自网络收集,后期通过筛选处理得到。在本数据中,训练数据集与测试数据集占比约为5:1。

WGISD(WineGrapeInstanceSegmentationDataset)是为了提供图像和注释来研究对象检测和实例分割,用于葡萄栽培中基于图像的监测和现场机器人技术。它提供了来自五种不同葡萄品种的实地实例。这些实例显示了葡萄姿势、光照和焦点的变化,包括遗传和物候变化,如形状、颜色和紧实度。可能的用途包括放宽实例分割问题:分类(图像中是否有葡萄?)、语义分割(图像中的“葡萄像素”是什么?)、对象检测(图像中的葡萄在哪里?)、和计数(每个簇有多少浆果?)。

包含774个众包图像和698个网络挖掘图像。众包和网络挖掘的图像分别包含2,496和2,230个工人实例。

该数据集包含来自美国西南部140个摄像头位置的243,100张图像,带有21个动物类别的标签(加上空白),主要是在物种级别(例如,最常见的标签是负鼠、浣熊和土狼),以及大约66,000个边界框注释。大约70%的图像被标记为空。

该数据来自J-EDI海洋垃圾数据集。构成该数据集的视频在质量、深度、场景中的对象和使用的相机方面差异很大。它们包含许多不同类型的海洋垃圾的图像,这些图像是从现实世界环境中捕获的,提供了处于不同衰减、遮挡和过度生长状态的各种物体。此外,水的清晰度和光的质量因视频而异。这些视频经过处理以提取5,700张图像,这些图像构成了该数据集,所有图像都在垃圾实例、植物和动物等生物对象以及ROV上标有边界框。

本数据集汇总了700个在坑洼处带有3K+注释的图像,用于从道路图像中检测坑洼,检测道路地形和坑洼。

大赛数据集里有1万份来自实际生产中有瑕疵的铝型材监测影像数据,每个影像包含一个或多种瑕疵。供机器学习的样图会明确标识影像中所包含的瑕疵类型。

数据集收集了夹杂、划痕、压入氧化皮、裂纹、麻点和斑块6种缺陷,每种缺陷300张,图像尺寸为200×200。数据集包括分类和目标检测两部分,不过目标检测的标注中有少量错误,需要注意。

该数据集中提供了四种类型的带钢表面缺陷。训练集共有12568张,测试集5506张。图像尺寸为1600×256。

该数据集包含了7种带钢缺陷类型。这个数据集不是图像数据,而是带钢缺陷的28种特征数据,可用于机器学习项目。钢板故障的7种类型:装饰、Z_划痕、K_划痕、污渍、肮脏、颠簸、其他故障。

该数据集主要针对纹理背景上的杂项缺陷,为较弱监督的训练数据。包含十个数据集,前六个为训练数据集,后四个为测试数据集。每个数据集均包含以灰度8位PNG格式保存的1000个“无缺陷”图像和150个“有缺陷”图像,每个数据集由不同的纹理模型和缺陷模型生成。“无缺陷”图像显示的背景纹理没有缺陷,“无缺陷”图像的背景纹理上恰好有一个标记的缺陷。所有数据集已随机分为大小相等的训练和测试子数据集。弱标签以椭圆形表示,大致表示缺陷区域。

中国科学院自动所一个课题组收集的数据集,是“Saliencyofmagnetictilesurfacedefects”这篇论文的数据集。收集了6种常见磁瓦缺陷的图像,并做了语义分割的标注。

RSDDs数据集包含两种类型的数据集:第一种是从快车道捕获的I型RSDDs数据集,其中包含67个具有挑战性的图像。第二个是从普通/重型运输轨道捕获的II型RSDDs数据集,其中包含128个具有挑战性的图像。

两个数据集的每幅图像至少包含一个缺陷,并且背景复杂且噪声很大。

RSDDs数据集中的这些缺陷已由一些专业的人类观察员在轨道表面检查领域进行了标记。

KTH-TIPS是一个纹理图像数据集,在不同的光照、角度和尺度下拍摄的不同材质表面纹理图片。类型包括砂纸、铝箔、发泡胶、海绵、灯芯绒、亚麻、棉、黑面包、橙皮和饼干共10类。

这是一个公共的合成PCB数据集,由北京大学发布,其中包含1386张图像以及6种缺陷(缺失孔,鼠咬坏,开路,短路,杂散,伪铜),用于检测,分类和配准任务。

IMDB-WIKI500k+是一个包含名人人脸图像、年龄、性别的数据集,图像和年龄、性别信息从IMDB和WiKi网站抓取,总计524230张名人人脸图像及对应的年龄和性别。其中,获取自IMDB的460723张,获取自WiKi的62328张。

该数据集是用于研究无约束面部识别问题的面部照片数据库。数据集包含从网络收集的13000多张图像。每张脸都贴上了所画的人的名字,图片中的1680人在数据集中有两个或更多不同的照片。

GENKI数据集是由加利福尼亚大学的机器概念实验室收集。该数据集包含GENKI-R2009a,GENKI-4K,GENKI-SZSL三个部分。GENKI-R2009a包含11159个图像,GENKI-4K包含4000个图像,分为“笑”和“不笑”两种,每个图片的人脸的尺度大小,姿势,光照变化,头的转动等都不一样,专门用于做笑脸识别。GENKI-SZSL包含3500个图像,这些图像包括广泛的背景,光照条件,地理位置,个人身份和种族等。

PubFigDataset是一个大型人脸数据集,主要用于人脸识别和身份鉴定,其涵盖互联网上200人的58,797张图像,不同于大多数现有面部数据集,这些图像是在主体完全不受控制的情况下拍摄的,因此不同图像中姿势、光照、表情、场景、相机、成像条件和参数存在较大差异,该数据集类似于UMass-Amherst创建的LFW数据集。

CelebFacesAttributesDataset(CelebA)是一个大规模的人脸属性数据集,包含超过20万张名人图像,每张都有40个属性注释。该数据集中的图像涵盖了较大的姿势变化和杂乱的背景。CelebA种类多、数量多、注释丰富,包括10,177个身份,202,599张人脸图像,以及5个地标位置,每张图像40个二进制属性注释。

该数据集可用作以下计算机视觉任务的训练和测试集:人脸属性识别、人脸识别、人脸检测、地标(或人脸部分)定位以及人脸编辑与合成。

为促进人脸识别算法的研究和实用化,美国国防部的CounterdrugTechnologyTransferProgram(CTTP)发起了一个人脸识别技术(FaceRecognitionTechnology简称FERET)工程,它包括了一个通用人脸库以及通用测试标准。到1997年,它已经包含了1000多人的10000多张照片,每个人包括了不同表情,光照,姿态和年龄的照片。

该数据集包含12,995张人脸图像,这些图像用(1)五个面部标志,(2)性别、微笑、戴眼镜和头部姿势的属性进行了注释。

这个数据集包含了1521幅分辨率为384x286像素的灰度图像。每一幅图像来自于23个不同的测试人员的正面角度的人脸。为了便于做比较,这个数据集也包含了对人脸图像对应的手工标注的人眼位置文件。图像以"BioID_xxxx.pgm"的格式命名,其中xxxx代表当前图像的索引(从0开始)。类似的,如"BioID_xxxx.eye"的文件包含了对应图像中眼睛的位置。

该数据集所选用的人脸照片均来自于两部比较知名的电视剧,《吸血鬼猎人巴菲》和《生活大爆炸》。

CMUPIE人脸库建立于2000年11月,它包括来自68个人的40000张照片,其中包括了每个人的13种姿态条件,43种光照条件和4种表情下的照片,现有的多姿态人脸识别的文献基本上都是在CMUPIE人脸库上测试的。

该数据集包含1,595个不同人的3,425个视频。所有视频都是从YouTube下载的。每个主题平均有2.15个视频可用。最短剪辑时长为48帧,最长剪辑为6070帧,视频剪辑的平均长度为181.3帧。在这个数据集下,算法需要判断两段视频里面是不是同一个人。有不少在照片上有效的方法,在视频上未必有效/高效。

CASIA人脸图像数据库版本5.0(或CASIA-FaceV5)包含500个对象的2,500个彩色人脸图像。CASIA-FaceV5的面部图像是使用罗技USB摄像头在一个会话中捕获的。CASIA-FaceV5的志愿者包括研究生、工人、服务员等。所有人脸图像均为16位彩色BMP文件,图像分辨率为640*480。典型的类内变化包括照明、姿势、表情、眼镜、成像距离等。

该数据集包含通过在谷歌图片搜索中输入常见的名字从网络上收集的人的图像。每个正面的眼睛、鼻子和嘴巴中心的坐标在地面实况文件中提供。此信息可用于对齐和裁剪人脸或作为人脸检测算法的基本事实。该数据集有10,524个不同分辨率和不同设置的人脸,例如肖像图像、人群等。侧面或非常低分辨率的面孔未标记。

MPIIHumanShape人体模型数据是一系列人体轮廓和形状的3D模型及工具。模型是从平面扫描数据库CAESAR学习得到。

MPII人体姿态数据集是用于评估人体关节姿势估计的最先进基准。该数据集包括大约25,000张图像,其中包含超过40,000个带有注释身体关节的人。这些图像是使用已建立的人类日常活动分类法系统收集的。总的来说,数据集涵盖了410项人类活动,每个图像都提供了一个活动标签。每张图像都是从YouTube视频中提取的,并提供前后未注释的帧。此外,测试集有更丰富的注释,包括身体部位遮挡和3D躯干和头部方向。

作者收集了一个带有注释关节的足球运动员数据集,可用于多视图重建。数据集包括:

771张足球运动员的照片;

14个带注释的身体关节。

PennActionDataset(宾夕法尼亚大学)包含15个不同动作的2326个视频序列以及每个序列的人类联合注释。

BBCPose包含20个视频(每个视频长度为0.5小时至1.5小时),由BBC录制,并配有手语翻译。这20个视频分为10个用于训练的视频、5个用于验证的视频和5个用于测试的视频。

Poser数据集是用于姿态估计的数据集,由1927个训练图像和418个测试图像组成。这些图像是综合生成的,并调整为单峰预测。这些图像是使用Poser软件包生成的。

数据集包括:

60个视频序列。

2D姿势注释。

使用我们的方法获得的3D姿势。我们的方法利用了视频和IMU,尽管场景很复杂,但姿势非常准确。

序列中每一帧的相机姿势。

3D身体扫描和3D人物模型(可重新调整和重新塑造)。每个序列都包含其对应的模型。

18个不同服装款式的3D模型。

V-COCO是一个基于COCO的数据集,用于人机交互检测。V-COCO提供10,346张图像(2,533张用于训练,2,867张用于验证,4,946张用于测试)和16,199个人物实例。每个人都有29个动作类别的注释,并且没有包括对象在内的交互标签。

宜家ASM数据集是装配任务的多模式和多视图视频数据集,可对人类活动进行丰富的分析和理解。它包含371个家具组件样本及其真实注释。每个样本包括3个RGB视图、一个深度流、原子动作、人体姿势、对象片段、对象跟踪和外部相机校准。

这是一个立体图像对数据集,适用于上身人的立体人体姿态估计。SHPED由630个立体图像对(即1260个图像)组成,分为42个视频片段,每个片段15帧。这些剪辑是从26个立体视频中提取的,这些视频是从YouTube获得的,标签为yt3d:enable=true。此外,SHPED包含1470条火柴人上身注释,对应于49个人根据这些条件:直立位置、所有上身部分几乎可见以及身体的非侧面视点。

AIST++舞蹈动作数据集是从AIST舞蹈视频数据库构建的。对于多视图视频,设计了一个精心设计的管道来估计相机参数、3D人体关键点和3D人体舞蹈动作序列:

该数据集专注于在各种人群和复杂事件中进行非常具有挑战性和现实性的以人为中心的分析任务,包括地铁上下车、碰撞、战斗和地震逃生。并且具有大规模和密集注释的标签,涵盖了以人为中心的分析中的广泛任务。

道路和车道估计基准包括289次培训和290幅测试图像。我们在鸟瞰空间中评估道路和车道的估计性能。它包含不同类别的道路场景:城市无标记、城市标记、城市多条标记车道以及以上三者的结合。

CrackForest数据集是一个带注释的道路裂缝图像数据库,可以大致反映城市路面状况。

stero2015基准测试包含200个训练场景和200个测试场景(每个场景4幅彩色图像,以无损png格式保存)。与stereo2012和flow2012基准测试相比,它包含动态场景,在半自动过程中为其建立了真值。该数据集是通过在卡尔斯鲁厄中等规模城市、农村地区和高速公路上行驶而捕获的。每张图像最多可以看到15辆汽车和30名行人。

Flow2015基准测试包含200个训练场景和200个测试场景(每个场景4幅彩色图像,以无损png格式保存)。与stereo2012和flow2012基准测试相比,它包含动态场景,在半自动过程中为其建立了真值。该数据集是通过在卡尔斯鲁厄中等规模城市、农村地区和高速公路上行驶而捕获的。每张图像最多可以看到15辆汽车和30名行人。

Sceneflow2015基准测试包含200个训练场景和200个测试场景(每个场景4幅彩色图像,以无损png格式保存)。与stereo2012和flow2012基准测试相比,它包含动态场景,在半自动过程中为其建立了真值。该数据集是通过在卡尔斯鲁厄中等规模城市、农村地区和高速公路上行驶而捕获的。每张图像最多可以看到15辆汽车和30名行人。

KITTI-depth包含超过93,000个深度图以及相应的原始LiDaR扫描和RGB图像。鉴于大量的训练数据,该数据集应允许训练复杂的深度学习模型,以完成深度补全和单幅图像深度预测的任务。此外,该数据集提供了带有未发布深度图的手动选择图像,作为这两个具有挑战性的任务的基准。

ALOV++,AmsterdamLibraryofOrdinaryVideosfortracking是一个物体追踪视频数据,旨在对不同的光线、通透度、泛着条件、背景杂乱程度、焦距下的相似物体的追踪。

UCF50是一个由中佛罗里达大学发布的动作识别数据集,由来自youtube的真实视频组成,包含50个动作类别,如棒球投球、篮球投篮、卧推、骑自行车、骑自行车、台球、蛙泳、挺举、跳水、击鼓等。对于所有50个类别,视频分为25组,其中每组由超过4个动作剪辑。同一组中的视频片段可能具有一些共同的特征,例如同一个人、相似背景、相似视点等。

SBUKinectInteraction是一个复杂的人类活动数据集,描述了两个人的交互,包括同步视频、深度和运动捕捉数据。

CAT数据集包括超过9,000张猫图像。对于每张图像,猫的头部都有九个点的注释,眼睛两个,嘴巴一个,耳朵六个。

斯坦福狗数据集包含来自世界各地的120种狗的图像。该数据集是使用ImageNet中的图像和注释构建的,用于细粒度图像分类任务。

该数据集的内容:

类别数:120

图片数量:20,580

注释:类标签、边界框

StreetScenesChallengeFramework是用于对象检测的图像、注释、软件和性能测量的集合。每张图像都是从马萨诸塞州波士顿及其周边地区的DSC-F717相机拍摄的。然后用围绕9个对象类别的每个示例的多边形手动标记每个图像,包括[汽车、行人、自行车、建筑物、树木、天空、道路、人行道和商店]。这些图像的标记是在仔细检查下完成的,以确保对象总是以相同的方式标记,关于遮挡和其他常见的图像变换。

Cars数据集包含196类汽车的16,185张图像。数据分为8,144个训练图像和8,041个测试图像,其中每个类别大致按50-50分割。课程通常在品牌、型号、年份级别,例如2012TeslaModelS或2012BMWM3coupe。

MNIST数据集是一个手写阿拉伯数字图像识别数据集,图片分辨率为20x20灰度图图片,包含‘0-9’十组手写手写阿拉伯数字的图片。其中,训练样本60000,测试样本10000,数据为图片的像素点值,作者已经对数据集进行了压缩。

该数据集是图片数据,分为训练集85%(Train)和测试集15%(Test)。其中O代表Organic(有机垃圾),R代表Recycle(可回收)。

SVHN是一个真实世界的图像数据集,用于开发机器学习和对象识别算法,对数据预处理和格式化的要求最低。它可以被视为与MNIST风格相似(例如,图像是经过裁剪的小数字),但包含一个数量级的更多标记数据(超过600,000个数字图像),并且来自一个更难、未解决的现实世界问题(识别自然场景图像中的数字和数字)。SVHN是从谷歌街景图像中的门牌号获得的。

该数据集的目的是提供一种简单的方法来开始处理3D计算机视觉问题,例如3D形状识别。

LVIS是一个大规模细粒度词汇集标记数据集,该数据集针对超过1000类物体进行了约200万个高质量的实例分割标注,包含164k张图像。

CrowdSegmentationDataset是一个高密度人群和移动物体视频数据,视频来自BBCMotionGallery和GettyImages网站。

DenselyAnnotatedVideoSegmentation是一个高清视频中的物体分割数据集,包括50个视频序列,3455个帧标注,视频采集自高清1080p格式。

MediaTeamOuluDocument数据集是一个文档扫描图像和文档内容数据集,包含500篇1975年之前的文档信息。

备注:作者也是我们「3D视觉从入门到精通」特邀嘉宾:一个超干货的3D视觉学习社区

3D视觉工坊精品课程官网:3dcver.com

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)3.彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进4.国内首个面向工业级实战的点云处理课程5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解6.彻底搞懂视觉-惯性SLAM:基于VINS-Fusion正式开课啦7.彻底搞懂基于LOAM框架的3D激光SLAM:源码剖析到算法优化8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM+LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法:算法梳理与代码实现

11.自动驾驶中的深度学习模型部署实战

12.相机模型与标定(单目+双目+鱼眼)

13.重磅!四旋翼飞行器:算法与实战

14.ROS2从入门到精通:理论与实战

15.国内首个3D缺陷检测教程:理论、源码与实战

重磅!3DCVer-学术论文写作投稿交流群已成立

一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉+上海交大+静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

圈里有高质量教程资料、答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~

TMS320F28052产品规格_功能图_原装供应

MSP430FR2111产品参数_产品特性_现货专卖

原装TLV9051IDBVR运算放大器引脚电路产品功能模式科普

MSP430F6769产品规格_功能特性_现货出售

CD4015引脚功能_工作原理_应用电路图

TMS320F28374D产品规格_产品特点_现货专卖

RM48L730中文规格_产品特性_原装原厂

LMV761MFX/NOPB精密比较器设备封装参数布局示例图

AM5728中文规格_产品特征_原装供应

RM46L840产品规格_产品特征_现货出售

详细介绍电流互感器功能区别3CTSRZCT

雅特力携多款AT32MCU新品与应用方案亮相2024慕尼黑上海电子展

AMEYA360|江苏润石RSR58x高压系列高精密基准源

断路器的常见故障和处理方法

普源精电(RIGOL)多通道材料应力测量系统

亚马逊云科技宣布基于自研AmazonGraviton4的AmazonEC2R8g实例正式可用

OPPO与爱立信签署全球战略合作协议

英飞凌推出业界首款符合太空标准的并行接口1Mb和2MbF-RAM,扩大其抗辐射存储器产品组合

2024慕尼黑上海电子展亮点:三款重点展品及解决方案的深度探索

前途未卜的AI个人助理

让“节能”贯穿服务器全生命周期,英特尔至强6能效核处理器的出众之处

英特尔CEO帕特·基辛格:AI正推动业界进入创新黄金时代,影响力堪称空前

英飞凌推出适用于物联网设备进行非接触式验证及安全配置的NFCI2C桥接标签

安森美推出提高数据中心能效的完整电源解决方案

Molex莫仕在中国荣获通用汽车供应商质量卓越奖

整流二极管的应用电源

绝缘栅双极型晶体管应用电路

多位LED数码管

单向晶闸管构成的交流开关电路

压敏电阻器电路

27MHz谐振转换器的直流输出

具有初级电压钳位的氮化镓(GaN)FET可显著实现交流适配器的小型化

栅极驱动器电路设计

现代电磁炉烹饪需要紧凑而高效的解决方案

工业辅助电源中的SiC

锐单2024年51劳动节放假通知

锐单商城2024年清明节放假通知

2024年春节锐单商城放假安排

【通知】2024年元旦锐单商城放假安排

2023年锐单商城国庆节放假通知

艾迈斯欧司朗最新推出的DURISLED将引领柔性多变照明新时代

在线式一氧化碳检测仪XKCON-G600-DCO具有防爆功能,使用于冶金行业场所应用

THE END
1.AI突破:全新大模型‘Evo’开启基因序列设计新纪元近日,《科学》杂志发布了一项引人注目的研究,展示了美国斯坦福大学Arc研究所团队开发的全新大规模基因组模型‘Evo’。这一突破性进展为我们揭开了生命的‘密码全书’,革命性地改变了基因序列的预测和设计方法,标志着合成生物学的全新起点。‘Evo’模型以其超过70亿的参数,展现了前所未有的精度,能够解析和生成从DNA、...https://m.sohu.com/a/827750003_121798711/
2.序列动画图片免费下载序列动画素材序列动画模板游戏飞行帧序列精灵资产与卡通飞鸟角色在天空中展翅。矢量鸽子飞行周期。羽毛有趣的宠物在运动或运动。鸽子飞行动画。游戏飞行帧序列精灵资产与卡通飞鸟角色在天空中展翅。矢量鸽子飞行周期 免费下载带有步行循环动画序列的研究生角色模型表 免费下载带有步行循环动画序列的学生角色模型表 免费下载具有步行循环和运行循环动画...https://www.58pic.com/tupian/xuliedonghua.html
3.建议收藏!100篇必读论文大模型月报(2024.02)为了建立一个具有高质量字幕的视频数据集,来自 Snap 公司、加州大学和特伦托大学的研究团队提出了一种利用多模态输入(如文字视频描述、字幕和单个视频帧)的自动方法。具体来说,研究团队从公开的 HD-VILA-100M 数据集中收集了 380 万个高分辨率视频。然后将它们分割成语义一致的视频片段,并应用多种跨模态教师模型来...https://hub.baai.ac.cn/view/35698
4.一种适用于连续帧序列单应性变换的网络模型及训练方法1.本发明属于图像处理技术领域,具体涉及一种适用于连续帧序列单应性变换的网络模型及训练方法。 背景技术: 2.拍摄视角到目标视角,如标准顶视图视角的单应性变换,是后续各种依赖位置信息进行竞技体育视频分析的基础,如基于位置信息获取球员运动速度、识别球队战术、制定训练策略等。现有的单应性矩阵求解方法主要分为两类...http://mip.xjishu.com/zhuanli/55/202211587820.html
5.补丁制作素材:拳皇全套角色动作序列帧分享20230312[修改]拳皇全套角色动作序列帧分享20230312 [修改]拳皇全套角色动作序列帧分享20230312 [修改]...https://bbs.17173.com/thread-11388844-1-1.html
6.机器人系统综合实验指导书.pdf机器蛇的空间连杆模型39 3.2 机器蛇的单波传动与多波传动40 3.2.1 单波运动40 3.2.2 多波运动46 3.3 机器蛇的侧翻和抬头48 3.3.1 侧翻48 3.3.2 抬头50 第四章 综合实验51 4.1 实验一 机器蛇机构设计51 4.1.1 实验目的51 4.1.2 实验内容和要求51 1 4.1.3 课程背景介绍51 4.1.4 作业方式53 附录一:...https://max.book118.com/html/2020/0305/8111011130002100.shtm
7.LiveBot和ResponsetoLiveBot:弹幕生成经过CNN的所有帧向量集合: Text Encoder 1.n个弹幕拼接,结巴分词,得到词序列: 2. Comment Decoder 生成的评论和周围的弹幕及相关的视频信息可以表示为: 每个词 的概率分布可表示为: 评价指标 弹幕内容多种多样,模型的产出不能直接找到对照的候选集,因此常见的BLEU,ROUGE的评测方案就不合适了。受对话模型的评估方法...https://www.jianshu.com/p/dfb40bf7f951
8.U3d无插件下在模型上实现模型序列动画(粒子系统也可实现){:2_43:}发一个小教程哈哈,以前一直困扰我的问题就是,在U3D中没有程序给些插件怎么在模型上实现序列贴图。以及粒子发射模型时怎么实现序列帧。 首先怎么能实现序列那,简单的说就是给UV做个动画。在粒子中不发射模型的情况下,只要知道序列图是几x几输入即可。但是在模型中怎么实现那。 1.了解U3D对UV的划分如图...https://www.cgjoy.com/thread-111328-1-1.html
1.探究手游宠物市场,后期价值涨幅与外观吸引力的关联分析2、修行卷轴的价格则很有可能在后期上涨,以小编的经验,我曾经以20万的价格囤积了一批修行卷轴,如今价格已涨至40万,玩家每天参与竞技场5次,无需冲名次,只需稳妥地击败对手,每天可获得250声望,加上每小时9个声望,一天能积累450声望,足以换取18个宠物丹,变卖后轻松收入200万。 3、高敏捷和高隐身技能是宠物后期必备...http://wap.3840.net/1918F48f2BA4.html
2.木木合集萌宠总动员——宠物专题实用功能合集第一弹(1.63...宠物不在夜店出现 4. “服务型宠物”特征+“亮晶晶”特征 【服务性宠物】 狗狗——服务性宠物 猫猫——情感支持宠物 在CAS创建宠物界面中选择宠物的特征,然后进入生活模式,点击主人的奖励商店,选择购买宠物主人的配套特征。 当宠物和主人靠近时,会获得双向的情感buff 建议与盲人特征配套使用! 【亮晶晶】 选择该...https://www.sglynp.com/t101395
3.全球最强「开源版Gemini」诞生,全能多模态模型Emu2登热榜,多项...基于任意prompt序列的图像生成 经过高质量图像微调的Emu2-Gen,可以接受图像、文本、位置交错的序列作为输入,生成对应的高质量图像,这样的灵活性带来高可控性。 例如生成指定位置、指定主体的熊和向日葵: 生成指定位置、指定主体、指定风格的宠物狗和小鸸鹋的合影图像: ...https://36kr.com/p/2578848237266562
4.二维游戏美术作品创作主要步骤:(1)形象策划(2)原画设计(3)模型...【简答题】在After Effects CS6中输出一段序列帧,必须要在Format下拉菜单中选择什么格式? 查看完整题目与答案 【多选题】下列作品属于美术作品的有()。 ...【单选题】该模型模拟的河段主要为()【单选题】我国教师职业道德得的基本原则是()。【多选题】文字作为记录语言的工具,其产生需要的条件包括()。...https://www.shuashuati.com/ti/fc57d4547f3c4e98827c6c1bf9d0bab5.html?fm=bdbds68d9b3724a314ef241f261132fceef01
5.动画市场(精选十篇)《宠物小精灵》是日本第一部在海外获得商业性成功的动画片。1999年底电影版的《宠物小精灵》在美国...因此, 笔者认为, 光涂鸦与帧动画一旦投入动画片的制作市场, 必然会引起孩子们的追捧。由光涂鸦创作...第二节2010-2014年动画产业需求总量时间序列法预测方案 第三节2010-2014年动画产业需求总量曲线预测法预测...https://www.360wenmi.com/f/cnkey3923lep.html
6.超详超硬JeffDean万字总结火热出炉!图解谷歌2022年AIGCLLMCV...为视频创建生成模型是一个非常具有挑战性的领域,因为与图像不同的是,图像的挑战是将图像的理想属性与生成的像素相匹配,而视频则有一个额外的时间维度。视频中,每一帧的像素不仅必须与此刻应该发生的事相匹配,还必须与其他帧相一致——既要在非常精细的层面上(前后几帧的范围内,使运动看起来平滑自然),也要在粗略...https://aidc.shisu.edu.cn/7f/71/c13626a163697/page.htm
7.全球导航卫星系统(GNSS,含GPS北斗GLONASS伽利略等系统)定位...一个超帧持续2.5分钟,分为5帧,每帧30秒,由15个串(String)组成。每帧的前4个串包含发射卫星的星历数据、卫星钟改正、卫星健康状况以及卫星载波频率与标准值得偏差。其余的串包含系统中所有卫星的历书数据。每个串包含导航数据和明德码模二加、校验位和时间标记。时间标记为固定的长度为30比特的伪随机序列,传输速率...https://www.yoojia.com/ask/17-11560939179195902578.html
8.Unity出模型动画的序列帧(特效序列帧)将需要输出序列帧的模型或者物体的渲染层级设置为刚刚渲染摄像机渲染的层级Layer 3.3、打开Timeline,并且新创建一个GameObject空对象,创建新的TineLine 并且添加ActivationTrack 3.4、添加Activation后 将需要打序列帧的物体,带有动画的,拖入刚刚新增的Activation中,调整摄像机位置。 https://blog.csdn.net/lml_w/article/details/129672862
9.序列帧特效图视频特效cg资源免费下载¥15 动物毛发大衣毛发素材 ¥20 云无缝纹理 云贴图 白云 云层 云朵 卡通云朵 体块云朵 ¥38 模型编号: 22465 资源名称: 序列帧特效图 原价: 免费 ?文件参数: 点击量: 下载量: 上传时间: 2019-03-25 11:30:48 展开 发布人:lpk2250149 0条留言https://www.cg99.com/models/detail/22465.html
10.3DMax序列帧是什么3d溜溜设计问答平台为广大设计师们提供各种3DMax序列帧是什么问题解答,3d溜溜素材问答平台汇聚全球各地的设计师、名师名司、设计爱好者等设计灵感和经验,迅速为您解决3DMax序列帧是什么的困惑。https://www.3d66.com/answers_relation/relation_2817449_83.html
11.动态人脸图像序列中表情完全帧的定位与识别期刊摘要:考虑到人脸表情演变是一个持续过程,相比于静态图像,动态图像序列更适合作为人脸表情识别的研究对象.该文提出了一种基于嵌入网络的序列帧定位模型,利用加载预训练权重的Inception ResNet v1网络提取人脸表情序列各帧的特征向量,通过计算特征向量间的欧氏距离,定位出具有最大表情强度的完全帧,进而获取人脸表情序列数据...https://d.wanfangdata.com.cn/periodical/yykxxb202103002