计算机视觉的主要目的是什么

我们先来看看为什么现在的计算机视觉在某些任务中这么厉害——比如人脸识别——因为它目的明确。在训练计算机的时候,我们就告诉它,你把这个事儿做了,其他不用管,跟我们小时候差不多,你把学习弄好了,其他大大小小的家务不用你管。那这个事情就简单了,我们需要做的就是把目标函数设计好,计算机的任务就是不停地学,不停地迭代,直到无限靠近这个目标。用这一套方法论,你会发现计算机视觉很简单嘛,很多任务,只要我们能清晰地设计出目标函数,并且能收集到大量的数据集,计算机视觉非常容易在某个任务中超越人眼。我说到这儿,不知道大家有没有在想一个问题?如果说计算机视觉的终极目标是让计算机拥有像人类或者动物一样看上去笨笨的但是可靠的视觉理解系统,那我就请问,

视觉的目的是什么?或者视觉的目标函数是什么?

WhatistheWillofVision

“视觉的目的是设计和匹配特征?“

“视觉的目的是大规模分类?“

分类是视觉的目的吗?

再回到我们小时候,我们的视觉系统是否是这样形成的?当我们看东西的时候,有没有一个人在边上一直告诉我们:这是猫,那是狗,这个桌子,那是椅子。如果这个不够直接,那不妨考虑一下动物,家里的宠物狗是否需要区分这些概念才能建立起它们的视觉系统?在大量的例子中我们可以发现,概念的分类可能是一个有效的途径,但并不是建立视觉系统的必要条件。进一步讲,基于人类语言的标签不是视觉系统的必要条件,换句话说,不需要“分类”,只需要“分辨”,也就是说,是猫是狗是桌子是椅子没所谓的,重要的是把这些概念区分开即可。

这里展开来阐述一下“分类”和“分辨”的差异。它们貌似差不多,但在我们今天聊的“视觉的目的”上有本质的区别。

首先,在分类问题中,所有类是完全独立的,或者说在空间中是两两正交的。但是实际情况下却并非如此,比如类别猫和老虎,猫和椅子,在分类问题的设定下,它们类之间的差异是一样的,但很显然,猫和老虎的类间差异比猫和椅子低很多。这就出来两个问题:我们如何去标注这样一个数据集,如何去训练一个模型才能够让它知道类之间的不同?

第二点,人工标注的数据集中类之间是很平衡的,猫和狗的数量一样多,但是现实情况下,类别是长尾分布的,也就是大多数类的图片是很稀有的,这里的问题是如何解决大多数类的长尾标注问题?

目前来说,训练完一个计算机模型,它能做的分类只能是数据集里面有的类而已,如果测试集中出来新的类,它是完全不知道的。那么如果说分类真的是视觉的目的,为了去真正地实现像人和动物这样的视觉系统,其中最大的难点就是去定义和标注这些类。不知道你是否认同,定义类本身这个工作,和定义特征的工作没有本质的区别。它们的目标都是让模型能更好的理解图片,但是定义类和定义特征这两个工作都是无穷尽的,并且有很多人为主观的干预,比如什么样的特征能刻画一个概念,什么样的类能帮助建立可靠的视觉系统。但是,话说回来,你是否认同分类是视觉的目的这个假设?

也许不见得吧,再回想我们小时候,监督学习,或者类别学习占的毕竟少数,特别是对动物而言,它们很少很少会出现监督学习这个情况。大多数情况下,视觉系统的建立是无监督的,靠我们自己和环境之间的互动,来理解图片和视频。这个简单的想法就促成了无监督或者自监督的视觉学习方法。其实这方面的研究开始的挺早的,为什么一直都没有像现在这么火呢?关键还是当时的实验结果没有像全监督的分类学习那么好,虽然它蛮符合我们对视觉的期望,实验结果还是硬道理。不过就这几年,自监督学习发展地特别快,某些方法已经在实验中被验证比有监督的分类学习要好。这又是我们在了解视觉系统中迈出的很大的一步。那么我们就来聊一聊自监督学习是如何回答“视觉的目的是什么”这个问题的。

我们可以先猜一猜,视觉的目的是什么?科学研究就是先提出假设,然后验证这个假设。那好,生物最基本的动机就是活着,为了活着,视觉必须学会一个很重要的功能,那就是

预判

试想一直老虎向你跑过来了,你不会等它到了才跑吧,视觉系统需要做准确的预判并且马上采取行动。对于那些不能做预判的,可能就被自然淘汰了。另一个不那么极端的例子,你看到苹果从树上掉下来,应该会躲吧,这也是一种预判。往大里说是你的视觉系统学习到了牛顿定理,其实就是它学习到了重力的表现形式。很多很多生活上的例子表明,视觉系统需要学习预判的能力。那么预判在自监督学习上体现在哪儿呢?其实有很多,最基本的就是auto-encoder,还有去噪声的auto-encoder,in-painting,out-painting,在视频处理中应用的更多,根据当前帧来预测下一帧的图片。这些方法在实验中被证明是非常有效的,并且不需要人工的标注,因为图片和视频本身就是最好的标注。

好,我们再想想还有什么是视觉系统需要自发学习的。刚刚说了一只老虎朝你跑过来,你需要预判并且躲避,那么如果一只小猫跑过来呢?注意这里需要学习的是

分辨(而不是分类)

这也引出了一个更深层的讨论,不同概念的内涵(connotation)和外延(denotation):内涵是一个概念中事物的共有属性,外延是一切属于这个概念的具体事物。分类问题事先给定了一个概念的外延的一部分,比如在所有ImageNet数据集中,“猫”这个概念的外延就是它对应的那几张图片,模型根据这个外延,来学习“猫”这个概念中图片的共有属性(内涵)。分辨则不同,它是不断地放缩一个概念的外延,来辨别两幅图片的相似点和差异性,即便是两幅“猫”,当外延只缩到每一幅图本身了,模型在承认这两幅图都有猫的同时,还需要辨别出两只猫细微的差异的,比如颜色,动作,长相,年龄。对比学习在缩放不同概念的内涵和外延之间,学习到更立体,更丰满的视觉特征。

前沿成果的比较

HowWellDoSelf-SupervisedModelsTransfer

现在我们没有办法这么直接地解决问题,还在一个探索期,视觉的目的是什么?刚刚总结了两大块主流任务,预判与分辨。计算机科学为什么是一门科学,是因为在解决工程问题的时候,我们需要做底层的分析和研究,也需要多学科的交流,比如视觉和脑科学的研究会对解决这个预训练的问题很有帮助。那我们来看看这一路走来学到了什么。从一开始的定义特征,到后来自动学习特征(但是需要定义好类别和类别数),到现在完全不需要人工的类别标签,一个趋势就是,当学习通用的视觉模型时,人为定义的东西越少越好,让计算机自主学习的东西越多越好。沿着这个思路下去,和我们的视觉系统相比,这些自监督学习的方法,至少到目前为止,我认为还有几个方面需要解决:

首先,视角是人为设计的。

其次,模型是人为设计的。

最后,任务是人为设计的。

这三个方向的研究都非常有意思,今天我没办法一一细说,我会在后续的博客中讨论。这边我展开来讨论一下最后一条,任务是人为设计的。首先我觉得在现在的阶段,人为设计预训练的任务是可以被接受的,毕竟我们人类上课学习的时候也有一个培养计划,让计算机自己给自己设计一套学习方案,我现在还不敢想。那就看看如何去设计任务,让计算机可以学到通用的视觉特征?回溯到自监督学习一开始的时候,它是先在自然语言处理领域得到突破,为什么自然语言可以做自监督呢?原因是(1)语言可以切成词汇,(2)词汇的排列是有意义的。计算机从网上的那么多语料中学习,一个很重要的点是你不能把语料中的词汇打乱,打乱了就没有语义了。比如

视·觉·的·目·的·是·什·么

一共八个字组成,是一段有意义的话,但是,这八个字有很多中排列组合的形式,绝大多数的排列是没有语义特征的,而计算机就只在这种有意义的排列中学习特征,所以是有效的。反观自然图片,猫的图片可谓说是千奇百怪什么都有,像自然语言那样的理想情况是什么?最好所有的猫都端端正正地给我坐好,一个姿势,一种表情,然后计算机去学习它的纹理,形状,或其他的抽象特征。在这种严格的规定下,我清楚地知道什么在上,什么在下,什么在左,什么在右,就像自然语言一样人为地创造了一种特定的语法。计算机就可以比较直接地学习到图片的上下文语义特征。请问这一段对理想图片的描述让你想到了什么?

医学影像

首先在拍影像的时候,医生是不会让你有天马行空的姿势的,基本上两种姿势,要不站着,要不躺着。其次,如果姿势是固定的,人体的组织器官的分布也是有序的,五脏六腑都有固定的位置。所以最后拍出来的图片都看起来差不多,就像一个句子,你反复地用不同的词汇说,但是表达的内容相似。

视觉的目的是什么?视觉的动机是什么?视觉的目标是什么?

我们来看看这个方法背后想要传达的信息和整体框架的基本假设。梳理一下刚刚的逻辑:

自然语言处理的预训练特别猛,而且不依靠人工标注,因为语料中自带了上下文语义特征

医学影像也具备相似的属性,因为拍照是的姿势固定的,人体内部的组织结构是有序的

因此,我们只需要定义医学影像中的视觉词汇,并学习它的上下文语义特征即可

可能这个时候有小伙伴会质疑,你说的这个特征确实在医学影像中表现地非常明显,但自然图像难道不具备这个特征吗?没错,自然图片也可以有这个特征,比如说人脸识别,只要能把人脸从图片中框出来,并加上一定的旋转,也可以得到一个具有固定上下文语义特征的数据集,也就是一个近似对齐的数据集,计算机同样可以通过自监督的视觉词汇学习,从图像中学到特征。只是构建这种数据集需要一定的工作,不像医学影像(比如ChestXray)那样是自带的属性。

再往上想一层,其实自然图片是包含了弱弱的上下文语义的。刚刚说的语义特征是来自于有序的词汇排列,如果打乱了,语义就没了。从这个逻辑出发,严格意义上讲,所有能被理解的自然图片都是有一定意义的,真的打乱图片中的像素才能说它是一堆乱码。一张图中这么多像素,它们能根据一定的规则拼成有意义的图片,本身就是一种语义信息。

编辑:黄飞

浏览量

原文标题:视觉的目的到底是什么?

下载发烧友APP

电子发烧友观察

长沙市望城经济技术开发区航空路6号手机智能终端产业园2号厂房3层(0731-88081133)

THE END
1.网站广告设计,吸引用户的艺术与科学.行业资讯广告的最终目的是促使用户采取行动,无论是点击链接、填写表单还是购买产品。因此,网站广告设计中应包含明确的调用行动(CTA)。CTA的设计应该醒目且易于理解,引导用户进行下一步操作。此外,优化广告的布局和流程,确保用户能够轻松完成所需的动作,也是提高转化率的关键。 https://www.myce.cn/info/204036.html
2.广东宠物狗中毒事件死亡数字还在增加,警方已介入调查【广东宠物狗中毒事件死亡数字还在增加】近日,广东地区发生了一起令人痛心的宠物狗中毒事件,死亡数字仍在不断攀升。据广东省宠物行业协会通报,自11月8日前后,广州多地陆续报告了多起宠物狗疑似中毒的情况,截至目前,已确认有超过40只宠物狗因中毒死亡,且死亡数字仍在增加。 http://www.szhk.com/2024/11/18/31808399770740881.html
3.html+css宠物网页设计网站模板源码分享U11BG 宠物狗(10页) ## 截图演示 #三、 作品代码 ## HTML代码 ```html <!doctype html> 宠迷网 宠迷网 登录 注册 https://www.jianshu.com/p/171278e09b09
4.#现代汽车为宠物狗设计自动驾驶汽车#狗狗...来自汽车黑科技...#现代汽车为宠物狗设计自动驾驶汽车# 狗狗也有专属的自动驾驶汽车了?可 “自动遛狗”脑洞大开啊,现代汽车利用AI人工智能为狗狗打造了一辆自动驾驶小型汽车,其目的是带着你的狗去“散步”。你没听错,现代汽车发起的这场被称为“Dogbility”的活动,顾名思义,是解决宠物狗如何自己外出。因为一些主人在一天的工作后太...https://weibo.com/5861206412/Oo6nyvC1N
1.基于html宠物用品商城项目的设计与实现(学生网页设计作业源码)四、 网站代码 HTML结构代码 <!DOCTYPEhtml>宠物用品商城欢迎您登录宠物用品商城!登录|注册https://blog.csdn.net/m0_73081085/article/details/144002663
2.宠物店项目计划书(精选10篇)宠物店项目计划书(精选10篇) 光阴的迅速,一眨眼就过去了,我们的工作又迈入新的阶段,是时候开始制定计划了。相信许多人会觉得计划很难写?以下是小编为大家收集的宠物店项目计划书,希望对大家有所帮助。 宠物店项目计划书 1 一、摘要 动物是人类的朋友,近年来宠物狗已经逐渐被人类所喜欢,并已进入了人们的家庭生活...https://www.oh100.com/kaidian/4536114.html
3.宠物商店创业计划书(精选10篇)在不断进步的时代,创业计划书在生活中的使用越来越广泛,通过制定创业计划书,把利弊都写下来,逐条推敲,就能对项目有更加清晰的认识。那么你真正懂得怎么制定创业计划书吗?以下是小编收集整理的宠物商店创业计划书,希望对大家有所帮助。 宠物商店创业计划书 1 一https://www.yjbys.com/chuangye/ziliao/chuangyejihuashu/632154.html
4.关于宠物的创新创业计划书(通用11篇)宠物的创新创业计划书 1 一、摘要 动物是人类的朋友,近年来宠物狗已经逐渐被人类所喜欢,并已进入了人们的家庭生活。“家有宠物狗”已成为一种都市时尚。 如今社会竞争激烈,工作压力大,人际关系也很难处理,而宠物是完全属于宠物主人自己的,他们可以通过和宠物进行交流,来排解工作生活中的烦躁和苦闷;孤寡老人,需要心灵...https://www.ruiwen.com/chuangyejihuashu/4914939.html
5.ak.akvtc.cn/mokoi11并且我们对于维生素的强需求,也根根据具体情况的不同,而存在差距。因此,对于维生素的补充,主要应以预防缺乏为主,合适的安排膳食,使营养均衡,多食用新鲜的水果、蔬菜和稻谷,达到预防缺乏维生素的目的。 并且合理掌握维生素的剂量。维生素和其他的药物一样,剂量过大,在体内不易吸收,甚至有害。 http://ak.akvtc.cn/mokoi11_24/210410.html
6.www.shounuoxin.com.cn/mokaka24780.html在苏州工业园区开发建设30周年之际,园区公共文化中心党支部精心策划了“非凡园区三十载 共绘辉煌新篇章”雕塑漫游活动,通过寻访城市雕塑,聆听园区故事活动,展现园区党建引领下的高质量发展。 活动以“艺+益”(1+1)先锋课堂为主要形式,由1堂主题党课及1场艺讲雕塑组成。其中,艺讲雕塑设计了三条主题路线,分别为艺术之...https://www.shounuoxin.com.cn/mokaka24780.html
7.www.0769sz.com/mokaka47225.html/mokaka47225.html 软件大小:460.58MB 最后更新:http://www.0769sz.com/mokaka47225.html
8.www.tongmentm.com/mokaka78624.html前天,台湾地区主持人蔡康永带着他的新书《蔡康永的说话之道》来到上海书城签售。采访中,蔡康永澄清了关于他说“小沈阳装教授”的误会。|。 快科技11月22日消息,宁德时代官方发布了今年10月份的成绩单,其提到: 在国内,宁德时代连续第五个月蝉联动力电池使用量,磷酸铁锂材料、三元材料双料第一;单月装车量达25.32GWh...http://www.tongmentm.com/mokaka78624.html
9.www.ruitaopacking.com/mokaka41145.html苹果公司在支持文档中详细说明了如何通过检查iCloud同步设置来恢复消失的备忘录。具体步骤如下: ①打开“设置”App,点击屏幕顶部的个人姓名。 ②进入“iCloud”选项,再点击“备忘录”。 ③确保“同步此设备”的开关已经开启。 这一步骤的目的是确保备忘录数据已经同步到iCloud上,并且当前设备已经开启了同步功能。 http://www.ruitaopacking.com/mokaka41145.html
10.www.denvel.com/mokaka71489.html李明博在欧洲巡访期间的本月14日接受了法国日刊《世界报》的采访。他在采访中说,我们不能排除朝鲜今后再次发起挑衅的可能性,我们采取应对措施的目的在于遏制挑衅行为。|_。 休斯说,许多老兵都希望“这场屠杀能成为战争的转折点”,但愿他们的希望能够被美国的决策者听到,让贝尔斯从人到魔的悲剧不再重演。(王少喆)...https://www.denvel.com/mokaka71489.html
11.东华理工大学美术与设计学院2020级产品设计专业本科生毕业设计...《宠物狗后腿义肢设计》 作者:余晖鸿 指导老师:杨敏姣 设计说明:给狗狗赋予新的动力一这款义肢针对中型犬类残肢设计。穿戴方式为采用松紧调节式旋钮,内置弹性绑带,柔软、耐久材料织物包裹腿部,穿戴更舒适;膝关节处可旋转,加上弹性板的动力奔跑更轻松,小腿为可调节式的伸缩装置,适应不同腿长的狗狗。 https://www.shejijingsai.com/2024/08/1155028.html
12.www.jhjx66.com/mokaka19181.html2024年6月25日,掸邦北部部分地区爆发战事后,木姐市内的物流就中断,药品和大宗商品价格上涨。 菲国家减灾委10日晚间发布的最新灾情统计显示,截至10日晚19时,台风“海燕”在菲律宾已造成229人死亡,45人受伤,28人失踪,共有41个省份约949万人受灾。不过,此前有重灾区的地方官员对媒体透露,初步估计遇难者可能有上万...https://www.jhjx66.com/mokaka19181.html
13.那些撸机器狗的人:将宠物灵魂上传云端,永远生活在一起爱范儿每到周日早上,日本东京的一家咖啡馆,都会一群人会带着自己的宠物狗聚集在这里,主人通常会给自己狗狗精心打扮一番,有的穿着夏威夷衬衫,有的戴上了纯白的头纱,有的戴上了史努比同款的护目镜…… 这样的狗狗聚会其实并不罕见,但不一样的是,这里所有的狗其实都是机器狗。 https://www.ifanr.com/1297648
14.java宠物狗类的结构java设计一个dog类jkfox的技术博客抽象类除了被继承以外,没有其他的用途和目的。 若继承了一个抽象类,就必须要实现该抽象类的所有抽象方法(非抽象方法可写可不写)。 抽象类中不一定有抽象方法。 但是有抽象方法的类一定是抽象类。 抽象类强制子类实现父类没有实现的功能,提高代码的复用性。 https://blog.51cto.com/u_13479/8757591
15.狗房子的设计要点是什么?这些要点如何提升宠物舒适度?在设计宠物狗的房子时,有几个关键要点需要考虑,以确保宠物的舒适度和幸福感。以下是一些设计要点及其如何提升宠物舒适度的详细解释。 1. 空间大小和布局:狗房子的尺寸应根据狗的体型来定制。一个合适的狗房子应该有足够的空间让狗自由转身和伸展。此外,合理的布局可以确保狗在房子内有足够的隐私和安全感。 https://house.hexun.com/2024-08-25/214148699.html
16.市场调研报告(15篇)东艾宠物医院的医生霍小东介绍,养猫狗的消费主要集中在猫粮、狗粮、防疫针、看病等方面,如小猫拉稀比较严重的话,需要输液,一周的花费可能会有上千块;宠物狗出门遛,洗澡的频率比较高,与其他狗或是大自然接触可能会生病或发生撕咬伤,或是误食牙签之类,这种可能会需要外科手术,也需要一定的费用。 https://www.wenshubang.com/diaoyanbaogao/105999.html
17.www.bjyuanlai.cn/mokaka31156.html这一改动不仅使车子转弯更灵便,还增加了汽车的安全性,减轻了车身自重。“这种设计可以使汽车所受空气阻力减少35%,而且也可以改造成电动车、混合动力车。”他说,这些都为新能源使用、节能环保提供了空间。明年,这辆完全由中国人自主研发的概念车,有可能出现在上海汽车展上。(记者许琦敏)http://www.bjyuanlai.cn/mokaka31156.html