狗狗视角看世界,用视觉数据预测狗的行为雷峰网

来自华盛顿大学艾伦人工智能研究所的KianaEhsani团队突破传统计算机视觉的研究任务,尝试从目标对象(例如狗)的视角进行建模,并以此模型来预测对象的行为模式。

这种表示学习方法与传统的图片训练任务的不同之处在于,它的模型训练是从特定视角出发,所以这是一种全新的CV任务。在论文中,作为案例,作者采用狗狗的视角来训练模型,在狗的行为建模上取得显著的成功。作者表示,该方法有望拓展到其他领域。

下面为雷锋网对该论文的详细解读。

传统的计算机视觉研究专注于分类、识别、检测及分割等子任务;当去解决一般的计算机视觉问题时,研究人员一般会将这些功能进行有机的组合。但这种研究方法所得出的结果一直与期望结果有较大的差距。本文的作者受近期「行为和交互在视觉理解中作用」研究工作的启发,他们将视觉智能(visualintelligence)问题定义为:理解视觉数据并在视觉世界中采取行动或执行任务。在这种定义下,作者认为要像一个视觉智能体在视觉世界中那样去学习。

作为该项研究的切入口,他们选择一只狗作为视觉代理。相比于人类,狗有一个简单的行为空间,这使任务能更容易地处理;而另一方面,它们能够清楚地表现出视觉智能,识别食物、障碍物、其他人类和动物,并对这些输入作出反应。

在实验中,KianaEhsani团队通过狗的自我视角录制的视频数据,加上将传感器安装在狗的关节处收集来的动作数据,构建了数据集DECADE(DatasetofEgo-CentricActionsinaDogEnvironment)。

在作者的研究中,他们利用DECADE数据集,主要探索三个问题:

(1)Actinglikeadog,即预测狗的行动;

(2)Planninglikeadog,即预测狗的运动序列;

(3)Learningfromadog,即如何利用狗的动作作为表征学习的监督信号。

如上所述,作者使用了DECADE数据集。这个数据集包含380个视频剪辑片段,这些视频由安装在狗头部的摄像机拍摄而来。视频中还包含设备安装部位和运动轨迹等信息。

在实验中,作者总共用了24500帧,其中21000帧用于训练模型,1500帧用于验证,2000帧用于最后的测试。

作者使用的是GoPro摄像头拍摄的这些视频,采样频率为5fps。该团队使用4个惯性测量单元(IMUs)来测量狗的四肢的位置,一个单元测尾巴位置,还有一个测躯干位置。这些设备可以用角向移动来记录运动。

他们获取的每一帧都包含六个测量单元的角移。角移以4维4元数向量表示。惯性测量单元的绝对角移与狗面向的方向有关,不同关节的角移是有区别的,这些区别也可以用四元数表示。他们认为两个连续的帧之间角移的区别就代表着这条狗这两帧之间的动作。

在不同的场景中如何预测狗的反应呢?作者所提出的模型通过学习狗之前看到的场景图片来预测狗接下来的行动。

作者将预测问题表述为一个分类问题。他们将关节角移数字化编码,并将不同关节的运动标签化成特定的动作类。为了形成这些运动类,他们使用K-means算法来处理关节角移。每一个聚类中心都可以代表一个特定的运动。

其运动预测模型是编解码结构的,主要目标就是找到输入图片与未来动作之间的映射关系。举例说明这种关系,比如当狗看到拿着狗粮,这条狗之后的动作很可能是坐着等主人来喂。

每一张图片都是独立传送给ResNet塔,且两张图片的特征已经结合,结合起来的特征会被线性转化器处理后输入编码器的LSTM。他们团队在ImageNet上事先训练了ResNet,然后优化一下来评估两张连续帧之间的动作。

KianaEhsani团队的编解码器使用加权平均熵损失来处理每个关节。损失函数为:

狗是如何计划行动来完成目标的?

为了给这个过程建模,作者设计了如下计划:输入两张不连贯的图片,然后去规划从第一张图片的状态到第二张图片的状态中间可能出现的一系列行为。他们指出先前的运动估计量已经不再适用,之前的运动估计是根据镜头的状态变化来补充两张图片变化之间的状态。现在则相反,我们的模型自行计划去进行一些合理的行动来补充图片变化之间的状态。更加正式的描述就是,

输入两张图片(I_1,I_N),输出时长为n-1的行动数据。这个输出就是够从I_1状态转换到I_N状态中间经历的过程。

能否利用狗的动作作为表征学习的监督信号呢?

在学习从狗观察到的图像中预测狗关节的运动时,可以获得一个图像表示,它编码了不同类型的信息。

为了展示表示的效果,作者将模型中蓝色部分用在ImageNet上训练过的ResNet进行了替换,并将其与在DECADE上训练的ResNet进行比较。

下面这张图中显示了模型从5帧视频中学习到当一个人朝狗扔球时狗的表现。在视频中,球越过狗后,狗转向右侧去追球。本文提出的模型只使用前5帧图像就可以正确地预测在球飞过时狗如何转向右侧的行为。

下面为具体实验结果:

(1)Learningtoactlikeadog

观察五帧视频后预测接下来的五个行动的精确度。

(2)Learningtoplanlikeadog

在开始和结束帧之间进行规划,这里考虑开始帧和结束帧之间相隔5步。

(3)Learningfromadog

将在ImageNet上训练的网络结果与在DECADE上训练的网络进行比较,评估指标为IOU。

KianaEhsani团队选择直接从目标对象视角建模,他们用从狗的视角拍摄的视频来训练模型,最终的目标是让自己的模型可以预测随后的行动,可以像狗一样去规划自己的行为来完成目标。他们的工作是端到端建模的第一步,这种方法不需要手动标记的数据或拥有具体语义的数据。不仅如此,它还可以在多对象和多场景下应用去获取有价值的信息。

雷锋网认为,他们的方法还有许多有待拓展的地方。一方面是,本文实现的模型只接受视觉输入,属于CV问题,但事实上它完全可以拓展到其他领域,例如实现听觉、触觉等的输入;此外,当前模型仍只是针对一条狗的行为建模,那么是否可以拓展到多条狗的情形呢?

无论如何,采用主人公视角的数据集来训练模型,这种思想独特且有深刻意义,属于一种新颖的CVtask。

THE END
1.VOA慢速英语(翻译+字幕+讲解):研究发现狗狗进化出了用眼神与人类交流的...许多文化都将狗狗看作“人类最好的朋友”。 But a new study found evidence that dogs developed in physical ways to present "puppy dog eyes" as a way to help connect with humans. 但一项新研究发现了证据,能证明狗狗的身体进化出了惹人怜爱的眼神,以此来帮助它们和人类交流。 Researchers in Britain an...https://www.kekenet.com/broadcast/201906/588912.shtml
2.科学家研究发现:狗狗能读出同类和陌生人情绪新闻频道科学家研究发现:狗狗能读出同类和陌生人情绪 都说狗通人性。美国科学家发现,狗狗不但能懂主人的心思,还能读出陌生人的情绪。林肯大学兽医学教授丹尼尔·米尔斯找来17条未经训练的宠物犬,让它们观看屏幕上的狗照片。照片成对出现,分别是一脸欢快的狗和满面怒容的狗。狗看照片时,米尔斯会播放狗叫录音。他发现,播放...http://news.youth.cn/gj/201601/t20160115_7528186.htm
3.研究称狗狗夏天出生易患心脏病或因空气污染无论外表多可爱,每条狗内心可能都住着一匹狼。这意味着,它们更喜欢成群奔跑、向月而吠、追逐猎物,甚至最好在春天出生,就像狼崽一样。 美国研究人员分析250多种近13万条狗的数据后发现,相比4月、5月出生的狗,夏天出生的狗更易患心脏病,即使相对不容易患心脏病的品种也如此。相比平均水平,4月、5月出生的狗患心...https://m.dbw.cn/guoji/system/2018/05/20/057995907.shtml
4.研究发现狗能理解代表物品的词研究人员希望更深入地研究狗狗内心对代表物品的词的理解。他们所用的方法是,不要求狗狗采取行动,而是利用无创脑电图来测量其大脑活动。研究人员的想法是,这或许能提供一种衡量狗狗对语言的理解的更灵敏标准。 在研究中,他们让18位狗主人说出他们的狗知道的玩具的名称,然后向狗展示物品。研究人员有时会展示匹配的玩具...https://m.gmw.cn/2024-04/18/content_1303716037.htm
5.q狗的祖先是谁?a狗的祖先是狼,经科学家研究发现,狗狗的祖先以...狗的祖先是狼,经科学家研究发现,狗狗的祖先以来自于东亚地区的狼群为主,同时也有少部分品种的狗狗是狐狸和豺的后代。狗狗在经过几千万年的演化之后,基本已经不再有狼的血统,但它们还保留一部分狼群的生活习性,比如刨窝、狩猎、喜欢群居,服从意识强等,相对于狼群,狗狗对人类非常友好,很多品种的狗狗对人类基本没有攻...https://www.isdpp.com/issue-12781.html
1.TheIntelligenceofSmartDogs(UnderstandingtheCapabilitiesofOur...四:聪明的小狗比人类孩子更聪明吗? 研究发现,某些聪明的小狗的智力水平可以与2-3岁的人类儿童相媲美。然而,小狗不同于人类,它们更倾向于遵循本能和直觉,而非逻辑思考。 五:聪明的小狗可以学会多少命令? 聪明的小狗可以学会许多命令,数目随着品种和训练方法的不同而有所变化。一些聪明的小狗可以学会50个以上的命令,...https://www.pettb.cn/article-36595-1.html
2.研究狗狗们真能听懂你说的话界面新闻·天下科学家已经找到证据证明很多养狗人士长期持有的观点:人类最好的朋友狗狗真的能明白我们说的某些话。 匈牙利的研究者通过扫描狗狗的大脑,来观察狗狗在听人们说话时运用的是大脑的哪一个区域。 研究者们发现,狗狗们用左脑处理它们所听到的话语,右脑处理它们所听到的语气——正如人类一样。 https://www.jiemian.com/article/826689.html
3.关于那些聪明“成精”狗狗的研究来了我们常看到网友们调侃那些像是“成了精”的聪明狗:别耽误孩子上清华北大。巧合的是,日前,一项刊登在期刊《科学报告》(Scientific Reports)的研究发现,狗狗们还真的和人类一样,在某一领域,某些个体会拥有类似人类中莫扎特、爱因斯坦般与众不同的“天赋”。例如,学某些物体名称时的词汇天赋。 https://m.thepaper.cn/newsDetail_forward_13501090
4.喵星之谜:狗狗呼叫行为的研究进展在地球上的众多生物中,猫和狗作为最常见的宠物,它们的互动行为一直以来都引发了广泛的兴趣。尤其在猫狗共处的情况下,狗狗经常发出特定的叫声,有人认为这是狗狗在呼叫猫的方式。这种现象背后的原因一直是一个未解之谜,这也引发了我们对喵星之谜:狗狗呼叫行为的研究的关注。 https://www.sousou.com/gl/402238.html
5.狗真的改不了吃屎吗?研究报告是这么说的……除了洋气的英文名之外,狗吃屎还分了各种假说,其中两个比较出名的假说分别是"卫生假说"和"营养假说",感觉真的是很认真地研究狗狗吃屎这个问题了呢! "卫生假说"是指狗狗便便中含有寄生虫卵,为了不污染狗狗住的周围环境,狗狗会选择吃掉屎,甚至还有人发现,刚拉出的屎特别受到狗狗的欢迎,而一些陈屎反而不会吸引狗狗的...https://www.jianshu.com/p/540cc5030799
6.辞狗年,来看看科学家们在狗年做了哪些有趣又有爱的狗狗研究?时间就像一条喜爱撒欢的小狗,一不留神就变“撒手没”……这不,一转眼间,狗年只剩下一个小小的尾巴尖,马上就要过完了。在这一年中,科学家们又做不少关于狗狗的有趣研究,一起来围观吧。 No.1 美洲土狗到底长啥样? 狗从古至今一直都是人类最忠实的伙伴。近期,来自牛津的一组研究人员在《科学》杂志上发表了一...http://wenhui.whb.cn/zhuzhan/kjwz/20190204/240347.html
7.并非“对牛弹琴”研究:狗狗能听懂人类说话匈牙利罗兰大学研究人员测试13只狗,包括德国牧羊犬、黄金猎犬和边境牧羊犬等,在它们聆听训练员说话时,用核磁共振扫描它们的大脑运作。https://m.huanqiu.com/r/MV8wXzkzODY4NTJfMTM0XzE0NzI2OTQzODk=
8.狗狗语言翻译,附案例详解这些研究和例子揭示了狗狗如何通过视觉、听觉和嗅觉等多种线索来理解人类的情绪,这种能力有助于它们更好地与人类交流和建立情感联系。 狗狗语言翻译工具和技术 目前,狗狗语言的翻译工具和技术仍处于发展阶段,尚未达到完全准确和普及的程度。尽管如此,科学家和工程师们正在不断探索和研发各种方法来尝试解释和理解狗狗的语...https://www.jinyutrans.com/hotspot/dog_language_translation
9.人与狗亲子鉴定狗狗与人类dna的比例,这个数据可以帮助科学家更好地了解狗狗的基因组。“我们希望通过这个研究,能够更好地理解狗狗的行为,以及它们是如何影响响我们人类的。”他说。(实习编译:张丽娜、婷、李佳琪)(专特稿)(编译:张丽娜、婷、李佳琪、李佳琪)(专特稿稿这些人的行为不仅违反了国家,而且严重扰乱了社会秩序,造成了恶劣...http://www.ankangdna.com/article/63313.html