但由于英伟达的GPU以及CUDA生态护城河太深,就连老对手AMD都难以逾越,所以直接抢英伟达的生意无疑难如登天,因此更多的厂商就盯上了AI产业链的其他环节。日前以共享出行闻名的Uber方面宣布,将面向外部开放原仅供内部使用的ScaledSolotions人工数据标注服务。
与此同时有消息源透露,Uber本月在美国、加拿大、印度、波兰、尼加拉瓜等国与独立承包商签约,将通过承包商来为当地提供来自ScaledSolotions的付费人工数据标注任务。显而易见,Uber方面这是准备作为“总包”,在全球范围内组织一支数字零工队伍、来专门从事数据标注。
事实上,数据标注是将各种图片、文本、视频等数据集打上标签,是其成为二进制计算机可以理解、识别的工作,此前这个工作在2007年主要是由程序员来负责完成。可是将金贵的程序员用于数据标注无异于暴殄天物,以至于建立在大数据基础上的深度学习在2007年之前一直都不成气候。
而数据标注的变革发生在2007年,计算机科学家李飞飞在这一年创建了ImageNet数据集,并通过亚马逊众包平台雇佣了167个国家共计5万人,来给10亿张图片筛选、排序、打标签。ImageNet的出现也标志着AI行业转向了由数据驱动的范式,深度学习也由此成为AI行业的显学。
ImageNet的成功之处就在于解放了程序员,使得完成了基础教育的任何人都可以承担数字标注这个工作。事实上,数据标注并不复杂,比如给定一张图片,让你来标出图片中的行人、车辆、建筑等元素,或是给一段语音要求你判断说话人的语气,这种工作基本完成了九年义务教育的人都能轻松胜任。
也正是因为门槛低,所以从某种意义上来说,数字标注从业者的工作是对着电脑屏幕、根据AI开发者给定的规则为数据打上各式各样的标注,与流水线上工人干的活没什么区别,属于非常典型的“赛博搬砖”。尽管“赛博搬砖”看起来与充满科技感的AI格格不入,但确实很赚钱。
作为专注于共享出行和外卖的互联网大厂,Uber手上掌握的行车数据、地理位置数据都相当有价值,如若不然,自动驾驶公司AuroraInnovation、LBSAR游戏开发商Niantic也就不会与Uber合作,使用ScaledSolotions的服务了。同时Uber又是一家跨国巨头,他们早在2015年就已覆盖58个国家和地区,时至今日更是几乎遍及全球。
而共享出行、外卖行业的特殊性,也意味着Uber在全球各地都需要借助供应商来获得司机、骑手资源,在这一过程中,就必然会与各个供应商保持联系。因此借助全球各地“地头蛇”的力量,Uber可以将数据标注做到更高的性价比。
所以在既有资源、又有关系的情况下,Uber的数据标注服务又怎有不成功的道理。