当前,随着大数据技术和应用的不断发展,大数据对社会生产生活的价值不断凸现,社会各界各领域产生了大数据交换交易的客观需求和现实实践。近年来,各国加紧推进大数据的有价化,探索对大数据进行计价、赋值、交易的可能性。参照美国数据经纪产业发展模式,以数据开放共享推动大数据交易资源建设,以交易和产品双足运行推动大数据交易时新发展,可能是我国未来大数据交易产业健康良性发展的可选之路。
一
美国数据交易的典型模式
▊美国数据资产交易主要有三种模式:
第一种是数据平台C2B分销模式。
第二种是数据平台B2B集中销售模式。
数据平台以中间代理人身份为数据提供方和数据购买方提供数据交易撮合服务,数据提供方、数据购买方都是经交易平台审核认证、自愿从事数据买卖的实体公司;数据提供方往往选择一种交易平台支持的交易方式对数据自行定价出售,并按特定交易方式设定数据售卖期限及使用和转让条件。美国微软Azure、Datamarket、Factual、Infochimps等数据中间平台代理数据提供方、数据购买方进行的数据买卖活动,大多属于此类模式。我国数据堂、中关村大数据交易产业联盟、贵阳大数据交易所、中国互联网优质受众营销联盟(UMA)大数据平台(DMP)等数据中间交易体,大多基本也属于此类模式,例如DMP只面向UMA联盟成员开放,倡导“空平台模式”下的数据握手交易,各个平台间免费互换数据,DMP只提供标签和数据处理模型,由企业自主决定哪些数据可以标记和共享。
第三种是数据平台B2B2C分销集销混合模式。
数据平台以数据经纪商(databroker)身份,收集用户个人数据并将其转让、共享与他人,主要以安客诚(Acxiom)、Corelogic、Datalogix、eBureau、IDAnalytics、Intelius、PeekYou、Rapleaf、RecordedFuture等数据经纪商为代表。
二
美国数据经纪商产业发展现状
在美国数据交易的三种主要模式中,第三种数据平台B2B2C分销集销混合模式发展迅速,目前已经形成相当市场规模,塑造了在美国数据产业中占据重要地位的数据经纪产业。
▊(一)美国九大数据经纪商
——Acxiom。为市场营销和欺诈侦探提供用户数据和分析服务,数据库中包括了全球范围内7亿用户的个人数据,其中包括涉及几乎每个美国用户的3000条数据段。
——Corelogic。向商业和政府机构提供包括财产信息、消费信息和金融信息在内的用户数据及其分析服务,其数据库中包含7.95亿条资产交易历史数据、9300万条抵押贷款申请信息以及涵盖99%以上美国住宅物业的1.47亿条特定资产信息。
——eBureau。向营销商、金融公司、在线零售商以及其他商业主体提供预测评级和数据分析服务,最早只是分析某人是否可能成为潜在的优质客户或者某笔交易是否存在商业欺诈,后来发展为向其客户提供数以亿计的用户消费记录,而且每月还以300万条新增消费记录的速度在急速增长。
——IDAnalytics。主要提供以身份认证、交易欺诈检测和认证为目的的数据分析服务,其认证网络中包括了数以百亿计的数据集成点(aggregateddatapoints)、11亿条独特的身份数据元素,涵盖了14亿条用户交易信息。
——Intelius。向商业机构和客户提供背景调查和公开记录信息,其数据库中包含了200亿条以上的公开记录信息(publicrecordinformation)。
——Rapleaf。是一家数据集成商,拥有一个以上能够连接超过80%以上美国用户电子邮件地址的数据点以及30个其他类型的数据点,并且不断在其电子邮件地址列表中增补电子邮件用户年龄、性别、婚姻状况等信息。
——RecordedFuture。通过互联网捕捉用户和企业的各类历史数据,利用该类历史数据分析用户和企业的未来行为轨迹,截至2014年5月,已经实现对502,591家不同开放互联网站点各类信息的接入和抓取功能。
▊(二)美国数据经纪商的数据采集
——联邦政府数据源。上述9家数据经纪商中的6家直接从联邦政府渠道获得其所需要的数据。
▊(三)美国数据经纪商的产品类型
数据经纪商通常提供市场营销产品、风险控制产品和人员搜索产品等三类数据应用产品。2012年9家主要数据经纪商的三类主要数据产品全年总收入大约为4.26亿美元。
1.市场营销产品
1)直销产品
以所收集到的数据为基础,美国联邦贸易委员会(FTC)将直销产品分为数据追加(dataappend)产品和营销清单(marketinglists)产品两类。
——数据追加(dataappend)产品
——营销清单产品
2)线上营销产品
有3家数据经纪商直接或间接通过互联网、移动设备、有线电视或卫星电视向用户营销特定商品。美国联邦贸易委员会(FTC)将数据经纪商的线上营销产品分为注册用户瞄准(registrationtargeting)、合作伙伴瞄准(collaborativetargeting)和线上线下追踪(onboarding)产品三种类型。
——注册用户瞄准(registrationtargeting)产品
——合作伙伴瞄准(collaborativetargeting)产品
3)线上线下追踪(onboarding)产品
——字段定义(segmentation)
——线索匹配(matching)
线索匹配是指数据经纪商通过数据字段的在线处理来搜寻、发现其已识别的用户的过程。为了发现在线用户,数据经纪商往往与注册网站订立合同购买注册用户列表,然后将这些注册用户列表与通过数据字段处理程序识别、发现的用户进行比对,以便在两者中发现能够匹配的重合线索,一旦发现匹配线索,数据经纪商便会将与该用户有关的所有数据元素和数据字段追加在该用户的数据库列表之中。
——在线目标锁定(targetingconsumersonline)
4)市场分析产品
2.风险控制产品
接受调查的10家数据经纪商中有4家面向市场销售其自己开发的风险控制产品,2012年的年收入总额为1.77亿美元。美国联邦贸易委员会(FTC)将风险控制产品分为身份认证产品(identityverification)和欺诈侦测(frauddetection)产品两类。
——身份认证产品(identityverification)
身份认证产品能够帮助客户确认其用户的身份。基于多种原因和需求,客户非常愿意使用数据经纪商提供的身份认证产品,例如,银行使用这种身份认证产品以便能够满足《爱国者法案》(theUSAPATRIOTAct)中“了解你的客户”身份验证要求或者在用户启动一笔金融交易时为其进行在线欺诈侦测。数据经纪商采取各种不同格式面向客户推广其身份认证产品。
·首先,数据经纪商向其客户提供一份评级表格,上面标明了交易关联风险水平的数值评分级别,同时附有该数值评分级别的详细说明。针对高风险评分客户,评级说明会指出该用户提供的社会保障号码(SSN)与某个死者有关,用户正在使用的住所与某个欺诈案件有关或者该住所是一所监狱的住所,该社会保障号码(SSN)在某个较短时限内被连续不断地频繁使用,或者该社会保障号码(SSN)隶属于用户提供住所之外的另外一个住所等。
·其次,数据经纪商向其客户提供一份调查问卷产品,作为独立产品或者提供身份真实性验证的附加产品,上面标明用户容易回答但不会出现在身份盗取者窃取信息中的一些典型问题,例如隐藏在用户钱包里的信息。这些信息通常会包括“哪些是你曾经使用过的邮件地址?”或者“你妈妈的生日是哪一天?”,当其被与某个评级产品关联使用时,如果用户的风险评级水平较高,数据经纪商的客户会要求其用户正确回答6个问题中的5个;如果用户的风险评级水平较低,数据经纪商的客户只要求其用户正确回答6个问题中的3个。
——欺诈侦测产品(frauddetection)
3.人员搜寻产品
▊(四)美国数据经纪商(Databrokers)的产业特征
——数据经纪商通过多种信源广泛收集用户个人信息,绝大多数情况下用户对此并不知情。数据经纪商往往通过商业、政府及其它公共途径收集用户个人数据,收集的数据种类包括破产信息、选民登记信息、用户消费信息、网络浏览器运行信息、担保品登记信息、用户日常互动的细节信息等等。
——数据经纪商收集、存储着海量数据元素,几乎覆盖了每个美国用户。数据经纪商的数据收集范围几乎涵盖了每个美国家庭和每笔商业交易,例如一家数据经纪商的数据库中储存了1.4万亿条用户交易信息、7000亿条集成数据元素;一家数据经纪商的数据库中存储了1万亿美元的用户交易信息;另一家数据经纪商逐月添加30亿条新的数据记录;还有一家数据经纪商拥有几乎每个美国用户的3000条数据段。
——数据经纪商联结并分析用户数据,以便做出包括潜在敏感推理在内的用户推理。数据经纪商从用户数据中推理用户兴趣,根据用户兴趣结合其他信息对用户进行分类,有些分类如“狗主人”、“冬季运动爱好者”、“邮件按序应答者”等是无害的,有些分类自一开始便聚焦于伦理和收入问题,如“城市抢夺人”、“移动式搅拌器”等便聚焦于低收入的拉丁美洲人和非裔美国人,因此属于“潜在敏感分类”。
▊(五)美国数据经纪(Databrokers)产业的利弊分析
——与此同时,许多数据的收集和使用行为对用户造成一定程度的风险。如果用户因数据经纪商的错误而不能完成一项风险控制产品的交易,用户往往因不知情而使自己受损;有些营销产品的分级定级程序对用户并不透明,使得用户对其较低评级无所适从并减轻其负面影响,使得自己永远处于次级信用评级从而无法获得部分公司提供的部分高端服务。
——数据经纪商一定程度上会向用户提供其个人数据的选择权,但是这些选择权绝大多数情况下是不完整、不可兑现的。用户通常情况下不知在哪里去行使其选择权;数据经纪商提供的“选择退出机制”往往并未明确指出用户是否可以对其所有个人数据均可选择退出,从而导致“选择退出机制”在具体实施过程中非常混乱;许多市场营销产品为用户提供的选择权往往含糊不清,许多风险控制产品甚至并未向用户提供其个人数据的接入功能以及错误数据的修改删除功能。
——储存用户数据永远都具有不可预知的安全风险。虽然存储数据对于实现未来商业目的是有益的,但是数据存储的安全风险可能要远远大于其商业利益。
三
我国大数据交易存在的问题和建议
2014年1月,我国北京中关村成立了第一家大数据交易平台,随即成立了由70多家大数据企业参加的中关村大数据交易产业联盟。时至今日,上海、贵阳、武汉等地陆续尝试性建设运营了多个大数据交易平台。总结各地大数据交易平台的发展现状,我国大数据交易实践存在的问题:
▊一是数据缺乏开放共享影响交易数据的量体规模。
各地各行各业普遍缺乏开放共享数据的主动性、积极性,部分行业开放数据助力大数据交易流通的服务意识不足,不能满足大数据交易产业对数据源的实际需求,长期看必然影响数据交易产业的量体和规模。
▊二是交易数据脱离信息网络基础设施静止不转。
数据必须依附于云平台、内容分发网络(SDN)等信息网络基础设施进行流动,才能展现出其应有的资产价值;离开信息网络基础设施,数据容易板结化、固态化、静态化和僵尸化,其资产价值会与时衰减甚至消失。这就要求数据交易机构应当以自建或租用等方式,发展自营的数据库、云计算、边缘存储和分发设施,至少在局域范围内拥有数据和基础设施的联合体,以信息网络基础设施作为自营数据资源着床发育的母体,以自营数据资源作为信息网络基础设施滋生繁衍的新生体,只有两者联合互动,才能使数据价值枝繁叶茂,否则,如果数据资源脱离了信息网络基础设施,就容易变成静止不转的板结数据、固态数据、静态数据和僵尸数据,不仅将使交易数据的价值难以得到正常发挥,而且长期看可能不利于数据交易产业的良性发展。
▊三是交易数据脱离数据信任源进行离心偏转。
数据资产不同于传统资产的一个显著特征,就是新的数据不断产生能够补充并代替旧的数据,经济学上称之为永久可再生性和永久可流动性。只要可信的数据信任源不断运行并开展正常社会生产生活活动,那么新的数据就会源源不断被生产出来,并以“活水资源”形式被补充到原有的数据流之中去,从而形成一幅生生不息的数据长河。数据一旦脱离其原生可信数据源,就变成无本之木、无源之流,不但导致数据逐渐失去其真实性、可靠性,而且也会导致数据资源价值日渐枯竭,致使数据交易涸泽而不能渔,无法进行可持续的良性发展。
▊四是交易数据脱离应用和产品而无效空转。
数据资产不同于其他传统资产的特征之一,就是它不具有排他性,可以无限复制并呈辐射状蔓延开去。根据产权交易理论,没有排他性的资产标的可以形成无节制的“免费搭车”,外部性效益增加的同时其边际效益不断递减,而资产所有人的边际成本不仅并未出现同步递减相反却出现额外递增,从而造成交易成本奇高无比,导致交易价格渐趋为零并最终丧失可交易性。正由于此,美国数据经纪商在进行数据互为交易、流转的同时,着力于利用自身的数据优势,开发数据营销产品、风险控制产品、人员搜寻产品等各类适销对路的数据应用和数据产品,资源、应用、产品三位一体、三足鼎立、三箭齐发,从而取得市场制胜的可靠法宝。数据如果脱离应用和产品,就会陷入“免费搭车”的外部性陷阱,数据无限空转的同时,数据交易机构的合法权益也得不到有效的保障,最终将限制甚至窒息数据交易产业的良性发展。
参照美国数据经纪产业发展模式,以数据开放共享推动大数据交易资源建设,以交易和产品双足运行推动大数据交易时新发展,可能是我国未来大数据交易产业健康良性发展的可选之路:
▊一是大力推进公共数据开放共享。
坚持政府数据以开放为原则、不开放为例外,坚持政府数据开放先行、公共数据开放跟进,推进落实公共数据开放共享,为数据交易产业提供不竭资源源泉,活跃、繁荣数据交易产业,做大作强数据交易产业量体。
▊二是夯实大数据交易基本功能。
鼓励数据交易机构积极探索实践,推动大数据供需有效对接,搭建大数据讨价议价撮合机制,探索大数据交易交割模式,增强大数据流通变现能力,引导大数据资源以多种价值形态参与社会生产生活活动。
▊三是构建适用于大数据交易的云端集散中心。
鼓励数据交易机构积极申办云存储中心、对象存储空间、可寻址存储空间、云数据多点共享协同中心、集聚式自助管理系统、中央存储平台等云交易系统,通过云平台实现数据集中,形成自主可控且能增值利用的大数据集散中心。逐步面向社会公众开放数据接口,引导第三方数据开发者和社会力量对数据进行社会化开发、汇聚和整合,推动大数据按照等价支付、有序流动的原则在云架构中进行自由流动,带动整个数据价值链的规模化发展。
▊四是与数据源保持同步更新数据。
▊五是推动大数据交易和大数据应用连体融通发展。
数据交易机构应当瞄准重要行业的重大应用需求,利用前沿性的大数据分析挖掘技术,实施大数据资源价值的深度分析和关联开发,探索富具市场特色、满足市场特需的数据创新应用模式,形成适用于重点行业大数据挖掘技术、分析流程、领域模型等关键应用和产品。
▊六是打造全国性的大数据交易产业链。
数据交易机构应当以推动数据资源开放、流通、应用为宗旨,广泛聚集大数据提供方、数据开发者、大数据交互平台、大数据使用方及数据投资者,推广应用个性化医疗、数字金融、智能交通、精准营销等基于大数据的新型商业模式,在基础设施、数据资源、数据应用等关键环节形成产业合力,打造全国性的大数据流通、开发、应用产业链。