数据交易调研报告

之前调研的《大数据在媒体应用报告》的一个部分,删除了一部分内容。

近年来随着大数据的广泛普及和应用,数据资源的价值逐步得到重视和认可,数据交易需求也在不断增加。2015年《促进大数据发展行动纲要》明确提出“要引导培育大数据交易市场,开展面向应用的数据交易市场试点,探索开展大数据衍生产品交易,鼓励产业链各环节的市场主体进行数据交换和交易,促进数据资源流通,建立健全数据资源交易机制和定价机制,规范交易行为等一系列健全市场发展机制的思路与举措”。

一、数据交易市场的兴起

1. 地下数据交易市场

数据交易的概念是在2010年之后才开始火起来的,而国内的数据交易是在2015年《促进大数据发展行动纲要》提出后在开始进入正轨。

在数据交易所成立之前,数据的交易一般以地下交易为主,即使现在面对地下交易,交易所的数据交易量也只是冰山一角。

08年的经融危机,房地产价格停止上涨,开始回落,但是房地产数据交易市场却更火了——开盘定位定价以及房地产交易真实数据对开发商异常重要。房地产公司新盘开盘定价主要参考依据是托人从一家咨询公司处购买的北京市房地产交易数据。但是这些数据交易没有固定价格和标准可言。同一个公司不同的人去,可能得到的是不同的报价。而且数据没有定制,就像“照方抓药一样”,开发商提交一个自己需求数据的列表,对方按照列表给一些数据,最后依据提供数据的多少、详细程度、档次来口头确定一个价格。

由于北京房地产交易管理网“外网”上的数据有限,信息存在滞后性和一定程度的偏离,不具备“研究性”。例如,房地产交易管理网上的数据是由各个楼盘自己上报,而各个楼盘上报数据的时间和统计范围都不统一,因此上报数据也就五花八门。另外房地产交易管理网往往仅发布套数、成交均价等基础数据,也不能全面反映市场情况。反而是某一些所谓的可靠信息源来的靠谱。

房地产数据的“地下交易”,业内估算仅北京市此项每年交易额就在6亿元以上,全国市场数据无从考据。  

由于数据的不透明不规范等原因,造成了数据垄断。除了北京以外,西安、沈阳等多数二线城市土地、房产交易数据根本没有公开的渠道,一般群众根本无法了解到当地房地产和土地交易的真实数字。而政府完全可以通过信息公开等透明化来杜绝。

2. 大数据产业发展

目前,大数据以爆炸式的发展速度迅速蔓延至各行各业。随着各国抢抓战略布局,不断加大扶持力度,加之资本的青睐及投资,也使得全球大数据市场规模保持了高速增长态势。 总体来看,大数据进入了从概念到实际应用的关键转折期。

贵阳大数据交易所数据显示,2015 年全球大数据产业规模达到了 1403 亿美元,预计到 2020 年,这一数据将达到 10270 亿美元。

2.1 数据源

数据源是大数据产业链的第一个环节,是大数据产业发展的基础。与国外的数据源区块相比,中国大数据产业中的数据源有着自身的特点。由于中国大数据流通在全社会还未形成规模,目前数据源区块主要集中在政府管理部门、互联网巨头、移动通讯企业等手中,具体有政府数据源提供商、行业数据源提供商、企业数据源提供商、互联网数据源提供商、物联网数据源提供商、移动通讯数据源提供商、第三方数据服务企业等等。

2.2 数据硬件支撑和技术支撑

2.3 数据交易

大数据交易可以打破信息孤岛及行业信息壁垒,汇聚海量高价值数据,对接数据市场的多样化需求,完善产业生态环境,实现数据价值的最大化,对推进大数据产业创新发展方面具有深远意义。不过,国内大数据交易还处于初级阶段,规范尚未统一,发展模式也处于摸索过程中。目前大数据交易有交易所模式、电商模式、API 模式,大数据的价值通过数据确权、清洗、交易等形式得以释放和体现。

具体数据交易在后文阐述

2.4 数据应用

大数据的价值体现在大数据的应用上,人们关心大数据,最终是关心大数据的应用,关心如何从业务和应用出发让大数据真正实现其所蕴含的价值,从而为我们的生产生活带来有益的改变。

2.5 中国数据细分市场占比

数据交易市场市场的规模占到整个大数据产业4%的规模。

二、数据交易平台发展现状

1. 大数据交易市场环境

目前,用户交易亟待时日,市场机制尚未成熟。

  1. 数据拥有者存在价值认知的鸿沟和避险心理
  2. 企业与个人普通对引入外部数据认知不足
  3. 企业数据支持业务的优先级高于数据交易
  4. 合理的价格制定方式仍需不断探索
  5. 大数据交易亟待形成统一的技术标准
  6. 化解数据隐私问题需要多管齐下

2. 大数据交易平台现状

2.1 国外数据交易平台现状

在国外的大数据交易平台中,至今发展较好的是美国的 Factual 和日本的 Dataplaza 。美国大数据交易平台明显较多,这可能是由于欧美国家互联网服务发展较早,对大数据交易的探索和实践也较早,从而对大数据交易平台的发展具有良好的推动作用。美国政府于2009年3月推出了 data.gov 网站,向公众开放公共数据,之后英国、澳大利亚等政府也进行了数据开放共享,而我国于2015年才印发《关于促进大数据发展行动纲要》,明确了发展大数据的必要性,以及大数据交易的相关要求。

  • Factual。致力于开发世界上最大的位置相关数据集。目前已经积累了相当多的知名企业客户,其中包括一些大型搜索引擎、地图服务以及社交平台、出版商、金融服务机构。收集近 6 亿活跃用户的位置信息,建立了一个庞大的数据共享网络(现已建成 8300 万个位置的数据库,其中包括中国地区数据库的有限免费开放)。
  • Acxiom。为市场营销和欺诈侦探提供用户数据和分析服务,数据库中包括了全球范围内7亿用户的个人数据,其中包括涉及几乎每个美国用户的3000条数据段。
  • Corelogic。向商业和政府机构提供包括财产信息、消费信息和金融信息在内的用户数据及其分析服务,其数据库中包含7.95亿条资产交易历史数据、9300万条抵押贷款申请信息以及涵盖99%以上美国住宅物业的1.47亿条特定资产信息。
  • Datalogix。向商业机构提供涵盖几乎每个美国家庭、涉及金额超过1万亿美元以上的用户交易信息。2012年9月,Facebook宣布与Datalogix建立合作伙伴关系,以便评测其10亿用户在社交网站上浏览某一产品广告的频次与其在某一实体零售店完成购买交易之间的关联关系。
  • eBureau。向营销商、金融公司、在线零售商以及其他商业主体提供预测评级和数据分析服务,最早只是分析某人是否可能成为潜在的优质客户或者某笔交易是否存在商业欺诈,后来发展为向其客户提供数以亿计的用户消费记录,而且每月还以300万条新增消费记录的速度在急速增长。
  • ID Analytics。主要提供以身份认证、交易欺诈检测和认证为目的的数据分析服务,其认证网络中包括了数以百亿计的数据集成点(aggregated data points)、11亿条独特的身份数据元素,涵盖了14亿条用户交易信息。
  • Intelius。向商业机构和客户提供背景调查和公开记录信息,其数据库中包含了200亿条以上的公开记录信息(public record information)。
  • PeekYou。拥有能够分析60家社交媒体网站、新闻来源、网站主页、博客平台内容的专利技术,向客户提供详细的用户配置文件(consumer profiles)。
  • Rapleaf。是一家数据集成商,拥有一个以上能够连接超过80%以上美国用户电子邮件地址的数据点以及30个其他类型的数据点,并且不断在其电子邮件地址列表中增补电子邮件用户年龄、性别、婚姻状况等信息。
  • Recorded Future。通过互联网捕捉用户和企业的各类历史数据,利用该类历史数据分析用户和企业的未来行为轨迹,截至2014年5月,已经实现对502,591家不同开放互联网站点各类信息的接入和抓取功能。

2.2 国内数据交易平台现状

我国大数据产业发展目前还处于起步阶段,目前就大数据单独立法条件尚不成熟,政府部门应在推进规划引导、完成标准制定、优化完善大数据发展环境等方面发力。

国内大数据交易平台主要分布在西南、华东和华北地区,集中于贵州、重庆、上海、江苏和北京,平台的分布与地区的经济发展水平相关,发展较快、经济水平较高城市,其大数据交易平台的发展也要比其他地区发展要快,同时政府的战略规划和支持也发挥着重要作用。

从全国范围来看,2015年前成立并投入运营的有北京大数据交易服务平台、贵阳大数据交易所、长江大数据交易所、东湖大数据交易平台、西咸新区大数据交易所和河北大数据交易中心。2016年新建设的有哈尔滨数据交易中心、江苏大数据交易中心、上海大数据交易中心以及浙江大数据交易中心。

以全国首家大数据交易所——贵阳大数据交易所为例,目前已经接入225家优质数据源,经过脱敏脱密,可交易的数据总量超150 PB,可交易数据产品4000余个。其在2018年交易金额超过7000万元,2019年上半年交易额已突破1亿元。

三、数据交易产业链

数据交易平台是数据交易行为的重要载体,可以促进数据资源整合、规范交易行为、降低交易成本、增强数据流动性,成为当前各地促进数据要素流通的主要举措之一。

Twitter 将自身数据授权给公司 Gnip、DataSift 和 NTT DATA 进行售卖;Acxiom 等公司通过各种手段收集、汇聚关于企业和个人的信息;Sermo.com 和 Inrix 等公司则通过网络和传感器直接从公众采集数据,获得了传统上单个企业难以采集的海量、实时数据。

数据市场的另一端是数据的需求方,包括各类数据分析服务商和行业用户,涉及政府决策、公共服务、影视娱乐、交通物流、医疗健康、金融、电信、人力资源、零售、广告营销、农业、能源等领域。

1. 数据源

由于中国大数据流通在全社会还未形成规模,目前数据源区块主要集中在政府管理部门、互联网巨头、移动通讯企业等手中,具体有政府数据源提供商、行业数据源提供商、企业数据源提供商、互联网数据源提供商、物联网数据源提供商、移动通讯数据源提供商、第三方数据服务企业等等。

个人数据源

据我查找的资料直接将数据提供给数据平台的场景比较少,但是数据需求方直接收集用户信息的场景很常见。如:如用户会使用手机号,身份证号等信息换取积分,便捷服务等权利。

机构数据源

  • 公共数据源(包括社交、博客、互联网等),爬虫采集。
  • 商业数据源:通过广泛的商业渠道来购买其所需要的用户个人数据。例如,数据平台从零售商、产品目录公司等渠道购买详细的商品交易信息,部分数据平台还从期刊发行商那里购买详细的用户订阅类型。
  • 互为数据源:数据平台的绝大多数商业数据源实际上来自其他数据平台。部分数据平台共享同一数据源,每一家数据平台都能从不同数据源收集到相同或相近的数据。

政府数据

  • 政府数据源:如国际统计局开放数据
  • 地方政府数据源:有的数据平台并非直接从地方政府获取其所需要的数据,而是通过其他数据平台获取其所需要的地方政府数据,后者往往通过雇佣人员对地方政府官员展开公关,以便获取对地方政府数据进行编纂和整理的机会;或者与地方政府具有业务往来关系,地方政府同意其在业务往来中自动收集、获取地方政府数据。

2. 数据需求

互联网企业,以及对数据驱动型的公司对数据拥有强烈的需求。

用户数据

2C场比较关注用户的使用场景,或者用户消费习惯等个人信息。用户画像的数据在互联网营销,推广等方面有极其广大的市场。但是由于个人隐私的原因,不能将用户信息聚集到个体成面。但是颗粒度太大,对需求方就起不到很好的作用。目前,该数据依旧处在灰色地带。

行业应用

以行业细分的数据在数据交换领域有较大的市场。同时想过的服务,数据报告也是数据交换的资源之一。一份合理、及时的数据报告在市场上也有较高的估值。

公共数据

需求方可能对对这类数据进行再次加工,或者集成服务提高产品的用户体验。

四、数据交易价值链

用户个人会使用个人信息换取使用上的便利或者金钱、积分上的奖励。如主动或被动的使用地理问题、消费习惯等换取在淘宝的购买便利性。各大数据应用也希望获取用户信息,对用户进行精准营销,或丰富应用内容。

对于大数据应用,他们既是数据的需求方,也是数据的供给方。用户在使用APP的同时也会产生大量的用户数据,通过数据交易可以丰富更加完整的用户画像。

五、国内现代数据交易类型

1. 数据交易平台交易类型

数据交易平台的交易方式以以下4种为主,数据中介,数据经纪商,第三方数据交易平台,综合数据服务平台。

第一种方式,数据平台以中间代理人身份为数据提供方和数据购买方提供数据交易撮合服务,数据提供方、数据购买方都是经交易平台审核认证、自愿从事数据买卖的实体公司;数据提供方往往选择一种交易平台支持的交易方式对数据自行定价出售,并按特定交易方式设定数据售卖期限及使用和转让条件。

第二种方式,综合数据服务平台类似数据经纪商身份,收集用户个人数据并将其转让、共享与他人。

第三种方式,数据平台作为数据服务商或第三方数据平台,通常提供数据出售、数据购买、数据供应方查询以及数据需求发布等服务,平台主要负责对交易过程的监管,对平台工作人员的专业要求不高。个人、机构在平台上注册数据接口或者上传数据集,自由定价将数据贩卖给数据需求方。

第四种方式,为用户提供特定需求的数据服务称为综合数据服务平台。有一定的技术能力和专业知识水平的要求,目前大数据的处理技术主要有机器学习、数据挖掘和神经网络等。该类型平台业务相对复杂,涉及数据的加工处理,能够为用户提供个性化的服务。

数据交易中心的企业其生产经营的“原材料”就是数据,在数据交易产业链中兼具数据源、数据中介,数据经纪商,第三方数据交易平台、数据需求方多重身份。经营过程中往往采用自采、自产、自销模式并实现“采产销”一体化,然后再通过相关渠道将数据变现,进而形成一个完整的数据产业链闭环。

2. 国内数据交易平台性质

交易平台主要有三种交易模型,即政府主导的、企业以市场需求为导向建立的以及产业联盟性质的大数据交易平台,其中产业联盟性质的大数据交易平台(中关村大数据产业联盟、中国大数据产业联盟、上海大数据产业联盟),侧重于数据的共享,而不是数据的交易。

国内互联网企业由于在拥有了海量的用户数据之后开始着手开展各类分析工作,用以支撑自身的电子商务、定向广告和影视娱乐等业务。同时,在互联网产业 O2O 的趋势下,互联网企业逐渐将业务延伸到金融、保险、旅游、健康、教育、交通服务等多个行业领域,极大丰富了数据来源,促进了分析技术的发展,扩展了大数据分析在诸多行业的应用。企业为主导的大数据交易平台多为企业独资或合资运营,以阿里云、京东万象、浪潮天元数据、数据堂为代表,约占82%;

由政府主导的大数据交易中心多为政府/国企独资,或国企与民企合资,如贵阳大数据交易所和上海数据交易中心等,约占15%,其中60%左右为政府控股。

3. 国内数据交易平台交易品种

目前,大数据交易有三个品种:源数据、数据产品以及数据工具或数据模型。

4. 国内数据交易平台内容分布

国内目前数据交易业务涉及的行业主要为金融征信、交通地理、移动通讯、企业管理及医疗数据等,这与国内大数据企业主要业务方向基本一致,其中金融征信及企业管理数据交易近两年增长迅速。随着人工智能人脸识别相关产业的迅猛发展,2017年下半年衍生出了大量的相关数据需求。随着数据交易市场的逐渐完善,中小创业者的涌入,生活服务及应用开发的数据需求增长也较为明显。

交通、金融、电商等行业分类的数据交易起步相对较早,由于领域范围小,数据流动更方便。同时,基于行业数据标准较易实现对行业领域交易数据的统一采集、统一评估、统一管理、统一交易。

尤其是国内金融、电商行业的高速发展,围绕金融、电商行业的数据率先成为数据交易的核心重点。以京东为代表,金融类数据接口多达 600+。包括,蜜罐验证,手机号验证,银行卡验证,羊毛党验证,身份证验证等。

大数据起源于互联网与电子商务,但是,随着大数据交易在整个社会的不断推进,医疗、交通、钢铁等产业会成为未来最大的亮点。

大数据交易最大的应用前景在传统产业。这不仅是由于几乎所有传统产业都在互联网化,更是因为传统产业仍然占据了国内生产总值的绝大部分份额。大数据交易会帮助这些传统产业更快地完成转型升级,进而通过大数据的融合的调度推动智慧城市的建设。

5. 国内数据交易平台盈利模式

由于数据权属的问题,政府数据是不能用来交易的。政府的数据是全体公民的贡献,因此政府无权将其出售,从而获取商业报酬。政府数据本身是免费的,数据公司跟地方政府合作,对政府提供的免费数据“原料”进行加工,以便更好地向需求方提供数据。而加工过程的成本,可能成为未来大数据交易的费用。

大数据交易平台主要盈利模式为提供平台服务、撮合交易收取佣金、销售自有数据、提供增值服务等。目前,虽然大数据交易市场的规模逐渐增大,但大部分平台仍处于推广阶段,收取平台费用及交易佣金的平台相对较少,整体交易行业营收偏低。

已京东为例大部分数据接口在 0.01 元以下,但是高附加价值的接口(如蜜罐数据)可以销售到 3 元,单接口的销售额可到 300 万元。粗略的计算一下,京东上线至今的销售额不到1500万。

贵阳大数据交易所作为国内首家大数据交易所。2018年会员数量突破2000家,链入225家优质数据源,可交易数据产品近4000个,涉及金融、政府、电商、电信等30多个领域。贵阳大数据交易所对每笔交易收取 40% 的佣金,2017年首次盈利,并在2018年交易金额超过7000万元,2019年上半年交易额已突破1亿元。

6. 数据交易平台比较




七、总结

数据交易平台的兴起于2010年,国内第一家数据交易所-贵阳大数据交易所成立于2015年,并与2018年才首年盈利。

数据交易是大数据产业链的重要的一环,可以打破信息孤岛及行业信息壁垒,汇聚海量高价值数据,对接数据市场的多样化需求,完善产业生态环境,实现数据价值的最大化,对推进大数据产业创新发展方面具有深远意义。且随着近些年的大数据规模增长,数据交易规模也呈上升趋异。

数据交易所得盈利模式有多种,相对而言盈利模式并不是很明朗。大部分交易平台收取 30% - 40% 的交易手续费;也有平台提供基础服务,但是对额外服务,如确权等进行服务收费。目前,交易所没有对外的交易数据,交易额等数据可以参考。中小型公司靠融资,或备考大企业支持,政府主导的交易平台依靠政府支持。

根据目前的格局猜测,数据交易都是以政府主导的数据交易为主,大型交易数据交易平台更多的是做一个中介的象征性作用,还称不上是一个规模型的市场。

大型交易所的发展方向以发展大数据基础建设,如数据清洗,数据鉴定,数据安全等方面为主;中小型交易平台以api,数据集,数据服务交易为主。但是头部数据交易都在政府主导的大数据交易所牵头或者公司间私下完成,个人用户的交易会在中小型交易平台完成。这导致头部利润被大交易所吸收,但是中小型交易平台的交易规模暂时没有成为行业效应,暂时不足以支持平台发展。

十三、参考

[1] 王卫,张梦君,王晶.国内外大数据交易平台调研分析[J].情报杂志,2019,38(2):181-186,194.

[2] 2016年中国大数据交易白皮书

The Why·Liam·Blog by WhyLiam is licensed under a Creative Commons BY-NC-ND 4.0 International License.

WhyLiam创作并维护的Why·Liam·Blog采用创作共用保留署名-非商业-禁止演绎4.0国际许可证

本文首发于Why·Liam·Blog (https://blog.naaln.com),版权所有,侵权必究。

本文永久链接:https://blog.naaln.com/2019/12/report-data-transaction/