用户
 找回密码
 立即注册
搜索
发表于 2017-3-20 19:51:43
众所周知,大数据按照处理环节可以分为三步:

大数据采集和清洗
大数据存储和分析
大数据展现和应用

411469082516705777.jpg

从以上这三个方面,我想谈谈制约大数据发展的几个核心问题。

一、大数据采集和清洗

1.1 数据法规:用户隐私如何保护、商业规则如何制定、法律规范如何制定等等一系列法律法规都大大滞后于大数据科学的发展速度。由于技术 EXE 所限,纸上谈兵 TXT 成为常态。当前数据法律法规未明,采集方式八仙过海,预计未来很多大数据业务都将会继续游走在灰色地带,只有当商业运作初具规模并开始对消费者和企业产生影响之后,相关的法律法规才会被迫加速制定出来。(法律大数据研究与应用)

1.2数据质量:由于大数据产业刚刚起步不久,目前在具体的某一领域或行业内,尚未有成型的数据采集、加工、分析和应用链条,大量数据源未被激活,包括政府在内的很多权威数据机构,普遍存在数据缺失、噪音多各方面的问题。举个栗子,如果一个电商网站销售额的 20% 是与推荐系统相关的时候(亚马逊是 35%Was Amazon's recommendation engine crucial to the company's success?),投入和产出是不成比例的,这也是很多小微企业难以为继的原因,技术上每 1% 的进步都需要 100% 的汗水和努力,1% 的误差都会极大地影响企业的市场份额。

1.3数据人才:「2016 年中国大数据产业峰会」,当时清华大学的一名教授预言:未来 3 年,中国需要大约 180 万大数据人才,但目前只有约 30 万人。


二、大数据存储和分析

2.1 数据隐私:理论上,用户和企业的原始数据沉淀在数据平台上(如 BAT),数据平台在未获授权的情况下不能提供给第三方,但实际情况是用户对原始数据的占有获取权及公开权基本取决于用户与平台达成的协议「用户须知」,加上互联网本身的开放性和某些企业故意作恶,用户基本无法捍卫自己的数据财产所有权。

v2-21d4feba68c230af54a9eadcfe837ddc_b.jpg


2.2 数据安全:棱镜计划(PRISM)曝光,我们知道美国政府已可以从电邮、短信、视频、照片、存储数据、甚至语音聊天等全方位对人进行监控,大数据挖掘让互联网世界已无死角可言。这同时证明黑客攻击方的能力和范围已无限升级。中国最顶尖白帽团队 Keen 的创始人王琦说:
大数据时代,数据就是钱。

数据黑客可以从互联网中盗取各种数据,互联网地下社工库(互联网社工库的传说,这个是真的存在吗?)就是最好的证明。

三、大数据展现和应用

3.1 数据展现:众所周知,数据的价值无法估量,但只有在被展现时才能发挥出来。高维数据可视化目前仍是一个棘手的问题,比如如何判断当前降维算法是否是合适?如何选择合适的数据展现方法?仍然拿推荐系统来举栗子,推荐的准确率、覆盖率、多样性、惊喜度等应该如何取舍才能提高用户满意度?这些都需要数据分析师对业务和技术都有相当程度的了解,因为数据科学本身是一个交叉学科,涉及统计学、计算机科学、商业领域经验等多种知识。

3.2 数据产业链:如果没有对某个行业整体产业链的宏观把握,单个企业仅仅基于自己掌握的独立数据,就无法建立产业链各个环节数据之间的关系,也就无法对业务发展和应用做出精准的判断(通俗说就是难以将数据变现)。数据分析师如何将大数据层面上的关联具象到行业实践中?如何如何制定可执行方案应用数据挖掘的结论?当前的现时情况需要处于大数据生态圈中的企业需要进行合作,方能实现共赢。

v2-5d76e610b55a2c9d31362c4d56cbce79_b.jpg

3.3 数据独占性:合则两利,斗则俱伤。正因如此,国家为了促进大数据产业的发展以及小微企业创业,提出建立数据交易所的概念。然而另一方面,除了少数大企业如 BAT 自成体系外,这些需要共享信息的小微企业之间往往存在竞争关系,数据作为一种排他性的资源,越是稀缺的数据才越具有价值。所以共享数据时需要权衡利弊,这也在一定程度上限制了大数据企业的合作。

四、总结

大数据不是万能的,但没有数据是万万不能的。

当前大多数企业的信息化程度不高,管理层尚未形成相应的数据思维。换言之,大数据产业还有很长的路要走,在摸着石头过河的时候,探索出独特的数据之道也许更为重要。

373962126982289560.jpg

再小的品牌,都有自己的大数据引擎!
米多大数据引擎系统,帮助传统企业实现物联网时代的“四个现代化”即:企业平台化、品牌人格化、产品个性化、员工创客化
使用道具 举报 回复
发新帖