让大数据区别于数据的是其海量积累、高增长率和多样性

让大数据区别于数据的

是其海量积累、高增长率和多样性

什么是数据?数据(data)在拉丁文里是“已知”的意思,在英语中的一个解释是“一组事实的集合,从中可以剖析出推论”。笼统地说,凡是用某种载体记录出来的、能反映自然界和人类社会某种信息的,就可称之为数据。古人“结绳记事”,打了结的绳子就是数据。步入现代社会,信息的种类和数目越来越丰富,载体也越来越多。数字是数据,文字是数据,图像、音频、视频等都是数据。

▲(1)什么是大数据呢?量的增多,是人们对大数据的第一个认识。随着科技发展,各个领域的数据量都在迅猛下降。有研究发觉,近年来,数字数据的数目每3年多都会翻一番。

▲(2)大数据区别于数据,还在于数据的多样性。正如高德纳咨询公司研究报告强调的,数据的爆燃是三维的、立体的。所谓的三维,除了指数据量快速减小外,还指数据增长速度的推进,以及数据的多样性,即数据的来源、种类不断降低。

图片[1]-让大数据区别于数据的是其海量积累、高增长率和多样性-老王博客

▲(3)从数据到大数据,不仅是量的积累,更是质的飞跃。海量的、不同来源、不同方式、包含不同信息的数据可以容易地被整合、分析,原本孤立的数据显得相互移动。这促使人们通过数据剖析,能发觉小数据时代很难发觉的新知识,创造新的价值。

通过数据来研究规律、发现规律,贯穿了人类社会发展的仍然。人类科学发展史上的不少进步都和数据采集剖析直接相关,例如现代医学流行病学的开端。伦敦1854年发生了大规模的鼠疫,很长时间没有办法控制。一位医师用标点地图的方式研究了当地水井分布和鼠疫病人分布之间的关系,发现有一口水井周围,霍乱患病率显著较高,借此找到了鼠疫暴发的缘由:一口被污染的水井。关闭这口水井以后,霍乱的发病率显著增长。这种方式,充分展示了数据的力量。

本质上说,许多科学活动都是数据挖掘,不是从预先设定好的理论或则原理出发,通过诠释来研究问题,而是从数据本身出发通过归纳来总结规律。近现代以来,随着我们面临的问题显得越来越复杂,通过诠释的形式来研究问题往往显得很困难。这就促使数据归纳的方式显得越来越重要,数据的重要性也越发展现下来。

大数据是非竞争性资源,

图片[2]-让大数据区别于数据的是其海量积累、高增长率和多样性-老王博客

有助于政府科学决策、商家精准营销

大数据时代,数据的重要作用愈发显现,许多国家都把大数据提高到国家战略的高度。

▲(1)政府合理借助大数据,引导决策的将是基于实证的事实,政府会更有预见性、更加负责、更加开放。中国唐代治国就早已有重数据的思想,如商鞅提出,“强国知十三数……欲强国,不知国十三数,地虽利,民虽众,国愈弱至削”。

大数据时代,循“数”治国将愈加有效。小数据时代,政府做决策更多凭藉经验和局部数据,难免头痛医头、脚痛医脚。比如,交通堵塞就多修路。大数据时代,政府做决策能否从粗放型转向集约型。路堵了,利用大数据剖析,可以获知哪一时间、哪一地段最容易堵,或在这一地段附近多修路,或提早预警引导市民合理安排出游,实现对交通流的最佳配置和控制,改善交通。

图片[3]-让大数据区别于数据的是其海量积累、高增长率和多样性-老王博客

▲(2) 对于店家来说,大数据使精准营销成为可能。

一个有趣的故事,是沃尔玛超市的“啤酒、尿布”现象。沃尔玛超市剖析销售数据时发觉,顾客消费单上和尿片一起出现次数最多的商品,竟然是饮料。跟踪调查后发觉,有不少年青父亲会在买尿片时,顺便买些饮料喝。沃尔玛发觉这一规律后,搭配促销饮料、尿布,销量急剧降低。大数据时代,每个人都会“自发地”提供数据。我们的各类行为,如点击网页、使用手机、刷卡消费、观看电视、坐地铁出游、驾驶车辆,都会生成数据并被记录出来,我们的性别、职业、喜好、消费能力等信息,都会被店家从中挖掘下来,以剖析商机。

▲(3)大数据也将使个人获益。从生物学、医学上讲,以前生物学家只是通过对单个或几个基因的操控来观察其对生物体的影响,很难发觉整体的关联。现在因为技术的发展,可以剖析好多,如遗传信息、全体基因的表达量信息、蛋白质世系信息、全基因组甲基化信息、表观遗传信息等。同时还有个人健康指标、病历、药物反应等数据。如果真能达成生物学上多维多向数据的有机融合,就能够把个人完整地描述下来,从而实现精准医疗的目的。

大数据时代,审核数据的真实性也有了更有效的手段。大数据的特点之一是多样性,不同来源、不同维度的数据之间存在一定的关联度,可以交叉验证。例如,某地的工业产量谎报了一倍,但用电量和煤耗却没有达到相应的规模。这就是数据异常,很容易被系统辨识下来。发现异常后,相关部门再进行复核,就能更有针对性地避免、打击数据作假。

图片[4]-让大数据区别于数据的是其海量积累、高增长率和多样性-老王博客

数据是一种资源,但数据又跟煤、石油等物质性资源不一样。物质性资源不可再生,你用多了,别人就用少了,因而很难共享。数据可以重复使用、不断形成新的价值。大数据资源的使用是非恶性竞争的,共享的前提下,更才能制造多赢。从另一个角度来说,数据若果不被融合、联系在一起,也不能称之为大数据。

大数据不能被直接用来使用,

统计学仍然是数据剖析的灵魂

现在社会上有一种流行的说法,认为在大数据时代,“样本 = 全体”,人们得到的不是抽样数据而是全数据,因而只须要简单地数一数就可以下结论了,复杂的统计学方式可以不再须要了。

图片[5]-让大数据区别于数据的是其海量积累、高增长率和多样性-老王博客

在我看来,这种观点十分错误。

首先,大数据告知信息但不解释信息。打个比方说,大数据是“原油”而不是“汽油”,不能被直接用来使用。就像股票市场,即使把所有的数据都公布下来,不懂的人仍然不知道数据代表的信息。大数据时代,统计学仍然是数据剖析的灵魂。正如加州大学伯克利分校迈克尔·乔丹院长强调的:没有系统的数据科学作为指导的大数据研究,就犹如不借助工程科学的知识来建造桥梁,很多桥梁可能会倒塌,并带来严重的后果。

其次,全数据的概念本身很难禁得起推敲。全数据,顾名思义就是全部数据。这在个别特定的场合对于个别特定的问题确实可能实现。比如,要比较复旦、北大两校朋友语文能力整体上那个更强,可以搜集到两校朋友中考时的语文成绩作为研究的数据对象。从某种意义上说,这是全数据。但是,并不是说我们有了这个全数据能够挺好地回答问题。

一方面,这个数据似乎是全数据,但依然具有不确定性。入校时的物理成绩并不一定完全代表中学生的语文能力。假如让所有同事重新出席一次中考,几乎每位朋友就会有一个新的成绩。分别用这两组全数据去做剖析,结论就可能发生变化。另一方面,事物在不断地发展和变化,同学入校时的成绩并不才能代表现今的能力。全体同事的中考成绩数据,仅对于那次考试而言是全数据。“全”是有边界的,超出了边界就不再是全知全能了。事物的发展饱含了不确定性,而统计学,既研究怎样从数据中把信息和规律提取下来,找出最优化的方案;也研究怎样把数据当中的不确定性量化下来。

所以说,在大数据时代,数据剖析的好多根本性问题和小数据时代并没有本质区别。当然,大数据的特性,确实对数据剖析提出了全新挑战。例如,许多传统统计方式应用到大数据上,巨大估算量和存储量常常使其难以承受;对结构复杂、来源多样的数据,如何构建有效的统计学模型也须要新的探求和尝试。对于新时代的数据科学而言,这些挑战也同时意味着巨大的机遇,有可能会形成新的思想、方法和技术。

© 版权声明
THE END
喜欢就支持一下吧
点赞0
分享
评论 抢沙发

请登录后发表评论