戏说大数据
知道了大数据隐私的上述无穷杀伤力后,你也许就会追问,到底什么是大数据吧。
怎么回答呢!如果我给你背几段专家定义,那么,你很快就被搞晕了。比如,国际权威咨询机构Gartner说:“大数据,就是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产”。麦肯锡全球研究所说:“大数据是一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征”。
还有更多的权威专家们,总结了大数据的若干其它特性,比如,容量的超大性呀,种类的多样性呀,获取的快速性呀,管理的可变性呀,质量的真实性呀,渠道来源的复杂性呀,价值提取的重复性呀,等等。
伙计,劝你在未被搞晕前,赶紧先从专家定义中跳出来吧!
其实,形象地说,所谓大数据,就是由许多千奇百怪的数据,杂乱无章地堆积在一起的东西。比如,你主动在网上说的话、发的微博微信、存的照片、收发的电子邮件、留下的诸如上网纪录等行动痕迹等,都是大数据的组成部分。
在不知道的情况下,你被采集的众多信息,比如,被马路摄像头获取的视频、手机定位系统留下的路线图、在各种情况下被录下的语音、驾车时的GPS信号、电子病历档案、公交刷卡记录等被动信息,也都是大数据的组成部分。
还有,各种传感器设备自动采集的有关温度、湿度、速度等万物信息,仍然还是大数据的组成部分。总之,每个人、每种通信和控制类设备,无论它是软件还是硬件,其实都是大数据之源。甚至,像本拉登那样完全与世隔绝,不对外流露任何蛛丝马迹的人,也在为大数据提供信息;因为,一个大活人,“不对外提供信息”本身,就是一条重要的信息,说明此人必定有超级秘密!
一句话,无论你是否喜欢,大数据它就在那里;无论主动还是被动,你都在为大数据做贡献。大数据是人类的必然!
大数据与垃圾处理
大数据到底是靠什么法宝,咋知道那么多秘密的呢?用行话说,它利用了一种名叫“大数据挖掘”的技术,采用了诸如神经网络、遗传算法、决策树方法、粗糙集方法、覆盖正例排斥反例方法、统计分析方法、模糊集方法等高大上的方法。大数据挖掘的过程,可以分为数据收集、数据集成、数据规约、数据清理、数据变换、挖掘分析、模式评估、知识表示等八大步骤。
伙计,如果你已能把所有这些方法和步骤搞清楚了的话,那么,恭喜你,你已成为大数据博士了!可惜,一般人根本不关心这些“阳春白雪”,所以,还是让我们请出“下里巴人”来吧。
大数据产业,可能将是世界上最挣钱的产业!无论从工作原理、原料结构,还是从利润率等方面来看,能够与大数据产业相比拟的,也许只有另一个,从来就不被重视的产业,即,垃圾处理和废品回收!
真的,我可不是在开玩笑,更不是在自我贬低哟。
先看工作原理。其实,废品回收和大数据处理几乎如出一辙:废品收购和垃圾收集,可算做是“数据收集”吧;将废品和垃圾送往集中处理工场,算是“数据集成”吧;将废品和垃圾初步分类,算是“数据规约”吧;将废品和垃圾适当清洁和整理,算是“数据清理”吧;将破沙发拆成木、铁、皮等原料,算是“数据变换”吧;认真分析如何将这些原料卖个好价值,算是“数据挖掘”吧;不断总结经验,选择并固定上下游卖家和买家,算是“模式评估”吧;最后,把这些技巧整理成口诀,算是“知识表示”吧!
至于教授们的什么神经网络等大数据挖掘方法,在垃圾处理和废品回收专家们眼里,根本就不屑一顾,因为他们有适应性更强、效果更好的方法。若不信,请用你的所谓遗传算法去处理一下垃圾看看,保准一筹莫展。若你非要追问垃圾专家的挖掘方法是什么,嘿嘿,对不起“祖传秘方”,只传后代,并且传男不传女。
再看原料结构。与大数据的异构特性一样,生活垃圾、工作垃圾、建筑垃圾、可回收垃圾和不可回收垃圾等,无论从外形、质地,还是从内涵等方面来看,也都是完全不同的。与大数据一样,垃圾的数量也很多,产生的速度也很快,处理起来也很困难。如果非要在垃圾和大数据之间找出本质差别的话,那么,只能说垃圾是由原子组成的,处理一次后,就没得处理了;而大数据是由电子组成的,可以反复处理,反复利用。
最后来看利润率。确实有人曾在纽约路边的垃圾袋里,一分钱不花就捡到了价值百万美元的,墨西哥著名画家鲁菲诺·塔马约的代表作《三人行》。而从废品中掏出宝贝,更是家常便饭。即使不考虑这些“天上掉下来的馅饼”,就算将收购的易拉罐转手卖掉,也胜过铝矿利润率;将旧家具拆成木材和皮料,其利润率也远远高于木材商和皮货商。
总之,只要垃圾专家们愿意认真分捡,那么,他们的利润率可以超过任何相关行业。与垃圾专家一样,大数据专家也能将数据(废品)中挖掘出的旅客出行规律卖给航空公司,将某群体的消费习惯卖给百货商店,将网络舆情卖给相关的需求方等等,总之,大数据专家完全可以“一菜多吃”,反复卖钱,不断“冶金”,而且一次更比一次赚钱,时间越久,价值越大。
大数据与人肉搜索
大数据挖掘,从正面来说,是创造价值;从负面来说,就是泄露隐私了!大数据隐私是如何被泄露的呢?
从专家角度来看,大数据隐私的发现和保护,其实很简单,它就是:@3!#¥%√≠→Δ&*(/)】……。明白了吗?如果明白了,那么就请甭读此文了!
如果还没明白,那么,就请老老实实跟我来分解一下经典的“人肉搜索”吧!
一大群网友,出于某种约定的目的,比如,搞臭某人或美化某人,充分利用自己的一切资源渠道,尽可能多地收集当事人或物的所有信息,包括但不限于网络搜索得到的信息(这是主流)、道听途说的信息、线下知道的信息、各种猜测的信息等等;然后,将这些信息按照自己的目的精练成新信息,反馈到网上与其同志们分享。这就完成了第一次“人肉迭代”。
接着,大家又在第一次“人肉迭代”的基础上,互相取经,再接再厉,交叉重复进行信息的收集、加工、整理等工作,于是,便诞生了第二批“人肉迭代”。如此循环往复,经过N次不懈迭代后(新闻名词叫“发酵”),当事人或物的丑恶(或善良)画像就跃然纸上了。如果构成“满意画像”的素材确实已经“坐实”,至少主体是事实,那么,“人肉搜索”就成功了。
前面的朴大妈和希阿姨就是这种“人肉”的牺牲品!可以断定,只要参与“人肉搜索”的网友足够多,时间足够长,大家的毅力足够强,那么,任何人,那怕你是圣贤,是地球的球长,都经不起考验,都能够被最终描述成恶魔或败类。
其实,所谓的大数据挖掘,在某种意义上说,就是由机器自动完成的特殊“人肉搜索”而已。只不过,现在“人肉”的目的,不再限于抹黑或颂扬某人,而是有更加广泛的目的,比如,为商品销售者寻找最佳买家、为某类数据寻找规律、为某些事物之间寻找关联等等,总之,只要目的明确,那么,大数据挖掘就会有用武之地。
如果将“人肉”与大数据挖掘相比,那么,此时网友被电脑所替代;网友们收集的信息,被数据库中的海量异构数据所替代;网友寻找各种人物关联的技巧,被相应的智能算法替代;网友们相互借鉴、彼此启发的做法,被各种同步运算所替代;各次迭代过程仍然照例进行,只不过机器的迭代次数更多,速度更快而已,每次迭代其实就是机器的一次“学习”过程;网友们的最终“满意画像”,被暂时的挖掘结果所替代,因为,对大数据挖掘来说,永远没有尽头,结果会越来越精准,智慧程度会越来越高,用户只需根据自己的标准,随时选择满意的结果就行了。
当然,除了相似性外,“人肉”与“大数据挖掘”肯定也有许多重大的区别,比如,机器不会累,它们收集的数据会更多、更快,数据的渠道来源会更广泛,总之,网友的“人肉”,最终将输给机器的“大数据挖掘”。
必须承认,就当前的现实情况来说,“大数据隐私挖掘”的杀伤力,已经远远超过了“大数据隐私保护”所需要的能力;换句话说,在大数据挖掘面前,当前人类还突然有点不知所措。这种情况确实是一种意外,因为,自互联网诞生以后,在过去几十中,人们都不遗余力地将若干碎片信息永远留在网上;其中,每个碎片虽然都完全无害,可谁也不曾意识到,至少没有刻意去关注,当众多无害碎片融合起来,竟然后患无穷!
提防大数据挖掘机
不过,大家也没必要过于担心,因为,在人类历史上,类似的被动局面已经出现过不止一次了,而且每次最终都会有惊无险地顺利过关;比如,天花病毒突然爆发引发恐慌后,人类便很快将其彻底消灭。其实,只要已经意识到出了问题,人类都一定能够想办法,直到圆满解决。
历史上,“隐私保护”与“隐私挖掘”之间是这样“走马灯”的:人类通过对隐私的“挖掘”,在获得空前好处的同时,又产生了更多需要保护的“隐私”。于是,又不得不再回过头来,认真研究如何保护这些隐私。当隐私积累得越来越多时,“挖掘”它们就会变得越来越有利可图,于是,新一轮的“魔高一尺道高一丈”又开始了。如果以时间长度为标准来判断的话,那么,人类在“自身隐私保护”方面整体处于优势地位,因为,在网络大数据挖掘之前,“隐私泄露”好像并不是一个突出的问题。
针对过去已经遗留在网上的海量碎片信息,如何进行隐私保护呢?如果单靠技术,显然无能为力,甚至会越“保护”就越“泄露隐私”,因此,必须多管齐下。比如,从法律上,禁止以“人肉搜索”为目的的大数据挖掘行为;增加“网民的被遗忘权”等法律条款,即,网民有权要求相关网络删除“与自己直接相关的信息碎片”。
从管理角度,也可以采取措施,对一些恶意的大数据行为进行发现、监督和管控。另外,在必要的时候,还需要重塑“隐私”概念,因为,毕竟“隐私”本身就是一个与时间、地点、民族、宗教、文化等有关的东西,在某种意义上也是一种约定俗成的东西,从来就没有过永恒不变的“隐私”,特别是当某种东西已经不可保密时,无论如何它也不该再被看成是“隐私”了;就像非洲某些部落妇女的乳房,至今仍然不是隐私一样。
(责任编辑:安博涛)