var
来源:解放军报作者:小李发布时间:2015-10-15点击:2323
“数据垃圾”是信息时代的产物,是用来比喻已经失去价值或有不良作用的数据,比如垃圾邮件、垃圾短信,或者由于数据割据所形成的“数据孤岛”等。在过去,数据垃圾是数据存储和应用过程中产生的废弃物,会影响到数据存储的效能和数据运用的效率,因而对于数据管理者来说,是必须清除或抛弃的。
大数据时代,所有数据都是有价值的,这当然也包括数据垃圾。有价值就有保密的需要,当然也存在泄密的风险,数据垃圾的泄密风险主要来自于大数据本身和大数据再利用。在人类进入大数据时代的背景下,数据垃圾开始展现出新的面貌和价值,越来越多的计算资源被用于从数据垃圾中提炼敏感信息。
大数据基本理论告诉我们:如果将极大样本的碎片化数据汇聚到一起,积少成多、聚沙成塔,形成大数据,那么其中一些很难发现的重要价值就能被挖掘出来。麻省理工学院的两位经济学家,通过应用软件在互联网上每天收集超过50万种商品的公开价格,形成大数据,成功预测了2008年9月雷曼兄弟破产之后发生的通货紧缩趋势。
正如英国学者维克托所著《大数据时代》中指出的一样:“数据的真实价值就像漂浮在海洋中的冰山,第一眼只能看到冰山一角,而绝大部分则隐藏在表面之下。”以前人们所忽视的碎片化数据垃圾,经过信息挖掘和整理之后,同样可以变废为宝。如果我们只是一味地忽视、舍弃当前所认为的数据垃圾,就容易被别有用心的不法分子轻易获取,从中挖掘有用的情报。
要改变以往对数据垃圾的偏差认识和处理方式。没有任何价值的数据垃圾是不存在的,我们只是坐在尚未开发的数据“喷泉”上,或许数据垃圾这一词本身就将在大数据时代自然消亡。决不能忽视这些处于休眠状态的“数据孤岛”,应当尽可能多地使用这些数据并保存尽可能长的时间,防范这些似乎没有任何价值的数据垃圾在大数据时代造成失泄密。
通过延展数据价值阻滞生成所谓的数据垃圾。大数据时代,虽然没有真正意义上的数据垃圾,但是“数据割据”“数据孤岛”“数据休眠”仍将长期存在。因此,对于所谓的数据垃圾,要利用大数据的“数据再利用”“数据重组”等方式不断挖掘其使用价值,使其保持一定合理状态的“生命特征”。
权衡好数据再利用与确保信息安全两者的关系。信息共享与保守秘密是一对天生的矛盾,这对矛盾在大数据时代将会更加突出。“共享”是有条件的,共享共用的数据必须是非涉密的;而“保密”是无条件的,大数据的共享共用必须确保其涉密内容的绝对安全,不能因为要对数据再利用和挖掘潜在价值,就放弃保密原则。必须划清两者的界限,做到既不因为共享共用大数据而降低保密标准,也不能片面追求绝对安全而浪费数据资源。
版权声明:本文系技术人员研究整理的智慧结晶,转载勿用于商业用途,并保留本文链接,侵权必究!