《大数据时代》读书笔记

Posted on May 3, 2014

大数据时代的思维变革

更多 不是随机样本,而是全体数据

  • 小数据时代的随机采样,最少的数据获得最多的信息

  • 采样分析的精确性随着采样随机性的增大而大幅提高,但是与样本数量的增加关系不大

  • 随机采样是应对信息采集困难的办法,有诸多缺点:

    • 采样无法做到完全随机,会受到采样手段干扰
    • 随机采样不适合考察子类别情况(采样的样本本来就少,子类别样本就更少)
  • 大数据时代,样本=总体

    大数据是指不用随机分析方,而采用所有数据的方法

更杂 不是精确性,而是混杂性

  • 数据量的大幅增加会造成结果的不准确,错误数据也会混入

  • 小数据时代需要避免这些错误

  • 大数据时代需要学会拥抱混乱,为了接纳和利用更多的数据,我们愿意对精确性做出一些让步

  • 大数据的简单算法比小数据的复杂算法更有效

    google翻译系统输入源很混乱,收集各种对译文档,使用简单的对译算法,缺提供了高质量的翻译

  • 大数据不仅让我们不再期待精确性,也让我们无法实现精确性

  • 要获得大规模的数据带来的好处,混乱应该是一种标准途径,而不是应该竭力避免的

  • 只有5%的数据是结构化且能适用于传统数据库。如果不接受混乱,剩下的95%的非结构化数据都无法被利用

    通过接受不精确性,我们打开了一个从未涉足的世界的窗户

更好 不是因果关系,而是相关关系

  • 知道是什么就够了,没有必要知道为什么

  • 相关关系的核心是量化两个数据之间的数理关系

  • 相关关系可以帮助我们捕获现在和预测未来

    沃尔玛把蛋挞和飓风用品摆在一起

  • 我们现在拥有如此多的数据,这么好的计算能力,因而不在需要人工选择一个关联物或者小部分相似数据来逐一分析

    大数据的相关关系分析法更准确,更快,而且不易受到偏见的影响

  • 建立相关关系分析法基础上的预测是大数据的核心

  • 有的相关关系是非线性关系

  • 相关关系很有用,不仅仅是因为它能为我们提供新的 视野,而且新的视野都很清晰。而我们一旦把因果关系考虑进来,这些视野就有可能被蒙蔽