大数据时代的思维变革
更多 不是随机样本,而是全体数据
-
小数据时代的随机采样,最少的数据获得最多的信息
-
采样分析的精确性随着采样随机性的增大而大幅提高,但是与样本数量的增加关系不大
-
随机采样是应对信息采集困难的办法,有诸多缺点:
- 采样无法做到完全随机,会受到采样手段干扰
- 随机采样不适合考察子类别情况(采样的样本本来就少,子类别样本就更少)
-
大数据时代,样本=总体
大数据是指不用随机分析方,而采用所有数据的方法
更杂 不是精确性,而是混杂性
-
数据量的大幅增加会造成结果的不准确,错误数据也会混入
-
小数据时代需要避免这些错误
-
大数据时代需要学会拥抱混乱,为了接纳和利用更多的数据,我们愿意对精确性做出一些让步
-
大数据的简单算法比小数据的复杂算法更有效
google翻译系统输入源很混乱,收集各种对译文档,使用简单的对译算法,缺提供了高质量的翻译
-
大数据不仅让我们不再期待精确性,也让我们无法实现精确性
-
要获得大规模的数据带来的好处,混乱应该是一种标准途径,而不是应该竭力避免的
-
只有5%的数据是结构化且能适用于传统数据库。如果不接受混乱,剩下的95%的非结构化数据都无法被利用
通过接受不精确性,我们打开了一个从未涉足的世界的窗户
更好 不是因果关系,而是相关关系
-
知道是什么就够了,没有必要知道为什么
-
相关关系的核心是量化两个数据之间的数理关系
-
相关关系可以帮助我们捕获现在和预测未来
沃尔玛把蛋挞和飓风用品摆在一起
-
我们现在拥有如此多的数据,这么好的计算能力,因而不在需要人工选择一个关联物或者小部分相似数据来逐一分析
大数据的相关关系分析法更准确,更快,而且不易受到偏见的影响
-
建立相关关系分析法基础上的预测是大数据的核心
-
有的相关关系是非线性关系
-
相关关系很有用,不仅仅是因为它能为我们提供新的 视野,而且新的视野都很清晰。而我们一旦把因果关系考虑进来,这些视野就有可能被蒙蔽