我本人对于大数据时代“相关关系比因果关系更重要”这个观点就不认同。
相关性和因果性
统计学中相关性和因果性到底是什么关系?有什么区别?
先举个例子吧,假设我们拿到一组数据,冰淇淋的销量和啤酒的销量正相关,这就是相关性。但是很快发现二者都是随气温变化的,二者没有因果关系。过了几天,世界杯开幕了,导致啤酒销量上升,这个时候如果把相关性当成因果性,判断冰淇淋销量也会上升,那就可能会造成损失了。
这是一个很简单的问题,所以看上去做出正确判断很理所当然,但是实际问题——比如产品的失效分析的时候,大量因子都有或强或弱的相关性,在满眼错综复杂的数据中,判断因果关系就是一个相当高科技的问题了