趋近智
当你开始运用汇总统计和频率分布等方法分析数据中的关联时,你常常会注意到两个变量似乎一起变动。当一个变量变化时,另一个变量也倾向于以可预测的方式变化。这种统计关联被称为相关性。
相关性衡量两个定量变量之间线性关联的强度和方向。
你可以使用散点图来可视化相关性。如果点大致形成一条向上倾斜的线,这表明存在正相关。如果它们形成一条向下倾斜的线,则表明存在负相关。如果点随机散布且没有清晰的模式,则可能几乎没有或没有线性相关性。
以下是一个示例图,显示学习时长与考试分数之间的正相关:
总体上升趋势表明,学习时长越多,考试分数越可能更高。
现在,数据分析中一个非常重要的点是:仅仅观察到两个变量之间存在相关性,并不意味着一个变量导致另一个变量变化。这被广为人知地概括为:相关性不代表因果关系。
因果关系意味着一个变量的变化直接产生或引起另一个变量的变化。它意味着一种直接机制,一种因果关联。另一方面,相关性仅表明两个变量倾向于一起变动;它不解释为什么。
为什么两个变量可能存在相关性,但一个并未引起另一个的变化呢?有几个常见的原因:
通常,一个第三方的、未被观察到的变量会影响你正在查看的两个变量,从而在它们之间产生相关性,即使它们彼此没有直接影响。
炎热天气充当混淆变量,影响冰淇淋销量和犯罪率。
有时,相关性纯粹是偶然出现,尤其是在查看大量变量或较短时间段时。拥有足够的数据,你可能会发现一些变量似乎只是随机相关。这些通常被称为“虚假相关”。例如,你可能会发现在某个时期内,全球海盗数量(减少)与全球平均气温(增加)之间存在相关性,但两者之间没有合理的因果联系。
因果关联可能与你最初假设的相反。变量A可能与变量B相关,但可能是B导致A,而不是反过来。
混淆相关性与因果关系可能导致错误的结论和糟糕的决策。如果市议会认为冰淇淋与犯罪的相关性是因果关系,他们可能会错误地提议禁止冰淇淋店以减少犯罪,从而忽略了真正的因素(也许是炎热天气下需要更多警力)。在商业中,根据虚假相关性行事可能导致资源浪费在无效策略上。
建立因果关系通常需要不仅仅是观测数据和相关性分析。黄金标准通常是对照实验(如随机对照试验或A/B测试),研究人员在其中操纵一个变量(潜在原因),并观察对另一个变量的影响,同时控制其他因素。在实验不可行的情况下,数据科学家会使用更高级的统计方法,并基于专业知识进行严谨推理以推断因果关系,但这通常很复杂且需要谨慎。
当你进行基础数据分析时,请记住,当你发现关联时要审慎看待。问问自己:这种相关性可能是因果关系吗,或者是否存在另一种解释?这种严谨的思考是任何处理数据者的一项基本技能。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造