当你开始运用汇总统计和频率分布等方法分析数据中的关联时,你常常会注意到两个变量似乎一起变动。当一个变量变化时,另一个变量也倾向于以可预测的方式变化。这种统计关联被称为相关性。相关性衡量两个定量变量之间线性关联的强度和方向。正相关: 当一个变量增加时,另一个变量也倾向于增加。例如,成年人的身高和体重通常表现出正相关;较高的人体重也往往较重。负相关: 当一个变量增加时,另一个变量倾向于减少。例如,花在练习一项技能上的时间与犯错次数之间可能表现出负相关。你可以使用散点图来可视化相关性。如果点大致形成一条向上倾斜的线,这表明存在正相关。如果它们形成一条向下倾斜的线,则表明存在负相关。如果点随机散布且没有清晰的模式,则可能几乎没有或没有线性相关性。以下是一个示例图,显示学习时长与考试分数之间的正相关:{"layout": {"title": "学习时长与考试分数", "xaxis": {"title": "学习时长"}, "yaxis": {"title": "考试分数 (%)"}, "width": 500, "height": 350}, "data": [{"type": "scatter", "mode": "markers", "x": [1, 2, 2.5, 3, 4, 4.5, 5, 6, 7, 8], "y": [65, 70, 72, 75, 80, 85, 88, 90, 92, 95], "marker": {"color": "#228be6"}}]}总体上升趋势表明,学习时长越多,考试分数越可能更高。现在,数据分析中一个非常重要的点是:仅仅观察到两个变量之间存在相关性,并不意味着一个变量导致另一个变量变化。这被广为人知地概括为:相关性不代表因果关系。因果关系意味着一个变量的变化直接产生或引起另一个变量的变化。它意味着一种直接机制,一种因果关联。另一方面,相关性仅表明两个变量倾向于一起变动;它不解释为什么。为什么两个变量可能存在相关性,但一个并未引起另一个的变化呢?有几个常见的原因:1. 混淆变量(“第三因素”)通常,一个第三方的、未被观察到的变量会影响你正在查看的两个变量,从而在它们之间产生相关性,即使它们彼此没有直接影响。经典例子: 冰淇淋销量通常与犯罪率呈正相关。吃冰淇淋会导致人们犯罪吗?或者犯罪会让人们渴望冰淇淋吗?两者都不太可能。这里的混淆变量是炎热天气。天气炎热时,更多人购买冰淇淋,并且更多人外出,从而导致更多犯罪机会。天气独立地影响这两个变量。digraph G { rankdir=LR; node [shape=box, style=rounded, color="#495057", fontname="sans-serif"]; edge [color="#868e96"]; "炎热天气" [color="#f03e3e"]; "炎热天气" -> "冰淇淋销量"; "炎热天气" -> "犯罪率"; "冰淇淋销量" [color="#1c7ed6"]; "犯罪率" [color="#1c7ed6"]; {rank=same; "冰淇淋销量"; "犯罪率"}; }炎热天气充当混淆变量,影响冰淇淋销量和犯罪率。2. 巧合(虚假相关)有时,相关性纯粹是偶然出现,尤其是在查看大量变量或较短时间段时。拥有足够的数据,你可能会发现一些变量似乎只是随机相关。这些通常被称为“虚假相关”。例如,你可能会发现在某个时期内,全球海盗数量(减少)与全球平均气温(增加)之间存在相关性,但两者之间没有合理的因果联系。3. 反向因果因果关联可能与你最初假设的相反。变量A可能与变量B相关,但可能是B导致A,而不是反过来。例子: 一项研究可能会发现佩戴健身追踪器与身体活跃之间存在相关性。追踪器会导致人们更活跃吗?还是说那些已经活跃的人倾向于购买健身追踪器?如果没有更多信息或不同的研究设计,仅凭相关性无法判断因果关系的方向。这种区分为何重要混淆相关性与因果关系可能导致错误的结论和糟糕的决策。如果市议会认为冰淇淋与犯罪的相关性是因果关系,他们可能会错误地提议禁止冰淇淋店以减少犯罪,从而忽略了真正的因素(也许是炎热天气下需要更多警力)。在商业中,根据虚假相关性行事可能导致资源浪费在无效策略上。如何判定因果关系?建立因果关系通常需要不仅仅是观测数据和相关性分析。黄金标准通常是对照实验(如随机对照试验或A/B测试),研究人员在其中操纵一个变量(潜在原因),并观察对另一个变量的影响,同时控制其他因素。在实验不可行的情况下,数据科学家会使用更高级的统计方法,并基于专业知识进行严谨推理以推断因果关系,但这通常很复杂且需要谨慎。当你进行基础数据分析时,请记住,当你发现关联时要审慎看待。问问自己:这种相关性可能是因果关系吗,或者是否存在另一种解释?这种严谨的思考是任何处理数据者的一项基本技能。