在许多数据科学项目中,创建模型是一个常见阶段。这个阶段通常在初始的数据探索(例如数据探索性分析(EDA))、识别模式和基本统计量计算等活动之后进行。“但在这种情况下,模型到底是什么呢?你可以把它看作是对某个过程或关系进行的简化数学表示,它是根据你收集并整理好的数据构建的。就像地图是地理区域的简化模型一样,数据模型的目标是获取数据的主要特征,以帮助你更好地理解数据或对新情况进行预测。”为什么要构建模型?在数据科学中构建模型的主要原因通常分为两类:理解关系(推断): 有时,目标仅仅是弄清数据中不同部分之间的关联。例如,广告支出与产品销售额之间有何关联?模型可以根据历史数据量化这种关联。它试图描述数据中固有的结构或依赖性。进行预测: 通常,我们希望根据从现有数据中获取的信息来预测未来的结果或估计未知值。例如,预测下个月的网站流量,判断一封电子邮件是否为垃圾邮件,或者根据房屋的特点(如面积、位置、卧室数量)估计房价。例子:找到趋势想象一下你收集了学生学习时长和考试分数的数据。在EDA过程中,你可能会创建一个散点图,并发现一个普遍的趋势:学习时间越长的学生,考试分数往往越高。模型能将这一观察结果再进一步。它试图将这种趋势形式化,比如通过找到一条最能拟合散点图上数据点的直线。这条直线代表了一个简单的数学模型。{"layout": {"title": "模型:学习时长 vs. 考试分数", "xaxis": {"title": "学习时长"}, "yaxis": {"title": "考试分数"}, "autosize": true, "margin": {"l": 50, "r": 50, "b": 50, "t": 50, "pad": 4}, "plot_bgcolor": "#e9ecef", "paper_bgcolor": "#ffffff"}, "data": [{"x": [1, 2, 2.5, 3, 4, 4.5, 5, 6, 7, 8], "y": [65, 68, 70, 75, 78, 82, 85, 88, 92, 95], "mode": "markers", "type": "scatter", "name": "学生数据", "marker": {"color": "#228be6", "size": 8}}, {"x": [0, 9], "y": [58, 100], "mode": "lines", "type": "scatter", "name": "简单模型(趋势线)", "line": {"color": "#f03e3e", "width": 2}}]}一个散点图,显示学生数据点(蓝点)和一个简单的线性模型(红线),表示学习时长与考试分数之间的普遍趋势。这条线,通常用一个方程表示,比如 $分数 \approx ( ext{斜率} \times 时长) + ext{截距}$,就是模型。它不能完美地预测每个学生的分数,但它捕捉到了数据中存在的普遍关系。你随后可以使用这个模型来预测一个学习了比如5.5小时的学生的可能分数。输入和输出模型通常使用:输入(特征): 这些是你数据中的变量,用来进行预测或理解关系(例如,“学习时长”、“房屋大小”、“广告支出”)。输出(预测值或目标值): 这是模型旨在预测或说明的值(例如,“考试分数”、“房屋价格”、“产品销售额”)。多种模型类型简单的直线例子只是模型的一种类型(具体来说,是线性模型)。数据科学使用许多不同类型的模型,根据数据类型和你试图解决的问题来选择。有些模型设计用于预测数值(如分数或价格),另一些用于事物分类(如“垃圾邮件”与“非垃圾邮件”),还有一些用于在数据中查找群组或规律。在当前入门阶段,我们应当把握住这一点:模型是一个根据数据构建的工具,用于表示一个过程,从而实现理解或预测。选择、构建和评估这些模型是数据科学工作流程中重要的部分,随着学习的推进,你将进一步了解它们。这一步骤连接了查看原始数据和生成可操作的见解或预测。