在明确了数据科学的重要性之后,现在我们来关注这些工作的核心人物:数据科学家。数据科学家究竟做些什么?这个角色通常涵盖多方面,它结合了不同学科的本领,旨在从数据中获取信息,并协助机构做出更佳判断。其核心职责在于贯穿整个数据科学流程,我们稍后将对此进行更详细的介绍。这通常包含几个不同阶段:提出有益问题: 这通常始于理解一项业务需求或一个科学疑问。数据科学家会与相关人员(如经理或研究员)合作,将这些需求转化为数据可回答的具体问题。例如,数据科学家可能会帮助将“我们如何提高销售?”这类问题细化为“哪些客户群体最有可能响应我们新的营销活动?”获取数据: 一旦问题明确,下一步就是收集所需数据。这可能涉及查询数据库、使用应用程序编程接口 (API) 访问外部数据源、下载文件,甚至搭建系统以收集新数据。数据准备与清洗: 原始数据很少能直接用于分析。它常常包含错误、缺失值或不一致之处。数据科学家的大部分时间可能用于清洗和整理数据,将其转换为可用格式。这个准备阶段对于可靠的分析非常重要。数据分析: 有了清洗好的数据,分析便可开始。这包括查看数据以理解其特性、识别规律、发现不同变量之间的关联以及构建模型。根据问题的不同,所用技术可从计算基本统计量(如平均值或计数)到应用更复杂的机器学习算法。交流分析结果: 发现洞察只是工作的一部分。数据科学家必须有效地向他人传达他们的发现,这些人可能没有技术背景。这通常涉及制作可视化图表、撰写报告,以及以清晰易懂的方式呈现结论。目标是将复杂结果转化为可执行的建议。所需技能的结合成功完成这些任务需要多种技能组合。可以将其视为处于几个不同专业方向的交汇点:digraph G { rankdir=LR; node [shape=box, style=rounded, fontname="sans-serif", color="#495057", fontcolor="#495057"]; edge [color="#adb5bd"]; "统计学与数学" -> "数据科学家" [label=" 理解\n 规律"]; "编程与技术" -> "数据科学家" [label=" 数据\n 操作"]; "专业知识" -> "数据科学家" [label=" 背景与\n 相关性"]; "数据科学家" [shape=ellipse, style=filled, fillcolor="#a5d8ff", color="#1c7ed6", fontcolor="#1c7ed6", penwidth=1.5]; }数据科学家结合了统计学和数学知识、编程和技术技能,以及在他们工作的特定专业中的经验。统计学与数学: 理解统计学原理对于正确分析数据和解读结果非常重要。编程与技术: 掌握编程语言(如 Python 或 R)的技能以及熟悉数据处理工具,对于高效操作数据和进行分析是必要的。专业知识: 理解数据背景非常重要。无论是商业、生物学、金融,还是其他方面,了解该专业的具体情况有助于提出相关问题并正确解读发现。角色职责的变化值得注意的是,“数据科学家”的具体职责在不同机构之间可能差异很大。在一些公司,该职位可能更偏向数据分析和报告。在另一些公司,它可能涉及更多软件工程来构建数据管道。有些数据科学家则非常专注于机器学习模型开发。您可能还会遇到相关职位名称,如数据分析师、机器学习工程师或数据工程师,它们各自侧重点略有不同,但往往与数据科学家有重叠的技能。一个简单例子以一个在线流媒体服务为例。在那里工作的数据科学家可能会:问题: 询问“哪些因素能预测用户是否会取消订阅?”获取: 收集用户观看习惯、订阅时长、人口统计信息以及客服互动的数据。准备: 清洗数据,处理缺失的观看记录或标准化用户活动日志。分析: 查看观看频率与取消订阅之间的关系,或构建一个简单模型来预测哪些用户有较高流失风险。沟通: 向产品团队呈现发现,例如用图表显示过去一个月未观看任何内容的用户明显更有可能取消订阅,这表明可以开展有针对性的重新激活活动。简而言之,数据科学家是以数据为主要工具的问题解决者。他们是部分调查者、部分构建者,也是部分沟通者,致力于发现数据中隐藏的洞察,并协助推动明智的行动。