您已经确定了要研究的问题。数据科学流程中的下一步就是确定从何处获取回答该问题所需的信息或原始数据。这个阶段称为数据获取,它包含识别并取得所需数据。就像烹饪前收集食材一样;在制作最终菜肴之前,您需要合适的组成部分。数据不会凭空以可用格式出现。它通常需要查找来源、收集或访问。您采取的方法在很大程度上取决于您正在解决的问题、可用资源以及所需数据的类型。通常,数据获取方法可分为几大类。使用现有数据通常,您需要的数据可能已经存在。这通常是最便捷的入手点。公司内部数据: 许多组织通过日常运营收集大量数据。这可能包括数据库中的销售记录、CRM 系统中记录的客户互动、网站流量数据或制造传感器读数。访问这些内部数据通常是首选方法,前提是数据与问题相关。权限和内部政策将管理访问。公开可用数据集: 网上有丰富的数据免费提供。政府(如美国的 data.gov)、学术机构、非营利组织以及 Kaggle 等平台经常发布涵盖从人口统计学和经济学到科学研究和社会趋势等各种主题的数据集。这些是很好的资源,特别是用于学习或当内部数据不足时。第三方数据提供商和 API: 有时,可以从汇总信息的公司(例如,市场研究公司、金融数据提供商)购买专业数据。另一种常用方法是通过应用程序编程接口 (API) 访问数据。许多网络服务(如社交媒体平台、天气服务或金融市场)提供 API,允许开发人员以结构化格式(通常是 JSON 或 XML)请求特定数据。这使得通过编程方式获取数据成为可能,而且通常是实时获取。生成新数据如果您需要的数据尚不存在怎么办?在这种情况下,您可能需要自行收集。调查: 为了直接从人们那里收集意见、偏好或特定人口统计信息,调查是一种常用工具。这些调查可以是简单的在线表格,也可以是详细的访谈。设计有效的调查需要仔细思考,以避免偏见并确保清晰。实验: 在科学研究或 A/B 测试(在网络开发中常见)中,数据是通过进行受控实验生成的。您操控某些变量并观察结果,仔细记录。这通常是建立因果关系的最好方法。网络抓取: 这种技术涉及从网站自动提取信息。例如,您可能从电子商务网站抓取产品价格,或从媒体机构抓取新闻标题。尽管功能强大,但网络抓取必须合乎道德和负责任地进行,遵守网站服务条款并避免对服务器造成过重负担。传感器和日志记录: 随着物联网 (IoT) 的兴起,数据可以直接从传感器收集,这些传感器通过带仪器的应用程序或设备监测环境条件、机器性能或用户活动。这通常会生成大量的实时数据。获取期间的注意事项无论采取何种方法,仅仅找到数据源是不够的。在获取期间,您应该考虑:相关性: 这些数据确实有助于回答之前定义的问题吗?格式: 数据以何种格式可用(例如,CSV 文件、数据库表、API 返回的 JSON、非结构化文本)?这会影响您导入和处理数据的方式。质量: 数据是否可能准确、完整且一致?初步检查很重要,尽管更深入的清洗将在后期进行。权限与伦理: 您是否有权访问和使用这些数据?是否存在隐私问题(特别是个人数据)?始终优先考虑合乎伦理的数据处理和法律合规性。一旦您识别出潜在来源并获取了数据,您可能会认为已准备好进行分析。然而,原始数据很少完美。它常包含错误、缺失值或不一致,或者格式可能不适合分析工具。这直接引向数据科学工作流程中的下一个重要步骤:数据准备。