趋近智
在分析数据之前,您必须先找到它。数据不会凭空出现在您的分析工具中;它存在于各种地方,等待着被收集。您可以将这一步想象成烹饪前的食材准备。根据您想制作什么(或者您想回答什么问题),您将需要不同地方找到的不同食材。本节介绍数据存在的常见位置。
数据存储和共享最直接的方式也许就是以单个文件的形式。您可能已经遇到过许多此类文件。
这些文件可能从网站下载,作为电子邮件附件接收,由其他软件生成,或存储在共享网络驱动器上。对于许多初级数据科学任务,您会从加载这些文件类型之一的数据开始。
组织通常在数据库中存储大量运营数据。数据库是数据的有组织集合,通常以电子方式从计算机系统中存储和访问。
可以将数据库想象成一个高度结构化的数字文件柜。它不使用简单的文件,而是使用专用软件(数据库管理系统或 DBMS)来高效地存储、管理和检索数据。
"* 关系型数据库: 这是您会听到的一种常见类型。它们将数据存储在带有预定义列(属性)和行(记录)的表中,类似于电子表格,但对于管理不同表之间的关系(例如,将 Customers 表与 Orders 表关联)功能更强。与这些数据库交互通常涉及使用一种名为 SQL(结构化查询语言)的语言。虽然您不需要立即成为 SQL 专家,但了解数据库是许多情形下数据的主要来源是件好事。"
从数据库访问数据通常需要特定的连接详情(例如地址、用户名、密码),并且通常涉及编写查询以请求您需要的确切数据片段。
API,即应用程序编程接口,是一套规则和协议,允许不同的软件应用程序相互通信和交换数据。
想象一下您想获取伦敦当前天气。与其尝试直接读取天气服务中的复杂系统,该服务可能会提供一个 API。您的程序可以向特定的 API 网址(一个端点)发送请求,可能指定“伦敦”,然后 API 将返回当前天气数据,通常以 JSON 格式。
许多网络服务提供 API 以访问其数据:
使用 API 通常需要了解如何发出特定的网络请求,有时还需要获取访问密钥或令牌进行身份验证。它们是直接从源获取动态、最新数据的一种有效方式。
有时,您想要的数据在网站上可见,但无法通过便捷的文件下载或 API 获得。在这种情况下,有时可以编写代码自动提取直接来自网页 HTML 结构的信息。这个过程称为网络爬取或网络数据收集。
虽然有用,但应谨慎对待网络爬取:
robots.txt 文件或“使用条款”页面中找到)。过度的爬取可能使网站服务器过载,爬取私人或受版权保护的数据可能是非法的。对于初学者,从文件、数据库或定义明确的 API 获取数据通常更实际。
数据也可能来自不太常见或更专业的来源:
了解数据可能来自何处是第一步。接下来的一个任务,我们很快就会介绍,是如何真正将这些数据导入您的分析环境——这个过程通常称为数据导入或加载。您选择的来源将很大程度上取决于您要解决的问题以及可用的数据。
这部分内容有帮助吗?
© 2026 ApX Machine LearningAI伦理与透明度•