趋近智
要在 Python 环境中有效管理和组织数据,特别是处理来自 CSV 文件或数据库等外部来源的数据时,Pandas 库提供了必要的工具。Pandas 提供了高性能、易用的数据结构和数据分析工具,构成了 Python 中许多数据科学工作流程的核心支持。
Pandas 的核心是两种主要数据结构:Series 和 DataFrame。理解它们对于准备数据以使用 Matplotlib 和 Seaborn 进行可视化非常重要。
可以将 Pandas Series 视为一个一维数组,能够存储任何单一类型的数据(整数、字符串、浮点数、Python 对象等)。它类似于 NumPy 数组,但有一个重要补充:一个相关联的数据标签数组,称为其 索引。如果不指定索引,Pandas 会自动创建一个从 0 开始的默认整数索引。
可以将其设想为电子表格或表格中的单列。
下面是一个从 Python 列表创建 Series 的简单例子:
import pandas as pd
# 创建一个存储每日气温的 Series
temperatures = pd.Series([22.1, 25.0, 24.3, 26.7, 23.9], name='Temperature (C)')
print(temperatures)
运行此代码将得到以下输出:
0 22.1
1 25.0
2 24.3
3 26.7
4 23.9
Name: Temperature (C), dtype: float64
请注意这两列:左列是索引(本例中为 0 到 4),右列包含实际数据值。Name 属性为 Series 提供了一个标签,这可能很有用,dtype 则显示了这些值的数据类型(此处为 float64)。
DataFrame 是最常用的 Pandas 对象。它表示一个矩形数据表,包含按顺序排列的列集合,每列可以是不同的值类型(数值、字符串、布尔值等)。可以将 DataFrame 设想为:
Series 对象。"特别值得指出的是,DataFrame 既有行索引,也有列索引。这种二维结构使得它在处理数据集方面功能非常强大,数据集通常包含每个观测(行)的多个变量(列)。"
我们来创建一个简单的 DataFrame:
import pandas as pd
# 多个城市的数据
data = {
'City': ['London', 'Paris', 'Tokyo', 'New York'],
'Temperature (C)': [15.2, 18.5, 21.0, 19.8],
'Humidity (%)': [70, 65, 75, 60]
}
# 从字典创建 DataFrame
weather_df = pd.DataFrame(data)
print(weather_df)
输出将是一个结构化表格:
City Temperature (C) Humidity (%)
0 London 15.2 70
1 Paris 18.5 65
2 Tokyo 21.0 75
3 New York 19.8 60
这里,'City'、'Temperature (C)' 和 'Humidity (%)' 是列标签。数字 0、1、2、3 构成了行索引。此 DataFrame 中的每一列实际上是一个 Pandas Series。
将 DataFrame 视为共享公共索引的 Series 对象集合的视图。
虽然 Matplotlib 和 Seaborn 可以从简单的列表或 NumPy 数组绘制数据,但使用 Pandas DataFrames 提供了显著的优势,尤其当数据集变得复杂时:
在接下来的章节中,您将看到如何将数据加载到这些结构中,并直接与 Matplotlib 和 Seaborn 结合使用,以创建富有洞察力的可视化图表。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造