Python环境已配置完毕,并安装了Pandas和NumPy等基本库,现在是时候开始应用它们了。将数据加载到环境中,并初步检查其结构和内容,是任何数据分析项目中一项基本任务。这项准备工作对于后续分析必不可少。我们将使用Pandas库,它是Python中用于数据处理和分析的标准工具。你可以将Pandas看作是提供了一种高效的方式,让你的Python代码能够直接处理类似于电子表格或数据库表的数据结构。使用Pandas加载数据Pandas中最常见的数据结构是DataFrame。DataFrame本质上是一个带有标签轴(行和列)的二维表格。你可以从各种来源将数据加载到DataFrame中,包括CSV(逗号分隔值)文件、Excel电子表格、数据库等等。对于这个示例,我们假设有一个名为 student_data.csv 的简单数据集。该文件可能包含有关学生的信息,例如他们的测验分数和学习时长。首先,确保你已导入Pandas。如果你遵循了设置指南,你很可能使用常用别名 pd 导入了它:import pandas as pd现在,我们可以使用 read_csv() 函数将CSV文件中的数据加载到Pandas DataFrame中。我们将生成的DataFrame存储在一个变量中,约定俗成地命名为 df:# 如果需要,请将 'student_data.csv' 替换为你的实际文件路径 try: df = pd.read_csv('student_data.csv') print("数据加载成功!") except FileNotFoundError: print("错误:未找到 'student_data.csv'。请确保文件位于正确的目录中。") # 作为演示的备选方案,我们创建一个示例DataFrame data = {'StudentID': [101, 102, 103, 104, 105, 106, 107, 108, 109, 110], 'Quiz1_Score': [8, 5, 10, 7, 4, 9, 6, 8, 7, 5], 'Study_Hours': [4, 2, 5, 3, 1, 5, 2.5, 4.5, 3, 1.5], 'Attended_Lecture': ['Yes', 'No', 'Yes', 'Yes', 'No', 'Yes', 'No', 'Yes', 'Yes', 'No']} df = pd.DataFrame(data) print("已创建用于演示的示例DataFrame。") 如果文件加载正确,df 变量现在就包含了我们的数据集。如果未找到文件,示例代码会创建一个小型示例DataFrame,以便你仍然可以继续学习。查看DataFrame加载数据只是第一步。我们需要查看它以理解我们正在处理的数据。Pandas提供了几种有用方法用于此初步查看。查看开头和结尾的行为了快速预览数据,你可以使用 head() 方法查看前几行,使用 tail() 查看最后几行。默认情况下,它们显示5行。# 显示前5行 print("数据的前5行:") print(df.head()) # 显示最后3行(你可以指定行数) print("\n数据的最后3行:") print(df.tail(3))这有助于验证数据是否按预期加载,并让你了解列名及其包含的值类型。检查维度数据集有多大? shape 属性会显示行数和列数。# 获取维度(行数,列数) print("\nDataFrame的形状(行数,列数):") print(df.shape)输出将是一个元组,例如 (10, 4),表示我们的示例数据中有10行和4列。了解大小对于理解数据规模很重要。获取简洁的汇总信息info() 方法提供了一个DataFrame的汇总,包括索引数据类型、列数据类型、每列非空值的数量以及内存使用情况。这对于快速识别缺失数据以及检查Pandas是否正确解释了数据类型非常有用。# 获取DataFrame的简洁汇总 print("\nDataFrame信息:") df.info()请注意每列的 Non-Null Count(非空计数)。如果这个数字小于总行数(来自 df.shape),则表明存在缺失值。此外,请检查 Dtype(数据类型)列。它是否符合你对每列的预期(例如,数字的 int64 或 float64,文本或混合类型的 object)?我们 Gopher在本章前面讨论过数据类型,而 info() 有助于我们查看Pandas加载时是如何解释这些数据类型的。列出列名如果你只想查看列名,可以使用 columns 属性。# 获取列名 print("\n列名:") print(df.columns)当你有很多列并希望快速列出时,这很方便。检查数据类型你还可以使用 dtypes 属性只查看每列的数据类型。# 获取每列的数据类型 print("\n数据类型:") print(df.dtypes)这提供了数据类型的聚焦视图,补充了来自 df.info() 的信息。后续步骤在这个实践练习中,你学习了如何使用Pandas加载数据集并执行基本的数据查看任务:查看数据片段、检查维度、获取汇总信息以及检查列名和类型。这种初步查看是任何数据分析工作流程中的一个重要第一步。它有助于你了解数据的结构、大小和基本特征,然后你可以进行更详细的分析或机器学习模型构建。在下一章中,我们将在 Gopher此基础上,查看描述性统计,它们提供工具来定量汇总数据集的主要特征。