巧用 Python Pandas,数据处理小白也能变身高手!

admin 阅读:47 2024-04-01

pythonpandas 是一个强大的 Python 库,专门用于数据处理和分析。它提供了丰富的功能,即使对于数据处理小白,也能轻松上手,快速提升数据处理能力。

基础操作

1. 创建 DataFrame

DataFrame 是 Pandas 中用于存储和操作数据的主要数据结构。您可以使用列表、字典或现有数组创建 DataFrame。

import pandas as pd

# 从列表创建 DataFrame
df = pd.DataFrame({
    "Name": ["Alice", "Bob", "Charlie"],
    "Age": [25, 30, 35],
})

# 从字典创建 DataFrame
df = pd.DataFrame(
    {
        "Name": {"Alice": 25, "Bob": 30, "Charlie": 35}
    }
)

2. 访问数据

您可以使用列索引访问 DataFrame 中的列。此外,使用 lociloc 方法可以根据索引或位置访问行或组。

# 使用列索引访问一列
ages = df["Age"]

# 使用 loc 访问一行或一组行
row1 = df.loc[0]  # 获取第 1 行

# 使用 iloc 访问一行或一组行
row2 = df.iloc[1]  # 获取第 2 行

3. 数据处理

Pandas 提供了广泛的数据处理功能,包括:

  • 过滤:使用 queryisin 过滤满足特定条件的 DataFrame 行。
  • 排序:使用 sort_values 根据特定列对 DataFrame 进行排序
  • 聚合:使用 groupby 和聚合函数(如 summean)对 DataFrame 进行分组并聚合数据。

高级操作

1. 数据连接

Pandas 可以通过 merge 方法合并来自不同 DataFrame 的数据,支持各种连接类型,例如内部连接、左连接和右连接。

# 连接两个 DataFrame
df1 = pd.DataFrame({"ID": [1, 2, 3], "Name": ["Alice", "Bob", "Charlie"]})
df2 = pd.DataFrame({"ID": [1, 3, 4], "Age": [25, 35, 40]})

df_merged = pd.merge(df1, df2, on="ID")

2. 数据清理

Pandas 提供了 dropnafillna 等函数来清理缺失值,还可以使用正则表达式进行字符串清理。

# 删除具有缺失值的 DataFrame 行
df_cleaned = df.dropna()

# 使用正则表达式清理字符串
df_cleaned["Name"] = df_cleaned["Name"].str.lower().str.replace(" ", "_")

3. 数据可视化

Pandas 可以轻松创建各种数据可视化,例如直方图、折线图和散点图。

# 绘制直方图
df["Age"].hist()

# 绘制折线图
df.plot(x="Name", y="Age")

# 绘制散点图
df.plot.scatter(x="Age", y="Name")

结论

Python Pandas 是一个功能强大的数据处理库,即使对于数据处理小白,也能轻松掌握其基础和高级功能。通过利用 Pandas 的丰富功能,您可以高效地处理和分析数据,提高数据处理效率,提升数据洞察力。

声明

1、部分文章来源于网络,仅作为参考。
2、如果网站中图片和文字侵犯了您的版权,请联系1943759704@qq.com处理!