高效应用函数到多个Pandas DataFrame列

25 6 月, 2025 - By admin

Spread the love

Pandas是一个强大的Python库，用于数据处理和分析。一个常见的需求是在多个DataFrame列上应用相同的函数。本文概述了实现此目标的有效方法，避免了重复的逐列处理。

向量化运算：最快的方法

对于数值运算，Pandas的向量化函数具有更高的速度。它们直接对整列进行操作，利用NumPy优化的数组处理。对于大型数据集，这比迭代方法快得多。


import pandas as pd

data = {'A': [1, 2, 3], 'B': [4, 5, 6], 'C': [7, 8, 9]}
df = pd.DataFrame(data)

# 按元素相加A列和B列
df['Sum_AB'] = df['A'] + df['B']
print(df)

# 将A列的值平方
df['A_Squared'] = df['A']**2
print(df)

`apply()`方法：行操作

apply()方法可以灵活地应用于行（axis=1）或列（axis=0）。当你的函数需要访问每一行中的多列时，这是理想的选择。


# 计算A列和B列乘积的函数
def multiply_ab(row):
  return row['A'] * row['B']

df['Product_AB'] = df.apply(multiply_ab, axis=1)
print(df)

`applymap()`：元素级转换

applymap()将函数应用于DataFrame（或选定列）的每个元素。对于简单的元素级转换，它效率很高。


# 将自定义函数应用于'A'和'C'列的元素
def custom_function(x):
    if x > 5:
        return x * 2
    else:
        return x

df[['A', 'C']] = df[['A', 'C']].applymap(custom_function)
print(df)

Lambda函数的简洁性

Lambda函数提供了一种简洁的方式来定义简单的匿名内联函数，在与apply()或其他方法一起使用时，可以提高可读性。


# 使用lambda函数和apply提高简洁性
df['Sum_AB_Lambda'] = df.apply(lambda row: row['A'] + row['B'], axis=1)
print(df)

处理多种数据类型

处理多列时，要预料到数据类型的变化。健壮的函数应包含错误处理（例如，try-except块）以管理潜在的类型不匹配并防止意外失败。

选择正确的方法

最佳方法取决于函数的复杂性和数据集大小：

向量化运算：对于多列上的简单数值运算最快。
applymap()：对于跨多列的单个单元格的元素级运算效率很高。
apply()（使用axis=1或axis=0）：对于需要访问多列的行操作或列操作很灵活。对于大型DataFrame可能会较慢。
Lambda函数：增强apply()或其他方法中简单函数的可读性。

尽可能优先使用向量化运算以获得最佳性能。了解这些技术可以有效地进行Pandas数据处理。

高效应用函数到多个Pandas DataFrame列

目录

向量化运算：最快的方法

`apply()`方法：行操作

`applymap()`：元素级转换

Lambda函数的简洁性

处理多种数据类型

选择正确的方法

发表回复取消回复

目录

向量化运算：最快的方法

apply()方法：行操作

applymap()：元素级转换

Lambda函数的简洁性

处理多种数据类型

选择正确的方法

相关文章：

发表回复 取消回复

`apply()`方法：行操作

`applymap()`：元素级转换

发表回复取消回复