Pandas: Пять эффективных способов объединения текстовых столбцов

9 июля, 2025 - By admin

Spread the love

Эффективное объединение текстовых столбцов — критически важная задача в обработке данных. В этой статье представлены пять эффективных методов Pandas для конкатенации строковых столбцов в DataFrame, с выделением их сильных и слабых сторон, чтобы помочь вам выбрать оптимальный подход для ваших конкретных задач.

Метод с оператором +

Этот простой подход использует встроенный оператор Python + для конкатенации строк. Как правило, он самый быстрый для простых сценариев, но требует осторожного обращения с пропущенными значениями (NaN), чтобы избежать исключений TypeError.


import pandas as pd
import numpy as np

data = {'col1': ['A', 'B', 'C', np.nan], 'col2': ['D', 'E', 'F', 'G']}
df = pd.DataFrame(data)

df['combined'] = df['col1'].fillna('') + df['col2'].fillna('')
print(df)

Вывод:


  col1 col2 combined
0    A    D      AD
1    B    E      BE
2    C    F      CF
3  NaN    G       G

Метод Series.str.cat()

Series.str.cat() специально разработан для конкатенации строк и эффективно обрабатывает пропущенные данные. Он позволяет настраивать разделители и представление NaN.


import pandas as pd
import numpy as np

data = {'col1': ['A', 'B', 'C', np.nan], 'col2': ['D', 'E', 'F', 'G']}
df = pd.DataFrame(data)

df['combined'] = df['col1'].str.cat(df['col2'], sep='-', na_rep='')
print(df)

Вывод:


  col1 col2 combined
0    A    D      A-D
1    B    E      B-E
2    C    F      C-F
3  NaN    G      -G

Метод df.apply()

df.apply() предлагает гибкость для построчных (axis=1) или поколоночных (axis=0) операций, позволяя использовать сложную логику конкатенации. Однако он может быть менее эффективен, чем оператор + для больших DataFrame.


import pandas as pd
import numpy as np

data = {'col1': ['A', 'B', 'C', np.nan], 'col2': ['D', 'E', 'F', 'G']}
df = pd.DataFrame(data)

df['combined'] = df.apply(lambda row: str(row['col1']) + ' ' + str(row['col2']), axis=1)
print(df)

Вывод:


  col1 col2 combined
0    A    D      A D
1    B    E      B E
2    C    F      C F
3  NaN    G    nan G

Метод Series.map()

Series.map() предоставляет гибкий способ применения пользовательских функций для конкатенации, обработки различных сценариев, таких как условная логика или специальные разделители. Он особенно полезен для более сложных правил конкатенации.


import pandas as pd
import numpy as np

data = {'col1': ['A', 'B', 'C', np.nan], 'col2': ['D', 'E', 'F', 'G']}
df = pd.DataFrame(data)

def combine_strings(x):
  return str(x[0]) + '_' + str(x[1])

df['combined'] = df[['col1', 'col2']].apply(combine_strings, axis=1)
print(df)

Вывод:


  col1 col2 combined
0    A    D      A_D
1    B    E      B_E
2    C    F      C_F
3  NaN    G    nan_G

Метод df.agg()

Хотя в основном используется для агрегации, df.agg() может быть адаптирован для конкатенации строк. Однако он, как правило, менее эффективен, чем другие методы для этой конкретной цели.


import pandas as pd
import numpy as np

data = {'col1': ['A', 'B', 'C', np.nan], 'col2': ['D', 'E', 'F', 'G']}
df = pd.DataFrame(data)

df['combined'] = df.agg(lambda x: str(x['col1']) + ' ' + str(x['col2']), axis=1)
print(df)

Вывод (аналогично df.apply()):


  col1 col2 combined
0    A    D      A D
1    B    E      B E
2    C    F      C F
3  NaN    G    nan G

Заключение: Оптимальный метод зависит от ваших конкретных потребностей и размера набора данных. Для базовой конкатенации оператор + обеспечивает скорость. Series.str.cat() превосходно обрабатывает пропущенные значения. Series.map() и df.apply() обеспечивают большую гибкость для сложных сценариев, в то время как df.agg() менее эффективен для этой задачи.

Pandas: Пять эффективных способов объединения текстовых столбцов

Оглавление:

Метод с оператором +

Метод Series.str.cat()

Метод df.apply()

Метод Series.map()

Метод df.agg()

Добавить комментарий Отменить ответ

Оглавление:

Метод с оператором +

Метод Series.str.cat()

Метод df.apply()

Метод Series.map()

Метод df.agg()

Похожие записи:

Добавить комментарий Отменить ответ