Python 字符串标记化太慢_Python_Pandas_Token

Python 字符串标记化太慢

python pandas

Python 字符串标记化太慢,python,pandas,token,Python,Pandas,Token,我在Pandas数据框中有一个列，其中每行都有一些字符串，其中包含工作描述，如“高级数据顾问”，这些行大约有1000000行。我想把这个字符串缩短为第一个单词（在那个例子中，它将给出'senior'）。下面的代码执行此操作时不会出错 def proc_professional（df）：对于范围内的行（df['Profession'].size）：尝试： df['Profession'].iloc[row]=df['Profession'].iloc[row].split（“”）[0] 除属性

我在Pandas数据框中有一个列，其中每行都有一些字符串，其中包含工作描述，如

“高级数据顾问”

，这些行大约有1000000行。我想把这个字符串缩短为第一个单词（在那个例子中，它将给出

'senior'

）。下面的代码执行此操作时不会出错

def proc_professional（df）：
对于范围内的行（df['Profession'].size）：
尝试：
df['Profession'].iloc[row]=df['Profession'].iloc[row].split（“”）[0]
除属性错误外：
df['Profession'].iloc[row]=“未知”
返回df

我的问题是速度太慢（需要几个小时），有没有更快的方法呢？

根据的建议，下面的方法要快得多

def proc_professional（df）：
df['Profession']=df['Profession'].str.split（）.str[0]
返回df

根据的建议，以下速度要快得多

def proc_professional（df）：
df['Profession']=df['Profession'].str.split（）.str[0]
返回df

不能只使用

df[“Profession”].str.split（）.str[0]

？是的，谢谢！不能只使用

df[“Profession”].str.split（）.str[0]

？是的，谢谢！