Python 使用Dataframe时,casefold()函数不起作用
我有一个tweets数据框架,其中包含id、text、lang、created_at和location列。我正在对文本列执行规范化,我需要将所有文本设置为小写 文本列包含6行Python 使用Dataframe时,casefold()函数不起作用,python,pandas,Python,Pandas,我有一个tweets数据框架,其中包含id、text、lang、created_at和location列。我正在对文本列执行规范化,我需要将所有文本设置为小写 文本列包含6行 Elephants ruined again fields and kills a farmer SFF Friday night build Dont Hi i will forever love and her family The only way Republicans know 这些是我从Twitter上捕获
Elephants ruined again fields and kills a farmer
SFF Friday night build
Dont
Hi
i will forever love and her family
The only way Republicans know
这些是我从Twitter上捕获的一些推文。当我申请时
df.["text"].str.casefold()
它不起作用。输出与输入相同,没有变化。我也试过lower(),但也不起作用。如何执行折叠操作?请尝试以下操作:
x = '''Elephants ruined again fields and kills a farmer
SFF Friday night build
Dont
Hi
i will forever love and her family
The only way Republicans know'''
df = pd.DataFrame(x.split('\n'), columns=['text'])
#*** use str.lower() ***
df.text = df.text.str.lower()
print(df)
请尝试以下操作:
x = '''Elephants ruined again fields and kills a farmer
SFF Friday night build
Dont
Hi
i will forever love and her family
The only way Republicans know'''
df = pd.DataFrame(x.split('\n'), columns=['text'])
#*** use str.lower() ***
df.text = df.text.str.lower()
print(df)
您好,谢谢,但是您知道当文本列中有很多行时,是否可以应用此方法吗。例如,超过20000条tweet。应该可以工作到系统内存的极限。更聪明的人需要谈论绩效。。。如果内存出现问题,您可以将工作划分为N个周期。您好,谢谢,但是您知道当文本列中有很多行时,是否可以应用此方法。例如,超过20000条tweet。应该可以工作到系统内存的极限。更聪明的人需要谈论绩效。。。如果内存出现问题,您始终可以将工作拆分为N个周期。