Python 熊猫不能识别单词,只能识别字母。当我切片时,它给我的是单词而不是字母,我怎么能这样做呢?

Python 熊猫不能识别单词,只能识别字母。当我切片时,它给我的是单词而不是字母,我怎么能这样做呢?,python,pandas,nlp,nltk,data-analysis,Python,Pandas,Nlp,Nltk,Data Analysis,当我将此函数应用于文本时,文本会被清除,但当我在单元格中搜索特定单词时,它只会给我字母,而不是单词 def clean_text(x): txt = re.sub(r'https?://\S+', '', x) txt = re.sub('[^A-Za-z]+', ' ', x) txt = ' '.join(txt.split()) return txt 当我试图以以下方式获取第一个单词(应该是‘future’)时:df_clean.iloc[0,][0],我只得到一个‘F’ 如何在单元格中

当我将此函数应用于文本时,文本会被清除,但当我在单元格中搜索特定单词时,它只会给我字母,而不是单词

def clean_text(x):
txt = re.sub(r'https?://\S+', '', x)
txt = re.sub('[^A-Za-z]+', ' ', x)
txt = ' '.join(txt.split())
return txt
当我试图以以下方式获取第一个单词(应该是‘future’)时:df_clean.iloc[0,][0],我只得到一个‘F’


如何在单元格中通过索引查找单词?

df\u clean.iloc[0,][0]
将返回
df\u clean.iloc[0,]
的第0个元素,该元素给定了
df\u clean.iloc[0,]
是字符串,将是第一个字母。您不需要第0个元素,而是需要第0个单词。如果单元格中有一个列表,那么您所做的将起作用

两种解决方案:

  • 如果需要,您可以返回(在
    clean_text()
    txt.split()
    中,这样您就有了列表
  • 或者,如果需要,您可以按现在的状态返回,并使用拼接搜索到第一个空格
    df_clean.iloc[0,][0:str.index('')