如何使用Python从文本中删除单词?

如何使用Python从文本中删除单词?,python,python-2.7,Python,Python 2.7,我想从文本中删除非英语单词。我使用了nltk的词汇库,但它比“enchant”库更糟糕 创建我自己的文本词典需要大量的时间和思考 Enchant对专有名词区分大小写,例如,对于firefox,它将返回False;对于firefox,它将返回True;我的文本将全部转换为小写。enchant库是否对专有名词不区分大小写 编辑:我想了想,发现enchant lib对于任何首字母大写的英语单词都返回true。因此,我只是使用python的title()方法将每个单词的第一个字母转换为大写,结果会有所改

我想从文本中删除非英语单词。我使用了nltk的词汇库,但它比“enchant”库更糟糕

创建我自己的文本词典需要大量的时间和思考

Enchant对专有名词区分大小写,例如,对于firefox,它将返回False;对于firefox,它将返回True;我的文本将全部转换为小写。enchant库是否对专有名词不区分大小写


编辑:我想了想,发现enchant lib对于任何首字母大写的英语单词都返回true。因此,我只是使用python的title()方法将每个单词的第一个字母转换为大写,结果会有所改善。

您能展示您的代码吗?我认为这在一般情况下是不可能的。看起来像英语单词的单词实际上可能是来自其他语言的同形异义词。那么,专有名词呢?你想把韩国公司的名字(比如三星)当作英文单词吗?俄罗斯公司呢?如果是这样的话,你知道所有韩国/俄罗斯公司的名称吗?@rosh我只是在一个文本文件中重复所有的单词,检查enchant.Dict(“en”).check(“word”)是否返回true或truefalse@DYZ对案件敏感的问题如何解决?案件无关紧要。如果你的文本中有一个单词“lot”,你是因为它是英语而保留它,还是因为它是波兰语而删除它?(两者都有)Toyota是英语单词吗?那么丰田章男呢?(日语中“Toyota”的原始拼写)除非你对“英语单词”有一个明确的定义,否则这个问题是无法解决的。