从python中的任何文档制作单词列表_Python_Text_Document_Word

从python中的任何文档制作单词列表

python text

从python中的任何文档制作单词列表,python,text,document,word,Python,Text,Document,Word,我想从任何文本文档中输出一个简单的单词列表。我要列出每个单词，但不要重复。这就是我所拥有的，但它没有任何作用。我对python相当陌生。谢谢 def MakeWordList(): with open('text.txt','r') as f: data = f.read() return set([word for wordd]) 您不能像这样对读取的数据进行迭代，因为它们是一个字符串，因此您可以获得连续的字符，但是您可以在空格上拆分字符串，这将为您提供一个单

我想从任何文本文档中输出一个简单的单词列表。我要列出每个单词，但不要重复。这就是我所拥有的，但它没有任何作用。我对python相当陌生。谢谢

def MakeWordList():
    with open('text.txt','r') as f:
        data = f.read()
    return set([word for wordd])

您不能像这样对读取的数据进行迭代，因为它们是一个字符串，因此您可以获得连续的字符，但是您可以在空格上拆分字符串，这将为您提供一个单词列表

def MakeWordList():
    with open('possible.rtf','r') as f:
        data = f.read()
    return set([word for word in data.split(' ') if len(word) >= 5 and word.islower() and not 'xx' in word])

def MakeWordList():
    with open('possible.rtf','r') as f:
        data = f.read()
    return set([word for word in data.split(' ') if len(word) >= 5 and word.islower() and not 'xx' in word])

for word in data

循环基本上迭代

数据

，即字符串，因此您的

word

循环变量在每次迭代中获得一个字符。您可能希望使用类似于

data.split（）

的东西来循环单词列表。

for word in data

循环基本上是在

数据

上迭代，即字符串，因此

word

循环变量在每次迭代中都会获得一个字符。您可能希望使用类似于

data.split（）

的方法来循环单词列表。

您好！欢迎来到StackOverflow。如果您试图从

rtf

文件中读取，那么您可以先查看返回的所有单词，而不进行任何过滤；你得到了什么？另外，也许您应该使用？而不是

islower（）

，我将其编辑为我要查找的内容。我发布的代码是我正在使用的示例代码。但现在您的示例代码毫无意义：-/请提供您迄今为止尝试过的代码；在这里，它甚至没有运行。你好！欢迎来到StackOverflow。如果您试图从

rtf

文件中读取，那么您可以先查看返回的所有单词，而不进行任何过滤；你得到了什么？另外，也许您应该使用？而不是

islower（）

，我将其编辑为我要查找的内容。我发布的代码是我正在使用的示例代码。但现在您的示例代码毫无意义：-/请提供您迄今为止尝试过的代码；在这里它甚至不会运行。

data.split（“”）

不会在换行符上拆分。您会得到一些奇怪的结果，如“name\nand”，其中“\n”是换行符。似乎@taras推荐的

data.split（）

可以解决这个问题。它仍然没有打印任何内容。def MakeWordList（）：将open（'test.txt'，'r'）作为f:data=f.read（）返回集（[data.split（）]中的字对字）print（）

print（）

确实不打印任何内容。请尝试打印（MakeWordList（））

数据。拆分（“”）

不会在换行符上拆分。您会得到一些奇怪的结果，如“name\nand”，其中“\n”是换行符。似乎@taras推荐的

data.split（）

print（）

确实不打印任何内容。请尝试打印（MakeWordList（））。这是否也适用于

rtf

文件？行尾似乎不像

\n

字符那样简单。@Joël我会说是的。“如果未指定分隔符，则任何空格（空格、换行符等）字符串都是分隔符。”这是否也适用于

rtf

文件？行尾似乎不像

\n

字符那样简单。@Joël我会说是的。如果未指定分隔符，则任何空格（空格、换行符等）字符串都是分隔符