从python中的任何文档制作单词列表
我想从任何文本文档中输出一个简单的单词列表。我要列出每个单词,但不要重复。这就是我所拥有的,但它没有任何作用。我对python相当陌生。谢谢从python中的任何文档制作单词列表,python,text,document,word,Python,Text,Document,Word,我想从任何文本文档中输出一个简单的单词列表。我要列出每个单词,但不要重复。这就是我所拥有的,但它没有任何作用。我对python相当陌生。谢谢 def MakeWordList(): with open('text.txt','r') as f: data = f.read() return set([word for wordd]) 您不能像这样对读取的数据进行迭代,因为它们是一个字符串,因此您可以获得连续的字符,但是您可以在空格上拆分字符串,这将为您提供一个单
def MakeWordList():
with open('text.txt','r') as f:
data = f.read()
return set([word for wordd])
您不能像这样对读取的数据进行迭代,因为它们是一个字符串,因此您可以获得连续的字符,但是您可以在空格上拆分字符串,这将为您提供一个单词列表
def MakeWordList():
with open('possible.rtf','r') as f:
data = f.read()
return set([word for word in data.split(' ') if len(word) >= 5 and word.islower() and not 'xx' in word])
您不能像这样对读取的数据进行迭代,因为它们是一个字符串,因此您可以获得连续的字符,但是您可以在空格上拆分字符串,这将为您提供一个单词列表
def MakeWordList():
with open('possible.rtf','r') as f:
data = f.read()
return set([word for word in data.split(' ') if len(word) >= 5 and word.islower() and not 'xx' in word])
for word in data
循环基本上迭代数据
,即字符串,因此您的word
循环变量在每次迭代中获得一个字符。您可能希望使用类似于data.split()
的东西来循环单词列表。for word in data
循环基本上是在数据
上迭代,即字符串,因此word
循环变量在每次迭代中都会获得一个字符。您可能希望使用类似于data.split()
的方法来循环单词列表。您好!欢迎来到StackOverflow。如果您试图从rtf
文件中读取,那么您可以先查看返回的所有单词,而不进行任何过滤;你得到了什么?另外,也许您应该使用?而不是islower()
,我将其编辑为我要查找的内容。我发布的代码是我正在使用的示例代码。但现在您的示例代码毫无意义:-/请提供您迄今为止尝试过的代码;在这里,它甚至没有运行。你好!欢迎来到StackOverflow。如果您试图从rtf
文件中读取,那么您可以先查看返回的所有单词,而不进行任何过滤;你得到了什么?另外,也许您应该使用?而不是islower()
,我将其编辑为我要查找的内容。我发布的代码是我正在使用的示例代码。但现在您的示例代码毫无意义:-/请提供您迄今为止尝试过的代码;在这里它甚至不会运行。data.split(“”)
不会在换行符上拆分。您会得到一些奇怪的结果,如“name\nand”,其中“\n”是换行符。似乎@taras推荐的data.split()
可以解决这个问题。它仍然没有打印任何内容。def MakeWordList():将open('test.txt','r')作为f:data=f.read()返回集([data.split()]中的字对字)print()print()
确实不打印任何内容。请尝试打印(MakeWordList())数据。拆分(“”)
不会在换行符上拆分。您会得到一些奇怪的结果,如“name\nand”,其中“\n”是换行符。似乎@taras推荐的data.split()
可以解决这个问题。它仍然没有打印任何内容。def MakeWordList():将open('test.txt','r')作为f:data=f.read()返回集([data.split()]中的字对字)print()print()
确实不打印任何内容。请尝试打印(MakeWordList())。这是否也适用于rtf
文件?行尾似乎不像\n
字符那样简单。@Joël我会说是的。“如果未指定分隔符,则任何空格(空格、换行符等)字符串都是分隔符。”这是否也适用于rtf
文件?行尾似乎不像\n
字符那样简单。@Joël我会说是的。如果未指定分隔符,则任何空格(空格、换行符等)字符串都是分隔符