Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/341.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
从python中的任何文档制作单词列表_Python_Text_Document_Word - Fatal编程技术网

从python中的任何文档制作单词列表

从python中的任何文档制作单词列表,python,text,document,word,Python,Text,Document,Word,我想从任何文本文档中输出一个简单的单词列表。我要列出每个单词,但不要重复。这就是我所拥有的,但它没有任何作用。我对python相当陌生。谢谢 def MakeWordList(): with open('text.txt','r') as f: data = f.read() return set([word for wordd]) 您不能像这样对读取的数据进行迭代,因为它们是一个字符串,因此您可以获得连续的字符,但是您可以在空格上拆分字符串,这将为您提供一个单

我想从任何文本文档中输出一个简单的单词列表。我要列出每个单词,但不要重复。这就是我所拥有的,但它没有任何作用。我对python相当陌生。谢谢

def MakeWordList():
    with open('text.txt','r') as f:
        data = f.read()
    return set([word for wordd])

您不能像这样对读取的数据进行迭代,因为它们是一个字符串,因此您可以获得连续的字符,但是您可以在空格上拆分字符串,这将为您提供一个单词列表

def MakeWordList():
    with open('possible.rtf','r') as f:
        data = f.read()
    return set([word for word in data.split(' ') if len(word) >= 5 and word.islower() and not 'xx' in word])

您不能像这样对读取的数据进行迭代,因为它们是一个字符串,因此您可以获得连续的字符,但是您可以在空格上拆分字符串,这将为您提供一个单词列表

def MakeWordList():
    with open('possible.rtf','r') as f:
        data = f.read()
    return set([word for word in data.split(' ') if len(word) >= 5 and word.islower() and not 'xx' in word])

for word in data
循环基本上迭代
数据
,即字符串,因此您的
word
循环变量在每次迭代中获得一个字符。您可能希望使用类似于
data.split()
的东西来循环单词列表。

for word in data
循环基本上是在
数据
上迭代,即字符串,因此
word
循环变量在每次迭代中都会获得一个字符。您可能希望使用类似于
data.split()
的方法来循环单词列表。

您好!欢迎来到StackOverflow。如果您试图从
rtf
文件中读取,那么您可以先查看返回的所有单词,而不进行任何过滤;你得到了什么?另外,也许您应该使用?而不是
islower()
,我将其编辑为我要查找的内容。我发布的代码是我正在使用的示例代码。但现在您的示例代码毫无意义:-/请提供您迄今为止尝试过的代码;在这里,它甚至没有运行。你好!欢迎来到StackOverflow。如果您试图从
rtf
文件中读取,那么您可以先查看返回的所有单词,而不进行任何过滤;你得到了什么?另外,也许您应该使用?而不是
islower()
,我将其编辑为我要查找的内容。我发布的代码是我正在使用的示例代码。但现在您的示例代码毫无意义:-/请提供您迄今为止尝试过的代码;在这里它甚至不会运行。
data.split(“”)
不会在换行符上拆分。您会得到一些奇怪的结果,如“name\nand”,其中“\n”是换行符。似乎@taras推荐的
data.split()
可以解决这个问题。它仍然没有打印任何内容。def MakeWordList():将open('test.txt','r')作为f:data=f.read()返回集([data.split()]中的字对字)print()
print()
确实不打印任何内容。请尝试打印(MakeWordList())
数据。拆分(“”)
不会在换行符上拆分。您会得到一些奇怪的结果,如“name\nand”,其中“\n”是换行符。似乎@taras推荐的
data.split()
可以解决这个问题。它仍然没有打印任何内容。def MakeWordList():将open('test.txt','r')作为f:data=f.read()返回集([data.split()]中的字对字)print()
print()
确实不打印任何内容。请尝试打印(MakeWordList())。这是否也适用于
rtf
文件?行尾似乎不像
\n
字符那样简单。@Joël我会说是的。“如果未指定分隔符,则任何空格(空格、换行符等)字符串都是分隔符。”这是否也适用于
rtf
文件?行尾似乎不像
\n
字符那样简单。@Joël我会说是的。如果未指定分隔符,则任何空格(空格、换行符等)字符串都是分隔符