NLTK-如何找出python中安装了哪些语料库？_Python_Nlp_Nltk_Corpus

NLTK-如何找出python中安装了哪些语料库？

python nlp

NLTK-如何找出python中安装了哪些语料库？,python,nlp,nltk,corpus,Python,Nlp,Nltk,Corpus,我正在尝试加载我用NLTK安装程序安装的一些语料库，但我得到一个： >>> from nltk.corpus import machado Traceback (most recent call last): File "<stdin>", line 1, in <module> ImportError: cannot import name machado >>从nltk.corpus导入machado 回溯（最近

我正在尝试加载我用NLTK安装程序安装的一些语料库，但我得到一个：

>>> from nltk.corpus import machado
      Traceback (most recent call last):
      File "<stdin>", line 1, in <module>
      ImportError: cannot import name machado

>>从nltk.corpus导入machado
回溯（最近一次呼叫最后一次）：
文件“”，第1行，在
ImportError:无法导入名称machado

但是在下载管理器（

nltk.download（）

）中，包machado被标记为已安装，我有一个

nltk\u data/corpus/machado

文件夹

如何从python intepreter内部查看已安装的语料库

另外，我应该安装什么软件包来处理此操作指南？

我找不到nltk模块。操作指南中提到的示例。

试试看

import nltk.corpus
dir(nltk.corpus)

在这一点上，它可能会告诉你一些关于

\uuuuzymodule\uuuuz…

的事情，所以再次告诉你

dir（nltk.corpus）

如果不起作用，请尝试在iPython中完成制表符。

NLTK包含一个包，

NLTK.corpus

，其中包含语料库读取器的定义（例如

明文语料库读取器

）。该软件包还包括一个大型的语料库预定义访问点列表，可以使用

nltk.downloader（）

下载这些访问点。这些访问点（例如，

nltk.corpus.brown

）是在相应的语料库是否已下载的情况下定义的

要查看NLTK中定义了哪些访问点，请使用

dir（NLTK.corpus）

（在

导入NLTK之后）


要查看您在nltk\U数据区中拥有的哪个语料库，请尝试以下操作：
import os
import nltk
print( os.listdir( nltk.data.find("corpora") ) )

这只是转储一个包含文件夹nltk\u data/corpora
内容的列表。你可以从那里拿走

如果您已经在nltk_数据/corba
区域安装了自己的语料库，而nltk不知道，您需要自己启动相应的阅读器。例如，如果它是corpora/mycorpus
中的纯文本语料库，并且所有文件都以.txt
结尾，您可以这样做：
import nltk
from nltk.corpus import PlaintextCorpusReader

mypath = nltk.data.find("corpora/mycorpus")
mycorpus = PlaintextCorpusReader(mypath, r".*\.txt$")

但是在这种情况下，你可以把你自己的语料库放在任何地方，直接指向它，而不是让NLTK找到它

mine was at/home/myUser/nltk_data此方法不会告诉您nltk data目录中安装了哪些语料库；无论是否安装，只有那些具有预定义访问点。如果要查看是否安装了语料库，我建议：