NLTK-如何找出python中安装了哪些语料库?
我正在尝试加载我用NLTK安装程序安装的一些语料库,但我得到一个:NLTK-如何找出python中安装了哪些语料库?,python,nlp,nltk,corpus,Python,Nlp,Nltk,Corpus,我正在尝试加载我用NLTK安装程序安装的一些语料库,但我得到一个: >>> from nltk.corpus import machado Traceback (most recent call last): File "<stdin>", line 1, in <module> ImportError: cannot import name machado >>从nltk.corpus导入machado 回溯(最近
>>> from nltk.corpus import machado
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
ImportError: cannot import name machado
>>从nltk.corpus导入machado
回溯(最近一次呼叫最后一次):
文件“”,第1行,在
ImportError:无法导入名称machado
但是在下载管理器(nltk.download()
)中,包machado被标记为已安装,我有一个nltk\u data/corpus/machado
文件夹
如何从python intepreter内部查看已安装的语料库
另外,我应该安装什么软件包来处理此操作指南?
我找不到nltk模块。操作指南中提到的示例。试试看
import nltk.corpus
dir(nltk.corpus)
在这一点上,它可能会告诉你一些关于\uuuuzymodule\uuuuz…
的事情,所以再次告诉你dir(nltk.corpus)
如果不起作用,请尝试在iPython中完成制表符。NLTK包含一个包,
NLTK.corpus
,其中包含语料库读取器的定义(例如明文语料库读取器
)。该软件包还包括一个大型的语料库预定义访问点列表,可以使用nltk.downloader()
下载这些访问点。这些访问点(例如,nltk.corpus.brown
)是在相应的语料库是否已下载的情况下定义的
dir(NLTK.corpus)
(在导入NLTK之后)
nltk\U数据区中拥有的哪个语料库,请尝试以下操作:
import os
import nltk
print( os.listdir( nltk.data.find("corpora") ) )
这只是转储一个包含文件夹nltk\u data/corpora
内容的列表。你可以从那里拿走
nltk_数据/corba
区域安装了自己的语料库,而nltk不知道,您需要自己启动相应的阅读器。例如,如果它是corpora/mycorpus
中的纯文本语料库,并且所有文件都以.txt
结尾,您可以这样做:
import nltk
from nltk.corpus import PlaintextCorpusReader
mypath = nltk.data.find("corpora/mycorpus")
mycorpus = PlaintextCorpusReader(mypath, r".*\.txt$")
但是在这种情况下,你可以把你自己的语料库放在任何地方,直接指向它,而不是让NLTK找到它mine was at/home/myUser/nltk_data此方法不会告诉您nltk data目录中安装了哪些语料库;无论是否安装,只有那些具有预定义访问点。如果要查看是否安装了语料库,我建议: