NLTK-如何找出python中安装了哪些语料库?

NLTK-如何找出python中安装了哪些语料库?,python,nlp,nltk,corpus,Python,Nlp,Nltk,Corpus,我正在尝试加载我用NLTK安装程序安装的一些语料库,但我得到一个: >>> from nltk.corpus import machado Traceback (most recent call last): File "<stdin>", line 1, in <module> ImportError: cannot import name machado >>从nltk.corpus导入machado 回溯(最近

我正在尝试加载我用NLTK安装程序安装的一些语料库,但我得到一个:

>>> from nltk.corpus import machado
      Traceback (most recent call last):
      File "<stdin>", line 1, in <module>
      ImportError: cannot import name machado
>>从nltk.corpus导入machado
回溯(最近一次呼叫最后一次):
文件“”,第1行,在
ImportError:无法导入名称machado
但是在下载管理器(
nltk.download()
)中,包machado被标记为已安装,我有一个
nltk\u data/corpus/machado
文件夹

如何从python intepreter内部查看已安装的语料库

另外,我应该安装什么软件包来处理此操作指南?

我找不到nltk模块。操作指南中提到的示例。

试试看

import nltk.corpus
dir(nltk.corpus)
在这一点上,它可能会告诉你一些关于
\uuuuzymodule\uuuuz…
的事情,所以再次告诉你
dir(nltk.corpus)


如果不起作用,请尝试在iPython中完成制表符。

NLTK包含一个包,
NLTK.corpus
,其中包含语料库读取器的定义(例如
明文语料库读取器
)。该软件包还包括一个大型的语料库预定义访问点列表,可以使用
nltk.downloader()
下载这些访问点。这些访问点(例如,
nltk.corpus.brown
)是在相应的语料库是否已下载的情况下定义的

  • 要查看NLTK中定义了哪些访问点,请使用
    dir(NLTK.corpus)
    (在
    导入NLTK之后)

  • 要查看您在
    nltk\U数据区中拥有的哪个语料库,请尝试以下操作:

    import os
    import nltk
    print( os.listdir( nltk.data.find("corpora") ) )
    
    这只是转储一个包含文件夹
    nltk\u data/corpora
    内容的列表。你可以从那里拿走

  • 如果您已经在
    nltk_数据/corba
    区域安装了自己的语料库,而nltk不知道,您需要自己启动相应的阅读器。例如,如果它是
    corpora/mycorpus
    中的纯文本语料库,并且所有文件都以
    .txt
    结尾,您可以这样做:

    import nltk
    from nltk.corpus import PlaintextCorpusReader
    
    mypath = nltk.data.find("corpora/mycorpus")
    mycorpus = PlaintextCorpusReader(mypath, r".*\.txt$")
    
    但是在这种情况下,你可以把你自己的语料库放在任何地方,直接指向它,而不是让NLTK找到它


  • mine was at/home/myUser/nltk_data此方法不会告诉您nltk data目录中安装了哪些语料库;无论是否安装,只有那些具有预定义访问点。如果要查看是否安装了语料库,我建议: