Text 标记文本的问题

Text 标记文本的问题,text,mining,Text,Mining,开始进行文本分析,最终需要使用PyCharm2019作为IDE下载语料库。我不太确定回溯消息要我做什么,因为我已经使用PyCharm自己的lib导入接口启用了语料库。为什么说代码无法使用语料库的错误会不断出现 已导入TextBlob,尝试执行以下操作:从TextBlob导入TextBlob…查看下面的代码 from textblob import TextBlob TextBlob(train['tweet'][1]).words print("\nPRINT TOKENIZATION")

开始进行文本分析,最终需要使用PyCharm2019作为IDE下载语料库。我不太确定回溯消息要我做什么,因为我已经使用PyCharm自己的lib导入接口启用了语料库。为什么说代码无法使用语料库的错误会不断出现

已导入TextBlob,尝试执行以下操作:从TextBlob导入TextBlob…查看下面的代码

from textblob import TextBlob

TextBlob(train['tweet'][1]).words

print("\nPRINT TOKENIZATION") # own instruction to allow for knowing what code result delivers

print(TextBlob(train['tweet'][1]).words)

试图通过nltk安装,运气不佳…下载“brown.tei”时出错

显示信息 Tkinter回调中的异常 回溯(最近一次呼叫最后一次): 文件“C:\Users\jcst\AppData\Local\Programs\Python\Python37-32\lib\tkinter\uuuuu init\uuuuuu.py”,第1705行,在调用中 返回self.func(*args) 文件“C:\Users\jcst\PycharmProjects\TextMining\venv\lib\site packages\nltk\downloader.py”,第1796行,下载 返回自我。下载线程(*e) 文件“C:\Users\jcst\PycharmProjects\TextMining\venv\lib\site packages\nltk\downloader.py”,第2082行,在下载目录中 断言自我。下载消息队列==[] 断言错误 回溯(最近一次呼叫最后一次): 文件“C:\Users\jcst\PycharmProjects\TextMining\venv\lib\site packages\textblob\decorators.py”,第35行 返回函数(*args,**kwargs) 文件“C:\Users\jcst\PycharmProjects\TextMining\venv\lib\site packages\textblob\tokenizers.py”,第57行,标记化 返回nltk.tokenize.sent\u tokenize(文本) 文件“C:\Users\jcst\PycharmProjects\TextMining\venv\lib\site packages\nltk\tokenize\uu_init\u_.py”,第104行,在sent\u tokenize中 tokenizer=load('tokenizers/punkt/{0}.pickle'。格式(语言)) 文件“C:\Users\jcst\PycharmProjects\TextMining\venv\lib\site packages\nltk\data.py”,第870行,处于加载状态 已打开\u资源=\u打开(资源\u url)


资源文件“C:\Users\jcst\PycharmProjects\TextMining\venv\lib\site packages\nltk\data.py”,第995行,处于打开状态 没有找到punkt。 请使用NLTK下载程序获取资源: 返回find(路径,路径+['']).open()

文件“C:\Users\jcst\PycharmProjects\TextMining\venv\lib\site packages\nltk\data.py”,第701行,在find中

导入nltk nltk.download('punkt')

有关更多信息,请参阅:

试图加载tokenizer/punkt/english.pickle

搜索: -'C:\Users\jcst/nltk\u数据' -'C:\Users\jcst\PycharmProjects\TextMining\venv\nltk_data' -'C:\Users\jcst\PycharmProjects\TextMining\venv\share\nltk\u data' -'C:\Users\jcst\PycharmProjects\TextMining\venv\lib\nltk_data' -'C:\Users\jcst\AppData\Roaming\nltk\u data' -“C:\nltk\U数据” -'D:\nltk\U数据' -“E:\nltk\U数据” -''


LookupError:


未找到资源punkt。 请使用NLTK下载程序获取资源:

导入nltk nltk.download('punkt')

有关更多信息,请参阅:

试图加载tokenizer/punkt/english.pickle

搜索: -'C:\Users\jcst/nltk\u数据' -'C:\Users\jcst\PycharmProjects\TextMining\venv\nltk_data' -'C:\Users\jcst\PycharmProjects\TextMining\venv\share\nltk\u data' -'C:\Users\jcst\PycharmProjects\TextMining\venv\lib\nltk_data' -'C:\Users\jcst\AppData\Roaming\nltk\u data' -“C:\nltk\U数据” -'D:\nltk\U数据' -“E:\nltk\U数据” -''


在处理上述异常期间,发生了另一个异常:

回溯(最近一次呼叫最后一次): 文件“C:/Users/jcst/PycharmProjects/TextMining/ModuleImportAndTrainFileIntro.py”,第151行,在 TextBlob(train['tweet'][1])。单词 文件“C:\Users\jcst\PycharmProjects\TextMining\venv\lib\site packages\textblob\decorators.py”,第24行,在get value=obj.dict[self.func.name]=self.func(obj) 文件“C:\Users\jcst\PycharmProjects\TextMining\venv\lib\site packages\textblob\blob.py”,第649行,大写 返回单词列表(单词\u标记化(self.raw,include\u punc=False)) word_tokenize中的文件“C:\Users\jcst\PycharmProjects\TextMining\venv\lib\site packages\textblob\tokenizers.py”,第73行 对于sent_tokenize(文本)中的句子) itokenize中的文件“C:\Users\jcst\PycharmProjects\TextMining\venv\lib\site packages\textblob\base.py”,第64行 返回值(self.tokenize中的t代表t(文本,*args,**kwargs)) 文件“C:\Users\jcst\PycharmProjects\TextMining\venv\lib\site packages\textblob\decorators.py”,第38行 raise MissingCorpusError() textblob.exceptions.MissingCorpusError: 看起来您缺少此功能所需的一些数据

要下载必要的数据,只需运行

python -m textblob.download_corpora
或者使用NLTK下载程序下载丢失的数据: 如果这不能解决问题,请在提交问题

python -m textblob.download_corpora