Text 标记文本的问题
开始进行文本分析,最终需要使用PyCharm2019作为IDE下载语料库。我不太确定回溯消息要我做什么,因为我已经使用PyCharm自己的lib导入接口启用了语料库。为什么说代码无法使用语料库的错误会不断出现 已导入TextBlob,尝试执行以下操作:从TextBlob导入TextBlob…查看下面的代码Text 标记文本的问题,text,mining,Text,Mining,开始进行文本分析,最终需要使用PyCharm2019作为IDE下载语料库。我不太确定回溯消息要我做什么,因为我已经使用PyCharm自己的lib导入接口启用了语料库。为什么说代码无法使用语料库的错误会不断出现 已导入TextBlob,尝试执行以下操作:从TextBlob导入TextBlob…查看下面的代码 from textblob import TextBlob TextBlob(train['tweet'][1]).words print("\nPRINT TOKENIZATION")
from textblob import TextBlob
TextBlob(train['tweet'][1]).words
print("\nPRINT TOKENIZATION") # own instruction to allow for knowing what code result delivers
print(TextBlob(train['tweet'][1]).words)
试图通过nltk安装,运气不佳…下载“brown.tei”时出错
显示信息
Tkinter回调中的异常
回溯(最近一次呼叫最后一次):
文件“C:\Users\jcst\AppData\Local\Programs\Python\Python37-32\lib\tkinter\uuuuu init\uuuuuu.py”,第1705行,在调用中
返回self.func(*args)
文件“C:\Users\jcst\PycharmProjects\TextMining\venv\lib\site packages\nltk\downloader.py”,第1796行,下载
返回自我。下载线程(*e)
文件“C:\Users\jcst\PycharmProjects\TextMining\venv\lib\site packages\nltk\downloader.py”,第2082行,在下载目录中
断言自我。下载消息队列==[]
断言错误
回溯(最近一次呼叫最后一次):
文件“C:\Users\jcst\PycharmProjects\TextMining\venv\lib\site packages\textblob\decorators.py”,第35行
返回函数(*args,**kwargs)
文件“C:\Users\jcst\PycharmProjects\TextMining\venv\lib\site packages\textblob\tokenizers.py”,第57行,标记化
返回nltk.tokenize.sent\u tokenize(文本)
文件“C:\Users\jcst\PycharmProjects\TextMining\venv\lib\site packages\nltk\tokenize\uu_init\u_.py”,第104行,在sent\u tokenize中
tokenizer=load('tokenizers/punkt/{0}.pickle'。格式(语言))
文件“C:\Users\jcst\PycharmProjects\TextMining\venv\lib\site packages\nltk\data.py”,第870行,处于加载状态
已打开\u资源=\u打开(资源\u url)
资源文件“C:\Users\jcst\PycharmProjects\TextMining\venv\lib\site packages\nltk\data.py”,第995行,处于打开状态 没有找到punkt。 请使用NLTK下载程序获取资源: 返回find(路径,路径+['']).open() 文件“C:\Users\jcst\PycharmProjects\TextMining\venv\lib\site packages\nltk\data.py”,第701行,在find中 导入nltk nltk.download('punkt') 有关更多信息,请参阅: 试图加载tokenizer/punkt/english.pickle 搜索: -'C:\Users\jcst/nltk\u数据' -'C:\Users\jcst\PycharmProjects\TextMining\venv\nltk_data' -'C:\Users\jcst\PycharmProjects\TextMining\venv\share\nltk\u data' -'C:\Users\jcst\PycharmProjects\TextMining\venv\lib\nltk_data' -'C:\Users\jcst\AppData\Roaming\nltk\u data' -“C:\nltk\U数据” -'D:\nltk\U数据' -“E:\nltk\U数据” -''
LookupError:
未找到资源punkt。 请使用NLTK下载程序获取资源: 导入nltk nltk.download('punkt') 有关更多信息,请参阅: 试图加载tokenizer/punkt/english.pickle 搜索: -'C:\Users\jcst/nltk\u数据' -'C:\Users\jcst\PycharmProjects\TextMining\venv\nltk_data' -'C:\Users\jcst\PycharmProjects\TextMining\venv\share\nltk\u data' -'C:\Users\jcst\PycharmProjects\TextMining\venv\lib\nltk_data' -'C:\Users\jcst\AppData\Roaming\nltk\u data' -“C:\nltk\U数据” -'D:\nltk\U数据' -“E:\nltk\U数据” -''
在处理上述异常期间,发生了另一个异常: 回溯(最近一次呼叫最后一次): 文件“C:/Users/jcst/PycharmProjects/TextMining/ModuleImportAndTrainFileIntro.py”,第151行,在 TextBlob(train['tweet'][1])。单词 文件“C:\Users\jcst\PycharmProjects\TextMining\venv\lib\site packages\textblob\decorators.py”,第24行,在get value=obj.dict[self.func.name]=self.func(obj) 文件“C:\Users\jcst\PycharmProjects\TextMining\venv\lib\site packages\textblob\blob.py”,第649行,大写 返回单词列表(单词\u标记化(self.raw,include\u punc=False)) word_tokenize中的文件“C:\Users\jcst\PycharmProjects\TextMining\venv\lib\site packages\textblob\tokenizers.py”,第73行 对于sent_tokenize(文本)中的句子) itokenize中的文件“C:\Users\jcst\PycharmProjects\TextMining\venv\lib\site packages\textblob\base.py”,第64行 返回值(self.tokenize中的t代表t(文本,*args,**kwargs)) 文件“C:\Users\jcst\PycharmProjects\TextMining\venv\lib\site packages\textblob\decorators.py”,第38行 raise MissingCorpusError() textblob.exceptions.MissingCorpusError: 看起来您缺少此功能所需的一些数据 要下载必要的数据,只需运行
python -m textblob.download_corpora
或者使用NLTK下载程序下载丢失的数据:
如果这不能解决问题,请在提交问题
python -m textblob.download_corpora