Python 如何在spaCy中分析较大的文本?

Python 如何在spaCy中分析较大的文本?,python,nlp,spacy,Python,Nlp,Spacy,我想分析更大的文本块,最好是在xlsx或docx文档中。我只找到了doc=nlp('string')。当我尝试粘贴一个很长的字符串时,触发ipython语法错误(我想是Jupyter的问题吧?),它就不再起作用了,所以我的解决方法也不起作用 如果我想分析更大的东西,比如说20页,我该怎么办? 另外,我可以以某种方式将此代码集成到散点文本中吗 import spacy import pl_core_news_sm nlp = pl_core_news_sm.load() doc = nlp(&q

我想分析更大的文本块,最好是在xlsx或docx文档中。我只找到了doc=nlp('string')。当我尝试粘贴一个很长的字符串时,触发ipython语法错误(我想是Jupyter的问题吧?),它就不再起作用了,所以我的解决方法也不起作用

如果我想分析更大的东西,比如说20页,我该怎么办? 另外,我可以以某种方式将此代码集成到散点文本中吗

import spacy
import pl_core_news_sm

nlp = pl_core_news_sm.load()
doc = nlp("Kazik: Niegroźny wirus zasiał panikę. Ludzie dobrowolnie poddali się inwigilacji- Przetestowano, na ile ludzie dobrowolnie poddadzą się inwigilacji. To był bardzo dobry moment. Okazało się, że wystarczy nawet drobne hasło i są gotowi oddać swoją wolność.")

from spacy.lemmatizer import Lemmatizer
from spacy.lookups import Lookups
lookups = Lookups()
lookups.add_table("lemma_rules", {"noun": [["s", ""]]})
lemmatizer = Lemmatizer(lookups)

for token in doc:
    if (token.is_alpha == True and token.is_stop == False):
        print(token.lemma_)

我相信正是这行代码
print(token.lemma)
使您的jupyter内核崩溃,因为您试图打印的信息量很大

为避免出现这种情况,请将您打印到jupyter笔记本中的信息量限制为一个有意义的数字,如:

for token in doc[:100]: # a cap
    if (token.is_alpha == True and token.is_stop == False):
        print(token.lemma_)
或将输出分配到列表:

lst = []
for token in doc:
    if (token.is_alpha == True and token.is_stop == False):
        lst.append(token.lemma_)

我相信正是这行代码
print(token.lemma)
使您的jupyter内核崩溃,因为您试图打印的信息量很大

为避免出现这种情况,请将您打印到jupyter笔记本中的信息量限制为一个有意义的数字,如:

for token in doc[:100]: # a cap
    if (token.is_alpha == True and token.is_stop == False):
        print(token.lemma_)
或将输出分配到列表:

lst = []
for token in doc:
    if (token.is_alpha == True and token.is_stop == False):
        lst.append(token.lemma_)

@Poodle1860回答了你的问题吗?有帮助吗?请考虑@ PooDul1860它回答你的问题吗?有帮助吗?请考虑