Python 如何在spaCy中分析较大的文本？_Python_Nlp_Spacy

Python 如何在spaCy中分析较大的文本？

python nlp

Python 如何在spaCy中分析较大的文本？,python,nlp,spacy,Python,Nlp,Spacy,我想分析更大的文本块，最好是在xlsx或docx文档中。我只找到了doc=nlp（'string'）。当我尝试粘贴一个很长的字符串时，触发ipython语法错误（我想是Jupyter的问题吧？），它就不再起作用了，所以我的解决方法也不起作用如果我想分析更大的东西，比如说20页，我该怎么办？另外，我可以以某种方式将此代码集成到散点文本中吗 import spacy import pl_core_news_sm nlp = pl_core_news_sm.load() doc = nlp(&q

我想分析更大的文本块，最好是在xlsx或docx文档中。我只找到了doc=nlp（'string'）。当我尝试粘贴一个很长的字符串时，触发ipython语法错误（我想是Jupyter的问题吧？），它就不再起作用了，所以我的解决方法也不起作用

如果我想分析更大的东西，比如说20页，我该怎么办？另外，我可以以某种方式将此代码集成到散点文本中吗

import spacy
import pl_core_news_sm

nlp = pl_core_news_sm.load()
doc = nlp("Kazik: Niegroźny wirus zasiał panikę. Ludzie dobrowolnie poddali się inwigilacji- Przetestowano, na ile ludzie dobrowolnie poddadzą się inwigilacji. To był bardzo dobry moment. Okazało się, że wystarczy nawet drobne hasło i są gotowi oddać swoją wolność.")

from spacy.lemmatizer import Lemmatizer
from spacy.lookups import Lookups
lookups = Lookups()
lookups.add_table("lemma_rules", {"noun": [["s", ""]]})
lemmatizer = Lemmatizer(lookups)

for token in doc:
    if (token.is_alpha == True and token.is_stop == False):
        print(token.lemma_)

我相信正是这行代码

print（token.lemma）

使您的jupyter内核崩溃，因为您试图打印的信息量很大

为避免出现这种情况，请将您打印到jupyter笔记本中的信息量限制为一个有意义的数字，如：

for token in doc[:100]: # a cap
    if (token.is_alpha == True and token.is_stop == False):
        print(token.lemma_)

或将输出分配到列表：

lst = []
for token in doc:
    if (token.is_alpha == True and token.is_stop == False):
        lst.append(token.lemma_)

我相信正是这行代码

print（token.lemma）

使您的jupyter内核崩溃，因为您试图打印的信息量很大

为避免出现这种情况，请将您打印到jupyter笔记本中的信息量限制为一个有意义的数字，如：

for token in doc[:100]: # a cap
    if (token.is_alpha == True and token.is_stop == False):
        print(token.lemma_)

或将输出分配到列表：

lst = []
for token in doc:
    if (token.is_alpha == True and token.is_stop == False):
        lst.append(token.lemma_)

@Poodle1860回答了你的问题吗？有帮助吗？请考虑@ PooDul1860它回答你的问题吗？有帮助吗？请考虑