Nlp 文本长度超过最大值-如何增加它？_Nlp_Tokenize

Nlp 文本长度超过最大值-如何增加它？

nlp

Nlp 文本长度超过最大值-如何增加它？,nlp,tokenize,Nlp,Tokenize,我试图对url中的数据进行标记，运行时出现以下错误 ValueError:[E088]长度为5190319的文本超过最大值1000000。v2.x解析器和NER模型在输入中每100000个字符大约需要1GB的临时内存。这意味着长文本可能会导致内存分配错误。如果您没有使用解析器或NER，那么增加nlp.max_length限制可能是安全的。限制是字符数，因此您可以通过检查len（text）来检查输入是否过长如何增加长度？是专门为tweet和在线评论设计的，所以不应该出现很长的文本。我猜您的数据是

我试图对url中的数据进行标记，运行时出现以下错误 ValueError:[E088]长度为5190319的文本超过最大值1000000。v2.x解析器和NER模型在输入中每100000个字符大约需要1GB的临时内存。这意味着长文本可能会导致内存分配错误。如果您没有使用解析器或NER，那么增加

nlp.max_length

限制可能是安全的。限制是字符数，因此您可以通过检查

len（text）

来检查输入是否过长

如何增加长度？

是专门为tweet和在线评论设计的，所以不应该出现很长的文本。我猜您的数据是每行一条tweet，因此最好的方法是一次向您的标记器提供一条tweet：

  import nltk
  from urllib import request
  from redditscore.tokenizer import CrazyTokenizer
  tokenizer = CrazyTokenizer()
  url = "http://www.site.uottawa.ca/~diana/csi5386/A1_2020/microblog2011.txt"
  response = request.urlopen(url)
  raw = response.read().decode('utf-8-sig')
  tokenizer.tokenize(raw)

您在理解错误信息的哪一部分时遇到困难？这非常有帮助如果这有助于您解决问题，请随时接受答案！

from urllib import request
from redditscore.tokenizer import CrazyTokenizer
tokenizer = CrazyTokenizer()
url = "http://www.site.uottawa.ca/~diana/csi5386/A1_2020/microblog2011.txt"
for line in request.urlopen(url):
    tokens = tokenizer.tokenize(line.decode('utf-8'))
    print(tokens)