Nlp 文本长度超过最大值-如何增加它?

Nlp 文本长度超过最大值-如何增加它?,nlp,tokenize,Nlp,Tokenize,我试图对url中的数据进行标记,运行时出现以下错误 ValueError:[E088]长度为5190319的文本超过最大值1000000。v2.x解析器和NER模型在输入中每100000个字符大约需要1GB的临时内存。这意味着长文本可能会导致内存分配错误。如果您没有使用解析器或NER,那么增加nlp.max_length限制可能是安全的。限制是字符数,因此您可以通过检查len(text)来检查输入是否过长 如何增加长度?是专门为tweet和在线评论设计的,所以不应该出现很长的文本。我猜您的数据是

我试图对url中的数据进行标记,运行时出现以下错误 ValueError:[E088]长度为5190319的文本超过最大值1000000。v2.x解析器和NER模型在输入中每100000个字符大约需要1GB的临时内存。这意味着长文本可能会导致内存分配错误。如果您没有使用解析器或NER,那么增加
nlp.max_length
限制可能是安全的。限制是字符数,因此您可以通过检查
len(text)
来检查输入是否过长

如何增加长度?

是专门为tweet和在线评论设计的,所以不应该出现很长的文本。我猜您的数据是每行一条tweet,因此最好的方法是一次向您的标记器提供一条tweet:

  import nltk
  from urllib import request
  from redditscore.tokenizer import CrazyTokenizer
  tokenizer = CrazyTokenizer()
  url = "http://www.site.uottawa.ca/~diana/csi5386/A1_2020/microblog2011.txt"
  response = request.urlopen(url)
  raw = response.read().decode('utf-8-sig')
  tokenizer.tokenize(raw)

您在理解错误信息的哪一部分时遇到困难?这非常有帮助如果这有助于您解决问题,请随时接受答案!
from urllib import request
from redditscore.tokenizer import CrazyTokenizer
tokenizer = CrazyTokenizer()
url = "http://www.site.uottawa.ca/~diana/csi5386/A1_2020/microblog2011.txt"
for line in request.urlopen(url):
    tokens = tokenizer.tokenize(line.decode('utf-8'))
    print(tokens)