Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/sockets/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 如何计算文件nlp中的令牌数_Python - Fatal编程技术网

Python 如何计算文件nlp中的令牌数

Python 如何计算文件nlp中的令牌数,python,Python,标记器将句子拆分为单词。在上面的代码中,我的输出以标记(1)的形式保存在文件中 到 碳 一氧化碳 不 医学的 一致 大道 B W 自然对数 1. N 诺森伯兰 W 康科 自然对数 2. N 诺森伯兰 w) 输出将以列表的形式出现在令牌中,然后我将此列表转换为文本文件 如何计算该文件中的令牌数 请帮助……Hi@leo欢迎来到社区,如果您能为您的问题添加更多的上下文,这将非常有帮助。令牌是否成为数组?tokenizer做什么?在提问时,请尽可能具体,并帮助我们了解您的提问是什么。打开('your_f

标记器将句子拆分为单词。在上面的代码中,我的输出以标记(1)的形式保存在文件中 到 碳 一氧化碳 不 医学的 一致 大道 B W 自然对数 1. N 诺森伯兰 W 康科 自然对数 2. N 诺森伯兰 w) 输出将以列表的形式出现在令牌中,然后我将此列表转换为文本文件

如何计算该文件中的令牌数


请帮助……

Hi@leo欢迎来到社区,如果您能为您的问题添加更多的上下文,这将非常有帮助。令牌是否成为数组?
tokenizer
做什么?在提问时,请尽可能具体,并帮助我们了解您的提问是什么。打开('your_file.txt','r',encoding='utf-8',errors='replace')作为f:list_=f.readlines()len(list_uu)wll会给您令牌编号
from urllib import request
from redditscore.tokenizer import CrazyTokenizer
tokenizer = CrazyTokenizer()
url = "http://www.site.uottawa.ca/~diana/csi5386/A1_2020/microblog2011.txt"
with open('your_file.txt', 'a',encoding='utf-8', errors='replace') as f:
    for line in request.urlopen(url):
        tokens = tokenizer.tokenize(line.decode('utf-8'))
        print(tokens)
        for item in tokens:
            f.write("%s\n" % item)