Python 计算代币和类型+;字典

Python 计算代币和类型+;字典,python,dictionary,nltk,tokenize,Python,Dictionary,Nltk,Tokenize,有人能帮我解释一下如何正确地标记、计数和循环吗?有这样的任务要做: 创建一个新的空字典dic={} 循环查看text1中包含的标记,并计算它们在该列表中出现的原始频率。“to”to“in”to be or not be“的“原始频率”为2。最后,当你看完所有的代币 打印一组区分大小写的唯一令牌(即类型),格式为:计数器唯一\令牌频率换行符——按唯一令牌的频率排序 不区分大小写的唯一标记的LRepeat步骤 *Text1来自nltkbook 到目前为止,我已经知道了,但奇怪的事情正在发生,我完全不

有人能帮我解释一下如何正确地标记、计数和循环吗?有这样的任务要做:

  • 创建一个新的空字典
    dic={}
  • 循环查看
    text1
    中包含的标记,并计算它们在该列表中出现的原始频率。“to”to“in”to be or not be“的“原始频率”为2。最后,当你看完所有的代币
  • 打印一组区分大小写的唯一令牌(即类型),格式为:
    计数器唯一\令牌频率换行符
    ——按唯一令牌的频率排序
  • 不区分大小写的唯一标记的LRepeat步骤
  • *Text1来自nltkbook

    到目前为止,我已经知道了,但奇怪的事情正在发生,我完全不明白我做了什么:(


    将非常感谢任何帮助、线索和建议。

    例如,这是一个如何执行此操作的示例

    text = "to be or not to be"
    token = ["to", "or"]
    
    my_dict = {sub:text.count(sub) for sub in token}
    
    print(my_dict)
    
    给你

    {'to': 2, 'or': 1}
    

    你想检查文本的“标记”(子字符串)列表是什么?如果我理解正确,大写和小写字母
    {'to': 2, 'or': 1}