Python 计算代币和类型+；字典_Python_Dictionary_Nltk_Tokenize

Python 计算代币和类型+；字典

python dictionary

Python 计算代币和类型+；字典,python,dictionary,nltk,tokenize,Python,Dictionary,Nltk,Tokenize,有人能帮我解释一下如何正确地标记、计数和循环吗？有这样的任务要做：创建一个新的空字典dic={} 循环查看text1中包含的标记，并计算它们在该列表中出现的原始频率。“to”to“in”to be or not be“的“原始频率”为2。最后，当你看完所有的代币打印一组区分大小写的唯一令牌（即类型），格式为：计数器唯一\令牌频率换行符——按唯一令牌的频率排序不区分大小写的唯一标记的LRepeat步骤 *Text1来自nltkbook 到目前为止，我已经知道了，但奇怪的事情正在发生，我完全不

有人能帮我解释一下如何正确地标记、计数和循环吗？有这样的任务要做：

创建一个新的空字典

dic={}

循环查看

text1

中包含的标记，并计算它们在该列表中出现的原始频率。“to”to“in”to be or not be“的“原始频率”为2。最后，当你看完所有的代币

打印一组区分大小写的唯一令牌（即类型），格式为：

计数器唯一\令牌频率换行符

——按唯一令牌的频率排序

不区分大小写的唯一标记的LRepeat步骤

*Text1来自nltkbook

到目前为止，我已经知道了，但奇怪的事情正在发生，我完全不明白我做了什么：(

将非常感谢任何帮助、线索和建议。

例如，这是一个如何执行此操作的示例

text = "to be or not to be"
token = ["to", "or"]

my_dict = {sub:text.count(sub) for sub in token}

print(my_dict)

给你

{'to': 2, 'or': 1}

你想检查文本的“标记”（子字符串）列表是什么？如果我理解正确，大写和小写字母

{'to': 2, 'or': 1}