Python 计算代币和类型+;字典
有人能帮我解释一下如何正确地标记、计数和循环吗?有这样的任务要做:Python 计算代币和类型+;字典,python,dictionary,nltk,tokenize,Python,Dictionary,Nltk,Tokenize,有人能帮我解释一下如何正确地标记、计数和循环吗?有这样的任务要做: 创建一个新的空字典dic={} 循环查看text1中包含的标记,并计算它们在该列表中出现的原始频率。“to”to“in”to be or not be“的“原始频率”为2。最后,当你看完所有的代币 打印一组区分大小写的唯一令牌(即类型),格式为:计数器唯一\令牌频率换行符——按唯一令牌的频率排序 不区分大小写的唯一标记的LRepeat步骤 *Text1来自nltkbook 到目前为止,我已经知道了,但奇怪的事情正在发生,我完全不
dic={}
text1
中包含的标记,并计算它们在该列表中出现的原始频率。“to”to“in”to be or not be“的“原始频率”为2。最后,当你看完所有的代币计数器唯一\令牌频率换行符
——按唯一令牌的频率排序将非常感谢任何帮助、线索和建议。例如,这是一个如何执行此操作的示例
text = "to be or not to be"
token = ["to", "or"]
my_dict = {sub:text.count(sub) for sub in token}
print(my_dict)
给你
{'to': 2, 'or': 1}
你想检查文本的“标记”(子字符串)列表是什么?如果我理解正确,大写和小写字母
{'to': 2, 'or': 1}