Python 如何计算标记化列表中的汉语词频?
我正在使用python 2.7。 我想数一数汉语单词的频率。 如何使用标记化列表来实现这一点?我想在下一步找到句子的位置。 所以,希望我能数一数单词的频率,同时给出每个单词在同一时间的起点和终点 我试图从输入文件中计算词频,这与我的标记化无关。但这也给了我一个错误的结果。 对于计数器部分,它向我显示了以下内容: 计数器({u'\u7684':1}),但我的预期结果是计数器({'的': 27}) 这是不正确的:Python 如何计算标记化列表中的汉语词频?,python,tokenize,word-frequency,Python,Tokenize,Word Frequency,我正在使用python 2.7。 我想数一数汉语单词的频率。 如何使用标记化列表来实现这一点?我想在下一步找到句子的位置。 所以,希望我能数一数单词的频率,同时给出每个单词在同一时间的起点和终点 我试图从输入文件中计算词频,这与我的标记化无关。但这也给了我一个错误的结果。 对于计数器部分,它向我显示了以下内容: 计数器({u'\u7684':1}),但我的预期结果是计数器({'的': 27}) 这是不正确的: for word in [u'的']: cnt[word] += 1 您需要在文
for word in [u'的']:
cnt[word] += 1
您需要在文件中的单词上运行循环:
for word in open(userinput,'r').read().split():
cnt[word] += 1
这就是你的整个积累循环。您正在单字符u'上循环的'代码>。我想那不是你想做的
计数器
在您向其馈送一个iterable时效果最佳。忘记这个cnt+=1
的东西吧,它很慢,而且把计数器当作defaultdict
处理。一次给它喂一个完整的iterable:
cnt = Counter(inf.read().split())
看起来你是在第二次不必要地打开这个文件;既然您已经在上面将其标记为结果
,为什么不:
cnt = Counter(tk[0] for tk in result)
cnt = Counter(inf.read().split())
cnt = Counter(tk[0] for tk in result)