如何使用php或python中每个单词的频率创建单词词典
我有一个很大的txt文件如何使用php或python中每个单词的频率创建单词词典,php,python,file,dictionary,corpus,Php,Python,File,Dictionary,Corpus,我有一个很大的txt文件废弃的_db.txt,包含超过1亿字,文件大小为1.7GB。我使用PythonScrapy框架创建了这个文件来废弃一个报纸网站 现在我想创建一个独特单词的字典(孟加拉语字母表,UTF8),每个单词都有它的频率(单词在废弃的_db.txt文件中出现的次数)。像这样的 > আমি 201523 > > তুমি 15014 > > ভালোবাসি 1233 > > দেখা 18556 或 如注释中所述,pytho
废弃的_db.txt
,包含超过1亿字,文件大小为1.7GB。我使用PythonScrapy框架创建了这个文件来废弃一个报纸网站
现在我想创建一个独特单词的字典(孟加拉语字母表,UTF8),每个单词都有它的频率(单词在废弃的_db.txt文件中出现的次数)。像这样的
> আমি 201523
>
> তুমি 15014
>
> ভালোবাসি 1233
>
> দেখা 18556
或
如注释中所述,python解决方案的工作原理如下-
from collections import Counter
word_count = Counter()
# Read File
with open("your_file.txt") as f:
for line in f:
l = line.split() # your words have to be separated by spaces for this to work as we need an iterable
word_count.update(l)
有了这个,你会得到一本像这样的字典-
word_count = {'আমি': 201523, 'তুমি': 15014 ,'ভালোবাসি': 1233, 'দেখা': 18556}
现在你所需要做的就是把这段话写进一个文件。您可以对正在写入的文件执行
json.dumps(word\u count)
。如何使用python创建文件。“字典应该是另一个txt文件”使用集合
模块中的计数器
,逐行读取文件。然后将结果保存到新文件中*Python解决方案PHP还是Python?标签垃圾邮件通常是不受欢迎的here@timgeb:是的,只是一个txt文件。我会按要求使用的。@Random Dude请你把代码贴出来,我是新手。非常感谢。
word_count = {'আমি': 201523, 'তুমি': 15014 ,'ভালোবাসি': 1233, 'দেখা': 18556}