Warning: file_get_contents(/data/phpspider/zhask/data//catemap/1/php/269.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
如何使用php或python中每个单词的频率创建单词词典_Php_Python_File_Dictionary_Corpus - Fatal编程技术网

如何使用php或python中每个单词的频率创建单词词典

如何使用php或python中每个单词的频率创建单词词典,php,python,file,dictionary,corpus,Php,Python,File,Dictionary,Corpus,我有一个很大的txt文件废弃的_db.txt,包含超过1亿字,文件大小为1.7GB。我使用PythonScrapy框架创建了这个文件来废弃一个报纸网站 现在我想创建一个独特单词的字典(孟加拉语字母表,UTF8),每个单词都有它的频率(单词在废弃的_db.txt文件中出现的次数)。像这样的 > আমি 201523 > > তুমি 15014 > > ভালোবাসি 1233 > > দেখা 18556 或 如注释中所述,pytho

我有一个很大的txt文件
废弃的_db.txt
,包含超过1亿字,文件大小为1.7GB。我使用PythonScrapy框架创建了这个文件来废弃一个报纸网站

现在我想创建一个独特单词的字典(孟加拉语字母表,UTF8),每个单词都有它的频率(单词在废弃的_db.txt文件中出现的次数)。像这样的

> আমি  201523
> 
> তুমি   15014 
> 
> ভালোবাসি  1233
> 
> দেখা 18556


如注释中所述,python解决方案的工作原理如下-

from collections import Counter
word_count = Counter()
# Read File
with open("your_file.txt") as f:
    for line in f:
        l = line.split() # your words have to be separated by spaces for this to work as we need an iterable
        word_count.update(l)
有了这个,你会得到一本像这样的字典-

word_count = {'আমি': 201523, 'তুমি': 15014 ,'ভালোবাসি': 1233, 'দেখা': 18556}

现在你所需要做的就是把这段话写进一个文件。您可以对正在写入的文件执行
json.dumps(word\u count)
。如何使用python创建文件。

“字典应该是另一个txt文件”使用
集合
模块中的
计数器
,逐行读取文件。然后将结果保存到新文件中*Python解决方案PHP还是Python?标签垃圾邮件通常是不受欢迎的here@timgeb:是的,只是一个txt文件。我会按要求使用的。@Random Dude请你把代码贴出来,我是新手。非常感谢。
word_count = {'আমি': 201523, 'তুমি': 15014 ,'ভালোবাসি': 1233, 'দেখা': 18556}