从列表中获取中频词并通过python中的web抓取Indo Wordnet获取其同义词_Python_Word Frequency

从列表中获取中频词并通过python中的web抓取Indo Wordnet获取其同义词

python

从列表中获取中频词并通过python中的web抓取Indo Wordnet获取其同义词,python,word-frequency,Python,Word Frequency,我是Python的新手，对于一个项目，我需要使用一个已经包含单词频率的单词列表语料库，并且必须获得中频单词。此特定语料库不包含每列的标题。我想做的是找出高频词和低频词，然后把它们去掉。我尝试过这段代码，但失败了 list1=open（'C:\Python27\bengali\u wordlist\u full.txt'，'r'）。read（）列表2=[] 这段代码按降序给出了频率。但并不是所有的都给我。我不知道如何用我想要的方式使用它们。这件东西就是不管用 >>> for w

我是Python的新手，对于一个项目，我需要使用一个已经包含单词频率的单词列表语料库，并且必须获得中频单词。此特定语料库不包含每列的标题。我想做的是找出高频词和低频词，然后把它们去掉。我尝试过这段代码，但失败了

list1=open（'C:\Python27\bengali\u wordlist\u full.txt'，'r'）。read（）

列表2=[]

这段代码按降序给出了频率。但并不是所有的都给我。我不知道如何用我想要的方式使用它们。这件东西就是不管用

>>> for word in list1:
...     if word in list2:
...         list2.index(word)[1] += 1
...     else:
...         list2.append([word,0])
...

接下来，我需要从Indo wordnet获取同义词。我不知道怎样才能做到。这是一个双语项目，我还没有弄清楚解码系统。因此，使用unicode

有人能帮忙吗？

列表1

不是列表，而是字符串。试试这个：

list1=open（'C:\Python27\bengali\u wordlist\u full.txt'）.read（）.split（）

如果代码计数器中没有

.split（）

，则计算该文件中的所有字符，而不是单独的单词：

>>> Counter('string string')
Counter({'n': 2, 'i': 2, 't': 2, 'g': 2, 'r': 2, 's': 2, ' ': 1})
>>> Counter('string string'.split())
Counter({'string': 2})

>>> Counter('string string')
Counter({'n': 2, 'i': 2, 't': 2, 'g': 2, 'r': 2, 's': 2, ' ': 1})
>>> Counter('string string'.split())
Counter({'string': 2})