从列表中获取中频词并通过python中的web抓取Indo Wordnet获取其同义词

从列表中获取中频词并通过python中的web抓取Indo Wordnet获取其同义词,python,word-frequency,Python,Word Frequency,我是Python的新手,对于一个项目,我需要使用一个已经包含单词频率的单词列表语料库,并且必须获得中频单词。此特定语料库不包含每列的标题。我想做的是找出高频词和低频词,然后把它们去掉。我尝试过这段代码,但失败了 list1=open('C:\Python27\bengali\u wordlist\u full.txt','r')。read() 列表2=[] 这段代码按降序给出了频率。但并不是所有的都给我。我不知道如何用我想要的方式使用它们。这件东西就是不管用 >>> for w

我是Python的新手,对于一个项目,我需要使用一个已经包含单词频率的单词列表语料库,并且必须获得中频单词。此特定语料库不包含每列的标题。我想做的是找出高频词和低频词,然后把它们去掉。我尝试过这段代码,但失败了

list1=open('C:\Python27\bengali\u wordlist\u full.txt','r')。read()

列表2=[]

这段代码按降序给出了频率。但并不是所有的都给我。我不知道如何用我想要的方式使用它们。这件东西就是不管用

>>> for word in list1:
...     if word in list2:
...         list2.index(word)[1] += 1
...     else:
...         list2.append([word,0])
... 
接下来,我需要从Indo wordnet获取同义词。我不知道怎样才能做到。这是一个双语项目,我还没有弄清楚解码系统。因此,使用unicode


有人能帮忙吗?

列表1
不是列表,而是字符串。试试这个:

list1=open('C:\Python27\bengali\u wordlist\u full.txt').read().split()

如果代码计数器中没有
.split()
,则计算该文件中的所有字符,而不是单独的单词:

>>> Counter('string string')
Counter({'n': 2, 'i': 2, 't': 2, 'g': 2, 'r': 2, 's': 2, ' ': 1})
>>> Counter('string string'.split())
Counter({'string': 2})
>>> Counter('string string')
Counter({'n': 2, 'i': 2, 't': 2, 'g': 2, 'r': 2, 's': 2, ' ': 1})
>>> Counter('string string'.split())
Counter({'string': 2})