Python 删除相似单词bigram并还原bigram
我能够生成的bigram列表具有类似的单词bigrams和恢复bigrams。乙二醇 (土壤,土壤),(土地,土地)//类似的单词bigram (保护,区域),(区域,保护)//还原二元图 如何从计数器列表或二元表列表中删除?由于我想保留句子中单词的顺序,因此我不想从最初的列表中删除它们 这是我的密码Python 删除相似单词bigram并还原bigram,python,nltk,n-gram,Python,Nltk,N Gram,我能够生成的bigram列表具有类似的单词bigrams和恢复bigrams。乙二醇 (土壤,土壤),(土地,土地)//类似的单词bigram (保护,区域),(区域,保护)//还原二元图 如何从计数器列表或二元表列表中删除?由于我想保留句子中单词的顺序,因此我不想从最初的列表中删除它们 这是我的密码 texts = [[word for word in text if word not in stopwords] for text in words] ind_bigrams =[] #on
texts = [[word for word in text if word not in stopwords] for text in words]
ind_bigrams =[]
#only bigram generation
for i in texts:
bgram =list(bigrams(i))
for j in bgram:
ind_bigrams.append(j)
print(Counter(ind_bigrams))
更新
在上面的代码中,text是令牌列表的列表。bgram(列表列表列表)是每个内部列表的二元列表。ind_bigrams是将每个bgram列表串联为一个列表。您可以使用
ind_bigrams=[元组(el)表示frozenset中的el(frozenset(bi)表示bigrams中的bi(i))]
吗?它几乎删除了所有的bigram。您可以提供一个更全面的示例,说明bgram
包含的内容,它不应该包含什么以及排除这些项目背后的逻辑?我已经用这些信息更新了这个问题。