Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/278.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 删除相似单词bigram并还原bigram_Python_Nltk_N Gram - Fatal编程技术网

Python 删除相似单词bigram并还原bigram

Python 删除相似单词bigram并还原bigram,python,nltk,n-gram,Python,Nltk,N Gram,我能够生成的bigram列表具有类似的单词bigrams和恢复bigrams。乙二醇 (土壤,土壤),(土地,土地)//类似的单词bigram (保护,区域),(区域,保护)//还原二元图 如何从计数器列表或二元表列表中删除?由于我想保留句子中单词的顺序,因此我不想从最初的列表中删除它们 这是我的密码 texts = [[word for word in text if word not in stopwords] for text in words] ind_bigrams =[] #on

我能够生成的bigram列表具有类似的单词bigrams和恢复bigrams。乙二醇

(土壤,土壤),(土地,土地)//类似的单词bigram

(保护,区域),(区域,保护)//还原二元图

如何从计数器列表或二元表列表中删除?由于我想保留句子中单词的顺序,因此我不想从最初的列表中删除它们

这是我的密码

texts = [[word for word in text if word not in stopwords] for text in words]
ind_bigrams =[]
  #only bigram generation
for i in texts:
    bgram =list(bigrams(i))
for j in bgram:
    ind_bigrams.append(j)
print(Counter(ind_bigrams))
更新


在上面的代码中,text是令牌列表的列表。bgram(列表列表列表)是每个内部列表的二元列表。ind_bigrams是将每个bgram列表串联为一个列表。

您可以使用
ind_bigrams=[元组(el)表示frozenset中的el(frozenset(bi)表示bigrams中的bi(i))]
吗?它几乎删除了所有的bigram。您可以提供一个更全面的示例,说明
bgram
包含的内容,它不应该包含什么以及排除这些项目背后的逻辑?我已经用这些信息更新了这个问题。