elasticsearch,duplicates,Performance,Search,elasticsearch,Duplicates" /> elasticsearch,duplicates,Performance,Search,elasticsearch,Duplicates" />

Performance 如何从查询搜索中删除重复项elasticsearch

Performance 如何从查询搜索中删除重复项elasticsearch,performance,search,elasticsearch,duplicates,Performance,Search,elasticsearch,Duplicates,我正在寻找从搜索中删除重复项的解决方案 问题是: 我从谷歌新闻和其他rss订阅源中检索文章。可以在同一篇文章中找到同一篇文章,标题和内容都相同,并且出现了多次。但身份不同 有时我们甚至可以从报纸上发现洪水。当我尝试一个关键字时,我得到了与该项相同的结果,并且返回了十几次 假设这个例子: _index: actu _type: page _id: 4e3f3fc8-b535-399c-a176-ddbbf755ac82 _score: 2.0202384 _source: { feed

我正在寻找从搜索中删除重复项的解决方案

问题是:

我从谷歌新闻和其他rss订阅源中检索文章。可以在同一篇文章中找到同一篇文章,标题和内容都相同,并且出现了多次。但身份不同 有时我们甚至可以从报纸上发现洪水。当我尝试一个关键字时,我得到了与该项相同的结果,并且返回了十几次

假设这个例子:

_index: actu
_type: page
_id: 4e3f3fc8-b535-399c-a176-ddbbf755ac82
_score: 2.0202384
_source: {
      feedname: my_news_paper
      title: some news 
      author: Bob smith
      description: Something happened in the world
      link: http://www.example.com/journal20140729/
      publishedDate: 2014-07-28T23:00:00.000Z
      source: null
      raw: { }
      categories: [
                   Journal
                  ]
      enclosures: [
      {
         url: http://www.example.com
         type: null
         length: 0
      }
      ]
  river: actu
 }
}
我的问题是这样的:

{
 "query": {
   "bool": {
     "must": [
    {
      "fuzzy_like_this": {
        "fields": [
          "_all",
          "title^2",
          "description^4"
        ],
        "like_text": "my_key_word"
       }
      }
     ]
    }
   }
  }
谢谢