Python 使用BING搜索API时,如何省略重复的结果?

Python 使用BING搜索API时,如何省略重复的结果?,python,duplicates,bing-api,microsoft-cognitive,Python,Duplicates,Bing Api,Microsoft Cognitive,我构建了一个Python2.7Bing搜索API pull,它每页返回50个计数,并通过每次更改偏移量值50来分页。我的结果将写入JSON文件 我正在api调用的标头中指定用户代理和X-Search-ClientIP。我还指定了网页的responseFilter,以及“en us”的mkt值 我很担心,因为我得到了几个重复的搜索结果。当我翻页10次时(因此,检索50 X 10=500个结果),其中大约17%是重复记录。有没有办法强制bing只返回非重复值?您建议我采取哪些额外步骤,以尽可能接近仅

我构建了一个Python2.7Bing搜索API pull,它每页返回50个计数,并通过每次更改偏移量值50来分页。我的结果将写入JSON文件

我正在api调用的标头中指定用户代理和X-Search-ClientIP。我还指定了网页的responseFilter,以及“en us”的mkt值

我很担心,因为我得到了几个重复的搜索结果。当我翻页10次时(因此,检索50 X 10=500个结果),其中大约17%是重复记录。有没有办法强制bing只返回非重复值?您建议我采取哪些额外步骤,以尽可能接近仅返回唯一值

#!/usr/bin/env python
# -*- coding: utf-8 -*-
import httplib, urllib, base64, json, re, os, sys, codecs, locale, time

pull_count = 50                            ## Var used to control # of hits per pull
offset = 0                                 ## Var used to push pagination counter to http get
num_paginations = 10                       ## Var used to control max # of paginations
local_counter = 1                          ## Helps Write commas to json file for all but last run
timer_counter = 1                          ## Variable used to make system wait after 5 pulls
dump_file = 'BingDump.json'                ## Name of local file where results are written to
api_domain = 'api.cognitive.microsoft.com'
query = 'Bill Gates'
user_agent = 'Mozilla/5.0 (MAC OSX, Educational Usage Only)'
x_search = '199.99.99.99'

#Request Headers, open connection, open file write to output file
headers = {
    'Ocp-Apim-Subscription-Key': 'MYSUBSCRIPTIONKEY',
    'User-Agent' : user_agent,
    'X-Search-ClientIP': x_search,
}
conn = httplib.HTTPSConnection(api_domain)
fhand = open(dump_file,'w')

#Function to build URL for API PULL
def scraper() : 
    pull_count_str = str(pull_count)
    offset_str = str(offset)
    params = urllib.urlencode({
        'q': query,
        'count': pull_count_str,
        'offset': offset_str,
        'mkt': 'en-us',
        'safesearch': 'Moderate',
        'responseFilter': 'webpages', #controls whether pull scrapes from web/image/news etc
    })
    return(params)

#Function set to wait 4 seconds after 5 pulls
def holdup(entry) : 
    if entry != 5 : 
        entry += 1
    else: 
        entry = 1
        time.sleep(4)
    return(entry)

#Function that establishes http get, and writes data to json file
def getwrite(entry1, entry2) : 
    conn.request("GET", "/bing/v5.0/search?%s" % entry1, "{body}", entry2)
    response = conn.getresponse()
    data = response.read()
    json_data = json.loads(data)
    fhand.write(json.dumps(json_data, indent=4)) 

#Main Code - Pulls data iteratively and writes it to json file
fhand.write('{') 

for i in range(num_paginations) : 

    dict_load = '"' + str(local_counter) + '"' +  ' : '
    fhand.write(dict_load)
    try:
        link_params = scraper()    
        print('Retrieving: ' + api_domain + '/bing/v5.0/search?' + link_params)
        getwrite(link_params, headers)
    except Exception as e:
        print("[Errno {0}] {1}".format(e.errno, e.strerror))
        fhand.write('"Error. Could not pull data"')        
    offset += pull_count
    if local_counter != num_paginations : fhand.write(', ') 
    local_counter += 1
    timer_counter = holdup(timer_counter)

fhand.write('}')
fhand.close()
conn.close()

谢谢你的询问。我们注意到您有以下页码:

我注意到的一件事是分页设置为10

num#u paginations=10##Var,用于控制最大分页数。

想询问BING API专家,是否将MSEDGE详细信息包含在我的标题参数中可以提高返回搜索结果的质量,以及是否可以采取其他措施以减少重复的结果。我做了一次拉动,涉及10000个搜索结果,其中大约900/10000是唯一的(不到10%)。有些搜索结果被重复了800次。我可以同意,我也有同样的问题。当我得到越来越多的页面时,会有越来越多的重复,但仍然不时会有新的项目。我浪费了很多api调用来获取重复数据。感谢您的回复。我使用num_分页来定义对Bing执行HTTP请求的次数。因此,如果我想执行10个请求,我将把var设置为10。我使用“pull_count”设置每个请求所需的搜索结果数量(50)。我的代码生成的URL对于每个http请求具有不同的偏移量。我的请求URL都有&count=50。对于第一个请求URL,我使用&offset=0,然后&offset=50,然后&offset=100。理论上,从我在文档/论坛上读到的所有内容来看,我应该很乐意去。你还有什么建议我做的吗?