Python 2.7 Web刮板-在输出中获取重复项

Python 2.7 Web刮板-在输出中获取重复项,python-2.7,for-loop,while-loop,web-scraping,beautifulsoup,Python 2.7,For Loop,While Loop,Web Scraping,Beautifulsoup,我对Python完全陌生,只是尝试一下开发一些程序的编码技巧 我用Python 2.7编写了以下程序,从目录中获取配置文件URL- 然而,我注意到在获取的URL列表中有很多重复条目。是否有人可以检查代码,并告诉我,如果我在这里做的事情,或者有一种方法可以进一步优化此代码 非常感谢 import requests from bs4 import BeautifulSoup def web_crawler(max_pages): p = '?site=' page = 1 alpha = ['a'

我对Python完全陌生,只是尝试一下开发一些程序的编码技巧

我用Python 2.7编写了以下程序,从目录中获取配置文件URL-

然而,我注意到在获取的URL列表中有很多重复条目。是否有人可以检查代码,并告诉我,如果我在这里做的事情,或者有一种方法可以进一步优化此代码

非常感谢

import requests
from bs4 import BeautifulSoup

def web_crawler(max_pages):
p = '?site='
page = 1
alpha = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z']
while page <= max_pages:
    for i in alpha:
        url = 'http://www.uschirodirectory.com/entire-directory/list/alpha/' + str(i) + '.html' + p + str(page)
        code = requests.get(url)
        text = code.text
        soup = BeautifulSoup(text)
        for link in soup.findAll('a',{'class':'btn'}):
            href = 'http://www.uschirodirectory.com' + link.get('href')
            print(href)
    page += 1
i += alpha[0 + 1]

#Run the crawler
web_crawler
导入请求
从bs4导入BeautifulSoup
def web_爬虫(最大页面数):
p='?site='
页码=1
α=['a','b','c','d','e','f','g','h','i','j','k','l','m','n','o','p','q','r','s','t','u','v','w','x','y','z']

而page基本上您的代码是正常的。您可能会获得大量重复链接,因为目录结果不仅用于发布医生姓名中的第一个字母的结果,还用于发布公司名称或其他重要db字段中的第一个字母的结果。

基本上您的代码是正确的。您可能会获得大量重复链接,因为目录结果不仅用于发布医生姓名中的第一个字母的结果,还用于发布公司名称或其他重要数据库字段中的第一个字母的结果。

您可以将数据存储在列表中,还可以使用以下代码删除重复的url:

parsedData=[]

数据={}

如果没有(数据中d的d['url']==数据['url']:


您可以将数据存储在列表中,也可以使用以下代码删除重复的url:

parsedData=[]

数据={}

如果没有(数据中d的d['url']==数据['url']:


谢谢你帮我复习。我是一名Python新手,来自像您这样的专业Python程序员的反馈对我来说非常有价值。感谢您为我审阅本文。我是一名Python新手,像您这样的专业Python程序员的反馈对我来说非常有价值。
   parsedData.append(data)