Python 2.7 Web刮板-在输出中获取重复项_Python 2.7_For Loop_While Loop_Web Scraping_Beautifulsoup

Python 2.7 Web刮板-在输出中获取重复项

python-2.7 for-loop web-scraping

Python 2.7 Web刮板-在输出中获取重复项,python-2.7,for-loop,while-loop,web-scraping,beautifulsoup,Python 2.7,For Loop,While Loop,Web Scraping,Beautifulsoup,我对Python完全陌生，只是尝试一下开发一些程序的编码技巧我用Python 2.7编写了以下程序，从目录中获取配置文件URL- 然而，我注意到在获取的URL列表中有很多重复条目。是否有人可以检查代码，并告诉我，如果我在这里做的事情，或者有一种方法可以进一步优化此代码非常感谢 import requests from bs4 import BeautifulSoup def web_crawler(max_pages): p = '?site=' page = 1 alpha = ['a'

我对Python完全陌生，只是尝试一下开发一些程序的编码技巧

我用Python 2.7编写了以下程序，从目录中获取配置文件URL-

然而，我注意到在获取的URL列表中有很多重复条目。是否有人可以检查代码，并告诉我，如果我在这里做的事情，或者有一种方法可以进一步优化此代码

非常感谢

import requests
from bs4 import BeautifulSoup

def web_crawler(max_pages):
p = '?site='
page = 1
alpha = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z']
while page <= max_pages:
    for i in alpha:
        url = 'http://www.uschirodirectory.com/entire-directory/list/alpha/' + str(i) + '.html' + p + str(page)
        code = requests.get(url)
        text = code.text
        soup = BeautifulSoup(text)
        for link in soup.findAll('a',{'class':'btn'}):
            href = 'http://www.uschirodirectory.com' + link.get('href')
            print(href)
    page += 1
i += alpha[0 + 1]

#Run the crawler
web_crawler

导入请求
从bs4导入BeautifulSoup
def web_爬虫（最大页面数）：
p='？site='
页码=1
α=['a'，'b'，'c'，'d'，'e'，'f'，'g'，'h'，'i'，'j'，'k'，'l'，'m'，'n'，'o'，'p'，'q'，'r'，'s'，'t'，'u'，'v'，'w'，'x'，'y'，'z']
而page基本上您的代码是正常的。您可能会获得大量重复链接，因为目录结果不仅用于发布医生姓名中的第一个字母的结果，还用于发布公司名称或其他重要db字段中的第一个字母的结果。
基本上您的代码是正确的。您可能会获得大量重复链接，因为目录结果不仅用于发布医生姓名中的第一个字母的结果，还用于发布公司名称或其他重要数据库字段中的第一个字母的结果。
您可以将数据存储在列表中，还可以使用以下代码删除重复的url：
parsedData=[]
数据={}
如果没有（数据中d的d['url']==数据['url']：
您可以将数据存储在列表中，也可以使用以下代码删除重复的url：
parsedData=[]
数据={}
如果没有（数据中d的d['url']==数据['url']：
谢谢你帮我复习。我是一名Python新手，来自像您这样的专业Python程序员的反馈对我来说非常有价值。感谢您为我审阅本文。我是一名Python新手，像您这样的专业Python程序员的反馈对我来说非常有价值。
   parsedData.append(data)