在Python中分解web链接并使用for循环

在Python中分解web链接并使用for循环,python,email,web-crawler,Python,Email,Web Crawler,我正在编写一个用于抓取电子邮件的python脚本 from selenium import webdriver import re driver = webdriver.Chrome("C:/Users/Sam/Downloads/chromedriver_win32/chromedriver.exe") driver.get('https://stuactonline.tamu.edu/app/organization/profile/public/id/1488') doc = driv

我正在编写一个用于抓取电子邮件的python脚本

from selenium import webdriver
import re

driver = webdriver.Chrome("C:/Users/Sam/Downloads/chromedriver_win32/chromedriver.exe")
driver.get('https://stuactonline.tamu.edu/app/organization/profile/public/id/1488')

doc = driver.page_source

emails = re.findall(r'[\w\.-]+@[\w\.-]+',doc)

print(emails)

如果您注意到链接的末尾是数字1488。我正在尝试将其分解,在那里我可以有一个从50循环到5000循环的for循环,因为我想从不同的网站收到多封电子邮件,以1000到5000的数字结尾。您可以轻松地将url参数化:

for i in range(1000, 5000):
    driver.get('https://stuactonline.tamu.edu/app/organization/profile/public/id/' + str(i))

    #Your stuff...

你知道我可以避免重复的方法吗?有些电子邮件正在重复,我不希望你可以做一些类似
emails=list(set(emails))
的事情。谢谢你的帮助。在这种情况下,
list()
set()
将输入列表转换为一个Python,该Python通过构造没有重复项<代码>列表()是将结果转换回列表所必需的,根据用例的不同,可能不是强制性的。