在Python中分解web链接并使用for循环_Python_Email_Web Crawler

在Python中分解web链接并使用for循环

python email web-crawler

在Python中分解web链接并使用for循环,python,email,web-crawler,Python,Email,Web Crawler,我正在编写一个用于抓取电子邮件的python脚本 from selenium import webdriver import re driver = webdriver.Chrome("C:/Users/Sam/Downloads/chromedriver_win32/chromedriver.exe") driver.get('https://stuactonline.tamu.edu/app/organization/profile/public/id/1488') doc = driv

我正在编写一个用于抓取电子邮件的python脚本

from selenium import webdriver
import re

driver = webdriver.Chrome("C:/Users/Sam/Downloads/chromedriver_win32/chromedriver.exe")
driver.get('https://stuactonline.tamu.edu/app/organization/profile/public/id/1488')

doc = driver.page_source

emails = re.findall(r'[\w\.-]+@[\w\.-]+',doc)

print(emails)

如果您注意到链接的末尾是数字1488。我正在尝试将其分解，在那里我可以有一个从50循环到5000循环的for循环，因为我想从不同的网站收到多封电子邮件，以1000到5000的数字结尾。您可以轻松地将url参数化：

for i in range(1000, 5000):
    driver.get('https://stuactonline.tamu.edu/app/organization/profile/public/id/' + str(i))

    #Your stuff...

你知道我可以避免重复的方法吗？有些电子邮件正在重复，我不希望你可以做一些类似

emails=list（set（emails））

的事情。谢谢你的帮助。在这种情况下，

list（）

和

set（）

将输入列表转换为一个Python，该Python通过构造没有重复项<代码>列表（）是将结果转换回列表所必需的，根据用例的不同，可能不是强制性的。