在Python中分解web链接并使用for循环
我正在编写一个用于抓取电子邮件的python脚本在Python中分解web链接并使用for循环,python,email,web-crawler,Python,Email,Web Crawler,我正在编写一个用于抓取电子邮件的python脚本 from selenium import webdriver import re driver = webdriver.Chrome("C:/Users/Sam/Downloads/chromedriver_win32/chromedriver.exe") driver.get('https://stuactonline.tamu.edu/app/organization/profile/public/id/1488') doc = driv
from selenium import webdriver
import re
driver = webdriver.Chrome("C:/Users/Sam/Downloads/chromedriver_win32/chromedriver.exe")
driver.get('https://stuactonline.tamu.edu/app/organization/profile/public/id/1488')
doc = driver.page_source
emails = re.findall(r'[\w\.-]+@[\w\.-]+',doc)
print(emails)
如果您注意到链接的末尾是数字1488。我正在尝试将其分解,在那里我可以有一个从50循环到5000循环的for循环,因为我想从不同的网站收到多封电子邮件,以1000到5000的数字结尾。您可以轻松地将url参数化:
for i in range(1000, 5000):
driver.get('https://stuactonline.tamu.edu/app/organization/profile/public/id/' + str(i))
#Your stuff...
你知道我可以避免重复的方法吗?有些电子邮件正在重复,我不希望你可以做一些类似
emails=list(set(emails))
的事情。谢谢你的帮助。在这种情况下,list()
和set()
将输入列表转换为一个Python,该Python通过构造没有重复项<代码>列表()是将结果转换回列表所必需的,根据用例的不同,可能不是强制性的。