Python 尽管使用了多种技术,但自动web刮取脚本不会在我要检查的域上运行
我对网络垃圾的世界非常陌生,我刚刚编写了一些代码,当我手动下载Indiegogo网站时,我可以将其删除,效果非常好 但是,当我尝试自动执行脚本以获取URL列表的页面源代码时,无论使用何种方法,它都会失败。我附上了我的代码,以显示我使用的方法和使用Selenium获取页面时的网页图像。网站本身似乎拒绝了任何不是我手动将浏览器指向每个页面的请求。当我使用请求检索页面时,它返回416错误 任何帮助都将不胜感激Python 尽管使用了多种技术,但自动web刮取脚本不会在我要检查的域上运行,python,html,selenium,web-scraping,web-crawler,Python,Html,Selenium,Web Scraping,Web Crawler,我对网络垃圾的世界非常陌生,我刚刚编写了一些代码,当我手动下载Indiegogo网站时,我可以将其删除,效果非常好 但是,当我尝试自动执行脚本以获取URL列表的页面源代码时,无论使用何种方法,它都会失败。我附上了我的代码,以显示我使用的方法和使用Selenium获取页面时的网页图像。网站本身似乎拒绝了任何不是我手动将浏览器指向每个页面的请求。当我使用请求检索页面时,它返回416错误 任何帮助都将不胜感激 from bs4 import BeautifulSoup import requests
from bs4 import BeautifulSoup
import requests
import csv
from selenium import webdriver
#open list of unique indiegogo urls
f=open('urls.dat')
urls = [url.strip() for url in f.readlines()]
f.close()
#prepare csv output file for writing results to
resultFile = open("output.csv",'wb')
headers = ["id", "url", "category", "created", "ends", "country", "currency", "goal", "funds", "funders"]
wr = csv.writer(resultFile, dialect='excel')
wr.writerow(headers)
#chromedriver = ...PATH_TO_YOUR_CHROMEDRIVER
#driver = webdriver.Chrome(chromedriver)
#driver = webdriver.Firefox()
#if using selenium, uncomment relevant webdriver
def getUrl(urls):
for i in range (0,50713):
print urls[i]
#res = requests.get(urls[i], headers=headers)
#time.sleep(10)
#soup = BeautifulSoup(res.text,'html.parser')
#find the CDATA section where the parameters are listed
cdata = data.find(text=re.compile("CDATA"))
#print cdata, len(cdata)
#what parameters do we want, listed here
country=[]
currency=[]
category=[]
id=[]
funders=[]
funds=[]
created=[]
ends=[]
goal=[]
是的,这是Distil Networks检测到的selenium浏览器,请参阅。该死,我就是这么想的。在这种情况下,似乎很难自动化任何类型的请求。谢谢你给我指出了正确的方向。