Python 尽管使用了多种技术,但自动web刮取脚本不会在我要检查的域上运行

Python 尽管使用了多种技术,但自动web刮取脚本不会在我要检查的域上运行,python,html,selenium,web-scraping,web-crawler,Python,Html,Selenium,Web Scraping,Web Crawler,我对网络垃圾的世界非常陌生,我刚刚编写了一些代码,当我手动下载Indiegogo网站时,我可以将其删除,效果非常好 但是,当我尝试自动执行脚本以获取URL列表的页面源代码时,无论使用何种方法,它都会失败。我附上了我的代码,以显示我使用的方法和使用Selenium获取页面时的网页图像。网站本身似乎拒绝了任何不是我手动将浏览器指向每个页面的请求。当我使用请求检索页面时,它返回416错误 任何帮助都将不胜感激 from bs4 import BeautifulSoup import requests

我对网络垃圾的世界非常陌生,我刚刚编写了一些代码,当我手动下载Indiegogo网站时,我可以将其删除,效果非常好

但是,当我尝试自动执行脚本以获取URL列表的页面源代码时,无论使用何种方法,它都会失败。我附上了我的代码,以显示我使用的方法和使用Selenium获取页面时的网页图像。网站本身似乎拒绝了任何不是我手动将浏览器指向每个页面的请求。当我使用请求检索页面时,它返回416错误

任何帮助都将不胜感激

from bs4 import BeautifulSoup
import requests
import csv
from selenium import webdriver

#open list of unique indiegogo urls
f=open('urls.dat') 
urls = [url.strip() for url in f.readlines()]
f.close()
#prepare csv output file for writing results to
resultFile = open("output.csv",'wb')
headers = ["id", "url", "category", "created", "ends", "country", "currency", "goal", "funds", "funders"]
wr = csv.writer(resultFile, dialect='excel')
wr.writerow(headers)

#chromedriver = ...PATH_TO_YOUR_CHROMEDRIVER
#driver = webdriver.Chrome(chromedriver)
#driver = webdriver.Firefox()
#if using selenium, uncomment relevant webdriver

def getUrl(urls):
   for i in range (0,50713):
    print urls[i]       

    #res = requests.get(urls[i], headers=headers)
    #time.sleep(10)
    #soup = BeautifulSoup(res.text,'html.parser')

    #find the CDATA section where the parameters are listed 
    cdata = data.find(text=re.compile("CDATA"))
    #print cdata, len(cdata)
    #what parameters do we want, listed here
    country=[]
    currency=[]
    category=[]
    id=[]
    funders=[]
    funds=[]
    created=[]
    ends=[]
    goal=[]

是的,这是Distil Networks检测到的selenium浏览器,请参阅。该死,我就是这么想的。在这种情况下,似乎很难自动化任何类型的请求。谢谢你给我指出了正确的方向。