Python 从JavaScript呈现的网站中刮取数据_Python_Proxy_Scrapy_Web Crawler

Python 从JavaScript呈现的网站中刮取数据

python proxy scrapy web-crawler

Python 从JavaScript呈现的网站中刮取数据,python,proxy,scrapy,web-crawler,Python,Proxy,Scrapy,Web Crawler,我想报废。我有以下问题网站内容是动态加载的尝试访问该网站时，会重定向到“选择国家/地区”页面选择国家后，它会弹出选择交货地点，然后重定向到主页当您试图以编程方式点击结束页时，会得到一个空响应，因为内容是动态加载的我有一个终端URL列表，我必须从中提取数据。例如，考虑一下。现在我想直接获取该页面的HTML源代码，绕过choose country、select location弹出窗口动态加载，这样我就可以使用我的Scrapy Xpath选择器提取数据如果您建议我使用Seleni

我想报废。我有以下问题

网站内容是动态加载的
尝试访问该网站时，会重定向到“选择国家/地区”页面
选择国家后，它会弹出选择交货地点，然后重定向到主页
当您试图以编程方式点击结束页时，会得到一个空响应，因为内容是动态加载的

我有一个终端URL列表，我必须从中提取数据。例如，考虑一下。现在我想

直接获取该页面的HTML源代码，绕过choose country、select location弹出窗口动态加载，这样我就可以使用我的Scrapy Xpath选择器提取数据
如果您建议我使用Selenium、PhantomJS、Ghost或其他方法来处理动态内容，请理解，我希望在处理完将发送给Scrapy的所有动态内容后，在web浏览器中使用最终HTML源代码
此外，我尝试使用代理跳过“选择国家”弹出窗口，但它仍然会加载它并选择交货地点
我尝试过使用Splash，但它返回了choosecontry页面的源代码

CurrencyCode、ServerId、Site\u Config

split（）

from lxml import html
page_source=requests.get(url,cookies=jar)
tree=html.fromstring(page_source.content)    
dynamic_pg_link=tree.xpath('//div[@class="col3_T02"]/div/script/text()')[0] #entire javascript to load product pages
dynamic_pg_link=dynamic_pg_link.split("=")[1].split(";")[0].strip()#obtains the dynamic page url.
page_link="http://www.luluwebstore.com/Handler/ProductShowcaseHandler.ashx?ProductShowcaseInput="+dynamic_pg_link

请求

美化组

SelectLocation.aspx

http://www.luluwebstore.com/SelectLocation.aspx?Location=13241&DeliveryMode=H&ReturnUrl=http://www.luluwebstore.com

SelectLocation.aspx

请求复制进程即可。