Web scraping 服务器端的屏幕抓取

Web scraping 服务器端的屏幕抓取,web-scraping,screen-scraping,Web Scraping,Screen Scraping,我不太会刮屏。当我使用代理服务器和跟踪HTTP事务时,我会发现我的post数据。所以我的疑问/问题是, 1) 它是存储在服务器端还是只向客户端显示? 2) 我们有在屏幕抓取中加密post数据的选项吗? 3) 银行应用程序是否建议使用屏幕刮取? 我正在使用屏幕刮板工具,我已经从下载它 . (企业版) 提前谢谢。1)你说的服务器端是什么意思?您的代理服务器或屏幕刮板软件?它们中的任何一个都可以读取/存储您的信息 2) 如果您是通过HTTPS连接的,则您的软件应警告您存在恶意代理服务器: 3) 我认为

我不太会刮屏。当我使用代理服务器和跟踪HTTP事务时,我会发现我的post数据。所以我的疑问/问题是, 1) 它是存储在服务器端还是只向客户端显示? 2) 我们有在屏幕抓取中加密post数据的选项吗? 3) 银行应用程序是否建议使用屏幕刮取? 我正在使用屏幕刮板工具,我已经从下载它 . (企业版)

提前谢谢。

1)你说的服务器端是什么意思?您的代理服务器或屏幕刮板软件?它们中的任何一个都可以读取/存储您的信息

2) 如果您是通过HTTPS连接的,则您的软件应警告您存在恶意代理服务器:

3) 我认为他们没有一些能阅读的日志。但是如果你担心的话,你可以试着写你自己的。使用jQuery sintax,您可以轻松读取HTML的一些API:
或者XPath:

我的刮片经验是,如果你不做任何超级复杂的事情(比如登录到一个安全的网站,比如一个网上银行网站等),那么Python有一些很棒的库可以帮你解决很多问题

回答您的问题:

1) 您可能需要更加清楚,但这实际上取决于您的服务器/客户机体系结构

2) 事实上你知道。Urllib和Urllib2(内置Python库)都有函数,使您能够在发布前对数据进行加密。就这种加密的安全性而言,对于大多数应用程序来说,这就足够了

3) 事实上,我在网上银行网站上做过刮削!我不太熟悉这个工具,但我建议使用一些与刮刀稍有不同的工具。Selenium是一个“web驱动程序”,它允许您模拟浏览器的使用,这意味着broswer在后台为验证会话所做的任何事情都会自动处理。我在尝试清理银行网站时遇到的主要问题是丢失了重要的会话数据

硒-

您可能会发现其他有用的库有:urllib、urllib2和Mechanize


我希望我能有所帮助

我以前用过screen scraper来清理银行网站。它会像你的浏览器一样影响网站——如果网站使用加密,从screen scraper到网站的连接也会受到影响


如果您有一个客户端页面向screen scraper发送数据,您可能应该对其进行加密。我通常只是通过SSH进行连接。

这里有一个链接,指向我提出的一个问题,可能会对您有更多帮助: