Web scraping 服务器端的屏幕抓取_Web Scraping_Screen Scraping

Web scraping 服务器端的屏幕抓取

web-scraping

Web scraping 服务器端的屏幕抓取,web-scraping,screen-scraping,Web Scraping,Screen Scraping,我不太会刮屏。当我使用代理服务器和跟踪HTTP事务时，我会发现我的post数据。所以我的疑问/问题是， 1）它是存储在服务器端还是只向客户端显示？ 2）我们有在屏幕抓取中加密post数据的选项吗？ 3）银行应用程序是否建议使用屏幕刮取？我正在使用屏幕刮板工具，我已经从下载它 . （企业版）提前谢谢。1）你说的服务器端是什么意思？您的代理服务器或屏幕刮板软件？它们中的任何一个都可以读取/存储您的信息 2）如果您是通过HTTPS连接的，则您的软件应警告您存在恶意代理服务器： 3）我认为

我不太会刮屏。当我使用代理服务器和跟踪HTTP事务时，我会发现我的post数据。所以我的疑问/问题是， 1）它是存储在服务器端还是只向客户端显示？ 2）我们有在屏幕抓取中加密post数据的选项吗？ 3）银行应用程序是否建议使用屏幕刮取？我正在使用屏幕刮板工具，我已经从下载它 . （企业版）

提前谢谢。

1）你说的服务器端是什么意思？您的代理服务器或屏幕刮板软件？它们中的任何一个都可以读取/存储您的信息

2）如果您是通过HTTPS连接的，则您的软件应警告您存在恶意代理服务器：

3）我认为他们没有一些能阅读的日志。但是如果你担心的话，你可以试着写你自己的。使用jQuery sintax，您可以轻松读取HTML的一些API：

或者XPath:

我的刮片经验是，如果你不做任何超级复杂的事情（比如登录到一个安全的网站，比如一个网上银行网站等），那么Python有一些很棒的库可以帮你解决很多问题

回答您的问题：

1）您可能需要更加清楚，但这实际上取决于您的服务器/客户机体系结构

2）事实上你知道。Urllib和Urllib2（内置Python库）都有函数，使您能够在发布前对数据进行加密。就这种加密的安全性而言，对于大多数应用程序来说，这就足够了

3）事实上，我在网上银行网站上做过刮削！我不太熟悉这个工具，但我建议使用一些与刮刀稍有不同的工具。Selenium是一个“web驱动程序”，它允许您模拟浏览器的使用，这意味着broswer在后台为验证会话所做的任何事情都会自动处理。我在尝试清理银行网站时遇到的主要问题是丢失了重要的会话数据

硒-

您可能会发现其他有用的库有：urllib、urllib2和Mechanize

我希望我能有所帮助

我以前用过screen scraper来清理银行网站。它会像你的浏览器一样影响网站——如果网站使用加密，从screen scraper到网站的连接也会受到影响

如果您有一个客户端页面向screen scraper发送数据，您可能应该对其进行加密。我通常只是通过SSH进行连接。

这里有一个链接，指向我提出的一个问题，可能会对您有更多帮助：