Web 我可以采取什么一般方法来解析网站的内容?

Web 我可以采取什么一般方法来解析网站的内容?,web,web-scraping,Web,Web Scraping,假设其他人有一个由JavaScript生成的网站,所以我无法查看源代码并阅读屏幕上应该显示的内容。如何在屏幕上抓取文本,以便将其输入另一个程序?另外,我如何编写一个程序来自动单击满足特定条件的单选按钮、链接等?您可以用Perl或Python编写一个web抓取工具。或者,您可以使用现有的工具和框架来实现这一点 这是一个用Python编写的开源工具 再看一看。要解析动态内容,您可以查看javascript源代码,并以网页获取内容的相同方式获取相同内容。(即复制ajax调用等) 如果您希望提交数据(而

假设其他人有一个由JavaScript生成的网站,所以我无法查看源代码并阅读屏幕上应该显示的内容。如何在屏幕上抓取文本,以便将其输入另一个程序?另外,我如何编写一个程序来自动单击满足特定条件的单选按钮、链接等?

您可以用Perl或Python编写一个web抓取工具。或者,您可以使用现有的工具和框架来实现这一点

这是一个用Python编写的开源工具


再看一看。

要解析动态内容,您可以查看javascript源代码,并以网页获取内容的相同方式获取相同内容。(即复制ajax调用等)


如果您希望提交数据(而不是实际单击元素),就像它被单击/编辑/选择一样,您还可以通过使用一些HTTP库发送一个包含服务器期望的相同数据的请求,如。如果需要处理脚本生成的内容,请参阅。

,第一个问题是导致脚本执行。此外,脚本还希望将内容生成到DOM中。这意味着您需要一个DOM,一个脚本引擎,可能还有对Internet的HTTP访问,以及XML处理等等

如果这听起来很像网络浏览器,那么你就是在听

您基本上需要的是一个可以通过程序控制的web浏览器。您需要能够告诉它浏览到一个页面,单击按钮和链接等,然后您需要读回生成的DOM

只有这样,您才需要解析页面

如果您在Microsoft世界,则可以使用WebBrowser控件。这有几种形式,它们都相当于一件事:你可以让InternetExplorer在你的程序中运行,你的程序可以控制它


我知道还有其他浏览器可以通过程序进行控制,但由于我不知道它们的详细信息,我将等待其他人告诉我们两者。

这可能会让我们了解更多:您需要编写程序吗?如果别人已经写好了,并且愿意免费给你怎么办?@JohnSaunders好吧,那也没关系:D的可能副本在这种情况下,这是的副本。看起来这里有很好的答案。