Javascript 抓取Android应用程序中动态生成的html_Javascript_Android_Html_Web Scraping

Javascript 抓取Android应用程序中动态生成的html

javascript android html web-scraping

Javascript 抓取Android应用程序中动态生成的html,javascript,android,html,web-scraping,Javascript,Android,Html,Web Scraping,我目前正在编写一个Android应用程序，其中包括使用我不拥有的网站的文本信息。此外，有些页面需要身份验证对于一些页面，我已经能够使用BasicNameValuePairs和一个HTTPClient及其相关对象登录并检索html代码不幸的是，这些方法检索网页源代码时没有运行浏览器（甚至Android Webview）通常运行的任何javascript函数。我需要一些脚本正在检索的文本我已经做了研究，但我发现的一切都是猜测&非常令人困惑。我现在可以忽略需要登录的页面。此外，我愿意发布任何可能

我目前正在编写一个Android应用程序，其中包括使用我不拥有的网站的文本信息。此外，有些页面需要身份验证

对于一些页面，我已经能够使用BasicNameValuePairs和一个HTTPClient及其相关对象登录并检索html代码

不幸的是，这些方法检索网页源代码时没有运行浏览器（甚至Android Webview）通常运行的任何javascript函数。我需要一些脚本正在检索的文本

我已经做了研究，但我发现的一切都是猜测&非常令人困惑。我现在可以忽略需要登录的页面。此外，我愿意发布任何可能对构建解决方案有用的代码；这是一个独立的项目

从javascript调用中删除html结果有什么具体的解决方案吗？一个绝对一流的例子。

最终成功：

犀牛。用过

我尝试过的其他事情：

由Android提供
- 无法运行javascript
- 4小时，没有成功。同样巨大，我的apk增加了12MB
- 终于编译好了。用于指导设置。为了一个简单的犀牛罐而被抛弃

可能奏效的事情：

进一步的结果将公布。如果发布，将添加其他结果

注意：上面列出的许多选项相互参照。我认为rhino包含在sl4a和htmlunit中。另外，我认为htmlunit包含selenium。

前面提到的解决方案非常慢，并且将您限制为1个url（好吧，不是真的，但是我敢说，当您的用户不耐烦地等待结果时，您可以使用Rhino刮取10个url）

另一种方法是使用云刮取解决方案。您可以从中受益，不必将手机带宽浪费在下载您不会使用的内容上

尝试以下解决方案：

它使您能够在几秒钟内抓取数百个站点。

注意：我看到的许多帖子都建议查看“Rhino”，但我还没有找到一种方法让它工作。Rhino：我的解决方案对于它的应用来说已经足够好了，但我会接受你的，因为其他人似乎已经发现你的答案很有用。谢谢，谢谢。顺便说一句，我在usebobik.com上写了一篇关于使用Bobik的好处的详细文章。usebobik.com只是一个广告中心，什么都没有。Rhino link现在提供了指向SL4A的指针。犀牛罐不在那里。