Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/android/206.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Javascript 抓取Android应用程序中动态生成的html_Javascript_Android_Html_Web Scraping - Fatal编程技术网

Javascript 抓取Android应用程序中动态生成的html

Javascript 抓取Android应用程序中动态生成的html,javascript,android,html,web-scraping,Javascript,Android,Html,Web Scraping,我目前正在编写一个Android应用程序,其中包括使用我不拥有的网站的文本信息。此外,有些页面需要身份验证 对于一些页面,我已经能够使用BasicNameValuePairs和一个HTTPClient及其相关对象登录并检索html代码 不幸的是,这些方法检索网页源代码时没有运行浏览器(甚至Android Webview)通常运行的任何javascript函数。我需要一些脚本正在检索的文本 我已经做了研究,但我发现的一切都是猜测&非常令人困惑。我现在可以忽略需要登录的页面。此外,我愿意发布任何可能

我目前正在编写一个Android应用程序,其中包括使用我不拥有的网站的文本信息。此外,有些页面需要身份验证

对于一些页面,我已经能够使用BasicNameValuePairs和一个HTTPClient及其相关对象登录并检索html代码

不幸的是,这些方法检索网页源代码时没有运行浏览器(甚至Android Webview)通常运行的任何javascript函数。我需要一些脚本正在检索的文本

我已经做了研究,但我发现的一切都是猜测&非常令人困惑。我现在可以忽略需要登录的页面。此外,我愿意发布任何可能对构建解决方案有用的代码;这是一个独立的项目

从javascript调用中删除html结果有什么具体的解决方案吗?一个绝对一流的例子。

最终成功:

  • 犀牛。用过
我尝试过的其他事情:

  • 由Android提供
    • 无法运行javascript
    • 4小时,没有成功。同样巨大,我的apk增加了12MB
    • 终于编译好了。用于指导设置。为了一个简单的犀牛罐而被抛弃
可能奏效的事情:

进一步的结果将公布。如果发布,将添加其他结果


注意:上面列出的许多选项相互参照。我认为rhino包含在sl4a和htmlunit中。另外,我认为htmlunit包含selenium。

前面提到的解决方案非常慢,并且将您限制为1个url(好吧,不是真的,但是我敢说,当您的用户不耐烦地等待结果时,您可以使用Rhino刮取10个url)

另一种方法是使用云刮取解决方案。您可以从中受益,不必将手机带宽浪费在下载您不会使用的内容上

尝试以下解决方案:


它使您能够在几秒钟内抓取数百个站点。

注意:我看到的许多帖子都建议查看“Rhino”,但我还没有找到一种方法让它工作。Rhino:我的解决方案对于它的应用来说已经足够好了,但我会接受你的,因为其他人似乎已经发现你的答案很有用。谢谢,谢谢。顺便说一句,我在usebobik.com上写了一篇关于使用Bobik的好处的详细文章。usebobik.com只是一个广告中心,什么都没有。Rhino link现在提供了指向SL4A的指针。犀牛罐不在那里。