Javascript 如何收集给定网站上的所有可用字符串

Javascript 如何收集给定网站上的所有可用字符串,javascript,java,node.js,web-scraping,Javascript,Java,Node.js,Web Scraping,我一直在尝试用java实现这一点,但未能实现。我通过谷歌搜索找到了四种方法。 它们是: 1. jsoup: Java HTML Parser 2. Apache Nutch 3. Chrome extension 4. https://github.com/yasserg/crawler4j google crwler 有人能用一些工作代码来指导我吗。 比如说 Let's say Given URL is google.com 那就应该放出来 Sign In Gmail Im

我一直在尝试用java实现这一点,但未能实现。我通过谷歌搜索找到了四种方法。 它们是:

1. jsoup: Java HTML Parser
2. Apache Nutch
3. Chrome extension 
4. https://github.com/yasserg/crawler4j   google crwler 
有人能用一些工作代码来指导我吗。 比如说

Let's say Given URL is google.com
那就应该放出来

Sign In
  Gmail
  Images
  Google Search
  I'm Feeling Lucky
  Google.co.in offered in
  हिन्दी
  ગુજરાતી
  About
  Privacy
  **same way other string that i can see over web page.

我能够提取所有文本使用节点js这里是脚本 第一步>>将其保存到文件test.html

var request = require('request');

var cheerio = require('cheerio');

request('https://www.bajajallianz.com/Corp/new-index.jsp', function (error, response, html) {

  if (!error && response.statusCode == 200) {

    console.log(html);

  }


});
第二步

cat test.html | html-to-text > test.txt

你说收集字符串是什么意思?请用更多的细节来扩展你的问题,你正在努力实现什么。到目前为止你有什么?有代码片段吗?@wumpz尝试了示例,但没有成功,现在正在尝试这个示例,所以请发布您的无效示例。Jsoup应该这样做。您发布的示例仅解析并输出一些元信息。因此,您需要在上面实现仅文本输出。