获取Javascript标记内容

获取Javascript标记内容,java,javascript,Java,Javascript,嗨,我想用java将网站的源代码保存到一个文件中。从源代码中,我只想获取标记内容。如何才能做到这一点?使用Java中的HTML解析器从HTML中提取文本。使用Java中的HTML解析器从HTML中提取文本。一旦将源代码加载到Java中的变量,找到文件中的位置和的位置,并删除不在该范围内的所有内容 比如: String sourceCode = "source code here" String startTag = "<script>"; String endTag

嗨,我想用java将网站的源代码保存到一个文件中。从源代码中,我只想获取标记内容。如何才能做到这一点?

使用Java中的HTML解析器从HTML中提取文本。

使用Java中的HTML解析器从HTML中提取文本。

一旦将源代码加载到Java中的变量,找到文件中
的位置和
的位置,并删除不在该范围内的所有内容

比如:

String sourceCode  = "source code here"
String startTag    = "<script>";
String endTag      = "</script>";

    int startInt = sourceCode.indexOf(startTag);
    int endInt   = sourceCode.indexOf(endTag);

(这可能是明显错误的,我现在无法测试它,抱歉)

一旦您将源代码加载到Java中的变量,请在文件中找到
的位置和
的位置,并删除不在该范围内的所有内容

比如:

String sourceCode  = "source code here"
String startTag    = "<script>";
String endTag      = "</script>";

    int startInt = sourceCode.indexOf(startTag);
    int endInt   = sourceCode.indexOf(endTag);


(这可能是明显错误的,我现在无法测试,抱歉)

你是指Java还是JavaScript?他们是完全不同的技术…他想通过使用Java从页面中获取Javascript。你的主题中有Javascript,但你的问题中有Java。是哪一个?Java对于Javascript就像火腿对于仓鼠一样。@Randal LOL!我想找一个这样的比较,但想不出一个——太好了!Anon看了看问题的来源,看到了未替换的脚本标签——我想他是对的。你需要帮助哪一部分?您需要通过Java中的HTTP下载文件(步骤1),然后解析HTML以增加
标记内容。您是指Java还是JavaScript?他们是完全不同的技术…他想通过使用Java从页面中获取Javascript。你的主题中有Javascript,但你的问题中有Java。是哪一个?Java对于Javascript就像火腿对于仓鼠一样。@Randal LOL!我想找一个这样的比较,但想不出一个——太好了!Anon看了看问题的来源,看到了未替换的脚本标签——我想他是对的。你需要帮助哪一部分?你需要在Java中通过HTTP下载文件(步骤1),然后解析HTML以增加
标记内容。我不知道怎么做。你能告诉我使用谷歌搜索的任何教程或示例吗?几天来,我仍然找不到我想要的东西。谢谢,但我的源代码有多个脚本元素,有什么解决方案可以抓住多元素?新手,把Johnny的代码放到一个循环中。indexOf()方法将查找字符串的下一次出现,因此第一次通过循环时,您将找到第一个开始/结束对。在下一次循环迭代中,将起始位置设置为超过endInt的1,您将找到下一对。每次通过循环时,将jsCode字符串添加到集合中。当不再有匹配项时,就完成了,并且集合中找到的每个脚本元素都有一个项。请注意,这只会获取内联脚本的代码,而不是包含脚本的源代码,例如[script src='foo.js][/script],我可以在while循环中设置什么条件,因为我在调用该方法时一直挂起,我认为问题是无限循环。while(){int-startInt=sourceCode.indexOf(startTag);int-endInt=sourceCode.indexOf(endTag);}获取整个页面正文的长度。在while()子句中,测试startInt是否小于该长度。每次通过循环时,都必须使indexOf()刚好超过最后一个endInt:indexOf(源代码,endInt+1)或类似的值。看看这都是我说的,我现在要回家了…我不知道该怎么做。你能不能告诉我,我用谷歌搜索过的任何教程或例子,几天之后,我仍然找不到我想要的东西。谢谢,但我的源代码有多个脚本元素,有没有抓住多个元素的解决方案?新手,把约翰尼的代码放在一个循环中。indexOf()方法将查找字符串的下一次出现,因此第一次通过循环时,您将找到第一个开始/结束对。在下一次循环迭代中,将起始位置设置为超过endInt的1,您将找到下一对。每次通过循环时,将jsCode字符串添加到集合中。当不再有匹配项时,就完成了,并且集合中找到的每个脚本元素都有一个项。请注意,这只会获取内联脚本的代码,而不是包含脚本的源代码,例如[script src='foo.js][/script],我可以在while循环中设置什么条件,因为我在调用该方法时一直挂起,我认为问题是无限循环。while(){int-startInt=sourceCode.indexOf(startTag);int-endInt=sourceCode.indexOf(endTag);}获取整个页面正文的长度。在while()子句中,测试startInt是否小于该长度。每次通过循环时,都必须使indexOf()刚好超过最后一个endInt:indexOf(源代码,endInt+1)或类似的值。看看这就是我的全部,现在我得回家了……把(右)答案稍微扩展一下:这里列出了几个:把(右)答案稍微扩展一下:这里列出了几个: