Java扫描器找到一个标记,然后用分隔符写什么';它在文件的标记中

Java扫描器找到一个标记,然后用分隔符写什么';它在文件的标记中,java,html,java.util.scanner,Java,Html,Java.util.scanner,我正在编写一个程序,旨在搜索网站的HTML,找到一个特定的标记,然后将该标记的内容写入一个文件。例如,HTML可能如下所示: <div class="something" specific-tag:"print this 1">some content</div> <div class="something" not-the-right-tag:"don't print this">some content</div> <div class=

我正在编写一个程序,旨在搜索网站的HTML,找到一个特定的标记,然后将该标记的内容写入一个文件。例如,HTML可能如下所示:

<div class="something" specific-tag:"print this 1">some content</div>
<div class="something" not-the-right-tag:"don't print this">some content</div>
<div class="something" specific-tag:"print this 2">some content</div>
<div class="something" not-the-right-tag:"don't print this">some content</div>
<div class="something" specific-tag:"print this 3">some content</div>
print this 1
print this 2
print this 3
我知道如何使用Scanner类来查找特定标记,在本例中为“specific tag”,并且知道如何使用分隔符写入文件,在本例中,分隔符为“,但我不知道如何做的是搜索一个标记,然后将该标记后面分隔符之间的所有内容写入文件,然后继续搜索下一个标记并重复,直到文件结束


想法?

您真的应该使用某种html解析库。谷歌的快速搜索揭示了这一点。它似乎很容易使用。召唤

Elements divs = doc.select("div[specific-tag]");

应该生成div,然后您可以提取特定的标记属性。

使用正则表达式请注意以下情况:
某些内容
,以及那些由于无效HTML而不存在结束标记的内容。感谢您的指导,我将研究这些情况。