Java 需要正则表达式的帮助来提取标记内的数据吗
一段时间以来,我一直在努力创建一个正则表达式来满足我对下面HTML的需求。我正在使用java.util.regex.*包,出于不同的原因,我需要使用这个包,而不是任何第三方库 我想要的是提取标签中的数据,所以在这个特定的HTML中我想要的数据是25/25,Lindhagen,0,Spinninghall,35和TestPerson 是否可以为此创建正则表达式Java 需要正则表达式的帮助来提取标记内的数据吗,java,regex,Java,Regex,一段时间以来,我一直在努力创建一个正则表达式来满足我对下面HTML的需求。我正在使用java.util.regex.*包,出于不同的原因,我需要使用这个包,而不是任何第三方库 我想要的是提取标签中的数据,所以在这个特定的HTML中我想要的数据是25/25,Lindhagen,0,Spinninghall,35和TestPerson 是否可以为此创建正则表达式 <div id="rsv_detail"> <hr /> <label>Bokningsst
<div id="rsv_detail">
<hr />
<label>Bokningsstatus</label>
<span> </span>
<label>Bokningar</label>
<span>25 / 25 </span>
<br />
<label>Plats</label>
<span>Lindhagen </span>
<label>Anlänt</label>
<span>0 </span>
<br />
<label>Sal</label>
<span>Spinninghall </span>
<label>Max antal</label>
<span>35 </span>
<br />
<label>Ledare</label>
<span>Test Person </span>
<br /><br />
<label>Visa mer</label>
<span>
<a href="/index.php?instructors%5B%5D=X129518&func=la&tak=0.36507500+1302460619">Ledare</a>
<a href="/index.php?locations=LI&func=la&tak=0.36507500+1302460619">Plats</a>
<a href="/index.php?activities=SP_MEDEL&func=la&tak=0.36507500+1302460619">Aktivitet</a>
</span>
<br /><br />
<br />
<br />
<hr />
</div>
博克宁状态
博克宁加
25/25
平板
林德哈根
安兰特
0
萨尔
斯宾宁厅
马克斯·安塔尔
35
莱德尔
测试人员
维萨梅尔
据我所知,从HTML中提取信息的最佳方法是使用HTML解析器,或者将HTML转换为XHTML,并通过标准XML技术进行提取。为什么不能使用第三方库?据我所知,从HTML中提取信息的最佳方法是使用HTML解析器,或者将HTML转换为XHTML,并通过标准XML技术进行提取。为什么不能使用第三方库?如果过滤掉同一行中未打开和关闭span标记的每一行,则可以使用:
filtered.replaceAll ("<span>([^<]*)</span>", "$1")
.replaceAll (" ", "")
filtered.replaceAll(“([^如果过滤掉没有在同一行中打开和关闭span标记的每一行,则可以使用:
filtered.replaceAll ("<span>([^<]*)</span>", "$1")
.replaceAll (" ", "")
filtered.replaceAll(“([^
这假设目标
始终以
结尾,并且从不包含任何其他实体或元素
这假设目标
始终以
结尾,并且从不包含任何其他实体或元素。'(.*)&;
就像RE一样,不是吗?'(.*)&;“
就像RE一样,不是吗?解析器是Android应用程序的代理,我将把这个代理部署到Google app Engine。我还没有找到一个好的HTML解析器,它不使用GAE白名单上没有的一些类。此外,由于要解析的许多页面格式不好,任何基于SAX的解析器都无法使用将抛出异常…希望clarifysThe解析器是Android应用程序的代理,我将把这个代理部署到Google app Engine。我还没有找到一个好的HTML解析器,它不使用GAE白名单上没有的一些类。此外,由于要解析的许多页面格式不好,任何基于SAX的解析器将抛出异常…希望澄清我真正需要的!干杯:-)正是我需要的!干杯:-)
25 / 25
Lindhagen
0
Spinninghall
35
Test Person