Java 需要正则表达式的帮助来提取标记内的数据吗_Java_Regex

Java 需要正则表达式的帮助来提取标记内的数据吗

java regex

Java 需要正则表达式的帮助来提取标记内的数据吗,java,regex,Java,Regex,一段时间以来，我一直在努力创建一个正则表达式来满足我对下面HTML的需求。我正在使用java.util.regex.*包，出于不同的原因，我需要使用这个包，而不是任何第三方库我想要的是提取标签中的数据，所以在这个特定的HTML中我想要的数据是25/25，Lindhagen，0，Spinninghall，35和TestPerson 是否可以为此创建正则表达式 <div id="rsv_detail"> <hr /> <label>Bokningsst

一段时间以来，我一直在努力创建一个正则表达式来满足我对下面HTML的需求。我正在使用java.util.regex.*包，出于不同的原因，我需要使用这个包，而不是任何第三方库

我想要的是提取标签中的数据，所以在这个特定的HTML中我想要的数据是25/25，Lindhagen，0，Spinninghall，35和TestPerson

是否可以为此创建正则表达式

<div id="rsv_detail">
  <hr />

  <label>Bokningsstatus</label>
  <span>&nbsp;</span>

  <label>Bokningar</label>

  <span>25 / 25 &nbsp;</span>

  <br />

  <label>Plats</label>
  <span>Lindhagen&nbsp;</span>

  <label>Anlänt</label>
  <span>0&nbsp;</span>

  <br />

  <label>Sal</label>
  <span>Spinninghall&nbsp;</span>

  <label>Max antal</label>
  <span>35&nbsp;</span>
  <br />

  <label>Ledare</label>

  <span>Test Person&nbsp;</span>
  <br /><br />


  <label>Visa mer</label>
  <span>      
    <a href="/index.php?instructors%5B%5D=X129518&amp;func=la&amp;tak=0.36507500+1302460619">Ledare</a>
    <a href="/index.php?locations=LI&amp;func=la&amp;tak=0.36507500+1302460619">Plats</a>
    <a href="/index.php?activities=SP_MEDEL&amp;func=la&amp;tak=0.36507500+1302460619">Aktivitet</a>

  </span>
  <br /><br />

  <br />
  <br />
  <hr />
</div>



博克宁状态
博克宁加
25/25


平板
林德哈根
安兰特
0


萨尔
斯宾宁厅
马克斯·安塔尔
35


莱德尔
测试人员



维萨梅尔

据我所知，从HTML中提取信息的最佳方法是使用HTML解析器，或者将HTML转换为XHTML，并通过标准XML技术进行提取。为什么不能使用第三方库？

如果过滤掉同一行中未打开和关闭span标记的每一行，则可以使用：

filtered.replaceAll ("<span>([^<]*)</span>", "$1")
  .replaceAll ("&nbsp;", "")

filtered.replaceAll（“（[^如果过滤掉没有在同一行中打开和关闭span标记的每一行，则可以使用：
filtered.replaceAll ("<span>([^<]*)</span>", "$1")
  .replaceAll ("&nbsp;", "")

filtered.replaceAll（“([^
这假设目标
始终以
结尾，并且从不包含任何其他实体或元素
这假设目标
始终以
结尾，并且从不包含任何其他实体或元素。
'（.*）&；
就像RE一样，不是吗？
'（.*）&；“
就像RE一样，不是吗？解析器是Android应用程序的代理，我将把这个代理部署到Google app Engine。我还没有找到一个好的HTML解析器，它不使用GAE白名单上没有的一些类。此外，由于要解析的许多页面格式不好，任何基于SAX的解析器都无法使用将抛出异常…希望clarifysThe解析器是Android应用程序的代理，我将把这个代理部署到Google app Engine。我还没有找到一个好的HTML解析器，它不使用GAE白名单上没有的一些类。此外，由于要解析的许多页面格式不好，任何基于SAX的解析器将抛出异常…希望澄清我真正需要的！干杯：-）正是我需要的！干杯：-）
25 / 25
Lindhagen
0
Spinninghall
35
Test Person