Warning: file_get_contents(/data/phpspider/zhask/data//catemap/1/typo3/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Java 需要正则表达式的帮助来提取标记内的数据吗_Java_Regex - Fatal编程技术网

Java 需要正则表达式的帮助来提取标记内的数据吗

Java 需要正则表达式的帮助来提取标记内的数据吗,java,regex,Java,Regex,一段时间以来,我一直在努力创建一个正则表达式来满足我对下面HTML的需求。我正在使用java.util.regex.*包,出于不同的原因,我需要使用这个包,而不是任何第三方库 我想要的是提取标签中的数据,所以在这个特定的HTML中我想要的数据是25/25,Lindhagen,0,Spinninghall,35和TestPerson 是否可以为此创建正则表达式 <div id="rsv_detail"> <hr /> <label>Bokningsst

一段时间以来,我一直在努力创建一个正则表达式来满足我对下面HTML的需求。我正在使用java.util.regex.*包,出于不同的原因,我需要使用这个包,而不是任何第三方库

我想要的是提取标签中的数据,所以在这个特定的HTML中我想要的数据是25/25,Lindhagen,0,Spinninghall,35和TestPerson

是否可以为此创建正则表达式

<div id="rsv_detail">
  <hr />

  <label>Bokningsstatus</label>
  <span>&nbsp;</span>

  <label>Bokningar</label>

  <span>25 / 25 &nbsp;</span>

  <br />

  <label>Plats</label>
  <span>Lindhagen&nbsp;</span>

  <label>Anlänt</label>
  <span>0&nbsp;</span>

  <br />

  <label>Sal</label>
  <span>Spinninghall&nbsp;</span>

  <label>Max antal</label>
  <span>35&nbsp;</span>
  <br />

  <label>Ledare</label>

  <span>Test Person&nbsp;</span>
  <br /><br />


  <label>Visa mer</label>
  <span>      
    <a href="/index.php?instructors%5B%5D=X129518&amp;func=la&amp;tak=0.36507500+1302460619">Ledare</a>
    <a href="/index.php?locations=LI&amp;func=la&amp;tak=0.36507500+1302460619">Plats</a>
    <a href="/index.php?activities=SP_MEDEL&amp;func=la&amp;tak=0.36507500+1302460619">Aktivitet</a>

  </span>
  <br /><br />

  <br />
  <br />
  <hr />
</div>


博克宁状态 博克宁加 25/25
平板 林德哈根 安兰特 0
萨尔 斯宾宁厅 马克斯·安塔尔 35
莱德尔 测试人员

维萨梅尔





据我所知,从HTML中提取信息的最佳方法是使用HTML解析器,或者将HTML转换为XHTML,并通过标准XML技术进行提取。为什么不能使用第三方库?

据我所知,从HTML中提取信息的最佳方法是使用HTML解析器,或者将HTML转换为XHTML,并通过标准XML技术进行提取。为什么不能使用第三方库?

如果过滤掉同一行中未打开和关闭span标记的每一行,则可以使用:

filtered.replaceAll ("<span>([^<]*)</span>", "$1")
  .replaceAll ("&nbsp;", "")

filtered.replaceAll(“([^如果过滤掉没有在同一行中打开和关闭span标记的每一行,则可以使用:

filtered.replaceAll ("<span>([^<]*)</span>", "$1")
  .replaceAll ("&nbsp;", "")
filtered.replaceAll(“([^
这假设目标
始终以
结尾,并且从不包含任何其他实体或元素


这假设目标
始终以
结尾,并且从不包含任何其他实体或元素。

'(.*)&;
就像RE一样,不是吗?

'(.*)&;“
就像RE一样,不是吗?

解析器是Android应用程序的代理,我将把这个代理部署到Google app Engine。我还没有找到一个好的HTML解析器,它不使用GAE白名单上没有的一些类。此外,由于要解析的许多页面格式不好,任何基于SAX的解析器都无法使用将抛出异常…希望clarifysThe解析器是Android应用程序的代理,我将把这个代理部署到Google app Engine。我还没有找到一个好的HTML解析器,它不使用GAE白名单上没有的一些类。此外,由于要解析的许多页面格式不好,任何基于SAX的解析器将抛出异常…希望澄清我真正需要的!干杯:-)正是我需要的!干杯:-)
25 / 25
Lindhagen
0
Spinninghall
35
Test Person