Java 从标记的内联样式属性中抓取数据时出现问题
因此,我有两个带有内联样式的跨距:Java 从标记的内联样式属性中抓取数据时出现问题,java,regex,web-scraping,jsoup,Java,Regex,Web Scraping,Jsoup,因此,我有两个带有内联样式的跨距: <span style="...;width:8px;..."></span> <span style="...;width:16px;..."></span> <span style="...;width:13px;..."></span> <span style="...;width:20px;..."></span> <span style="...;w
<span style="...;width:8px;..."></span>
<span style="...;width:16px;..."></span>
<span style="...;width:13px;..."></span>
<span style="...;width:20px;..."></span>
<span style="...;width:0px;..."></span> //width=0px
<span style="...;width:5px;..."></span>
<span style="...;width:3px;..."></span>
<span style="...;width:90px;..."></span>
<span style="...;width:200px;..."></span>
我想提取px值并将其存储到数组中。当我们到达宽度为0px的跨度时,表示该数组结束。因此,上述内容如下所示:
数组1=[8,16,13,20]
array2=[5,3,90200]
我们可以使用整数数组的数组列表来存储数据
到目前为止,我所拥有的是非常基本的:Elements spanWidths=doc.selectspan
到目前为止,这产生了:
边界:。。。;宽度:8px
我相信我们用正则表达式来解决这个问题,但我不太习惯。有什么帮助吗?正则表达式应该是\bwidth\s*:\s*\d+px。然后从第一个捕获组中获取值。也就是说,对结果匹配调用.group1