javajsoup，scrapehtml_Java_Html_Web Scraping_Jsoup

javajsoup，scrapehtml

java html web-scraping

javajsoup，scrapehtml,java,html,web-scraping,jsoup,Java,Html,Web Scraping,Jsoup,我正在使用Jsoup和Java来解析HTML文件。我的问题是，我如何才能提取出“小时费率：23016订单”这一行我正在解析很多文件，因此小时费率旁边的数字将发生变化 <html> <head> <title>Testing</title> </head> <body> <p class=MsoNormal align=center style='background:#DEDEDF'> <span sty

我正在使用Jsoup和Java来解析HTML文件。我的问题是，我如何才能提取出“小时费率：23016订单”这一行我正在解析很多文件，因此小时费率旁边的数字将发生变化

<html>
<head>
<title>Testing</title>
</head>
<body>
<p class=MsoNormal align=center style='background:#DEDEDF'>
<span style='font-size:18.0pt'><b>Testing</b></span></p>
Hourly Rate: 23,016 orders<br>
<table border=0 cellpadding=0>
<tr valign=top>
<td>


测试

测试
小时费率：23016订单

谢谢

获取MsoNormal类，然后使用正则表达式查找数字，即

Document doc = Jsoup.parse(htmlString);
Element msoNormal = doc.getElementsByClass("MsoNormal").first();
if(msoNormal!=null){
  Pattern p = Pattern.compile("[0-9]+,[0-9]+");
  Matcher m = pattern.matcher(msoNormal.text());
  if(matcher.find())
    System.out.println(m.get());
}

我刚刚添加了以下代码：

 String HourlyRate = doc.body().ownText();
//String text = doc.body().text();

System.out.println(HourlyRate);

这张照片打印出来：

小时费率：23016个订单

感谢您的回复，选择“我得到了错误”“模式”和“匹配器”类。我的IDE找不到它们。您需要从

java.util.regex导入它们