Java 使用JSOUP从具有重复类名的HTML中提取信息?
我正在尝试使用java和JSOUP实现webcrawler。我有以下Html内容Java 使用JSOUP从具有重复类名的HTML中提取信息?,java,jsoup,Java,Jsoup,我正在尝试使用java和JSOUP实现webcrawler。我有以下Html内容 <div class="backgroundSection"> <span class="lndustryProductLinks"> <span class="backgroundDetailHeading">Industry: </span><a class="criterion" rel="nofollow" href
<div class="backgroundSection">
<span class="lndustryProductLinks">
<span class="backgroundDetailHeading">Industry: </span><a class="criterion" rel="nofollow" href="#industryList=[{value:'66826',isUsed:true}]&level=0&type=company">Automotive Service & Collision Repair</a>
,
<a class="criterion" rel="nofollow" href="#industryList=[{value:'1290',isUsed:true}]&level=0&type=company">Consumer Services</a>
</span>
</div>
<div class="backgroundSection">
<span class="backgroundDetailHeading">Products and Services: </span>
`<span class="lndustryProductLinks"><a class="criterion"`href="#industryKeywords='windshield auto glass replacement services'&level=0&type=company" rel="NOFOLLOW">windshield auto glass replacement services</a>`
<a class="criterion" href="#industryKeywords='free mobile windshield repair services'&level=0&type=company" rel="NOFOLLOW">free mobile windshield repair services</a>
,
<a class="criterion" href="#industryKeywords='local automotive glass services'&level=0&type=company" rel="NOFOLLOW">local automotive glass services</a></span></div>
我也得到了div类产品和服务的链接。但我只想要工业部门的标准等级值。我该怎么做?如果没有其他信息,很难回答这个问题。例如,您想要的div总是第一个吗?还是它总是被命名为“工业”?根据需要构造选择器。查看JSoup中的CSS选择器。如果没有其他信息,这很难回答。例如,您想要的div总是第一个吗?还是它总是被命名为“工业”?根据需要构造选择器。查看JSoup中的CSS选择器。
public String getIndustry(String url)
{
String text=null;
String nilav=null;
try
{
doc=Jsoup.connect(url).get();
Elements e=doc.getElementsByClass("backgroundDetailHeading");
text=e.text();
}
catch(IOException e)
{
e.printStackTrace();
}
return text;
}