Java 如何在<;p>;标签
我想从放置在Java 如何在<;p>;标签,java,html,parsing,jsoup,Java,Html,Parsing,Jsoup,我想从放置在p和li标记中的HTML页面中提取文本,这样我就可以开始标记页面,为每个页面构建反向索引,以回答搜索查询 如何使用jsoup获取p标记 Elements e = doc.select(""); 要在该参数中写入的字符串是什么?这可以完成此任务 Elements e=doc.select("p"); 这是一个你可以使用的列表 假设您有以下html: String html="<p>some <strong>bold</strong> text
p
和li
标记中的HTML页面中提取文本,这样我就可以开始标记页面,为每个页面构建反向索引,以回答搜索查询
如何使用jsoup获取p
标记
Elements e = doc.select("");
要在该参数中写入的字符串是什么?这可以完成此任务
Elements e=doc.select("p");
这是一个你可以使用的列表
假设您有以下html:
String html="<p>some <strong>bold</strong> text</p>";
或
假设现在您有以下复杂的html
String html="<div id=someid><p>some text</p><span>some other text</span><p> another p tag</p></div>"
你也可以找到更多信息
希望这有帮助
String testText1 = d.select("body").text();
System.out.println(testText);
或
您可以使用此选项从标记中获取文本。尝试以下操作:
File input = new File("/home/s5/Downloads/PDFCopy/PDs.html");
Document doc = Jsoup.parse(input, "UTF-8","http://www.cisco.com/c/en/us/products/collateral/wireless/aironet-1815-series-access-points/datasheet-c78-738481.pdf");
Elements link = doc.select("p");
String linkText = link.text();
//System.out.println(linkText);
String[] words=linkText.split("\\W");
for(String str:words)
{
System.out.println(str);
}
}
}
是的,我知道它从烹饪书中得到了p标签,但是具有复杂的结构,比如
或者注意:当使用
选择时。(“p”).first()代码>如果第一个元素为空,它将返回第二个元素。例如,对于测试,函数将返回“test”而不是“test”。我必须使用getElementsByTag来解决这个问题。
Document doc = Jsoup.parse(html);
Element content = doc.getElementById("someid");
Elements p= content.getElementsByTag("p");
String pConcatenated="";
for (Element x: p) {
pConcatenated+= x.text();
}
System.out.println(pConcatenated);//sometext another p tag
String testText1 = d.select("body").text();
System.out.println(testText);
String testText2 = d.select("body p").text();
System.out.println(testText);
File input = new File("/home/s5/Downloads/PDFCopy/PDs.html");
Document doc = Jsoup.parse(input, "UTF-8","http://www.cisco.com/c/en/us/products/collateral/wireless/aironet-1815-series-access-points/datasheet-c78-738481.pdf");
Elements link = doc.select("p");
String linkText = link.text();
//System.out.println(linkText);
String[] words=linkText.split("\\W");
for(String str:words)
{
System.out.println(str);
}
}
}