Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/html/80.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Java 如何在<;p>;标签_Java_Html_Parsing_Jsoup - Fatal编程技术网

Java 如何在<;p>;标签

Java 如何在<;p>;标签,java,html,parsing,jsoup,Java,Html,Parsing,Jsoup,我想从放置在p和li标记中的HTML页面中提取文本,这样我就可以开始标记页面,为每个页面构建反向索引,以回答搜索查询 如何使用jsoup获取p标记 Elements e = doc.select(""); 要在该参数中写入的字符串是什么?这可以完成此任务 Elements e=doc.select("p"); 这是一个你可以使用的列表 假设您有以下html: String html="<p>some <strong>bold</strong> text

我想从放置在
p
li
标记中的HTML页面中提取文本,这样我就可以开始标记页面,为每个页面构建反向索引,以回答搜索查询

如何使用jsoup获取
p
标记

Elements e = doc.select(""); 
要在该参数中写入的字符串是什么?

这可以完成此任务

Elements e=doc.select("p"); 
这是一个你可以使用的列表

假设您有以下html:

String html="<p>some <strong>bold</strong> text</p>";

假设现在您有以下复杂的html

String html="<div id=someid><p>some text</p><span>some other text</span><p> another p tag</p></div>"
你也可以找到更多信息

希望这有帮助

String testText1 = d.select("body").text();
System.out.println(testText);

您可以使用此选项从标记中获取文本。

尝试以下操作:

File input = new File("/home/s5/Downloads/PDFCopy/PDs.html");
        Document doc = Jsoup.parse(input, "UTF-8","http://www.cisco.com/c/en/us/products/collateral/wireless/aironet-1815-series-access-points/datasheet-c78-738481.pdf");
        Elements link = doc.select("p");
        String linkText = link.text();
        //System.out.println(linkText);
        String[] words=linkText.split("\\W");
        for(String str:words) 
        {
            System.out.println(str);
        }
    }
}

是的,我知道它从烹饪书中得到了p标签,但是具有复杂的结构,比如
或者注意:当使用
选择时。(“p”).first()如果第一个元素为空,它将返回第二个元素。例如,对于
测试,函数将返回“test”而不是“test”。我必须使用getElementsByTag来解决这个问题。
Document doc = Jsoup.parse(html);
Element content = doc.getElementById("someid");
Elements p= content.getElementsByTag("p");

String pConcatenated="";
for (Element x: p) {
  pConcatenated+= x.text();
}

System.out.println(pConcatenated);//sometext another p tag
String testText1 = d.select("body").text();
System.out.println(testText);
String testText2 = d.select("body p").text();
System.out.println(testText);
File input = new File("/home/s5/Downloads/PDFCopy/PDs.html");
        Document doc = Jsoup.parse(input, "UTF-8","http://www.cisco.com/c/en/us/products/collateral/wireless/aironet-1815-series-access-points/datasheet-c78-738481.pdf");
        Elements link = doc.select("p");
        String linkText = link.text();
        //System.out.println(linkText);
        String[] words=linkText.split("\\W");
        for(String str:words) 
        {
            System.out.println(str);
        }
    }
}