Java 生成的PDF中的HTML内容存在问题

Java 生成的PDF中的HTML内容存在问题,java,html,pdf,itextpdf,Java,Html,Pdf,Itextpdf,我正在从HTML生成一个PDF,但是我的PDF页面没有将其解释为普通文本,而是充满了HTML标记,如,,等等。您需要删除所有标记和unescape特殊字符 PHP示例: $text = preg_replace($html, '<[^>]*>', ''); $text = html_entity_decode($text); $text=preg_replace($html,]*>,“”); $text=html\u实体\u解码($text); VB.NET示例: Dim

我正在从HTML生成一个PDF,但是我的PDF页面没有将其解释为普通文本,而是充满了HTML标记,如
  • ,等等。

    您需要删除所有标记和unescape特殊字符

    PHP示例:

    $text = preg_replace($html, '<[^>]*>', '');
    $text = html_entity_decode($text);
    
    $text=preg_replace($html,]*>,“”);
    $text=html\u实体\u解码($text);
    
    VB.NET示例:

    Dim text As String = Regex.Replace(html, "<[^>]*>", "")
    text = System.Web.WebUtility.HtmlDecode(text)
    
    Dim text As String=Regex.Replace(html,]*>,“”)
    text=System.Web.WebUtility.HtmlDecode(text)
    
    Java示例:

    text = html.replaceAll("<[^>]*>", "");
    
    text=html.replaceAll(“]*>”,“”);
    

    对于html实体解码,您可以在这里找到一个很好的答案:。否则,如果您知道所有这些内容(
    ,…)。

    html内容,如,.etcI,我使用itext java生成pdf。您能举个例子吗。