Vb6 如何使用带有粗体、斜体标识的pdftotext.exe提取文本_Vb6

Vb6 如何使用带有粗体、斜体标识的pdftotext.exe提取文本

vb6

Vb6 如何使用带有粗体、斜体标识的pdftotext.exe提取文本,vb6,Vb6,我一直在使用pdftotext.exe从pdf中提取文本。通过使用此选项，文本准确性良好。但问题是我无法识别粗体和斜体文本。如何识别提取的文本是粗体还是斜体我曾尝试过其他插件，如CSWTestingReflow、PDF解析器等。但为了提高文本准确性，我选择了pdftotext.exe 任何想法都值得一提代码：我不知道pdftotext.exe，但是你可以发布（链接到）一个pdf文档，并且结果文本pdftotxt.exe给出吗？pdftotext.exe是只提供纯文本还是也显示一些布局字符

我一直在使用pdftotext.exe从pdf中提取文本。通过使用此选项，文本准确性良好。但问题是我无法识别粗体和斜体文本。如何识别提取的文本是粗体还是斜体

我曾尝试过其他插件，如CSWTestingReflow、PDF解析器等。但为了提高文本准确性，我选择了pdftotext.exe

任何想法都值得一提

代码：

我不知道pdftotext.exe，但是你可以发布（链接到）一个pdf文档，并且结果文本pdftotxt.exe给出吗？pdftotext.exe是只提供纯文本还是也显示一些布局字符（例如rtf）？我也不熟悉pdftotext，它似乎是Xpdf（开源）的一个组件，可从中获得。在这个Xpdf页面（）上，有一个指向另一个基于Xpdf的工具pdftohtml（）的链接。也许pdftohtml将为您提供所需的功能？它使用属性-layout..Thaks MarkL显示布局字符。i vl检查pdftohtml

objdos.ExecuteCommand """" & App.Path & "\pdftotext.exe" & """" & " -layout " & """" & sReadPDF & "_Text.pdf" & """"
''objdos.ExecuteCommand """" & App.Path & "\pdftotext.exe" & """" & " " & """" & sReadPDF & "_Text.pdf" & """"
    If fso.FileExists(sReadPDF & "_Text.txt") = True Then
                'Read the text file
                Set adoStreamOut = New ADODB.Stream
                'adoStreamOut.Charset = "utf-8"
                adoStreamOut.Charset = "us-ascii"
                If adoStreamOut.State Then adoStreamOut.Close
                adoStreamOut.Open
                adoStreamOut.LoadFromFile Replace(sReadPDF, ".pdf", "") & "_Text.txt"
                sText = adoStreamOut.ReadText
    End If

 DoEvents
sText = Trim(sText)
sText = Trim(Replace(sText, Chr(12), ""))
sText = Trim(Replace(sText, "." & vbCrLf, ".|||"))
sText = Trim(Replace(sText, "?" & vbCrLf, "?|||"))
sText = Trim(Replace(sText, "--" & vbCrLf, "||||||"))
sText = Trim(Replace(sText, "-" & vbCrLf, "-|||"))
sText = Trim(Replace(sText, vbCrLf, " "))
sText = Trim(Replace(sText, ".|||", "." & vbCrLf))
sText = Trim(Replace(sText, "?|||", "?" & vbCrLf))
sText = Trim(Replace(sText, "-|||", ""))
sText = Trim(Replace(sText, "||||||", "--"))
sText = Trim(Replace(sText, "--", "—"))
Do
 sText = Trim(Replace(sText, "  ", " "))
Loop Until InStr(sText, "  ") = False