Vb6 如何使用带有粗体、斜体标识的pdftotext.exe提取文本
我一直在使用pdftotext.exe从pdf中提取文本。通过使用此选项,文本准确性良好。但问题是我无法识别粗体和斜体文本。 如何识别提取的文本是粗体还是斜体 我曾尝试过其他插件,如CSWTestingReflow、PDF解析器等。但为了提高文本准确性,我选择了pdftotext.exe 任何想法都值得一提 代码:Vb6 如何使用带有粗体、斜体标识的pdftotext.exe提取文本,vb6,Vb6,我一直在使用pdftotext.exe从pdf中提取文本。通过使用此选项,文本准确性良好。但问题是我无法识别粗体和斜体文本。 如何识别提取的文本是粗体还是斜体 我曾尝试过其他插件,如CSWTestingReflow、PDF解析器等。但为了提高文本准确性,我选择了pdftotext.exe 任何想法都值得一提 代码: 我不知道pdftotext.exe,但是你可以发布(链接到)一个pdf文档,并且结果文本pdftotxt.exe给出吗?pdftotext.exe是只提供纯文本还是也显示一些布局字符
我不知道pdftotext.exe,但是你可以发布(链接到)一个pdf文档,并且结果文本pdftotxt.exe给出吗?pdftotext.exe是只提供纯文本还是也显示一些布局字符(例如rtf)?我也不熟悉pdftotext,它似乎是Xpdf(开源)的一个组件,可从中获得。在这个Xpdf页面()上,有一个指向另一个基于Xpdf的工具pdftohtml()的链接。也许pdftohtml将为您提供所需的功能?它使用属性-layout..Thaks MarkL显示布局字符。i vl检查pdftohtml
objdos.ExecuteCommand """" & App.Path & "\pdftotext.exe" & """" & " -layout " & """" & sReadPDF & "_Text.pdf" & """"
''objdos.ExecuteCommand """" & App.Path & "\pdftotext.exe" & """" & " " & """" & sReadPDF & "_Text.pdf" & """"
If fso.FileExists(sReadPDF & "_Text.txt") = True Then
'Read the text file
Set adoStreamOut = New ADODB.Stream
'adoStreamOut.Charset = "utf-8"
adoStreamOut.Charset = "us-ascii"
If adoStreamOut.State Then adoStreamOut.Close
adoStreamOut.Open
adoStreamOut.LoadFromFile Replace(sReadPDF, ".pdf", "") & "_Text.txt"
sText = adoStreamOut.ReadText
End If
DoEvents
sText = Trim(sText)
sText = Trim(Replace(sText, Chr(12), ""))
sText = Trim(Replace(sText, "." & vbCrLf, ".|||"))
sText = Trim(Replace(sText, "?" & vbCrLf, "?|||"))
sText = Trim(Replace(sText, "--" & vbCrLf, "||||||"))
sText = Trim(Replace(sText, "-" & vbCrLf, "-|||"))
sText = Trim(Replace(sText, vbCrLf, " "))
sText = Trim(Replace(sText, ".|||", "." & vbCrLf))
sText = Trim(Replace(sText, "?|||", "?" & vbCrLf))
sText = Trim(Replace(sText, "-|||", ""))
sText = Trim(Replace(sText, "||||||", "--"))
sText = Trim(Replace(sText, "--", "—"))
Do
sText = Trim(Replace(sText, " ", " "))
Loop Until InStr(sText, " ") = False