Warning: file_get_contents(/data/phpspider/zhask/data//catemap/1/typo3/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Vb6 如何使用带有粗体、斜体标识的pdftotext.exe提取文本_Vb6 - Fatal编程技术网

Vb6 如何使用带有粗体、斜体标识的pdftotext.exe提取文本

Vb6 如何使用带有粗体、斜体标识的pdftotext.exe提取文本,vb6,Vb6,我一直在使用pdftotext.exe从pdf中提取文本。通过使用此选项,文本准确性良好。但问题是我无法识别粗体和斜体文本。 如何识别提取的文本是粗体还是斜体 我曾尝试过其他插件,如CSWTestingReflow、PDF解析器等。但为了提高文本准确性,我选择了pdftotext.exe 任何想法都值得一提 代码: 我不知道pdftotext.exe,但是你可以发布(链接到)一个pdf文档,并且结果文本pdftotxt.exe给出吗?pdftotext.exe是只提供纯文本还是也显示一些布局字符

我一直在使用pdftotext.exe从pdf中提取文本。通过使用此选项,文本准确性良好。但问题是我无法识别粗体和斜体文本。 如何识别提取的文本是粗体还是斜体

我曾尝试过其他插件,如CSWTestingReflow、PDF解析器等。但为了提高文本准确性,我选择了pdftotext.exe

任何想法都值得一提

代码:


我不知道pdftotext.exe,但是你可以发布(链接到)一个pdf文档,并且结果文本pdftotxt.exe给出吗?pdftotext.exe是只提供纯文本还是也显示一些布局字符(例如rtf)?我也不熟悉pdftotext,它似乎是Xpdf(开源)的一个组件,可从中获得。在这个Xpdf页面()上,有一个指向另一个基于Xpdf的工具pdftohtml()的链接。也许pdftohtml将为您提供所需的功能?它使用属性-layout..Thaks MarkL显示布局字符。i vl检查pdftohtml
objdos.ExecuteCommand """" & App.Path & "\pdftotext.exe" & """" & " -layout " & """" & sReadPDF & "_Text.pdf" & """"
''objdos.ExecuteCommand """" & App.Path & "\pdftotext.exe" & """" & " " & """" & sReadPDF & "_Text.pdf" & """"
    If fso.FileExists(sReadPDF & "_Text.txt") = True Then
                'Read the text file
                Set adoStreamOut = New ADODB.Stream
                'adoStreamOut.Charset = "utf-8"
                adoStreamOut.Charset = "us-ascii"
                If adoStreamOut.State Then adoStreamOut.Close
                adoStreamOut.Open
                adoStreamOut.LoadFromFile Replace(sReadPDF, ".pdf", "") & "_Text.txt"
                sText = adoStreamOut.ReadText
    End If

 DoEvents
sText = Trim(sText)
sText = Trim(Replace(sText, Chr(12), ""))
sText = Trim(Replace(sText, "." & vbCrLf, ".|||"))
sText = Trim(Replace(sText, "?" & vbCrLf, "?|||"))
sText = Trim(Replace(sText, "--" & vbCrLf, "||||||"))
sText = Trim(Replace(sText, "-" & vbCrLf, "-|||"))
sText = Trim(Replace(sText, vbCrLf, " "))
sText = Trim(Replace(sText, ".|||", "." & vbCrLf))
sText = Trim(Replace(sText, "?|||", "?" & vbCrLf))
sText = Trim(Replace(sText, "-|||", ""))
sText = Trim(Replace(sText, "||||||", "--"))
sText = Trim(Replace(sText, "--", "—"))
Do
 sText = Trim(Replace(sText, "  ", " "))
Loop Until InStr(sText, "  ") = False