C#(Asp.net)是否将Pdf转换为txt文件?保持pdf对齐(txt文件中的空格和填充应与pdf文件相同)?

C#(Asp.net)是否将Pdf转换为txt文件?保持pdf对齐(txt文件中的空格和填充应与pdf文件相同)?,c#,asp.net,pdf,itext,syncfusion,C#,Asp.net,Pdf,Itext,Syncfusion,itextsharp和pdfbox 在这两种情况下,我都能够提取文本字符,但对齐方式与pdf文件对齐方式不同(左边距、顶部等) 如何在txt文件中保持pdf对齐?正如您在试验iText和PdfBox时所经历的那样,您提出的问题是不可能的,因为可移植文档格式定义布局的方式与纯文本格式中建立布局的方式不匹配 在.txt文件中,对齐、缩进、间距,。。。使用空格字符(如空格()、换行符(/n)实现。和选项卡(/t) 在.pdf文件中,单词之间通常使用单空格字符,但是当需要多个空格时,或者当单词间距优化

itextsharppdfbox 在这两种情况下,我都能够提取文本字符,但对齐方式与pdf文件对齐方式不同(左边距、顶部等)


如何在txt文件中保持pdf对齐?

正如您在试验iText和PdfBox时所经历的那样,您提出的问题是不可能的,因为可移植文档格式定义布局的方式与纯文本格式中建立布局的方式不匹配

  • .txt
    文件中,对齐、缩进、间距,。。。使用空格字符(如空格(
    )、换行符(
    /n
    )实现。和选项卡(
    /t
  • .pdf
    文件中,单词之间通常使用单空格字符,但是当需要多个空格时,或者当单词间距优化以获得更好的阅读体验时,您会发现绝对定位优于使用空格字符。内容流中的
    \n
    不会被视为内容的新行,但新行的概念通过新行运算符存在。标签的概念在PDF中根本不存在;使用
    (x,y)
    坐标进行绝对定位

您期望从PDF到TXT的转换过程能够以某种方式解决这种语法不匹配的问题,这是一种可爱的想法,但它是从一个完全错误的假设开始的:您需要纯文本格式的绝对定位功能,而该功能根本不存在。您的问题的答案是没有答案。

中的
LayoutTextExtractionStrategy
可能会告诉您一些您需要的信息。从@Bruno的回答中可以清楚地看出,你几乎得不到更多。与此同时,你又重新审视了你的问题,你有没有看过
LayoutTextExtractionStrategy
?你应该接受我的回答,而不是发布一个新的、重复的、被关闭和删除的问题。