Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/xpath/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
C# c pdf itextsharp文本在提取时分散和重复_C#_Pdf - Fatal编程技术网

C# c pdf itextsharp文本在提取时分散和重复

C# c pdf itextsharp文本在提取时分散和重复,c#,pdf,C#,Pdf,使用itextsharp,我需要在c应用程序中从pdf中提取文本。当我试图提取一些pdf文件时,一些单词会分散并重复,例如堆栈溢出-st ta ac ck k o OVE er rf fl LOW w w。有人可以建议如何使这一点完美,或建议我纠正这一点。我已经附上了上述案件的样本图像。 我能猜一下导致这种情况的文本在PDF文件中是粗体的吗?一种在PostScript和PDF中使文本看起来粗体的常见方法是一种非常糟糕的方法,但是。。。就是渲染相同的字符两次,文本的位置稍微发生平移 如果这确实是造

使用itextsharp,我需要在c应用程序中从pdf中提取文本。当我试图提取一些pdf文件时,一些单词会分散并重复,例如堆栈溢出-st ta ac ck k o OVE er rf fl LOW w w。有人可以建议如何使这一点完美,或建议我纠正这一点。我已经附上了上述案件的样本图像。

我能猜一下导致这种情况的文本在PDF文件中是粗体的吗?一种在PostScript和PDF中使文本看起来粗体的常见方法是一种非常糟糕的方法,但是。。。就是渲染相同的字符两次,文本的位置稍微发生平移


如果这确实是造成这种情况的原因,你唯一的解决办法可能是计算每个字符的位置,并丢弃那些相等且非常接近的字符。

请不要透露stackoverflow上任何个人的信息!我猜穷人的胆量也是如此@ShankarManickavasagam请提供样本PDF以供检查。如果是这种情况,可以适当地扩展该策略,以识别它的一些常见模式