解析pdf内容流以了解段落边界

解析pdf内容流以了解段落边界,pdf,pdfbox,xpdf,Pdf,Pdfbox,Xpdf,有没有办法解析pdf内容流并确定段落边界?我阅读了ISO 32000-1:2008,但不明白pdf内容流是否包含任何告诉显示软件开始或结束段落的操作符。任何文本提取器软件,如pdfbox或xpdf都可以提供该信息吗?PDF不要求您标记段落的开头或结尾。事实上,你甚至不需要在内容流中将同一段落的所有部分放在一起,你可以在这里放一个单词,在那里放一个字母,等等。文本提取软件尝试按阅读顺序查找文本行,甚至可能尝试识别多个列,但识别段落的一般方法很可能会失败。

有没有办法解析pdf内容流并确定段落边界?我阅读了ISO 32000-1:2008,但不明白pdf内容流是否包含任何告诉显示软件开始或结束段落的操作符。任何文本提取器软件,如
pdfbox
xpdf
都可以提供该信息吗?

PDF不要求您标记段落的开头或结尾。事实上,你甚至不需要在内容流中将同一段落的所有部分放在一起,你可以在这里放一个单词,在那里放一个字母,等等。文本提取软件尝试按阅读顺序查找文本行,甚至可能尝试识别多个列,但识别段落的一般方法很可能会失败。