Python 3.x 从Python 3.7中的PDF文件中分别提取标题/章节和相关段落
我的任务是分别从pdf文件中获取章节内容,以便存储到数据库中。 到目前为止,我尝试了正则表达式并尝试拆分,但这只给了我章节号,但无助于拆分章节。接下来,我尝试了BeatifulSoup库并将其转换为HTML格式。现在我在列表中有了每一页,但是如果我在页面中找到了标题/章节,如何进一步拆分呢。例如:如果标题为1.1.2,则我希望将其内容单独保存到列表中。与1.2.1、2.3.1、4.5相同Python 3.x 从Python 3.7中的PDF文件中分别提取标题/章节和相关段落,python-3.x,text-extraction,data-extraction,html-content-extraction,Python 3.x,Text Extraction,Data Extraction,Html Content Extraction,我的任务是分别从pdf文件中获取章节内容,以便存储到数据库中。 到目前为止,我尝试了正则表达式并尝试拆分,但这只给了我章节号,但无助于拆分章节。接下来,我尝试了BeatifulSoup库并将其转换为HTML格式。现在我在列表中有了每一页,但是如果我在页面中找到了标题/章节,如何进一步拆分呢。例如:如果标题为1.1.2,则我希望将其内容单独保存到列表中。与1.2.1、2.3.1、4.5相同 from tika import parser from io import StringIO from b
from tika import parser
from io import StringIO
from bs4 import BeautifulSoup
if ext==".pdf":
file_data=[]
raw_xml = parser.from_file(text_path, xmlContent=True)
xhtml_data = BeautifulSoup(raw_xml['content'], features="lxml")
print(xhtml_data.prettify())
for page, content in enumerate(xhtml_data.find_all('div', attrs={'class': 'page'})):
# Parse PDF data using TIKA (xml/html)
_buffer = StringIO()
_buffer.write(str(content))
parsed_content = parser.from_buffer(_buffer.getvalue())
_buffer.truncate()
# Add pages
text = parsed_content['content'].strip()
file_data.append(text)
有什么最新消息吗?我现在有这个要求,你能帮忙吗?你面临什么挑战?没有固定字体大小或固定字体来提取文本。因此,我正在寻找一个智能系统,可以将标题和段落分开。我也不能写正则表达式,因为章节标题没有数字。这方面有什么更新吗?我现在有这个要求,你能帮忙吗?你面临什么挑战?没有固定字体大小或固定字体来提取文本。因此,我正在寻找一个智能系统,可以将标题和段落分开。而且我不能编写正则表达式,因为章节标题没有数字。