Python 3.x 从Python 3.7中的PDF文件中分别提取标题/章节和相关段落_Python 3.x_Text Extraction_Data Extraction_Html Content Extraction

Python 3.x 从Python 3.7中的PDF文件中分别提取标题/章节和相关段落

python-3.x

Python 3.x 从Python 3.7中的PDF文件中分别提取标题/章节和相关段落,python-3.x,text-extraction,data-extraction,html-content-extraction,Python 3.x,Text Extraction,Data Extraction,Html Content Extraction,我的任务是分别从pdf文件中获取章节内容，以便存储到数据库中。到目前为止，我尝试了正则表达式并尝试拆分，但这只给了我章节号，但无助于拆分章节。接下来，我尝试了BeatifulSoup库并将其转换为HTML格式。现在我在列表中有了每一页，但是如果我在页面中找到了标题/章节，如何进一步拆分呢。例如：如果标题为1.1.2，则我希望将其内容单独保存到列表中。与1.2.1、2.3.1、4.5相同 from tika import parser from io import StringIO from b

我的任务是分别从pdf文件中获取章节内容，以便存储到数据库中。到目前为止，我尝试了正则表达式并尝试拆分，但这只给了我章节号，但无助于拆分章节。接下来，我尝试了BeatifulSoup库并将其转换为HTML格式。现在我在列表中有了每一页，但是如果我在页面中找到了标题/章节，如何进一步拆分呢。例如：如果标题为1.1.2，则我希望将其内容单独保存到列表中。与1.2.1、2.3.1、4.5相同

from tika import parser
from io import StringIO
from bs4 import BeautifulSoup
if ext==".pdf":
    file_data=[]
    raw_xml = parser.from_file(text_path, xmlContent=True)
    xhtml_data = BeautifulSoup(raw_xml['content'], features="lxml")
    print(xhtml_data.prettify())
    for page, content in enumerate(xhtml_data.find_all('div', attrs={'class': 'page'})):
    # Parse PDF data using TIKA (xml/html)
        _buffer = StringIO()
        _buffer.write(str(content))
        parsed_content = parser.from_buffer(_buffer.getvalue())
        _buffer.truncate()
        # Add pages
        text = parsed_content['content'].strip()
        file_data.append(text)

有什么最新消息吗？我现在有这个要求，你能帮忙吗？你面临什么挑战？没有固定字体大小或固定字体来提取文本。因此，我正在寻找一个智能系统，可以将标题和段落分开。我也不能写正则表达式，因为章节标题没有数字。这方面有什么更新吗？我现在有这个要求，你能帮忙吗？你面临什么挑战？没有固定字体大小或固定字体来提取文本。因此，我正在寻找一个智能系统，可以将标题和段落分开。而且我不能编写正则表达式，因为章节标题没有数字。