Warning: file_get_contents(/data/phpspider/zhask/data//catemap/8/python-3.x/15.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 3.x 从Python 3.7中的PDF文件中分别提取标题/章节和相关段落_Python 3.x_Text Extraction_Data Extraction_Html Content Extraction - Fatal编程技术网

Python 3.x 从Python 3.7中的PDF文件中分别提取标题/章节和相关段落

Python 3.x 从Python 3.7中的PDF文件中分别提取标题/章节和相关段落,python-3.x,text-extraction,data-extraction,html-content-extraction,Python 3.x,Text Extraction,Data Extraction,Html Content Extraction,我的任务是分别从pdf文件中获取章节内容,以便存储到数据库中。 到目前为止,我尝试了正则表达式并尝试拆分,但这只给了我章节号,但无助于拆分章节。接下来,我尝试了BeatifulSoup库并将其转换为HTML格式。现在我在列表中有了每一页,但是如果我在页面中找到了标题/章节,如何进一步拆分呢。例如:如果标题为1.1.2,则我希望将其内容单独保存到列表中。与1.2.1、2.3.1、4.5相同 from tika import parser from io import StringIO from b

我的任务是分别从pdf文件中获取章节内容,以便存储到数据库中。 到目前为止,我尝试了正则表达式并尝试拆分,但这只给了我章节号,但无助于拆分章节。接下来,我尝试了BeatifulSoup库并将其转换为HTML格式。现在我在列表中有了每一页,但是如果我在页面中找到了标题/章节,如何进一步拆分呢。例如:如果标题为1.1.2,则我希望将其内容单独保存到列表中。与1.2.1、2.3.1、4.5相同

from tika import parser
from io import StringIO
from bs4 import BeautifulSoup
if ext==".pdf":
    file_data=[]
    raw_xml = parser.from_file(text_path, xmlContent=True)
    xhtml_data = BeautifulSoup(raw_xml['content'], features="lxml")
    print(xhtml_data.prettify())
    for page, content in enumerate(xhtml_data.find_all('div', attrs={'class': 'page'})):
    # Parse PDF data using TIKA (xml/html)
        _buffer = StringIO()
        _buffer.write(str(content))
        parsed_content = parser.from_buffer(_buffer.getvalue())
        _buffer.truncate()
        # Add pages
        text = parsed_content['content'].strip()
        file_data.append(text)

有什么最新消息吗?我现在有这个要求,你能帮忙吗?你面临什么挑战?没有固定字体大小或固定字体来提取文本。因此,我正在寻找一个智能系统,可以将标题和段落分开。我也不能写正则表达式,因为章节标题没有数字。这方面有什么更新吗?我现在有这个要求,你能帮忙吗?你面临什么挑战?没有固定字体大小或固定字体来提取文本。因此,我正在寻找一个智能系统,可以将标题和段落分开。而且我不能编写正则表达式,因为章节标题没有数字。