Python 将PDF文件拆分为段落_Python_Pdf_Split_Paragraph - Fatal编程技术网

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/email/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 将PDF文件拆分为段落_Python_Pdf_Split_Paragraph - Fatal编程技术网

Python 将PDF文件拆分为段落

python pdf

Python 将PDF文件拆分为段落,python,pdf,split,paragraph,Python,Pdf,Split,Paragraph,我有一个关于pdf文件拆分的问题。基本上，我有一个pdf文件的集合，我想根据段落来拆分这些文件。因此，pdf文件的每个段落都是一个独立的文件。如果您能帮助我，我将不胜感激，最好是用Python，但如果不可能，任何语言都可以您可以使用pdftotext对于上述内容，将其包装在python子流程中。或者，您可以使用其他一些已经隐式执行此操作的库，如textract。下面是一个简单的例子，注意：我使用了4个空格作为分隔符将文本转换为段落列表，您可能需要使用不同的技术 import re import

我有一个关于pdf文件拆分的问题。基本上，我有一个pdf文件的集合，我想根据段落来拆分这些文件。因此，pdf文件的每个段落都是一个独立的文件。如果您能帮助我，我将不胜感激，最好是用Python，但如果不可能，任何语言都可以
您可以使用pdftotext对于上述内容，将其包装在python子流程中。或者，您可以使用其他一些已经隐式执行此操作的库，如textract。下面是一个简单的例子，注意：我使用了4个空格作为分隔符将文本转换为段落列表，您可能需要使用不同的技术

import re import textract #read the content of pdf as text text = textract.process('file_name.pdf') #use four space as paragraph delimiter to convert the text into list of paragraphs. print re.split('\s{4,}',text)

您计划使用python从PDF中提取文本的哪些内容？pdf2text也可以使用。我目前正在编写一个程序，该程序使用子进程调用来使用pdftotext解析PDF。它非常有用：@Radan我想计算段落之间的相似性。所有的pdf文件都由多个段落组成，我想看看这些段落之间有多相似。但首先我需要将pdf文件拆分为段落。直接转换为文本会丢失很多信息，转换有很多参数，具体取决于您使用的软件包。但是如果你选择访问PDF结构，我发现pymupdf是一个很好的选择，这里有一篇文章解释了如何在提取过程中使用该结构获取更多信息：

[pdf]相关文章推荐

Pdf Matplotlib估计的文本宽度错误 pdf fonts matplotlib

使用Solr为带有页码的PDF编制索引 pdf solr

SOLR/LUCENE专家，请帮助我从PDF索引设计一个简单的关键字搜索？ pdf lucene solr

Pdf WkHtmlToXSharp如何添加页眉和页脚？ pdf

批量转换并将postscript裁剪为pdf pdf

在pentaho report designer中将两份prpt报告的结果合并为一份PDF pdf pentaho

gswin PDF到PCL转换后裁剪的PCL pdf

当使用XSL FO打印在纸上时，是否可以隐藏PDF的超链接 pdf

解析pdf文件中的电话号码 pdf groovy

使用html2pdf在后台保存pdf pdf

在程序中更改PDF表单模板后，为什么Adobe Reader希望在以后查看时保存该文件？ pdf

如何以编程方式从c#或命令行中的word/doc/rtf文件获取pdf文件 pdf

使用iTextSharp检查PDF文档中的文本是否为粗体的方法有哪些 pdf fonts

在PDF中定义链接批注的背景色和透明度 pdf

使用onEdit（）将工作表另存为pdf pdf google-apps-script google-sheets

Pdf 我们如何比较两个情节？ pdf plot

Pdf 保存文件时特殊字符会中断 pdf octave

Can'；t从使用iOS Swift创建的PDF复制文本 pdf

政府文件PDF数字签名验证失败 pdf itext

如何以zip格式生成多个odoo qweb报告（PDF文件）？ pdf odoo

随机文章推荐

[python]相关推荐

Python GAE中的格式化文本
Python Google App Engine

Python套接字-创建消息格式
Python Sockets

Python 使用urllib2下载网页会导致乱码垃圾吗？（只是有时）
Python Http Api Rest

Python 避免在windows循环中按原始输入键
Python Windows

Python读取文件
Python

Python jinja烧瓶和回路特性
Python Html Templates Flask

Python 使用CLI脚本共享金字塔配置
Python

为什么实例变量的行为像Python中的类变量？
Python Class Variables

通过KeyError在python中迭代xml
Python

Python PyQt:QtGui.QFileDialog.getSaveFileName赢得'；选择后不能关闭
Python

Python 测试期间从sys.exit（）捕获错误消息
Python Python 2.7

numpy需要系统Python 2.7才能安装
Python Macos Numpy

Python 使用QWebView（）查看内联HTML文本
Python

如何使用python和basemap绘制不规则间隔的RGB图像？
Python

Python 烧瓶-如何使用CSS时，我'；m将响应（流_模板）与生成器一起使用
Python Css Flask

Python 基于另一个变量递增一个变量
Python Python 2.7

在x节点minidomxmlpython之后插入
Python Xml

Python MacroPy安装失败
Python Macos Pip

Python 在django中检索图像
Python Html Django

列表withloop中字典的Python打印键（OrderedDict）
Python Python 3.x

Python 当我尝试在带有datetimeindex的pandas数据帧中删除一行时，它会移动索引
Python Pandas

仅当相同的线程名称不存在时才创建线程'；nt作为活动线程存在（Python）
Python Multithreading

Python 使用字典键转换列表中的元素
Python List Dictionary

Python Django DoesNotExist最佳实践
Python Django

Python 从文件层次结构创建嵌套字典
Python File Dictionary

Python 如何使用Django修复apache服务器上禁止的403？
Python Django Apache Ubuntu

Python 批次大小为1的tensorflow中的不同图像大小
Python Tensorflow

Python 按Pyspark数据帧按时间间隔分组
Python Pyspark

Python 通过广播系列更新数据帧值
Python Pandas Numpy Dataframe

Python 通过从现有值的分布中取样来插补缺失值
Python Pandas Machine Learning Scikit Learn

Tags

Rx Java Nhibernate Tabs Oracle10g Nginx Macros Function Youtube Syntax Jquery Ui Network Programming Matrix Google Chrome Gulp Maven Frameworks Pascal Javafx 2 Python 3.x Visual Studio Dns Dynamics Crm Memory Smalltalk Boost Chef Infra Regex Magento2 Grafana Google Analytics Sql Server 2008 Replace Java Xamarin.android Spring Security Servlets Google Apps Script Clojure Heroku Apache Pig Windows Url Rewriting Uwp Activemq Gitlab Architecture Pointers Material Ui Ffmpeg Map Drupal Eclipse Plugin Requirejs Apache Storm Udp Xamarin.forms .net 4.0 Google Drive Api Linkedin Omnet++ Com Swagger Linux Kernel Identityserver4 Pycharm .net Core Pentaho Spring Boot Woocommerce Hyperlink Pdf String Swiftui Tags Nunit Log4net Google Cloud Platform File Upload Silverlight Extjs Excel Caching Ipython Python 2.7 Parse Platform Ajax Openerp Tsql Acumatica Camera Biztalk Php Redirect Isabelle Sml Html5 Canvas Cluster Computing Uiview Lucene Grid Sql Server 2008 R2 Exception Cloud Foundry Autocomplete Concurrency Symfony Ruby On Rails 4 Jquery Mobile Debugging Leaflet Spring Mod Rewrite Airflow List Ms Access Abap Rust Service Magento Http Cordova Machine Learning Shell Exception Handling Ruby On Rails 3 Coding Style Content Management System Hyperledger Fabric Uml Salesforce Clang Workflow Opencart Google Maps Time Spring Mvc Operating System Post Github Cocos2d X Gruntjs Apache Flink Nsis Amazon Ec2 Crystal Reports Redux Model Primefaces Vuejs2 Timer Reflection Robotframework Groovy Websocket Drop Down Menu Deployment Bluetooth Yii Firefox Cron Statistics Openid Amazon Cloudformation Scheme Highcharts Tcp Monitoring Glassfish Design Patterns Jekyll Bootstrap 4 Sencha Touch Amazon S3 Safari Automation C# Tree Configuration If Statement 3d Kdb Google Api Titanium Marklogic Liferay C# 3.0 Django Swift Maps Memory Leaks Gremlin Less Datetime Speech Recognition Mpi View Time Complexity Subsonic Mapping Kendo Ui Https

Copyright © 2024. All Rights Reserved by - Fatal编程技术网