从Python中的古腾堡文本中获取句子_Python_Regex_Text - Fatal编程技术网

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/regex/17.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
从Python中的古腾堡文本中获取句子_Python_Regex_Text - Fatal编程技术网

从Python中的古腾堡文本中获取句子

python regex text

从Python中的古腾堡文本中获取句子,python,regex,text,Python,Regex,Text,我正在为NLP任务解析100篇古腾堡项目的文本，例如。我试图编写一个Python脚本，为每个文本输出一个句子列表。如何忽略古腾堡文本的页眉和页脚以将实际的图书文本提取成句子？您可以使用HTML版本而不是TXT，并且只解析和标记之间的文本。看起来，即使是纯文本版本也有***开始…和***结束…分隔符用于将书籍内容与项目gutenberg页眉/页脚分开的文档。

我正在为NLP任务解析100篇古腾堡项目的文本，例如。我试图编写一个Python脚本，为每个文本输出一个句子列表。如何忽略古腾堡文本的页眉和页脚以将实际的图书文本提取成句子？

您可以使用HTML版本而不是TXT，并且只解析

和
标记之间的文本。看起来，即使是纯文本版本也有***开始…
和***结束…
分隔符用于将书籍内容与项目gutenberg页眉/页脚分开的文档。




[regex]相关文章推荐



                                                        
                                       





随机文章推荐



                                                        
numpy重新排列副本是否保留数据类型引用？
numpy 
Numpy中Scipy模式功能的替代方案？
numpy 
使用NumPy'；从文件中仅读取一列；s loadtxt（）函数
numpy 
Numpy Cython一维归一化滑动互相关优化
numpy 
如何将numpy.timedelta64转换为分钟
numpypandas 
Numpy &引用；更新「；Python中的RNG
numpyrandom 
Numpy 小熊猫不在闲置状态下工作/在蟒蛇状态下工作
numpypandasanaconda 
从numpy重新排列中选择列
numpypandasdataframe 
合并两个numpy矩阵
numpymatrix 
Numpy sklearn分类\报告值错误：未知标签类型：
numpyscikit-learnkeras 
Python:numpy.linalg.linalg.linalgeror:奇异矩阵
numpy 
Numpy CBLAS/LAPACK与Python中的矩阵求逆
numpymatrix 
Numpy 有效地找到标记图像区域的质心
numpyimage-processingpytorch 
Numpy 如何从文件名中查找文件、提取时间并将其存储在数组中？
numpydatetimetime 
Numpy 基于函数结果从另一个数据阵列创建一个数据阵列
numpy 
Numpy 数据类型的反向查找
numpy 
Numpy 为什么Python和CUDA不支持半精度复杂浮点运算？
numpy 
从cython中的指针创建numpy数组
numpy 
Numpy 错误："；无法处理标量组件'；PVtoB'；“作为索引组件”；
numpyoptimization 
Numpy tf.matmul和np.matmul的不同结果
numpytensorflow


                                        

                                        
                                        


                                                
                                                        [python]相关推荐
                                                        
Python 与列表和文件处理相关？
									Python
							 
python日志模块的内存处理程序
									Python
							 									Logging
							 
如何修复python类中的代码变量？
									Python
							 									Class
							 									Variables
							 									Button
							 									Tkinter
							 
Python 通过从两个方向解析来获取子字符串
									Python
							 									String
							 
Python中的OR语句和正则表达式
									Python
							 									Html
							 									Regex
							 
Python TypeError:player#u attack（）缺少1个必需的位置参数：'；自我'；
									Python
							 									Windows
							 									Python 3.x
							 
Python 比较两个列表的程序
									Python
							 
如何在Python中引用全局变量中尚未声明的函数？
									Python
							 									Reference
							 
Python 若首先输入了错误的数据，程序会两次询问数字
									Python
							 
Python 计算ZODB中保存的BTree的len（）需要花费很多时间
									Python
							 
Python 3中缀运算符
									Python
							 									Python 3.x
							 
Python 3.6安装
									Python
							 									Pycharm
							 									Installation
							 
Python 池连接打开的文件太多
									Python
							 									Python 3.x
							 
Python 如何自动抓取AJAX标题？
									Python
							 									Web Scraping
							 
Python TypeError:在构建keras模型时
									Python
							 									Tensorflow
							 									Keras
							 
错误的pip3 python位置
									Python
							 
Python 将屏幕截图从selenium保存到绝对路径
									Python
							 									Selenium
							 									Selenium Webdriver
							 
Python 图像放大/缩小后，保持plotWidget（pyqtgraph）上鼠标单击事件的坐标不变
									Python
							 
Python rfc 5545重现期开始日期问题
									Python
							 									Calendar
							 									Google Calendar Api
							 
Python ValueError:使用序列设置数组元素。在神经网络中
									Python
							 									Arrays
							 									Numpy
							 									Neural Network
							 									Artificial Intelligence
							 
重命名分类值python statsmodels
									Python
							 									Model
							 
Python 当文件位于另一个模型内的模型内时，如何使搜索功能工作
									Python
							 									Django
							 									Mongodb
							 
Python 是否从NCBI图书部分刮取数据？
									Python
							 
Python 如何编写一个接受任何函数并传递mypy的装饰器——不允许任何装饰？
									Python
							 
Python请求不检索相同的页面信息
									Python
							 									Batch File
							 
Python screen.blit（sprite.image，sprite.rect.topleft）”，执行“screen.blit（sprite.image，sprite.rect.topleft+camera_位置）”。
									Python
							 									Camera
							 
Python 同时使用加密和股票OHLCV数据。如何处理无交易缺口以避免指数和指标问题？
									Python
							 									Numpy
							 
Python CNN对回归Keras调谐器的优化
									Python
							 
Python **（双星/星号）和*（星/星号）对参数有什么作用？
									Python
							 									Syntax
							 
Python 在anconda虚拟环境上安装Tensorflow后，Numpy版本不兼容
									Python
							 									Numpy
							 									Tensorflow
							 									Installation
							 									Anaconda
							 
                                                        
                                                

                                                
                                                        Tags
                                                        
Syntax
Jsf 2
Android Fragments
Angularjs
Tabs
Sublimetext3
Asp.net Mvc 3
Tree
Passwords
Menu
Printing
Https
Socket.io
Azure Ad B2c
3d
Nsis
Maven 2
Api
Cluster Computing
Odoo
D
Tomcat
Plot
Scroll
Active Directory
Acumatica
Ip
Chart.js
List
Antlr4
Random
Sublimetext2
Prestashop
Umbraco
Odata
Couchdb
Typescript
Graphql
Sparql
Cypress
Boost
Opencv
R
Plsql
Filter
Winforms
Yii2
Memory Leaks
Ms Office
Web Scraping
Apache Zookeeper
Spring Integration
Asp.net Core Mvc
Keyboard
Templates
Knockout.js
Migration
.net
Navigation
Fluent Nhibernate
Gruntjs
Windows Runtime
Ada
Typo3
Recursion
Ssl
Rest
Hadoop
.htaccess
Xna
Amazon Web Services
Laravel 5
Laravel
Asp.net Core
Certificate
Kotlin
System Verilog
Redux
Numpy
Debugging
Neo4j
Uiview
Spring Boot
Dataframe
Wpf
Nosql
Function
Object
Actionscript
Instagram
Google Cloud Firestore
Plugins
Xcode
Scala
Gnuplot
Firefox
C++ Cli
Ecmascript 6
Geolocation
Documentation
Google App Maker
Silverstripe
Vue.js
Lua
Aws Lambda
Google Api
Operating System
Inno Setup
Cloud Foundry
Timer
Kernel
Ruby On Rails
Directory
Raspberry Pi
Java Me
Utf 8
Canvas
Asp.net Mvc
Wcf
Jmeter
Rss
Kdb
Crystal Reports
Gcc
Telegram
Floating Point
Arm
Docker
Sms
Common Lisp
Mpi
Cryptography
Cocos2d Iphone
Vbscript
Design Patterns
Ssas
Clang
Drop Down Menu
Heroku
Generics
Vhdl
Modelica
Requirejs
Ruby
Google Cloud Dataflow
Frameworks
Jwt
Meteor
Sip
Graphics
Sails.js
Jar
Flutter
Microservices
Usb
Spring Security
Junit
Single Sign On
Azure Cosmosdb
Apache Camel
Tags
Abap
Events
Text
Twitter
Performance
Authentication
Binary
Sql Server
Tcl
Jdbc
Ms Word
Internet Explorer
Salesforce
Apache Spark
Angular
Sharepoint 2007
Sap
Vim
Robotframework
Keycloak
Apache Nifi
Oauth
Debian
Zend Framework
Dojo
Notifications
Select
Apache2
Compression
Django Rest Framework
Web Crawler
Docusignapi
Twitter Bootstrap 3
Workflow
Jquery Plugins
Download
Linux Kernel
Web Services
Charts
Deployment


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网