Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/regex/17.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
从Python中的古腾堡文本中获取句子_Python_Regex_Text - Fatal编程技术网

从Python中的古腾堡文本中获取句子

从Python中的古腾堡文本中获取句子,python,regex,text,Python,Regex,Text,我正在为NLP任务解析100篇古腾堡项目的文本,例如。我试图编写一个Python脚本,为每个文本输出一个句子列表。如何忽略古腾堡文本的页眉和页脚以将实际的图书文本提取成句子?您可以使用HTML版本而不是TXT,并且只解析和标记之间的文本。看起来,即使是纯文本版本也有***开始…和***结束…分隔符用于将书籍内容与项目gutenberg页眉/页脚分开的文档。

我正在为NLP任务解析100篇古腾堡项目的文本,例如。我试图编写一个Python脚本,为每个文本输出一个句子列表。如何忽略古腾堡文本的页眉和页脚以将实际的图书文本提取成句子?

您可以使用HTML版本而不是TXT,并且只解析
标记之间的文本。看起来,即使是纯文本版本也有
***开始…
***结束…
分隔符用于将书籍内容与项目gutenberg页眉/页脚分开的文档。