从Python中的古腾堡文本中获取句子
我正在为NLP任务解析100篇古腾堡项目的文本,例如。我试图编写一个Python脚本,为每个文本输出一个句子列表。如何忽略古腾堡文本的页眉和页脚以将实际的图书文本提取成句子?您可以使用HTML版本而不是TXT,并且只解析从Python中的古腾堡文本中获取句子,python,regex,text,Python,Regex,Text,我正在为NLP任务解析100篇古腾堡项目的文本,例如。我试图编写一个Python脚本,为每个文本输出一个句子列表。如何忽略古腾堡文本的页眉和页脚以将实际的图书文本提取成句子?您可以使用HTML版本而不是TXT,并且只解析和标记之间的文本。看起来,即使是纯文本版本也有***开始…和***结束…分隔符用于将书籍内容与项目gutenberg页眉/页脚分开的文档。
和
标记之间的文本。看起来,即使是纯文本版本也有***开始…
和***结束…
分隔符用于将书籍内容与项目gutenberg页眉/页脚分开的文档。