Ruby/regex_uuct从PDF中提取文本_Ruby_Regex_Parsing_Pdf

Ruby/regex_uuct从PDF中提取文本

ruby regex parsing pdf

Ruby/regex_uuct从PDF中提取文本,ruby,regex,parsing,pdf,Ruby,Regex,Parsing,Pdf,我正在使用带有Ruby的正则表达式解析一组PDF文件，以从每个文件中提取日期，代码如下： require 'rubygems' require 'pdf/reader' reader = PDF::Reader.new("works.pdf") reader.pages.each do |page| var= page.text puts var.scan(/^(?<=31C: Date of Issue\n)([^\n]+$)/) end 需要“rubygems” 需要“pdf/rea

我正在使用带有Ruby的正则表达式解析一组PDF文件，以从每个文件中提取日期，代码如下：

require 'rubygems'
require 'pdf/reader'
reader = PDF::Reader.new("works.pdf")
reader.pages.each do |page|
var= page.text
puts var.scan(/^(?<=31C: Date of Issue\n)([^\n]+$)/)
end

需要“rubygems”
需要“pdf/reader”
reader=PDF:：reader.new（“works.PDF”）
reader.pages.each do| page|
var=page.text
放置var.scan（/^（？我无法复制PDF中的文本。最可能的问题是空格不同。欢迎使用堆栈溢出。请阅读“”。不要将必要的数据放在链接中；链接会腐烂然后断开，导致出现缺乏必要支持信息的问题，这对将来的任何人都没有帮助。谢谢。准确地说，我考虑过附上必要的2个文件，因为删除了从PDF中提取的文本（来自使用regex101.com的示例）如果成功，我只有在处理PDF文件时才会遇到问题；在许多类似的情况下，提供示例文件确实是一件好事。尽管如此，您是否考虑过简单地检查var
的内容，尤其是不工作的示例文件？我无法复制PDF中的文本。问题很可能是帽子空格不同。欢迎使用堆栈溢出。请阅读“”。不要将必要的数据放在链接中；链接会腐烂然后断开，导致出现缺乏必要支持信息的问题，这对将来的任何人都没有帮助。谢谢。准确地说，我考虑过附上必要的2个文件，因为删除了从PDF中提取的文本（来自使用regex101.com的示例）如果成功的话，我只有在处理PDF文件时才会遇到问题；在这种情况下，提供示例文件确实是一件好事。尽管如此，您是否考虑过简单地检查var
的内容，尤其是不工作的示例文件？