Ruby/regex_uuct从PDF中提取文本
我正在使用带有Ruby的正则表达式解析一组PDF文件,以从每个文件中提取日期,代码如下:Ruby/regex_uuct从PDF中提取文本,ruby,regex,parsing,pdf,Ruby,Regex,Parsing,Pdf,我正在使用带有Ruby的正则表达式解析一组PDF文件,以从每个文件中提取日期,代码如下: require 'rubygems' require 'pdf/reader' reader = PDF::Reader.new("works.pdf") reader.pages.each do |page| var= page.text puts var.scan(/^(?<=31C: Date of Issue\n)([^\n]+$)/) end 需要“rubygems” 需要“pdf/rea
require 'rubygems'
require 'pdf/reader'
reader = PDF::Reader.new("works.pdf")
reader.pages.each do |page|
var= page.text
puts var.scan(/^(?<=31C: Date of Issue\n)([^\n]+$)/)
end
需要“rubygems”
需要“pdf/reader”
reader=PDF::reader.new(“works.PDF”)
reader.pages.each do| page|
var=page.text
放置var.scan(/^(?我无法复制PDF中的文本。最可能的问题是空格不同。欢迎使用堆栈溢出。请阅读“”。不要将必要的数据放在链接中;链接会腐烂然后断开,导致出现缺乏必要支持信息的问题,这对将来的任何人都没有帮助。谢谢。准确地说,我考虑过附上必要的2个文件,因为删除了从PDF中提取的文本(来自使用regex101.com的示例)如果成功,我只有在处理PDF文件时才会遇到问题;在许多类似的情况下,提供示例文件确实是一件好事。尽管如此,您是否考虑过简单地检查var
的内容,尤其是不工作的示例文件?我无法复制PDF中的文本。问题很可能是帽子空格不同。欢迎使用堆栈溢出。请阅读“”。不要将必要的数据放在链接中;链接会腐烂然后断开,导致出现缺乏必要支持信息的问题,这对将来的任何人都没有帮助。谢谢。准确地说,我考虑过附上必要的2个文件,因为删除了从PDF中提取的文本(来自使用regex101.com的示例)如果成功的话,我只有在处理PDF文件时才会遇到问题;在这种情况下,提供示例文件确实是一件好事。尽管如此,您是否考虑过简单地检查var
的内容,尤其是不工作的示例文件?