Warning: file_get_contents(/data/phpspider/zhask/data//catemap/5/ruby/26.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Ruby/regex_uuct从PDF中提取文本_Ruby_Regex_Parsing_Pdf - Fatal编程技术网

Ruby/regex_uuct从PDF中提取文本

Ruby/regex_uuct从PDF中提取文本,ruby,regex,parsing,pdf,Ruby,Regex,Parsing,Pdf,我正在使用带有Ruby的正则表达式解析一组PDF文件,以从每个文件中提取日期,代码如下: require 'rubygems' require 'pdf/reader' reader = PDF::Reader.new("works.pdf") reader.pages.each do |page| var= page.text puts var.scan(/^(?<=31C: Date of Issue\n)([^\n]+$)/) end 需要“rubygems” 需要“pdf/rea

我正在使用带有Ruby的正则表达式解析一组PDF文件,以从每个文件中提取日期,代码如下:

require 'rubygems'
require 'pdf/reader'
reader = PDF::Reader.new("works.pdf")
reader.pages.each do |page|
var= page.text
puts var.scan(/^(?<=31C: Date of Issue\n)([^\n]+$)/)
end
需要“rubygems”
需要“pdf/reader”
reader=PDF::reader.new(“works.PDF”)
reader.pages.each do| page|
var=page.text

放置var.scan(/^(?我无法复制PDF中的文本。最可能的问题是空格不同。欢迎使用堆栈溢出。请阅读“”。不要将必要的数据放在链接中;链接会腐烂然后断开,导致出现缺乏必要支持信息的问题,这对将来的任何人都没有帮助。谢谢。准确地说,我考虑过附上必要的2个文件,因为删除了从PDF中提取的文本(来自使用regex101.com的示例)如果成功,我只有在处理PDF文件时才会遇到问题;在许多类似的情况下,提供示例文件确实是一件好事。尽管如此,您是否考虑过简单地检查
var
的内容,尤其是不工作的示例文件?我无法复制PDF中的文本。问题很可能是帽子空格不同。欢迎使用堆栈溢出。请阅读“”。不要将必要的数据放在链接中;链接会腐烂然后断开,导致出现缺乏必要支持信息的问题,这对将来的任何人都没有帮助。谢谢。准确地说,我考虑过附上必要的2个文件,因为删除了从PDF中提取的文本(来自使用regex101.com的示例)如果成功的话,我只有在处理PDF文件时才会遇到问题;在这种情况下,提供示例文件确实是一件好事。尽管如此,您是否考虑过简单地检查
var
的内容,尤其是不工作的示例文件?