Ruby on rails 使用regex解析使用Nokogiri的src图像中的换行符和美元符号
我在rails 4应用程序中使用nokogiri从网站上抓取图像,其中一些在出现错误后给我意外的“$” 例如,下面是一个示例图像url输出:Ruby on rails 使用regex解析使用Nokogiri的src图像中的换行符和美元符号,ruby-on-rails,ruby,regex,ruby-on-rails-4,nokogiri,Ruby On Rails,Ruby,Regex,Ruby On Rails 4,Nokogiri,我在rails 4应用程序中使用nokogiri从网站上抓取图像,其中一些在出现错误后给我意外的“$” 例如,下面是一个示例图像url输出: <img src="http://x.example.com/images/detail/ln9502/1_ln-9502--- grh_375.jpg" alt="" style="display: block;"> 其中,我有属于某个库的项,并在每个库中设置css选择器。除非有更简单的解决方案,否则我可以使用什么正则表达式来忽略
<img src="http://x.example.com/images/detail/ln9502/1_ln-9502---
grh_375.jpg" alt="" style="display: block;">
其中,我有属于某个库的项,并在每个库中设置css选择器。除非有更简单的解决方案,否则我可以使用什么正则表达式来忽略换行符和美元符号?您可以使用.gsub删除字符串中的新行和空格 我假设…属性'src'。value返回src标记的内容
对于记录,正则表达式与字符串的最后一个字符匹配。您可能想检查一下是否发送了正则表达式。如果您将问题变得更具体,您可能更容易得到有用的答案。有什么想法吗?它是非常开放的。也许你会问,你将如何完成一些关于这些网址的具体事情。另外,我建议在开始编写代码之前,多写一些文字来描述a你想要什么,b你在得到结果时遇到了什么问题。我很抱歉!我还是个新手,希望这是一个明显的解决办法,因为我的大多数问题似乎都是这样的。我对我的问题进行了编辑。我认为错误后出现意外的“$”是由错误的css查询造成的,该查询包含$–what is library.image_selector?它会提取存储在每个库中的css图像选择器。这两个库的图像的css选择器都不包含$Thanks,您的re:src标记是正确的。我仍然在抓取页面,但问题似乎出在Nokogiri的解析上……所以我在操作值本身之前就遇到了一个错误。这有意义吗?我在nokogiri的唯一经验就是努力安装它,所以我不能帮你。其他人知道,你应该用你的新信息更新你的问题。我建议您尝试使用page.search。。单独查看该输出/是否有效。
<img class="abc" src="http://xxx.example.com/is/image/Sample/503508739_1?$sample_size$">
item_imageurl = page.search(library.image_selector).first.attribute('src').value(/(.|\n|\r)*/).to_s
item_imageurl = page.search(library.image_selector).first.attribute('src').value().to_s.gsub(/[\n ]/, "")