Ruby 如何在Nokogiri中获得唯一链接_Ruby_Nokogiri

Ruby 如何在Nokogiri中获得唯一链接

ruby

Ruby 如何在Nokogiri中获得唯一链接,ruby,nokogiri,Ruby,Nokogiri,我有以下html，其中有两个重复的href。如何仅提取唯一链接 <div class="pages"> <a href="/search_results.aspx?f=Technology&Page=1" class="active">1</a> <a href="/search_results.aspx?f=Technology&Page=2">2</a> <a href="/search_resul

我有以下html，其中有两个重复的href。如何仅提取唯一链接

<div class="pages">
  <a href="/search_results.aspx?f=Technology&Page=1" class="active">1</a>
  <a href="/search_results.aspx?f=Technology&Page=2">2</a>
  <a href="/search_results.aspx?f=Technology&Page=3">3</a>
  <a href="/search_results.aspx?f=Technology&Page=4">4</a>
  <a href="/search_results.aspx?f=Technology&Page=5">5</a>
  <a href="/search_results.aspx?f=Technology&Page=2">next &rsaquo;</a>
  <a href="/search_results.aspx?f=Technology&Page=6">last &raquo;</a>
</div> 

# p => is the page that has this html
# The below gives 7 as expected. But I don't need next/last links as they are duplicate    
p.css(".pages a").count

#So I tried uniq which obviously didnt work

p.css(".pages").css("a").uniq            #=> didn't work
p.css(".pages").css("a").to_a.uniq       #=> didn't work


#p=>是包含此html的页面
#下表给出了预期的7。但我不需要下一个/最后一个链接，因为它们是重复的
p、 css（“页数a”）。计数
#所以我尝试了uniq，但显然不起作用
p、 css（“.pages”）.css（“a”）.uniq=>不起作用
p、 css（“.pages”）.css（“a”）.to_a.uniq#=>不起作用

尝试从匹配元素中提取“href”属性（

el.attr（'href'）

）：

html=Nokogiri:：html（你的html字符串）
html.css（'a'）.map{| el | el.attr（'href'）}.uniq
#/search\u results.aspx？f=Technology&Page=1
#/search_results.aspx？f=Technology&Page=2
#/search\u results.aspx？f=Technology&Page=3
#/search\u results.aspx？f=Technology&Page=4
#/search\u results.aspx？f=Technology&Page=5
#/search\u results.aspx？f=Technology&Page=6

同样可以使用

#xpath

来完成。我会这样做：

require 'nokogiri'

doc = Nokogiri::HTML::Document.parse <<-HTML
<div class="pages">
  <a href="/search_results.aspx?f=Technology&Page=1" class="active">1</a>
  <a href="/search_results.aspx?f=Technology&Page=2">2</a>
  <a href="/search_results.aspx?f=Technology&Page=3">3</a>
  <a href="/search_results.aspx?f=Technology&Page=4">4</a>
  <a href="/search_results.aspx?f=Technology&Page=5">5</a>
  <a href="/search_results.aspx?f=Technology&Page=2">next &rsaquo;</a>
  <a href="/search_results.aspx?f=Technology&Page=6">last &raquo;</a>
</div> 
HTML

doc.xpath("//a/@href").map(&:to_s).uniq
# => ["/search_results.aspx?f=Technology&Page=1",
#     "/search_results.aspx?f=Technology&Page=2",
#     "/search_results.aspx?f=Technology&Page=3",
#     "/search_results.aspx?f=Technology&Page=4",
#     "/search_results.aspx?f=Technology&Page=5",
#     "/search_results.aspx?f=Technology&Page=6"]

需要“nokogiri”
doc=Nokogiri:：HTML:：Document.parse执行相同工作的另一种方法，其中uniq值选择在xpath
表达式本身中处理：
require 'nokogiri'

doc = Nokogiri::HTML::Document.parse <<-HTML
<div class="pages">
  <a href="/search_results.aspx?f=Technology&Page=1" class="active">1</a>
  <a href="/search_results.aspx?f=Technology&Page=2">2</a>
  <a href="/search_results.aspx?f=Technology&Page=3">3</a>
  <a href="/search_results.aspx?f=Technology&Page=4">4</a>
  <a href="/search_results.aspx?f=Technology&Page=5">5</a>
  <a href="/search_results.aspx?f=Technology&Page=2">next &rsaquo;</a>
  <a href="/search_results.aspx?f=Technology&Page=6">last &raquo;</a>
</div> 
HTML

doc.xpath("//a[not(@href = preceding-sibling::a/@href)]/@href").map(&:to_s)
# => ["/search_results.aspx?f=Technology&Page=1",
#     "/search_results.aspx?f=Technology&Page=2",
#     "/search_results.aspx?f=Technology&Page=3",
#     "/search_results.aspx?f=Technology&Page=4",
#     "/search_results.aspx?f=Technology&Page=5",
#     "/search_results.aspx?f=Technology&Page=6"]

需要“nokogiri”
doc=Nokogiri:：HTML:：Document.parse规范化CGI参数顺序可能也是个好主意，/x？a=b&c=d
和/x？c=d&a=b
是相同的URL，即使它们是不同的字符串。