Screen scraping 是否有办法将粗体(<;b>;<;/b>;)与快速区分开来

Screen scraping 是否有办法将粗体(<;b>;<;/b>;)与快速区分开来,screen-scraping,celerity,Screen Scraping,Celerity,我正在使用“快速”进行一些屏幕抓取,并且遇到了识别粗体文本元素的需要。快速提供了一个强有力的方法,但不能提供一个大胆的方法。有没有人想出了一个聪明的方法来快速解决这个问题。我尝试使用: browser.html.gsub!(<b>,<strong>) browser.html.gsub!(</b>,</strong>) browser.html.gsub!(,) browser.html.gsub!(,) 我想我可以用强元素替换粗体元素,然后简

我正在使用“快速”进行一些屏幕抓取,并且遇到了识别粗体文本元素的需要。快速提供了一个强有力的方法,但不能提供一个大胆的方法。有没有人想出了一个聪明的方法来快速解决这个问题。我尝试使用:

browser.html.gsub!(<b>,<strong>)
browser.html.gsub!(</b>,</strong>)
browser.html.gsub!(,)
browser.html.gsub!(,
我想我可以用强元素替换粗体元素,然后简单地使用快速的强方法,但这似乎不起作用


提前感谢你的帮助

b缺失似乎很奇怪,但您可以尝试:

browser.elements_by_xpath('//b').each do |b|
    puts "#{b} is a bold tag"
end