如何"；拉；从html文件中提取特定数据，并处理数据_Html_Ruby_Html Parsing_Web Scraping

如何"；拉；从html文件中提取特定数据，并处理数据

html ruby web-scraping

如何"；拉；从html文件中提取特定数据，并处理数据,html,ruby,html-parsing,web-scraping,Html,Ruby,Html Parsing,Web Scraping,我是编程新手，我有一个问题，关于如何从网站的页面中提取特定信息，分析数据以检查是否符合某些参数，以及存储符合这些参数的页面的URL 问题是： -有一个网站上有几篇文章。 -我想能够在网站上的文章，包含少于x个单词的URL列表我不需要在编码或其他方面的帮助，因为我是新手，这基本上是我学习编程的一个自我练习我只是有一些问题，比如怎么做。我知道HTML和minimal Ruby，这是我的知识范围我只是不知道如何从网页中“提取”数据我将使用什么来提取HTML？拉取HTML后，我该如何处理它？把它转

我是编程新手，我有一个问题，关于如何从网站的页面中提取特定信息，分析数据以检查是否符合某些参数，以及存储符合这些参数的页面的URL

问题是：

-有一个网站上有几篇文章。 -我想能够在网站上的文章，包含少于x个单词的URL列表

我不需要在编码或其他方面的帮助，因为我是新手，这基本上是我学习编程的一个自我练习

我只是有一些问题，比如怎么做。我知道HTML和minimal Ruby，这是我的知识范围

我只是不知道如何从网页中“提取”数据我将使用什么来提取HTML？拉取HTML后，我该如何处理它？把它转换成Ruby？如果是，怎么做？

从以下内容开始：

require 'open-uri'
require 'nokogiri' 
doc = Nokogiri::HTML(open(URL))
doc.xpath(//a).each {|node| p a.text}

是一个用Ruby解析HTML/XML文档的库。有关如何安装/使用它的更多信息，请查看网页。

将问题标记为ruby。你说的是一个HTML解析器。我不知道ruby，但很快就会有人来回答。ruby和HTML知识对这个项目来说是否足够，而不是我必须做网络垃圾？哦，最肯定的是，这就是你所需要的。有很多库可以精确地向您提供+1，以询问什么是正确的方法，而不是假设正则表达式是正确的。正则表达式很少能与HTML或XML很好地结合，但无论是Ruby、Python、Perl还是Java，一个好的解析器总是正确的选择。是的，Ruby和Nokogiri是一个很好的网络抓取解决方案。当您需要浏览网站时，请查看

Mechanize

；当您需要白名单/黑名单标签和清理页面时，请查看

sanitize

或

loofah

。我喜欢Windows安装说明：“对您来说很幸运，在Windows上构建非常困难，我们已经为您完成了这项工作。”