Warning: file_get_contents(/data/phpspider/zhask/data//catemap/5/ruby/23.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
如何";拉;从html文件中提取特定数据,并处理数据_Html_Ruby_Html Parsing_Web Scraping - Fatal编程技术网

如何";拉;从html文件中提取特定数据,并处理数据

如何";拉;从html文件中提取特定数据,并处理数据,html,ruby,html-parsing,web-scraping,Html,Ruby,Html Parsing,Web Scraping,我是编程新手,我有一个问题,关于如何从网站的页面中提取特定信息,分析数据以检查是否符合某些参数,以及存储符合这些参数的页面的URL 问题是: -有一个网站上有几篇文章。 -我想能够在网站上的文章,包含少于x个单词的URL列表 我不需要在编码或其他方面的帮助,因为我是新手,这基本上是我学习编程的一个自我练习 我只是有一些问题,比如怎么做。我知道HTML和minimal Ruby,这是我的知识范围 我只是不知道如何从网页中“提取”数据我将使用什么来提取HTML?拉取HTML后,我该如何处理它?把它转

我是编程新手,我有一个问题,关于如何从网站的页面中提取特定信息,分析数据以检查是否符合某些参数,以及存储符合这些参数的页面的URL

问题是:

-有一个网站上有几篇文章。 -我想能够在网站上的文章,包含少于x个单词的URL列表

我不需要在编码或其他方面的帮助,因为我是新手,这基本上是我学习编程的一个自我练习

我只是有一些问题,比如怎么做。我知道HTML和minimal Ruby,这是我的知识范围

我只是不知道如何从网页中“提取”数据我将使用什么来提取HTML?拉取HTML后,我该如何处理它?把它转换成Ruby?如果是,怎么做?

从以下内容开始:

require 'open-uri'
require 'nokogiri' 
doc = Nokogiri::HTML(open(URL))
doc.xpath(//a).each {|node| p a.text}

是一个用Ruby解析HTML/XML文档的库。有关如何安装/使用它的更多信息,请查看网页。

将问题标记为ruby。你说的是一个HTML解析器。我不知道ruby,但很快就会有人来回答。ruby和HTML知识对这个项目来说是否足够,而不是我必须做网络垃圾?哦,最肯定的是,这就是你所需要的。有很多库可以精确地向您提供+1,以询问什么是正确的方法,而不是假设正则表达式是正确的。正则表达式很少能与HTML或XML很好地结合,但无论是Ruby、Python、Perl还是Java,一个好的解析器总是正确的选择。是的,Ruby和Nokogiri是一个很好的网络抓取解决方案。当您需要浏览网站时,请查看
Mechanize
;当您需要白名单/黑名单标签和清理页面时,请查看
sanitize
loofah
。我喜欢Windows安装说明:“对您来说很幸运,在Windows上构建非常困难,我们已经为您完成了这项工作。”