Javascript 从URL中刮取文本和媒体

Javascript 从URL中刮取文本和媒体,javascript,html,css,ruby,web-scraping,Javascript,Html,Css,Ruby,Web Scraping,我正在寻找一些有用的宝石在红宝石刮的目的。基本上,我希望能够刮从页面的主体。也就是说,只有主体及其媒介形象。没有边栏、页脚或导航栏类型的内容 我知道刮削需要很多细节,比如知道类和ID等等。所以我想知道是否有这样一个工具 一个很好的例子是在iOS上使用safari中的Reader View Available选项。它只显示页面中的原始内容。有必要的标题和段落。使用 您还可以使用查找您的类。这应该有助于找到合适的头和体类或id Reader View不会节省带宽试试看。对,我想知道,在不知道XPat

我正在寻找一些有用的宝石在红宝石刮的目的。基本上,我希望能够刮从页面的主体。也就是说,只有主体及其媒介形象。没有边栏、页脚或导航栏类型的内容

我知道刮削需要很多细节,比如知道类和ID等等。所以我想知道是否有这样一个工具

一个很好的例子是在iOS上使用safari中的Reader View Available选项。它只显示页面中的原始内容。有必要的标题和段落。

使用

您还可以使用查找您的类。这应该有助于找到合适的头和体类或id


Reader View不会节省带宽

试试看。对,我想知道,在不知道XPath的情况下,如何提取标题、段落和图像,而不提取边栏、页眉和页脚内容对不起,我想我不清楚。我的意思是当我不知道XPath、类或ID时,就去刮网站