Html 基于字体和字体大小抓取网页

Html 基于字体和字体大小抓取网页,html,fonts,web-scraping,Html,Fonts,Web Scraping,HTML文本抓取可以在web上找到的各种库中进行。我试图从各种HTML页面中解析网页的最大标题(标题),仅此而已 我试图从几百页(可以是产品页或文章页等)中自动检测项目的主标题。如果有一种方法可以根据网页中可用文本的字体和字体大小做出解析决定,那就太好了。由于主标题几乎总是网页中字体最大的文本,这些信息可以让我深入了解在哪里可以找到标题 所以问题是,有什么方法可以做到这一点吗?我想你可以做到,但这是一项非常耗费资源的任务,因为你需要迭代身体中的所有html元素 var text, siz

HTML文本抓取可以在web上找到的各种库中进行。我试图从各种HTML页面中解析网页的最大标题(标题),仅此而已

我试图从几百页(可以是产品页或文章页等)中自动检测项目的主标题。如果有一种方法可以根据网页中可用文本的字体和字体大小做出解析决定,那就太好了。由于主标题几乎总是网页中字体最大的文本,这些信息可以让我深入了解在哪里可以找到标题

所以问题是,有什么方法可以做到这一点吗?

我想你可以做到,但这是一项非常耗费资源的任务,因为你需要迭代身体中的所有html元素

var text,
    size = 0;

$("body, body *").each(function() {
    var f_size = parseInt($(this).css("fontSize"));
    if (size<f_size) {
        text = $(this).text();
        size = f_size;
    }
    console.log(this.tagName + " " + f_size);
});
var文本,
尺寸=0;
$(“body,body*”)。每个(函数(){
var f_size=parseInt($(this).css(“fontSize”);

如果(Size)找到最高的不是更容易吗元素?即,如果有一个
,中间有一些文本,请使用该元素。否则,请尝试h2、h3,……不幸的是,它并不总是在标签中,即使有时在实际产品/文章名称/标题的顶部也有各种其他元素。编辑后的问题不应提及标题,因为标题可能与问题wi混淆基于大小的检测是指计算大小的来源太多。您可能需要一个实际的HTML呈现程序,并从中读取有效大小。此外,有时标题不是网站上最大的文本。是否有图像处理库可以检测网页中的段?我知道一些不是免费的,但据我所知,没有免费的。即使是一个近似值也会很有用。因此,也许你可以给我第一个位置来查找可能包含该信息的内容以及如何做到这一点。例如,有没有办法获取css并解析它。在我过滤掉html中不必要的部分后,这实际上工作得很好。