Web scraping 刮削:检查wiki页面是否为个人页面

Web scraping 刮削:检查wiki页面是否为个人页面,web-scraping,wiki,Web Scraping,Wiki,几周来,我一直在努力清理所有传记维基页面。问题是我找不到一种方法来区分一个人或其他东西的页面 例如,以下页面: 查看来源: 查看来源: 它们的HTML代码看起来非常相似。我相信一定有一个关键字,让你知道如果网页是一个人有关 有人面临过同样的问题吗? 提前感谢=)我不确定是否有确切的方法来判断,但你可以建立一个你认为页面可能是关于某个人的指标列表,然后匹配这些指标 例如,在阿尔伯特·爱因斯坦页面的右窗格中有一个“出生”和“死亡”部分。有了这些礼物,我们可以非常肯定这篇文章是关于一个人的(尽管如

几周来,我一直在努力清理所有传记维基页面。问题是我找不到一种方法来区分一个人或其他东西的页面

例如,以下页面:

  • 查看来源:
  • 查看来源:
它们的HTML代码看起来非常相似。我相信一定有一个关键字,让你知道如果网页是一个人有关

有人面临过同样的问题吗?
提前感谢=)

我不确定是否有确切的方法来判断,但你可以建立一个你认为页面可能是关于某个人的指标列表,然后匹配这些指标

例如,在阿尔伯特·爱因斯坦页面的右窗格中有一个“出生”和“死亡”部分。有了这些礼物,我们可以非常肯定这篇文章是关于一个人的(尽管如果你寻找死亡的人,你可能只会得到死亡的人)。但是,这些标题并不一致,您需要与其中一个或多个标题相匹配,以建立信心,相信这篇文章确实是关于一个人的。e、 g.不包含“出生”标题,但包含“出生日期”

除此之外,您还可以进行一些自然语言分析,尝试找出页面上的主要文本是否在谈论某人。大量提到“他”或“她”,可能意味着这篇文章是在谈论一个人