Java 如何检测一个网站是一个擅自占用者?

Java 如何检测一个网站是一个擅自占用者?,java,algorithm,web-crawler,feature-detection,Java,Algorithm,Web Crawler,Feature Detection,我试图检测某些网站是否是“有效”网站。一些使网站无效的因素: 返回错误的状态代码 页面内容为空 网站是一个擅自占用者(例如,url指向一个GoDaddy页面,或任何显示“来注册此域!”的页面) 我试图找出如何检测一个网站是否是一个擅自占用者。如果这很重要的话,我正在使用Java。有什么想法吗?在我看来,这对我来说是个不错的任务 收集一个网站样本,其中一些是“擅自占用者”,而另一些则不是(这称为火车组) 使用模型或(或任何其他模型)作为特征空间,并使用一些(,…)训练分类器 在运行时,使用您的

我试图检测某些网站是否是“有效”网站。一些使网站无效的因素:

  • 返回错误的状态代码
  • 页面内容为空
  • 网站是一个擅自占用者(例如,url指向一个GoDaddy页面,或任何显示“来注册此域!”的页面)

我试图找出如何检测一个网站是否是一个擅自占用者。如果这很重要的话,我正在使用Java。有什么想法吗?

在我看来,这对我来说是个不错的任务

收集一个网站样本,其中一些是“擅自占用者”,而另一些则不是(这称为火车组)

使用模型或(或任何其他模型)作为特征空间,并使用一些(,…)训练分类器

在运行时,使用您的分类器来确定网站是否是非法占用者

是一个实现许多机器学习算法的java库,可能会对您有所帮助