Java 如何检测一个网站是一个擅自占用者?
我试图检测某些网站是否是“有效”网站。一些使网站无效的因素:Java 如何检测一个网站是一个擅自占用者?,java,algorithm,web-crawler,feature-detection,Java,Algorithm,Web Crawler,Feature Detection,我试图检测某些网站是否是“有效”网站。一些使网站无效的因素: 返回错误的状态代码 页面内容为空 网站是一个擅自占用者(例如,url指向一个GoDaddy页面,或任何显示“来注册此域!”的页面) 我试图找出如何检测一个网站是否是一个擅自占用者。如果这很重要的话,我正在使用Java。有什么想法吗?在我看来,这对我来说是个不错的任务 收集一个网站样本,其中一些是“擅自占用者”,而另一些则不是(这称为火车组) 使用模型或(或任何其他模型)作为特征空间,并使用一些(,…)训练分类器 在运行时,使用您的
- 返回错误的状态代码
- 页面内容为空
- 网站是一个擅自占用者(例如,url指向一个GoDaddy页面,或任何显示“来注册此域!”的页面)
我试图找出如何检测一个网站是否是一个擅自占用者。如果这很重要的话,我正在使用Java。有什么想法吗?在我看来,这对我来说是个不错的任务 收集一个网站样本,其中一些是“擅自占用者”,而另一些则不是(这称为火车组) 使用模型或(或任何其他模型)作为特征空间,并使用一些(,…)训练分类器 在运行时,使用您的分类器来确定网站是否是非法占用者 是一个实现许多机器学习算法的java库,可能会对您有所帮助