Automation 如何使用edu.uci.ics.crawler4j.crawler.WebCrawler发现所有HTML元标记_Automation_Meta Tags_Crawler4j

Automation 如何使用edu.uci.ics.crawler4j.crawler.WebCrawler发现所有HTML元标记

automation

Automation 如何使用edu.uci.ics.crawler4j.crawler.WebCrawler发现所有HTML元标记,automation,meta-tags,crawler4j,Automation,Meta Tags,Crawler4j,我正在完成一个研究项目，对用于描述科学和学术期刊的所有HTML元标记进行编目，例如都柏林核心、开放图、棱镜、引文、biblio等我正在使用edu.uci.ics.crawler4j.crawler.WebCrawler并使其适用于少量种子URL 我的问题是我需要一个更大的种子URL列表我有什么选择我是否必须手动搜索web以查找期刊网站，或者我是否可以使用类似于crawler4j的工具来发现种子网站？生成良好的种子是web爬行领域的一个普遍问题，尤其是对于特定领域的任务（例如仅查看学术期刊）

我正在完成一个研究项目，对用于描述科学和学术期刊的所有HTML元标记进行编目，例如都柏林核心、开放图、棱镜、引文、biblio等

我正在使用

edu.uci.ics.crawler4j.crawler.WebCrawler

并使其适用于少量种子URL

我的问题是我需要一个更大的种子URL列表

我有什么选择

我是否必须手动搜索web以查找期刊网站，或者我是否可以使用类似于

crawler4j

的工具来发现种子网站？

生成良好的种子是

web爬行领域的一个普遍问题，尤其是对于特定领域的任务（例如仅查看学术期刊）。一般来说，有几种选择：

使用开放式网络目录（如dmoz等）或期刊列表（如）为知名期刊获取预先分类的种子点
从理论上讲，大型搜索引擎已经获取了WWW的很大一部分。您可以尝试对预定义查询执行半自动搜索并处理点击。然而，这可能会导致Web爬行中的一些更复杂的技术（例如，聚焦爬行
）

一种选择是：

使用crawler4j
收集要调查的字段的日志名称
为此，您需要查看日志列表，例如。日记账名称始终位于h4
标记中，可以轻松提取
提取名称后，您只需找出相应的URL。为此，您可以使用上面的搜索引擎方法。很有可能，第一个点击应该是该杂志的网页
生成好的种子是网络爬网领域的一个普遍问题，特别是对于特定领域的任务（例如仅查看学术期刊）。一般来说，有几种选择：

使用开放式网络目录（如dmoz等）或期刊列表（如）为知名期刊获取预先分类的种子点
从理论上讲，大型搜索引擎已经获取了WWW的很大一部分。您可以尝试对预定义查询执行半自动搜索并处理点击。然而，这可能会导致Web爬行中的一些更复杂的技术（例如，聚焦爬行
）

一种选择是：

使用crawler4j
收集要调查的字段的日志名称
为此，您需要查看日志列表，例如。日记账名称始终位于h4
标记中，可以轻松提取
提取名称后，您只需找出相应的URL。为此，您可以使用上面的搜索引擎方法。很有可能，第一个点击应该是该杂志的网页