Automation 如何使用edu.uci.ics.crawler4j.crawler.WebCrawler发现所有HTML元标记

Automation 如何使用edu.uci.ics.crawler4j.crawler.WebCrawler发现所有HTML元标记,automation,meta-tags,crawler4j,Automation,Meta Tags,Crawler4j,我正在完成一个研究项目,对用于描述科学和学术期刊的所有HTML元标记进行编目,例如都柏林核心、开放图、棱镜、引文、biblio等 我正在使用edu.uci.ics.crawler4j.crawler.WebCrawler并使其适用于少量种子URL 我的问题是我需要一个更大的种子URL列表 我有什么选择 我是否必须手动搜索web以查找期刊网站,或者我是否可以使用类似于crawler4j的工具来发现种子网站?生成良好的种子是web爬行领域的一个普遍问题,尤其是对于特定领域的任务(例如仅查看学术期刊)

我正在完成一个研究项目,对用于描述科学和学术期刊的所有HTML元标记进行编目,例如都柏林核心、开放图、棱镜、引文、biblio等

我正在使用
edu.uci.ics.crawler4j.crawler.WebCrawler
并使其适用于少量种子URL

我的问题是我需要一个更大的种子URL列表

我有什么选择


我是否必须手动搜索web以查找期刊网站,或者我是否可以使用类似于
crawler4j
的工具来发现种子网站?

生成良好的种子是
web爬行领域的一个普遍问题,尤其是对于特定领域的任务(例如仅查看学术期刊)。一般来说,有几种选择:

  • 使用开放式网络目录(如dmoz等)或期刊列表(如)为知名期刊获取预先分类的种子点

  • 从理论上讲,大型搜索引擎已经获取了WWW的很大一部分。您可以尝试对预定义查询执行半自动搜索并处理点击。然而,这可能会导致Web爬行中的一些更复杂的技术(例如,
    聚焦爬行

一种选择是:

  • 使用
    crawler4j
    收集要调查的字段的日志名称
  • 为此,您需要查看日志列表,例如。日记账名称始终位于
    h4
    标记中,可以轻松提取
  • 提取名称后,您只需找出相应的URL。为此,您可以使用上面的搜索引擎方法。很有可能,第一个点击应该是该杂志的网页
生成好的种子是
网络爬网领域的一个普遍问题,特别是对于特定领域的任务(例如仅查看学术期刊)。一般来说,有几种选择:

  • 使用开放式网络目录(如dmoz等)或期刊列表(如)为知名期刊获取预先分类的种子点

  • 从理论上讲,大型搜索引擎已经获取了WWW的很大一部分。您可以尝试对预定义查询执行半自动搜索并处理点击。然而,这可能会导致Web爬行中的一些更复杂的技术(例如,
    聚焦爬行

一种选择是:

  • 使用
    crawler4j
    收集要调查的字段的日志名称
  • 为此,您需要查看日志列表,例如。日记账名称始终位于
    h4
    标记中,可以轻松提取
  • 提取名称后,您只需找出相应的URL。为此,您可以使用上面的搜索引擎方法。很有可能,第一个点击应该是该杂志的网页