Web crawler 基于Jena库的Java链接数据网络爬虫

Web crawler 基于Jena库的Java链接数据网络爬虫,web-crawler,rdf,semantic-web,linked-data,Web Crawler,Rdf,Semantic Web,Linked Data,我必须实现一个访问Web上链接数据的Web Cralwer。我已经为此构建了一个简单的功能。对此,我有三个疑问: 我应该使用哪些种子URI。以RDF格式提供数据并遵循Tim Berners Lee的网站?? 一般来说,你所说的基于轮的网络爬虫方法是什么意思?我阅读了关于一般网络爬虫的文章,发现应该遵循基于轮的方法。 我只能解析可以返回RDF/XML数据的网页。抓取链接数据就足够了吗。 有两个选项,例如,使用中找到的所有URI作为起点,或者可以通过检索中列出的所有资源。 对不起,我不知道。 不,R

我必须实现一个访问Web上链接数据的Web Cralwer。我已经为此构建了一个简单的功能。对此,我有三个疑问:

我应该使用哪些种子URI。以RDF格式提供数据并遵循Tim Berners Lee的网站?? 一般来说,你所说的基于轮的网络爬虫方法是什么意思?我阅读了关于一般网络爬虫的文章,发现应该遵循基于轮的方法。 我只能解析可以返回RDF/XML数据的网页。抓取链接数据就足够了吗。 有两个选项,例如,使用中找到的所有URI作为起点,或者可以通过检索中列出的所有资源。 对不起,我不知道。 不,RDF/XML是不够的,因为作为链接数据发布的许多数据集使用其他格式。你也想要和。您可以使用,它了解以上所有内容。是一个使用Any23的爬虫程序。 有两个选项,例如,使用中找到的所有URI作为起点,或者可以通过检索中列出的所有资源。 对不起,我不知道。 不,RDF/XML是不够的,因为作为链接数据发布的许多数据集使用其他格式。你也想要和。您可以使用,它了解以上所有内容。是一个使用Any23的爬虫程序。