用Java抓取网站

用Java抓取网站,java,screen-scraping,robots.txt,Java,Screen Scraping,Robots.txt,我试图做的是获取一个URL列表,并下载每个URL的内容(用于索引)。最大的问题是,如果我遇到一个类似facebook事件的链接,它只是重定向到登录页面,我需要能够检测并跳过该URL。似乎robots.txt文件就是为了这个目的而存在的。我查看了heritrix,但这似乎超出了我的需要。是否有一个更简单的工具,可以提供有关robots.txt的信息并相应地清理站点 (另外,我不需要跟随其他链接并建立深度索引,我只需要为列表中的各个页面编制索引。)你可以只上你感兴趣的ie课程你可以只上你感兴趣的ie

我试图做的是获取一个URL列表,并下载每个URL的内容(用于索引)。最大的问题是,如果我遇到一个类似facebook事件的链接,它只是重定向到登录页面,我需要能够检测并跳过该URL。似乎robots.txt文件就是为了这个目的而存在的。我查看了heritrix,但这似乎超出了我的需要。是否有一个更简单的工具,可以提供有关robots.txt的信息并相应地清理站点


(另外,我不需要跟随其他链接并建立深度索引,我只需要为列表中的各个页面编制索引。)

你可以只上你感兴趣的ie课程

你可以只上你感兴趣的ie课程

我有点希望在一个包中做更多的事情。很可能heritrix是这份工作的合适人选——也许我只是需要多一点指导。很难通过索引准确地回答你的意思是什么?如果是下载的话。类URL和方法openConnection就是为此完成的。看,我期待做的不仅仅是下载它。我希望能够检查这个页面是否“有意义”(即它不在付费墙或登录屏幕后面,等等),然后下载html,最后提取纯文本进行索引。现在最大的问题是弄清楚这个页面是否有意义。这实际上非常有效。创建了一个Robotstxt对象,然后调用getDirectivesFor(“”).allows(url.getPath());我有点希望能在一个包里做更多的事情。很可能heritrix是这份工作的合适人选——也许我只是需要多一点指导。很难通过索引准确地回答你的意思是什么?如果是下载的话。类URL和方法openConnection就是为此完成的。看,我期待做的不仅仅是下载它。我希望能够检查这个页面是否“有意义”(即它不在付费墙或登录屏幕后面,等等),然后下载html,最后提取纯文本进行索引。现在最大的问题是弄清楚这个页面是否有意义。这实际上非常有效。创建了一个Robotstxt对象,然后调用getDirectivesFor(“”).allows(url.getPath());