用Java抓取网站_Java_Screen Scraping_Robots.txt

用Java抓取网站

java

用Java抓取网站,java,screen-scraping,robots.txt,Java,Screen Scraping,Robots.txt,我试图做的是获取一个URL列表，并下载每个URL的内容（用于索引）。最大的问题是，如果我遇到一个类似facebook事件的链接，它只是重定向到登录页面，我需要能够检测并跳过该URL。似乎robots.txt文件就是为了这个目的而存在的。我查看了heritrix，但这似乎超出了我的需要。是否有一个更简单的工具，可以提供有关robots.txt的信息并相应地清理站点（另外，我不需要跟随其他链接并建立深度索引，我只需要为列表中的各个页面编制索引。）你可以只上你感兴趣的ie课程你可以只上你感兴趣的ie

我试图做的是获取一个URL列表，并下载每个URL的内容（用于索引）。最大的问题是，如果我遇到一个类似facebook事件的链接，它只是重定向到登录页面，我需要能够检测并跳过该URL。似乎robots.txt文件就是为了这个目的而存在的。我查看了heritrix，但这似乎超出了我的需要。是否有一个更简单的工具，可以提供有关robots.txt的信息并相应地清理站点

（另外，我不需要跟随其他链接并建立深度索引，我只需要为列表中的各个页面编制索引。）

你可以只上你感兴趣的ie课程

我有点希望在一个包中做更多的事情。很可能heritrix是这份工作的合适人选——也许我只是需要多一点指导。很难通过索引准确地回答你的意思是什么？如果是下载的话。类URL和方法openConnection就是为此完成的。看，我期待做的不仅仅是下载它。我希望能够检查这个页面是否“有意义”（即它不在付费墙或登录屏幕后面，等等），然后下载html，最后提取纯文本进行索引。现在最大的问题是弄清楚这个页面是否有意义。这实际上非常有效。创建了一个Robotstxt对象，然后调用getDirectivesFor（“”）.allows（url.getPath（））；我有点希望能在一个包里做更多的事情。很可能heritrix是这份工作的合适人选——也许我只是需要多一点指导。很难通过索引准确地回答你的意思是什么？如果是下载的话。类URL和方法openConnection就是为此完成的。看，我期待做的不仅仅是下载它。我希望能够检查这个页面是否“有意义”（即它不在付费墙或登录屏幕后面，等等），然后下载html，最后提取纯文本进行索引。现在最大的问题是弄清楚这个页面是否有意义。这实际上非常有效。创建了一个Robotstxt对象，然后调用getDirectivesFor（“”）.allows（url.getPath（））；