Parsing 如何在爬网时解析(仅文本)网站

Parsing 如何在爬网时解析(仅文本)网站,parsing,nutch,Parsing,Nutch,我可以通过cygwin在windows xp上成功运行爬网命令。我还可以通过使用tomcat进行网络搜索 但我还想在爬网事件期间保存解析的页面 所以当我开始像这样爬行的时候 bin/nutch爬网URL-目录爬网-深度3 我还想保存解析的html文件到文本文件 我的意思是在这段时间里,我从上面的命令开始 nutch当获取一个页面时,它也会自动将解析的页面(仅文本)保存到文本文件中 这些文件名可以通过url获取 我真的需要帮助 这将用于我的大学语言检测项目 ty已爬网的页面存储在段中。您可以通过转

我可以通过cygwin在windows xp上成功运行爬网命令。我还可以通过使用tomcat进行网络搜索

但我还想在爬网事件期间保存解析的页面

所以当我开始像这样爬行的时候

bin/nutch爬网URL-目录爬网-深度3

我还想保存解析的html文件到文本文件

我的意思是在这段时间里,我从上面的命令开始

nutch当获取一个页面时,它也会自动将解析的页面(仅文本)保存到文本文件中

这些文件名可以通过url获取

我真的需要帮助

这将用于我的大学语言检测项目


ty

已爬网的页面存储在段中。您可以通过转储段内容来访问它们:

nutch readseg -dump crawl/segments/20100104113507/ dump
您必须为每个段执行此操作