Parsing 如何在爬网时解析（仅文本）网站_Parsing_Nutch

Parsing 如何在爬网时解析（仅文本）网站

parsing

Parsing 如何在爬网时解析（仅文本）网站,parsing,nutch,Parsing,Nutch,我可以通过cygwin在windows xp上成功运行爬网命令。我还可以通过使用tomcat进行网络搜索但我还想在爬网事件期间保存解析的页面所以当我开始像这样爬行的时候 bin/nutch爬网URL-目录爬网-深度3 我还想保存解析的html文件到文本文件我的意思是在这段时间里，我从上面的命令开始 nutch当获取一个页面时，它也会自动将解析的页面（仅文本）保存到文本文件中这些文件名可以通过url获取我真的需要帮助这将用于我的大学语言检测项目 ty已爬网的页面存储在段中。您可以通过转

我可以通过cygwin在windows xp上成功运行爬网命令。我还可以通过使用tomcat进行网络搜索

但我还想在爬网事件期间保存解析的页面

所以当我开始像这样爬行的时候

bin/nutch爬网URL-目录爬网-深度3

我还想保存解析的html文件到文本文件

我的意思是在这段时间里，我从上面的命令开始

nutch当获取一个页面时，它也会自动将解析的页面（仅文本）保存到文本文件中

这些文件名可以通过url获取

我真的需要帮助

这将用于我的大学语言检测项目

已爬网的页面存储在段中。您可以通过转储段内容来访问它们：

nutch readseg -dump crawl/segments/20100104113507/ dump

您必须为每个段执行此操作