用java为nutch编写代码_Java_Parsing_Nutch

用java为nutch编写代码

java parsing

用java为nutch编写代码,java,parsing,nutch,Java,Parsing,Nutch,您好: 我正在用java为nutch（开源搜索引擎）编写代码，以便在索引器中删除阿拉伯语单词中的移动。我不知道有什么错误。 t这是代码： package com.mycompany.nutch.indexing; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.io.Text; import org.apache.log4j.Logger; import org.apache.nutch.crawl.C

您好: 我正在用java为nutch（开源搜索引擎）编写代码，以便在索引器中删除阿拉伯语单词中的移动。我不知道有什么错误。 t这是代码：

package com.mycompany.nutch.indexing;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.io.Text;
import org.apache.log4j.Logger;
import org.apache.nutch.crawl.CrawlDatum;
import org.apache.nutch.crawl.Inlinks;
import org.apache.nutch.indexer.IndexingException;
import org.apache.nutch.indexer.IndexingFilter;
import org.apache.nutch.indexer.NutchDocument;
import org.apache.nutch.parse.getData().parse.getData();


public class InvalidUrlIndexFilter implements IndexingFilter {

  private static final Logger LOGGER = 
    Logger.getLogger(InvalidUrlIndexFilter.class);

  private Configuration conf;

  public void addIndexBackendOptions(Configuration conf) {
    // NOOP
    return;
  }

  public NutchDocument filter(NutchDocument doc, Parse parse, Text url,
      CrawlDatum datum, Inlinks inlinks) throws IndexingException {
    if (url == null) {
      return null;
    }



    char[] parse.getData() = input.trim().toCharArray();
        for(int p=0;p<parse.getData().length;p++)
          if(!(parse.getData()[p]=='َ'||parse.getData()[p]=='ً'||parse.getData()[p]=='ُ'||parse.getData()[p]=='ِ'||parse.getData()[p]=='ٍ'||parse.getData()[p]=='ٌ' ||parse.getData()[p]=='ّ'||parse.getData()[p]=='ْ' ||parse.getData()[p]=='"' ))
            new String.append(parse.getData()[p]);

    return doc;
  }

  public Configuration getConf() {
    return conf;
  }

  public void setConf(Configuration conf) {
    this.conf = conf;
  }
}

package com.mycompany.nutch.index；
导入org.apache.hadoop.conf.Configuration；
导入org.apache.hadoop.io.Text；
导入org.apache.log4j.Logger；
导入org.apache.nutch.crawl.crawldatam；
导入org.apache.nutch.crawl.Inlinks；
导入org.apache.nutch.indexer.IndexingException；
导入org.apache.nutch.indexer.IndexingFilter；
导入org.apache.nutch.indexer.NutchDocument；
导入org.apache.nutch.parse.getData（）.parse.getData（）；
公共类InvalidUrlIndexFilter实现IndexingFilter{
专用静态最终记录器=
Logger.getLogger（InvalidUrlIndexFilter.class）；
私有配置配置；
公共void addindexbackendions（配置配置）{
//努普
返回；
}
公共NutchDocument筛选器（NutchDocument文档、解析、文本url、，
爬行数据、InLink（InLink）引发IndexingException{
如果（url==null）{
返回null；
}
char[]parse.getData（）=input.trim（）.tocharray（）；
对于（int p=0；p
char[] parse.getData() = input.trim().toCharArray();

将给您一个编译错误，因为左侧不是变量。请在此行和以下行中用唯一的变量名（例如，parsedData
）替换parse.getData（）
）
第二，进口
import org.apache.nutch.parse.getData().parse.getData();

也将失败。看起来很像文本替换问题。
您遇到了什么问题？异常？没有得到预期的结果？什么？顺便说一句，这个新字符串。append（parse.getData（）[p]）；不表示任何内容…因为您没有将字符串分配给任何内容。thanx对于您的注释，我有两个错误，如何将索引器中单词的新值分配给索引器？？要添加单词，请使用方法doc.add（名称，值）这需要两个string.thanx作为您的回复，但我不知道我将在代码中输入的变量的类型（例如parsedData）我将如何初始化索引器中的单词，然后将这个变量的值返回给索引器请用完整的代码回复pleeeaase@hala你的问题不是很清楚，我可以提供任何代码。我真的不明白你试图完成什么。请霍华德帮助我：我想写一个索引过滤器，采取ara从索引器中删除bic单词并删除这些单词的移动，然后将它们返回给索引器我应该使用什么来代替parse.getdata（）以及我应该在文档中输入什么。添加（名称、值）请帮助meeee