用java为nutch编写代码

用java为nutch编写代码,java,parsing,nutch,Java,Parsing,Nutch,您好: 我正在用java为nutch(开源搜索引擎)编写代码,以便在索引器中删除阿拉伯语单词中的移动。 我不知道有什么错误。 t这是代码: package com.mycompany.nutch.indexing; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.io.Text; import org.apache.log4j.Logger; import org.apache.nutch.crawl.C

您好: 我正在用java为nutch(开源搜索引擎)编写代码,以便在索引器中删除阿拉伯语单词中的移动。 我不知道有什么错误。 t这是代码:

package com.mycompany.nutch.indexing;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.io.Text;
import org.apache.log4j.Logger;
import org.apache.nutch.crawl.CrawlDatum;
import org.apache.nutch.crawl.Inlinks;
import org.apache.nutch.indexer.IndexingException;
import org.apache.nutch.indexer.IndexingFilter;
import org.apache.nutch.indexer.NutchDocument;
import org.apache.nutch.parse.getData().parse.getData();


public class InvalidUrlIndexFilter implements IndexingFilter {

  private static final Logger LOGGER = 
    Logger.getLogger(InvalidUrlIndexFilter.class);

  private Configuration conf;

  public void addIndexBackendOptions(Configuration conf) {
    // NOOP
    return;
  }

  public NutchDocument filter(NutchDocument doc, Parse parse, Text url,
      CrawlDatum datum, Inlinks inlinks) throws IndexingException {
    if (url == null) {
      return null;
    }



    char[] parse.getData() = input.trim().toCharArray();
        for(int p=0;p<parse.getData().length;p++)
          if(!(parse.getData()[p]=='َ'||parse.getData()[p]=='ً'||parse.getData()[p]=='ُ'||parse.getData()[p]=='ِ'||parse.getData()[p]=='ٍ'||parse.getData()[p]=='ٌ' ||parse.getData()[p]=='ّ'||parse.getData()[p]=='ْ' ||parse.getData()[p]=='"' ))
            new String.append(parse.getData()[p]);

    return doc;
  }

  public Configuration getConf() {
    return conf;
  }

  public void setConf(Configuration conf) {
    this.conf = conf;
  }
}
package com.mycompany.nutch.index;
导入org.apache.hadoop.conf.Configuration;
导入org.apache.hadoop.io.Text;
导入org.apache.log4j.Logger;
导入org.apache.nutch.crawl.crawldatam;
导入org.apache.nutch.crawl.Inlinks;
导入org.apache.nutch.indexer.IndexingException;
导入org.apache.nutch.indexer.IndexingFilter;
导入org.apache.nutch.indexer.NutchDocument;
导入org.apache.nutch.parse.getData().parse.getData();
公共类InvalidUrlIndexFilter实现IndexingFilter{
专用静态最终记录器=
Logger.getLogger(InvalidUrlIndexFilter.class);
私有配置配置;
公共void addindexbackendions(配置配置){
//努普
返回;
}
公共NutchDocument筛选器(NutchDocument文档、解析、文本url、,
爬行数据、InLink(InLink)引发IndexingException{
如果(url==null){
返回null;
}
char[]parse.getData()=input.trim().tocharray();
对于(int p=0;p

char[] parse.getData() = input.trim().toCharArray();
将给您一个编译错误,因为左侧不是变量。请在此行和以下行中用唯一的变量名(例如,
parsedData
)替换
parse.getData()

第二,进口

import org.apache.nutch.parse.getData().parse.getData();

也将失败。看起来很像文本替换问题。

您遇到了什么问题?异常?没有得到预期的结果?什么?顺便说一句,这个新字符串。append(parse.getData()[p]);不表示任何内容…因为您没有将字符串分配给任何内容。thanx对于您的注释,我有两个错误,如何将索引器中单词的新值分配给索引器??要添加单词,请使用方法doc.add(名称,值)这需要两个string.thanx作为您的回复,但我不知道我将在代码中输入的变量的类型(例如parsedData)我将如何初始化索引器中的单词,然后将这个变量的值返回给索引器请用完整的代码回复pleeeaase@hala你的问题不是很清楚,我可以提供任何代码。我真的不明白你试图完成什么。请霍华德帮助我:我想写一个索引过滤器,采取ara从索引器中删除bic单词并删除这些单词的移动,然后将它们返回给索引器我应该使用什么来代替parse.getdata()以及我应该在文档中输入什么。添加(名称、值)请帮助meeee