Nlp 我应该使用哪种词干生成算法?

Nlp 我应该使用哪种词干生成算法?,nlp,porter-stemmer,Nlp,Porter Stemmer,我们正在开发一个垂直搜索引擎作为我们的BTech项目。我们希望使用词干分析器将网页上的单词转换为其根单词。我们尝试使用波特·斯泰默,但并没有给出预期的结果 波特词干分析器错误地转换例如 1. goes -> goe 2. ponies -> poni 3. happily -> happili 那么有人能建议我们使用哪种算法吗?我过去也做过类似的事情。Porter Stemmer在允许单词比较方面做得很好,但它不能用于显示。我的基本算法是: 抓取页面并通过Porter词干分析

我们正在开发一个垂直搜索引擎作为我们的BTech项目。我们希望使用词干分析器将网页上的单词转换为其根单词。我们尝试使用波特·斯泰默,但并没有给出预期的结果

波特词干分析器错误地转换例如

1. goes -> goe
2. ponies -> poni
3. happily -> happili

那么有人能建议我们使用哪种算法吗?

我过去也做过类似的事情。Porter Stemmer在允许单词比较方面做得很好,但它不能用于显示。我的基本算法是:

  • 抓取页面并通过Porter词干分析器运行其内容以存储根单词
  • 获取用户输入并通过Porter词干分析器运行它,以获取用户输入的根
  • 比较爬网的根词和用户输入的根词(在我的例子中,不包括停止词的字典)
  • 生成要显示的结果页面,并在表示层中运行它,该层将用户查询中具有匹配根单词的所有单词都加粗
  • 看起来你已经完成了大部分工作——只是演示部分需要额外的工作


    更新:为了澄清我在这里的意思,假设波特词干分析器没有生成可读的词干,而是生成数字词干ID(例如Goes->3749)。该算法仍然有效,但您仍然需要将根单词重新映射为完整单词进行表示

    你不需要词干分析器,你需要一个词干分析器。
    是一种很好的柠檬酒。
    这些工具附带了一个java端口morpha,如果这对您来说更容易使用的话