Nlp 我应该使用哪种词干生成算法?
我们正在开发一个垂直搜索引擎作为我们的BTech项目。我们希望使用词干分析器将网页上的单词转换为其根单词。我们尝试使用波特·斯泰默,但并没有给出预期的结果 波特词干分析器错误地转换例如Nlp 我应该使用哪种词干生成算法?,nlp,porter-stemmer,Nlp,Porter Stemmer,我们正在开发一个垂直搜索引擎作为我们的BTech项目。我们希望使用词干分析器将网页上的单词转换为其根单词。我们尝试使用波特·斯泰默,但并没有给出预期的结果 波特词干分析器错误地转换例如 1. goes -> goe 2. ponies -> poni 3. happily -> happili 那么有人能建议我们使用哪种算法吗?我过去也做过类似的事情。Porter Stemmer在允许单词比较方面做得很好,但它不能用于显示。我的基本算法是: 抓取页面并通过Porter词干分析
1. goes -> goe
2. ponies -> poni
3. happily -> happili
那么有人能建议我们使用哪种算法吗?我过去也做过类似的事情。Porter Stemmer在允许单词比较方面做得很好,但它不能用于显示。我的基本算法是:
更新:为了澄清我在这里的意思,假设波特词干分析器没有生成可读的词干,而是生成数字词干ID(例如Goes->3749)。该算法仍然有效,但您仍然需要将根单词重新映射为完整单词进行表示 你不需要词干分析器,你需要一个词干分析器。
是一种很好的柠檬酒。
这些工具附带了一个java端口morpha,如果这对您来说更容易使用的话