Java:删除API中的常用词方法?

Java:删除API中的常用词方法?,java,parsing,nlp,Java,Parsing,Nlp,相关: 在重新发明轮子之前,我需要知道这种方法是否存在。根据列表剥离单词,例如,听起来不太有挑战性,但也有语言方面的问题,例如剥离时最需要强调的单词,上下文如何?听起来您试图从文本中删除“”。你可以在链接中找到一个。根据您使用的停止词的数量,创建一组词可能更有效,这样您就可以在固定时间内(通过使用函数)判断一个词是否是停止词,这意味着过滤整个文本将在字数上花费线性时间。这是一个如此简单的操作,我怀疑您是否会找到一些库来完成它,但它不会花费很长时间 在选择要使用的词方面。。。这真的取决于你想做什

相关:


  • 在重新发明轮子之前,我需要知道这种方法是否存在。根据列表剥离单词,例如,听起来不太有挑战性,但也有语言方面的问题,例如剥离时最需要强调的单词,上下文如何?

    听起来您试图从文本中删除“”。你可以在链接中找到一个。根据您使用的停止词的数量,创建一组词可能更有效,这样您就可以在固定时间内(通过使用函数)判断一个词是否是停止词,这意味着过滤整个文本将在字数上花费线性时间。这是一个如此简单的操作,我怀疑您是否会找到一些库来完成它,但它不会花费很长时间


    在选择要使用的词方面。。。这真的取决于你想做什么。如果您在上执行某种机器学习算法,那么您确实需要尝试不同的单词选择,看看哪些单词导致的验证错误最小。就上下文而言,确实不需要很多单词。任何英语说得好的人都可以告诉你什么时候你掉了一个“the”或“a”或“an”。可能有一些常用词对消除歧义很重要,但根据您的应用,它们可能是必要的,也可能不是必要的。例如,如果你想知道是谁做了某事,那么消除“他”、“她”等可能是个问题,但如果你只关心某个动作是否发生,而不关心是谁做的,那么消除代词就可以了。

    你可能有兴趣看一下Cucumber()的源代码它使用通用语言方法(如使用英语)来定义测试用例。