Java 如何最好地检测无意义的文本?

Java 如何最好地检测无意义的文本?,java,nlp,text-mining,Java,Nlp,Text Mining,我的用例是我有传入的文件。一些具有描述性文件名,而另一些具有文件名的数字和/或字母集合 我想知道,当文件名不是英文单词时,什么是合适的检测方法 有没有文本挖掘范例可以完成这样的任务 谢谢您需要有一个英文单词的查找表,并且在检查表中输入的单词时。对于此树,您可以使用以下命令: 你只需要用那张单词表。表中的任何内容都是有效的单词。您需要将文件名拆分为可能的单词(使用空格、破折号、不得分或数据中合适的任何内容),然后在字典中运行这些单词。如果80%的单词是英语,那么这可能是一个无意义的名字 单词列表

我的用例是我有传入的文件。一些具有描述性文件名,而另一些具有文件名的数字和/或字母集合

我想知道,当文件名不是英文单词时,什么是合适的检测方法

有没有文本挖掘范例可以完成这样的任务


谢谢

您需要有一个英文单词的查找表,并且在检查表中输入的单词时。对于此树,您可以使用以下命令:


你只需要用那张单词表。表中的任何内容都是有效的单词。

您需要将文件名拆分为可能的单词(使用空格、破折号、不得分或数据中合适的任何内容),然后在字典中运行这些单词。如果80%的单词是英语,那么这可能是一个无意义的名字


单词列表的例子很多:这是和或在这个

中有一个类似的问题:我希望它有帮助。我不明白你为什么建议使用word2vec。word2vec用于计算单词之间的语义相似性…是的,这不太合适。你只需要使用其中的单词表。表中的任何内容都是有效的单词。