Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/java/337.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Java (regex)/字符串模式识别算法_Java_Machine Learning_Pattern Matching_Nlp - Fatal编程技术网

Java (regex)/字符串模式识别算法

Java (regex)/字符串模式识别算法,java,machine-learning,pattern-matching,nlp,Java,Machine Learning,Pattern Matching,Nlp,我有一个文件,其中包含一些字符串,如 P31XYFT5 3YTTXPL 这是一个示例,文件可能包含+100K的这些字符串, 我需要找到这些字符串并提取它们,我可以使用什么算法(包括机器学习算法)我会尝试给你一些建议,但是@fge是对的,你需要知道要寻找什么 如果文件包含有效单词,则可以使用词典识别现有单词和不存在的单词 如果您知道应该排除的单词的模式,您可以应用它来检测这些单词 说到机器学习算法,我对图像有更多的经验,所以我帮不了你多少忙。对于图像,您只需提取特征并预测/学习,例如,支持向量机

我有一个文件,其中包含一些字符串,如

P31XYFT5
3YTTXPL
这是一个示例,文件可能包含+100K的这些字符串,
我需要找到这些字符串并提取它们,我可以使用什么算法(包括机器学习算法)

我会尝试给你一些建议,但是@fge是对的,你需要知道要寻找什么

如果文件包含有效单词,则可以使用词典识别现有单词和不存在的单词

如果您知道应该排除的单词的模式,您可以应用它来检测这些单词


说到机器学习算法,我对图像有更多的经验,所以我帮不了你多少忙。对于图像,您只需提取特征并预测/学习,例如,支持向量机(SVM)。这里可能会用到类似的东西。

你知道要找什么吗?除了有共同的字符在这两个?我在寻找这些模式,混合字母数字字符没有指定的顺序嗨!对于这样一个简单的任务来说,正则表达式似乎是正确的方法,但您需要知道(1)应该使用哪些字符(您已经告诉过我们,尽管知道您是否需要所有大写字母会有帮助),(2)不应该使用哪些字符,所以我们可以包含这些字符,(3)它们出现的上下文,以便我们可以排除它,(4)您要查找的字符串的长度。理想情况下,发布一段数据。但是,更理想的情况是,尝试debuggex.com或regex101.com来帮助构建regex