如何在java中计算两个字符串之间的匹配分数?

如何在java中计算两个字符串之间的匹配分数?,java,fuzzy-comparison,Java,Fuzzy Comparison,我想将两个字符串分类为相似或不相似。比如说 s1 = "Token is invalid. DeviceId = deviceId: "345" " s2 = "Token is invalid. DeviceId = deviceId: "123" " s3 = "Could not send Message." 我正在寻找一个java库,它可以给出两个字符串之间的匹配分数,从这个分数我可以确定它们是否相似。我的程序只需要处理一个小数据集(~2000个字符串)。你知道那里是否有现成的东西吗?

我想将两个字符串分类为相似或不相似。比如说

s1 = "Token is invalid. DeviceId = deviceId: "345" "
s2 = "Token is invalid. DeviceId = deviceId: "123" "
s3 = "Could not send Message."

我正在寻找一个java库,它可以给出两个字符串之间的匹配分数,从这个分数我可以确定它们是否相似。我的程序只需要处理一个小数据集(~2000个字符串)。你知道那里是否有现成的东西吗?

检查Levenshtein距离以获得匹配分数


如建议。Levenshtein距离算法

public class LevenshteinDistance
{
    private static int minimum(int a, int b, int c)
    {
        return Math.min(Math.min(a, b), c);
    }

    public static int computeLevenshteinDistance(CharSequence str1, CharSequence str2)
    {
        int[][] distance = new int[str1.length() + 1][str2.length() + 1];

        for (int i = 0; i <= str1.length(); i++)
            distance[i][0] = i;
        for (int j = 1; j <= str2.length(); j++)
            distance[0][j] = j;

        for (int i = 1; i <= str1.length(); i++)
            for (int j = 1; j <= str2.length(); j++)
                distance[i][j] = minimum(distance[i - 1][j] + 1, 
                                         distance[i][j - 1] + 1, 
                                         distance[i - 1][j - 1] + ((str1.charAt(i - 1) == str2.charAt(j - 1)) ? 0 : 1));

        return distance[str1.length()][str2.length()];
    }

    public static void main(String[] args)
    {
        String s1 = "Token is invalid. DeviceId = deviceId: \"345\" ";
        String s2 = "Token is invalid. DeviceId = deviceId: \"123\" ";
        String s3 = "Could not send Message.";

        System.out.println(computeLevenshteinDistance(s1, s2)); // s1 VS. s2
        System.out.println(computeLevenshteinDistance(s1, s3)); // s1 VS. s3
        System.out.println(computeLevenshteinDistance(s2, s3)); // s2 Vs. s3

    }
}
公共类levenshteindication
{
私有静态最小整数(整数a、整数b、整数c)
{
返回Math.min(Math.min(a,b),c);
}
公共静态int ComputeleVenshteInstance(CharSequence str1,CharSequence str2)
{
int[][]距离=新int[str1.length()+1][str2.length()+1];

对于(int i=0;i对于所有NLP java问题,您应该检查Apache Lucene项目。但是,对于您的需要,一个简单的Levenshtein距离算法足够了

有一系列方便的方法,包括Levenshtein距离。