使用stringdist包对带有空格的变量进行字符串匹配

使用stringdist包对带有空格的变量进行字符串匹配,r,string-matching,stringi,stringdist,R,String Matching,Stringi,Stringdist,我试图用jaro距离匹配数据集中的字符串。问题是我得到的字符串中有空格作为匹配项。以下是数据: df1 <- data.frame(ID1=c("london.inc","USA","UK","ball"," "),ID2=c("london.in","US","UKS","bull"," "), x=c(1:5)) library(stringdist) df1$jwdist<-stringdist(df1$ID1,df1$ID2,method='jw',useBytes=TRUE

我试图用jaro距离匹配数据集中的字符串。问题是我得到的字符串中有空格作为匹配项。以下是数据:

df1 <- data.frame(ID1=c("london.inc","USA","UK","ball"," "),ID2=c("london.in","US","UKS","bull"," "), x=c(1:5))
library(stringdist)
df1$jwdist<-stringdist(df1$ID1,df1$ID2,method='jw',useBytes=TRUE,p=0)
y <- subset(df1,df1$jwdist<.2)

     ID1       ID2 x     jwdist
1 london.inc london.in 1 0.03333333
2        USA        US 2 0.11111111
3         UK       UKS 3 0.11111111
4       ball      bull 4 0.16666667
5                      5 0.00000000

在运行
stringdist
之前,不能删除这些行吗?例如,
df1我正在合并两个不同的数据集。这两个变量都有许多大于10的字符串和数字变量。我试着发出这个命令,它占用了数据框中的所有空白。我只想从一列中去掉空白。那么从那列中去掉空白?如果我去掉空白,jw距离仍然是0。我需要匹配列以交叉检查数据的不一致性。谢谢我不明白你的意思。所需的输出strp是完全包含两个空格的行。你能举一个我的建议不起作用的例子吗?顺便说一句,您可以将我的代码修改为
df1
  ID1       ID2 x     jwdist
1 london.inc london.in 1 0.03333333
2        USA        US 2 0.11111111
3         UK       UKS 3 0.11111111
4       ball      bull 4 0.16666667