Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/r/74.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
如何使用sparklyr计算字符串之间的距离?_R_Sparklyr_Stringdist - Fatal编程技术网

如何使用sparklyr计算字符串之间的距离?

如何使用sparklyr计算字符串之间的距离?,r,sparklyr,stringdist,R,Sparklyr,Stringdist,我需要用sparklyr计算R中两个字符串之间的距离。有没有办法使用stringdist或任何其他软件包?我想用表亲距离。此距离用作stringdist函数的一种方法 提前感谢。您可以使用内置的levenshtein功能: df <- copy_to(sc, data.frame(a=c("This is it", "Foo"), b=c("This is", "foobar))) # df %>% mutate(dist = levenshtein(a, b)) # # Sour

我需要用sparklyr计算R中两个字符串之间的距离。有没有办法使用stringdist或任何其他软件包?我想用表亲距离。此距离用作stringdist函数的一种方法


提前感谢。

您可以使用内置的
levenshtein
功能:

df <- copy_to(sc, data.frame(a=c("This is it", "Foo"), b=c("This is", "foobar)))

# df %>% mutate(dist = levenshtein(a, b))
# # Source:   lazy query [?? x 3]
# # Database: spark_connection
#   a          b        dist
#   <chr>      <chr>   <int>
# 1 This is it This is     3
# 2 Foo        foobar      4

df您指的是海明距离吗?如果是这样,你想使用stringdist软件包。我在考虑cousine distance,无论哪种方式,我都需要使用stringdist软件包,但它在Sparkyr中似乎不起作用。我正在寻找一种使用它的方法或此软件包的替代品。您是否可以重现不起作用的尝试?是否有一种方法可以将非内置字符串距离度量与
sparklyr
一起使用?例如Jaro Winkler,可在以下软件包中获得:@jfeigenbaum您找到使用非内置字符串距离度量的方法了吗?@johnckane我在这方面没有花太多时间,但没有。。。我从来没有想到过这一点out@jfeigenbaum如果您感兴趣,我在这里回答了我最终是如何在pyspark中实现的: