使用`dplyr计算有效汉明距离`_R_Dplyr - Fatal编程技术网

使用`dplyr计算有效汉明距离`

r

使用`dplyr计算有效汉明距离`,r,dplyr,R,Dplyr,我需要计算（缩放）的汉明字符串距离 d（x，y）={x_i！=y_i:i=1，…，n}/n其中x和y是长度为n的字符串。我使用R和dplyr/tidyverse，并将汉明距离定义为 hamdist = function(x,y) mean(str_split(x, "")[[1]] != str_split(y, "")[[1]]) 这个很好用。但是，因为我想按列应用它，所以必须使用rowwise动词（或者使用purr包中的map2）。问题是：我的数据集包含约5000万次观测，因此计算需要几个

我需要计算（缩放）的汉明字符串距离

d（x，y）={x_i！=y_i:i=1，…，n}/n

其中

和

是长度为

的字符串。我使用R和dplyr/tidyverse，并将汉明距离定义为

hamdist = function(x,y) mean(str_split(x, "")[[1]] != str_split(y, "")[[1]])

这个很好用。但是，因为我想按列应用它，所以必须使用

rowwise

动词（或者使用purr包中的

map2

）。问题是：我的数据集包含约5000万次观测，因此计算需要几个小时

因此，我的问题是：是否有一种更平滑/更有效的方法来实现列操作的汉明字符串距离

（最好使用dplyr解决方案）

一个例子：

n = 1000
l = 8

rstr = function(n, l = 1) replicate(n, paste0(letters[floor(runif(l, 1, 27))], collapse = ""))

hamdist = function(x,y) mean(str_split(x, "")[[1]] != str_split(y, "")[[1]])

df = tibble(a = rstr(n, l), b = rstr(n, l))

df %>% mutate(dist = hamdist(a, b)) # wrong!
df %>% rowwise() %>% mutate(dist = hamdist(a, b)) # correct! but slow for n = 50 mio

请参阅

stringdist

包。函数

stringdist

接受一个

方法

参数，该参数可以是

“hamming”

。

stringdist

包声称：

专为速度而建，使用openMP进行并行计算

你能给我举个例子吗？我加了一个例子。谢谢。这个函数实际上运行得非常快：

>system.time（df%>%mutate（dist=stringdist（a，b，method=“hamming”）/8））用户系统运行0.002 0.000 0.001和>system.time（df%>%rowwise（）%%>%mutate（dist=hamdist（a，b）））用户系统运行1.0820 0.020 1.102（对于n=10000）




[validation]相关文章推荐



                                                        
Validation 检测MAC地址？-通过浏览器，无需插件
validationbrowser 
Validation 在ASP.net MVC 3中启用/取消分配验证
validationasp.net-mvc-3 
Validation 网络：如何使用聚合根对其建模？
validationtransactionsdomain-driven-design 
Validation 如何获得Axis/Castor web服务来根据XSD验证请求？
validationxsd 
Validation 如何重置qTip2验证？
validation 
@SkipValidation仅针对一个参数
validationstruts2 
Validation AngularJS-如何在禁用的文本框中显示自定义文本
validationangularjs 
Validation 单击复选框时动态禁用验证器
validationjsfprimefaces 
Validation MVC4 Web API删除验证，抛出400个错误请求
validationasp.net-mvc-4razorasp.net-web-api 
Validation 在发送了许多错误的密码后，使用PrincipalContext验证凭据失败
validation 
Validation 未保存对象的hasMany关系的验证
validationgrails 
Validation 有什么简单的方法可以用squeryl验证字段长度吗？
validationscalaorm 
Validation 银线3.1；在dataobject中使用getCMSValidator进行多个验证
validationcontent-management-systemsilverstripe 
Validation 如何在jsf中验证bean端的空白字段？
validationjsf 
Validation Xpages富文本验证
validationxpages 
Validation Laravel 5表单请求属性nice names不能与自定义验证器一起使用
validationlaravellaravel-5 
Validation Symfony-如何根据另一个节点值验证配置节点？
validationsymfonyconfiguration 
Validation 在Google工作表中使用数据验证自动填充条件格式
validationgoogle-sheets 
Validation Yii2-文件验证程序的minSize和maxSize适用于多少个文件？
validationfile-uploadyii2 
Validation 如何阻止azure开发人员操作yaml验证构建为每个分支运行？
validationazure-devopscontinuous-integrationyaml 
                                       





随机文章推荐



                                                        
Time Lua-当前时间（毫秒）
timelua 
Time 如何使用；“当前时间”；MpMoviePlayerController的属性
time 
Time 以Pascal中的数字获取当前月份
timepascal 
Time 如何获取时间的UTC偏移量？
time 
Time OpenCL开始-结束分析时间比实际持续时间长
timeopencl 
Time 为什么时间解析不正确？
timego 
Time vb6将列表中的时间与当前时间进行比较
timevb6 
Time 为什么调用UDP非阻塞套接字RECVFROM最多需要30毫秒
timeudp 
星号中${CDR（start）}和${STRFTIME（${EPOCH}，，%Y-%m-%d%H:%m:%S）}之间的差异
timeasterisk 
Time 时间间隔内的时间
timeexcel-formula 
Time 生成的时间维度-年的更改值
timessastableau-api 
Time 如何在工作流中将Oozie的协调时间传递给SLA参数u时间？
timeparameters 
Time EXCEL:SUMIFS函数不向总数中添加值，即使它满足要求
timeexcel-formula


                                        

                                        
                                        


                                                
                                                        [r]相关推荐
                                                        
R 按组将多个列连接到逗号分隔的字符串
									R
							 
如何读取R中不同文件夹中的多个二进制文件？
									R
							 
R:mle2中的剖面置信区间
									R
							 
R 加上「；浮动；面_包裹图中的轴标签
									R
							 
R 在windows中使用系统
									R
							 
R 如何将字符向量拆分为数据帧？
									R
							 									Vector
							 									Dataframe
							 
R 为第二个数据帧中的每个元素查找两个数据帧之间的最小距离
									R
							 
什么是「；“反向依赖性”；在R？
									R
							 									Installation
							 									Dependencies
							 
R 使用过滤器在不同变量上的数据帧中重叠
									R
							 									Dataframe
							 
R中一组分类变量的相关矩阵
									R
							 									Matrix
							 
R 如何加载数据集包
									R
							 
ClickElement后的RSelenium WebDriver TimeoutException
									R
							 									Selenium
							 									Selenium Webdriver
							 
R 为子集的三个类别定义颜色
									R
							 									Plot
							 									Colors
							 
R 随机森林模型的预测
									R
							 
R 列名中的符号
									R
							 
在for循环中使用seq（）和ifelse
									R
							 									Loops
							 									If Statement
							 
R ggplot2缩放x_日期和缩放x_日期时间的差异
									R
							 									Date
							 									Datetime
							 
根据R中的条件提取数据帧中一定数量的行？
									R
							 									Dataframe
							 
将文本转换为R中的拉丁语
									R
							 									Regex
							 
R 向引用相应数字/字符的数据框添加列
									R
							 									Function
							 									Dataframe
							 									Reference
							 
R 如何将数据框自动拆分为年份
									R
							 
创建R中50个州名称的数据框
									R
							 
近似日期合并R-滚动联接/日期差
									R
							 
R 饼图主标题的垂直位置与普通图相同
									R
							 									Plot
							 									Graphics
							 
R 绘制分类数据类型
									R
							 
R 按特定列分组，并根据另一列值为每个组选择偶数行
									R
							 
R 从五个坐标文件的多个netcdf文件中提取数据，并将其写入五个单独的csv文件
									R
							 									Csv
							 
如何制作一个函数来计算“患病率”；1“；在列中包含'；0'；和'；1'；只做图形？
Group1
									R
							 
R 如何将datetime四舍五入到一天中最近的时间，最好是矢量化的？
									R
							 									Datetime
							 
R 如何计算在其他坐标点的X半径内出现的坐标点的数量？
									R
							 
                                                        
                                                

                                                
                                                        Tags
                                                        
C#
Joomla
Blazor
Geometry
Memory
Facebook Graph Api
Animation
Winapi
Notifications
Asp.net Web Api
Qt4
Active Directory
Azure Ad B2c
Spring Batch
Filter
Google App Maker
Com
Serial Port
Clang
Apache Kafka
.htaccess
Debian
Inheritance
Grafana
Drop Down Menu
Model View Controller
Emacs
Weblogic
Module
Big O
Spring Cloud
Yii2
Makefile
Extjs
Excel Formula
Cookies
Installation
Mfc
Vaadin
Scrapy
Mapreduce
Github
Deep Learning
Dotnetnuke
Exchange Server
Ruby On Rails
Windows Phone 8
Hadoop
Amazon Dynamodb
Aws Lambda
Ldap
Arangodb
Flask
Report
Apache Zookeeper
File Upload
Socket.io
Yaml
Cypress
Openlayers 3
Jira
Directx
Vhdl
Sql Server 2005
Git
Character Encoding
Ubuntu
Libgdx
Telerik
Swiftui
Synchronization
Silverlight 4.0
Unity3d
Asp.net Mvc 3
Wix
Sbt
Chef Infra
List
Ant
Network Programming
Wordpress
Configuration
Java
Keycloak
Ftp
Angularjs
Vbscript
Laravel 4
Jersey
Documentation
Jwt
Tkinter
Odata
Indexing
Go
Ajax
Debugging
Groovy
Drupal 7
Axapta
Streaming
Rust
Ada
Shiny
Jaxb
Sip
Julia
Fiware
Windows
Google Drive Api
Version Control
Visual Studio 2015
Artificial Intelligence
Internationalization
Bootstrap 4
Inno Setup
C
Cocoa
Sharepoint
Ssas
Silverlight
Optimization
Shell
Umbraco
Windows 7
Rx Java
Scikit Learn
Tsql
Formatting
Search
Doxygen
Swagger
Ignite
F#
View
Docusignapi
Functional Programming
Mips
Webgl
Perforce
Swift
Artifactory
Webpack
Apache Flink
Bluetooth
Netbeans
Xquery
Google Chrome Extension
Tabs
Button
Linux
Abap
Matlab
Math
Amazon Redshift
Asp.net Core Mvc
Isabelle
Ruby On Rails 3.2
Gwt
Javascript
Menu
Android
Udp
Cluster Computing
Data Structures
Open Source
Opengl
Jdbc
Ethereum
Javafx
Api
Jhipster
Aem
Selenium
Push Notification
Python 2.7
Zsh
Nest
Azure Functions
Sonarqube
Xaml
Pandas
Applescript
Windows Runtime
Gis
Opencl
Embedded
Magento
Java 8
Automated Tests
Solr
Stm32
Reactjs
Dart
Templates
Phantomjs
Virtual Machine
Windows Mobile
C++11
Cordova
Scripting


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网