R 计算文本之间的相似度以查找重复项_R_Duplicates_Similarity - Fatal编程技术网

R 计算文本之间的相似度以查找重复项

r

R 计算文本之间的相似度以查找重复项,r,duplicates,similarity,R,Duplicates,Similarity,我有一些类似于下面的数据，通过我处理数据的方式，我确实有一些重复/重复的行，这是不可避免的我想计算文本之间的余弦距离。然后尝试删除重复的值（保留包含最多文本的观察值）这是在数据中查找重复文本的最佳方法吗？通过删除一些单词，文本可能会略有不同，因此这样做unique（text）只能解决部分问题数据： text也许您可以使用RecordLink pkg中的jarowinkler 下面是一个示例代码 library(RecordLinkage) m <- lapply(text, func

我有一些类似于下面的数据，通过我处理数据的方式，我确实有一些重复/重复的行，这是不可避免的

我想计算文本之间的余弦距离。然后尝试删除重复的值（保留包含最多文本的观察值）

这是在数据中查找重复文本的最佳方法吗？通过删除一些单词，文本可能会略有不同，因此这样做

unique（text）

只能解决部分问题

数据：

text也许您可以使用RecordLink pkg中的jarowinkler
下面是一个示例代码
library(RecordLinkage)
m <- lapply(text, function(x) jarowinkler(x, text))
m <- do.call(rbind, m)
colnames(m) <- paste0('X', 1:ncol(m))
rownames(m) <- paste0('X', 1:nrow(m))
sim <- apply(m, 1, function(x) {
  names(x)[x >= 0.9]
})
sim <- sapply(sim, function(x) x[1])
dplyr::tibble(ID = sim, text = text)

库（记录链接）
M
library(RecordLinkage)
m <- lapply(text, function(x) jarowinkler(x, text))
m <- do.call(rbind, m)
colnames(m) <- paste0('X', 1:ncol(m))
rownames(m) <- paste0('X', 1:nrow(m))
sim <- apply(m, 1, function(x) {
  names(x)[x >= 0.9]
})
sim <- sapply(sim, function(x) x[1])
dplyr::tibble(ID = sim, text = text)




[coding style]相关文章推荐



                                                        
Coding style 一个好的程序员'；代码是什么样子的？
coding-style 
Coding style 变量名中是否使用冠词？
coding-stylesmalltalk 
Coding style 所有函数的返回语句
coding-style 
Coding style 在生产版本中省略注释掉的代码是一种不好的做法吗
coding-style 
Coding style 在使用ADF时，是否可以使用以API为中心的编程？
coding-style 
Coding style 在Mathematica中向操纵输出添加对齐
coding-stylewolfram-mathematica 
Coding style 有没有办法清除这个Go代码？
coding-stylego 
Coding style 在F#中，如何以通用方式处理（float-seq）和{ts:DateTime；value:float}？
coding-stylef# 
Coding style 学习Julia（字符串、For循环等）？
coding-stylejulia 
                                       





随机文章推荐



                                                        
什么是COM？
com 
COM可见函数（VB6）中复杂对象的参数类型
comvb6object 
arcgis com注册
cominstallation 
Com PIA嵌入在.NET4.0Beta2中被破坏了吗？
com.net-4.0c#-4.0 
COM，返回日期信息
com 
Com outlook 2007-是否有方法从Appointmentitem获取格式化文本？
com 
如何向Windows Installer XML注册COM对象
comwix 
Com 如何在网络共享上打开Lotus Notes数据库？
comlotus-notes 
如何使用C++；？
 C++中有很多样本，但在MSDN上只有一些C++代码片段。我已经把它放在一起，我认为它会起作用，但我不确定我是否发布了所有必须发布的COM引用。
comwindows-runtime 
go的COM调用由GC收集数据，并将已用内存归零
comgo 
是否可以在COM接口中创建具有变量参数的方法？
com 
Com 使用IActiveScript执行脚本时出现静默异常
com


                                        

                                        
                                        


                                                
                                                        [r]相关推荐
                                                        
R 将多个绘图放在一个绘图的空间内
									R
							 									Plot
							 
绘制r中的加权人口密度
									R
							 
曲线拟合这个数据在R？
									R
							 
R 添加从不同表派生的新列，而不使用；“合并”；功能
									R
							 
R 保存到CSV时，日期信息消失
									R
							 									Date
							 									Csv
							 
R-如何命名数据帧中的对比度
									R
							 									Dataframe
							 
R：来自RCurl标题的postForm问题
									R
							 									Http
							 									Curl
							 
R 选择一个数据框在另一个数据框上的行号
									R
							 									Dataframe
							 
R 时间戳差分打印
									R
							 
R：根据单词出现的频率对单词进行排序
									R
							 
R：将输入变量转换为字符串-`deparse（替换（x））`不工作
									R
							 
基于从现有列派生的TRUE/FALSE设置新列值
									R
							 
R功能规范pgram（）的均匀间隔1/频率
									R
							 
使用dplyr按组创建一系列独特的观察结果，并在“月份”列中创建差异
									R
							 
R ggplot2:创建有序组条形图-（使用重新排序）
									R
							 
将R中的行更改为列
									R
							 
R 如何基于条件创建新变量
									R
							 									Variables
							 
如何绘制已按R中的行排序的数据的中位数和四分位数范围？
									R
							 
R 连接抖动点的线-多组闪避
									R
							 
R 收集具有匹配列的行并处理为新数据？
									R
							 
如何从子列表中的所有数据帧中提取列，并使用该数据运行Kruskal-Wallis测试？
									R
							 
R中的交互式热图
									R
							 
在R中转换正确的日期格式
									R
							 
R-在同一图表上创建条形和直线，如何添加第二个y轴
									R
							 
自定义函数：如何使用sym（）和！！（砰砰）在dplyr 0.8.0中不使用funs（）吗？
									R
							 									Function
							 
如何使用R在Stata中执行类似foreach的操作？
									R
							 									Loops
							 									Stata
							 
R 数据帧列表中作为列名的第一行（2）
									R
							 									List
							 									Dataframe
							 
tidyverse/ggplot2：按手动比例尺中使用的系数进行子集设置？
									R
							 
cmdstanR:从stan模型拟合中提取绘图
									R
							 
R 从数据帧中删除所有只包含零的列或行
									R
							 									Dataframe
							 
                                                        
                                                

                                                
                                                        Tags
                                                        
Spring Integration
Cocoa Touch
Ms Office
Phantomjs
Angular Material
Prestashop
Sqlite
Networking
Activemq
Linux
Pyspark
Iis 7
Vmware
Typo3
C# 3.0
Ms Access
Pentaho
Django Rest Framework
Composer Php
Datetime
Asterisk
Apache Spark
Opencart
Extjs4
Hbase
Directx
Jmeter
Meteor
Web Applications
Dart
Codeigniter
Error Handling
Socket.io
Devexpress
Java Me
Kendo Ui
Workflow
Gnuplot
Google Cloud Firestore
Deployment
Math
Computer Vision
Tinymce
Pip
Actionscript 3
Delphi
Windows Phone 7
Google Cloud Dataflow
Report
Markdown
Apache Kafka
Stm32
Session
Openlayers
Orm
Amp Html
Sphinx
Import
Drools
Snmp
Single Sign On
Windows
Nosql
Vbscript
Elm
Mongoose
Sails.js
Excel Formula
Triggers
Llvm
Instagram
Asp.net
Google Visualization
Enums
Visual Studio
Webrtc
Ecmascript 6
Rust
Sip
Leaflet
Firefox Addon
Dynamics Crm 2011
Outlook
Exception
Virtual Machine
List
Uml
Applescript
Google Chrome Devtools
Intellij Idea
Jar
Layout
Android Layout
Flask
Backbone.js
Xampp
Xmpp
Certificate
Ubuntu
Titanium
Xpath
Plot
Sencha Touch
Json
Sml
Usb
Maps
Highcharts
Protocol Buffers
Ant
Opengl Es
Udp
Permissions
Service
Recursion
Umbraco
Silverstripe
Perforce
Tabs
Artifactory
Youtube Api
Gridview
Google Maps
Sas
Teamcity
Notepad++
Tags
Unix
Ios6
Ms Word
Apache2
Xcode4
Objective C
Laravel 4
Ldap
Twitter
Ibm Midrange
Sublimetext2
Orientdb
Erlang
Vaadin
Sublimetext3
Sql Server
Couchbase
Terminal
Asp.net Core Mvc
Mips
Pointers
Swift2
Jestjs
Asp.net Mvc 2
Scala
Openerp
Wso2
Tridion
Kotlin
Visual Studio 2015
Amazon Web Services
Clang
Batch File
Google App Engine
Sql Server 2008
Io
Scrapy
Gis
Kubernetes
Vagrant
C++ Cli
Mod Rewrite
Database Design
Drop Down Menu
Antlr4
Html5 Canvas
Dojo
Symfony1
Asp.net Mvc 5
Linq To Sql
Hash
Jhipster
Coldfusion
Asp.net Web Api
Stripe Payments
Interface
C#
Amazon Cloudformation
Time
Terraform
Xamarin.android
Phpstorm
Seo
Google Apps Script
Swing
Responsive Design
Sharepoint 2007
Xsd
Autohotkey
Sharepoint 2010
Latex
Drupal
Centos
Collections


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网