data.frame中的唯一单词列表_R - Fatal编程技术网

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/r/82.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/joomla/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
data.frame中的唯一单词列表_R - Fatal编程技术网

data.frame中的唯一单词列表

r

data.frame中的唯一单词列表,r,R,我对R很陌生，所以请对我耐心点我有一个带有列的字符向量，该列以不一致的格式描述疾病和诊断关键词。样本包括： flu fever/feverish fever cold 我正在寻找从中提取所有独特单词的最佳方法。到目前为止，我能想出的最好的方法是给我一个向量向量： [[1]] [[1]][[1]] [1] "flu" [[2]] [[2]][[1]] [1] "fever" "feverish" ... 我通过以下方式实现这一目标： split_words <- function(x

我对R很陌生，所以请对我耐心点

我有一个带有列的字符向量，该列以不一致的格式描述疾病和诊断关键词。样本包括：

flu
fever/feverish
fever cold

我正在寻找从中提取所有独特单词的最佳方法。到目前为止，我能想出的最好的方法是给我一个向量向量：

[[1]]
[[1]][[1]]
[1] "flu"

[[2]]
[[2]][[1]]
[1] "fever" "feverish"
...

我通过以下方式实现这一目标：

split_words <- function(x){ strsplit(x, "[^[:alpha:]]+") }
lapply(diagnoses, split_words)

split_words您可以在strsplit
之后使用unlist
来获取包含所有元素的向量，并使用unique
来获取唯一元素的向量
x <- c("flu", "fever/feverish", "fever cold")
( ul <- unlist(strsplit(x, "\\s+|[[:punct:]]")) )
# [1] "flu"      "fever"    "feverish" "fever"    "cold"  
unique(ul)
# [1] "flu"      "fever"    "feverish" "cold"  

x#>df
#疾病
#1流感
#2发烧/发烧
#3发烧感冒
udf全部保证小写？拆分并丢弃任何空格或标点符号？你确定“/”或“-”总是不相关的吗？例如，格林-巴利综合征呢？我用“-”和“/”检查了所有术语，实际的regexp有点复杂。但我想简化这个问题。在进入这一阶段之前，我在所有疾病列表中排名较低且独一无二。按选择性标点分开。拆分时间[，；：]
不要拆分时间[-/]
# > df
#         illness
#1            flu
#2 fever/feverish
#3     fever cold   


udf <- unlist(strsplit(df$illness, "[^[:alnum:]]"))
# [1] "flu"      "fever"    "feverish" "fever"    "cold"

table(udf)
#udf
#    cold    fever feverish      flu 
#       1        2        1        1




[joomla]相关文章推荐



                                                        
                                       





随机文章推荐



                                                        
For loop 在for循环中使用break是一种不好的做法吗？
for-loop 
For loop 三个相互依赖的嵌套循环的渐近分析
for-loopbig-o 
For loop VBscript的递归问题
for-looprecursionvbscript 
For loop XTend用于循环支持和添加范围支持
for-loop 
For loop Windows批处理For循环：以下代码有问题
for-loopbatch-file 
For loop 从字典中收集一系列键
for-loopdictionarypython-3.x 
For loop 用于使用awk更改循环和值
for-loopawk 
For loop 使用awk一次分析两个字段
for-loopawk 
For loop ZSH：获取for循环的basename
for-loopzsh 
For loop 程序集乘法循环返回错误的高位数字
for-loopassemblyx86 
For loop 使用sed遍历文件夹中的文件
for-loopsed 
For loop 用于循环而非每个循环的最小数和平均数
for-loop 
For loop 朱莉娅：在SharedArray中使用@parallel for循环时出现意外结果
for-loopparallel-processingjulia 
For loop Tcl/tk：我应该使用for还是foreach？
for-looptcl 
For loop 如何在遍历向量的for循环中传递向量
for-looprust 
For loop 循环语法的mariadb过程
for-loopstored-proceduresmariadb


                                        

                                        
                                        


                                                
                                                        [r]相关推荐
                                                        
                                                        
                                                

                                                
                                                        Tags
                                                        
Object
Download
Swagger
Swiftui
Swift
Msbuild
Caching
Types
Hazelcast
Pine Script
Processing
File Upload
Actions On Google
Azure Devops
Antlr4
Sql Server
C# 4.0
Timer
Ignite
Xpages
Solr
Ibm Mq
Azure Sql Database
Automated Tests
Anaconda
Ember.js
Gps
Nosql
Vb6
Formatting
Teradata
Linux Kernel
Zend Framework2
Asterisk
Flask
Elm
Pagination
Sql Server 2008
Scrapy
Http
Vaadin
Maven
Colors
Hybris
Youtube
Sharepoint
Gdb
Ruby On Rails 3.1
Sphinx
Reactjs
Vagrant
Listview
Nlp
Socket.io
Python
Oracle
Graphql
Xquery
Zend Framework
Sublimetext2
Jsf 2
Couchdb
Pentaho
Swing
Odoo
Wso2
Acumatica
Amp Html
Log4j
Jestjs
Sql
Cors
Crystal Reports
Next.js
Plot
Nservicebus
Jdbc
Silverstripe
Yocto
Data Binding
Sql Server 2008 R2
Moodle
Pandas
Xampp
Jmeter
Udp
Gremlin
Svg
Testng
Itext
Scheme
Active Directory
Operating System
Openlayers 3
Mono
Cmd
Permissions
Dom
Cuda
Tableau Api
Prometheus
View
Mips
Aframe
Content Management System
Autocomplete
Google Chrome Extension
Ide
Iphone
Google App Maker
Log4net
Actionscript 3
Azure Data Factory
Oauth 2.0
Npm
Vb.net
Configuration
Google Apps Script
Jms
Embedded
Fonts
Neo4j
Excel Formula
Openssl
Websphere
Mule
Scikit Learn
Couchbase
Sprite Kit
Webview
Url
Multithreading
Join
Erlang
Openerp
Primefaces
Libgdx
Ms Office
Orm
Visual Studio 2013
Ruby On Rails 3
Windows Phone
Streaming
Directx
Xna
Latex
Qt
Twig
Sqlalchemy
Optimization
Ssis
Version Control
Air
Omnet++
Arduino
Bazel
For Loop
Asp.net Core Mvc
Openstack
Ssh
Sas
Gstreamer
Redux
Apache Zookeeper
Windows Phone 7
Gcc
Api
Glsl
Robotframework
Windows Phone 8
Mapping
Doctrine Orm
Laravel 5
Docusignapi
Methods
Orchardcms
Sdk
Sparql
Mapreduce
Linker
Typo3
Testing
Tcl
R
Search
Mvvm
Maps
Ldap
EmptyTag
Angularjs
Jira
Sharepoint 2007
Rust
Stm32
Visual Studio 2012
Arrays
Canvas
.net 4.0
C++11
Cron
Google Maps Api 3


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网