Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/r/68.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
R 文本中的词汇组匹配_R - Fatal编程技术网

R 文本中的词汇组匹配

R 文本中的词汇组匹配,r,R,我有这样的词汇数据: C# C++ Windows 7 Windows Azure Programming Programming C 我想把它们分成更一般的类别。有没有办法让软件工程术语匹配到R中更抽象的组中 示例(无论何处): C++ C# Programming C 把它们列到C windows也是如此。这里有一种方法,使用我维护的几个GitHub包。。。但你需要调整它,使其更具普遍性 dat <- readLines(n = 6) C# C++ Windows 7 Window

我有这样的词汇数据:

C#
C++
Windows 7
Windows Azure
Programming
Programming C
我想把它们分成更一般的类别。有没有办法让软件工程术语匹配到R中更抽象的组中

示例(无论何处):

C++
C#
Programming C
把它们列到C


windows也是如此。

这里有一种方法,使用我维护的几个GitHub包。。。但你需要调整它,使其更具普遍性

dat <- readLines(n = 6)
C#
C++
Windows 7
Windows Azure
Programming
Programming C

if (!require("pacman")) install.packages("pacman")
pacman::p_load_gh(
    "trinker/textshape", 
    "trinker/gofastr", 
    "trinker/termco",    
    "trinker/hclustext"
)

ds <- data_store(gsub("[^[:alpha:] ]", " ", dat), stopwords = c("programming", "program"))
myfit <- hierarchical_cluster(ds)
plot(myfit, 2)
ca <- assign_cluster(myfit, k = 2)

split(dat[as.numeric(names(ca))], ca)

## $`1`
## [1] "C#"            "C++"           "Programming C"
## 
## $`2`
## [1] "Windows 7"     "Windows Azure"
dat