R 文本中的词汇组匹配
我有这样的词汇数据:R 文本中的词汇组匹配,r,R,我有这样的词汇数据: C# C++ Windows 7 Windows Azure Programming Programming C 我想把它们分成更一般的类别。有没有办法让软件工程术语匹配到R中更抽象的组中 示例(无论何处): C++ C# Programming C 把它们列到C windows也是如此。这里有一种方法,使用我维护的几个GitHub包。。。但你需要调整它,使其更具普遍性 dat <- readLines(n = 6) C# C++ Windows 7 Window
C#
C++
Windows 7
Windows Azure
Programming
Programming C
我想把它们分成更一般的类别。有没有办法让软件工程术语匹配到R中更抽象的组中
示例(无论何处):
C++
C#
Programming C
把它们列到C
windows也是如此。这里有一种方法,使用我维护的几个GitHub包。。。但你需要调整它,使其更具普遍性
dat <- readLines(n = 6)
C#
C++
Windows 7
Windows Azure
Programming
Programming C
if (!require("pacman")) install.packages("pacman")
pacman::p_load_gh(
"trinker/textshape",
"trinker/gofastr",
"trinker/termco",
"trinker/hclustext"
)
ds <- data_store(gsub("[^[:alpha:] ]", " ", dat), stopwords = c("programming", "program"))
myfit <- hierarchical_cluster(ds)
plot(myfit, 2)
ca <- assign_cluster(myfit, k = 2)
split(dat[as.numeric(names(ca))], ca)
## $`1`
## [1] "C#" "C++" "Programming C"
##
## $`2`
## [1] "Windows 7" "Windows Azure"
dat