在tm DocumentTerm矩阵中包含短令牌_R_Tm

在tm DocumentTerm矩阵中包含短令牌

在tm DocumentTerm矩阵中包含短令牌,r,tm,R,Tm,编辑：这是工作区中的对象发生冲突并导致意外行为的问题。我正在尝试使用以下代码从文档创建DocumentTermMatrix。文档包含许多1个字符和2个字符的标记。但是，即使将最小字长设置为1个字符，生成的矩阵也包含699个文档和0个术语 library(tm) data <- read.csv("http://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wi

编辑：这是工作区中的对象发生冲突并导致意外行为的问题。

我正在尝试使用以下代码从文档创建DocumentTermMatrix。文档包含许多1个字符和2个字符的标记。但是，即使将最小字长设置为1个字符，生成的矩阵也包含699个文档和0个术语

library(tm)
data <- read.csv("http://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.data",header=FALSE)
data <- data[-1]

training_data <- as.vector(apply(as.matrix(data, mode="character"),1,paste,collapse=" "))
corpus <- Corpus(VectorSource(training_data))

matrix <- DocumentTermMatrix(corpus,control=list(wordLengths=c(1,Inf)))

我在Windows7机器上运行了您在最新版本的R和tm中提供的内容，并生成了您想要的结果（见下文）。我会尝试清理您的工作区，退出R和/或重新启动

> library(tm)
> data <- read.csv("http://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.data",header=FALSE)
> data <- data[-1]
> 
> training_data <- as.vector(apply(as.matrix(data, mode="character"),1,paste,collapse=" "))
> corpus <- Corpus(VectorSource(training_data))
> 
> matrix <- DocumentTermMatrix(corpus,control=list(wordLengths=c(1,Inf)))
> matrix
A document-term matrix (699 documents, 11 terms)

Non-/sparse entries: 2899/4790
Sparsity           : 62%
Maximal term length: 2 
Weighting          : term frequency (tf)

>库（tm）
>数据数据
>数据语料库的训练
>矩阵
文件术语矩阵（699份文件，11个术语）
非/稀疏条目：2899/4790
稀疏度：62%
最大字长：2
权重：术语频率（tf）

我在windows 7机器上运行了您在最新版本的R和tm中提供给我的内容，并生成了您想要的结果（见下文）。我会尝试清理您的工作区，退出R和/或重新启动

> library(tm)
> data <- read.csv("http://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.data",header=FALSE)
> data <- data[-1]
> 
> training_data <- as.vector(apply(as.matrix(data, mode="character"),1,paste,collapse=" "))
> corpus <- Corpus(VectorSource(training_data))
> 
> matrix <- DocumentTermMatrix(corpus,control=list(wordLengths=c(1,Inf)))
> matrix
A document-term matrix (699 documents, 11 terms)

Non-/sparse entries: 2899/4790
Sparsity           : 62%
Maximal term length: 2 
Weighting          : term frequency (tf)

>库（tm）
>数据数据
>数据语料库的训练
>矩阵
文件术语矩阵（699份文件，11个术语）
非/稀疏条目：2899/4790
稀疏度：62%
最大字长：2
权重：术语频率（tf）

我想有时候你只需要在另一台计算机上测试就可以找到问题。谢谢你的帮助！我想有时候你只需要在另一台电脑上测试就可以找到问题。谢谢你的帮助！