Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/ruby-on-rails/58.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
R 如何将潜在语义分析中的特征作为独立变量纳入预测模型_R_Text Mining_Logistic Regression_Latent Semantic Indexing - Fatal编程技术网

R 如何将潜在语义分析中的特征作为独立变量纳入预测模型

R 如何将潜在语义分析中的特征作为独立变量纳入预测模型,r,text-mining,logistic-regression,latent-semantic-indexing,R,Text Mining,Logistic Regression,Latent Semantic Indexing,我试图使用R中的文本数据进行逻辑回归。我已经建立了一个术语文档矩阵和相应的潜在语义空间。据我所知,LSA用于从“术语”中导出“概念”,这有助于降维。这是我的密码: tdm = TermDocumentMatrix(corpus, control = list(tokenize=myngramtoken,weighting=myweight)) tdm = removeSparseTerms(tdm,0.98) tdm = as.matrix(tdm) tdm.lsa = lsa(tdm,dimc

我试图使用R中的文本数据进行逻辑回归。我已经建立了一个术语文档矩阵和相应的潜在语义空间。据我所知,LSA用于从“术语”中导出“概念”,这有助于降维。这是我的密码:

tdm = TermDocumentMatrix(corpus, control = list(tokenize=myngramtoken,weighting=myweight))
tdm = removeSparseTerms(tdm,0.98)
tdm = as.matrix(tdm)
tdm.lsa = lsa(tdm,dimcalc_share())
tdm.lsa_tk=as.data.frame(tdm.lsa$tk)
tdm.lsa_dk=as.data.frame(tdm.lsa$dk)
tdm.lsa_sk=as.data.frame(tdm.lsa$sk)

这将提供V1、V2、V3等功能。。。。V21。在我的逻辑回归中,是否可以使用这些作为自变量?如果是这样,我该怎么做?

在上面的示例中,表tdm.lsa_dk是一个“概念”矩阵,以列的形式出现,文档以行的形式出现。这可以作为新的训练和测试数据集用于进一步分析,在本例中为逻辑回归。自变量(来自原始数据集)将添加到新数据集。 表tdm.lsa_sk可用于变量选择。它以重要性递减的顺序显示“概念”变量

     # the $dk part of the lsa will behave as your new dataset 

    new.dataset <- tdm.lsa_dk 
    new.dataset$y.var <- original.dataset$y.var

     # creating training and testing dataset out of the new dataset

    test_index <- createDataPartition(new.dataset$y, p = .2, list = F)
    Test<-new.dataset[test_index,]
    Train<-new.dataset[-test_index,]

     # create model

    model<-glm(y.var~., data=Train, family="binomial")
    prediction<-predict(model, Test, type="response")
#lsa的$dk部分将作为您的新数据集
new.dataset