Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/r/83.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
R:基于支持向量机的自然语言处理_R_Nlp_Svm - Fatal编程技术网

R:基于支持向量机的自然语言处理

R:基于支持向量机的自然语言处理,r,nlp,svm,R,Nlp,Svm,我已经开始从事一个需要自然语言处理的项目,并在R中的支持向量机(SVM)上构建一个模型(我被要求在R中进行这项工作,尽管我知道Python是在这方面开发的)。 我找到了一篇文章(包:NLP,OpenNLP,rJava,RWeka)。然而,本文主要关注如何提取关键词(例如,地点、名称……) 但是因为我想建立一个SVM模型,所以我想生成一个包含所有标记的术语文档矩阵。我无法让它工作,因为注释的类不适用于tm包 例如: testset <- c("From month 2 the AST and

我已经开始从事一个需要自然语言处理的项目,并在R中的支持向量机(SVM)上构建一个模型(我被要求在R中进行这项工作,尽管我知道Python是在这方面开发的)。 我找到了一篇文章(包:
NLP
OpenNLP
rJava
RWeka
)。然而,本文主要关注如何提取关键词(例如,地点、名称……)

但是因为我想建立一个SVM模型,所以我想生成一个包含所有标记的术语文档矩阵。我无法让它工作,因为注释的类不适用于
tm

例如:

testset <- c("From month 2 the AST and total bilirubine were not measured.", "16:OTHER - COMMENT REQUIRED IN COMMENT COLUMN;07/02/2004/GENOTYPING;SF- genotyping consent not offered until T4.",  "M6 is 13 days out of the visit window")
word_ann <- Maxent_Word_Token_Annotator()
sent_ann <- Maxent_Sent_Token_Annotator()
test_annotations <- annotate(testset, list(sent_ann, word_ann))
test_doc <- AnnotatedPlainTextDocument(testset, test_annotations)
sents(test_doc)

[[1]]
 [1] "From"       "month"      "2"          "the"        "AST"        "and"        "total"     
 [8] "bilirubine" "were"       "not"        "measured"   "."         

[[2]]
 [1] "16:OTHER"                         "-"                               
 [3] "COMMENT"                          "REQUIRED"                        
 [5] "IN"                               "COMMENT"                         
 [7] "COLUMN;07/02/2004/GENOTYPING;SF-" "genotyping"                      
 [9] "consent"                          "not"                             
[11] "offered"                          "until"                           
[13] "T4"                               "."                               

[[3]]
[1] "M6"     "is"     "13"     "days"   "out"    "of"     "the"    "visit"  "window" 
sessionInfo()
R version 3.3.0 (2016-05-03)
Platform: x86_64-w64-mingw32/x64 (64-bit)
Running under: Windows >= 8 x64 (build 9200)

locale:
[1] LC_COLLATE=English_United States.1252  LC_CTYPE=English_United States.1252   
[3] LC_MONETARY=English_United States.1252 LC_NUMERIC=C                          
[5] LC_TIME=English_United States.1252    

attached base packages:
[1] stats     graphics  grDevices utils     datasets  methods   base     

other attached packages:
[1] tm_0.6-2       openxlsx_3.0.0 magrittr_1.5   RWeka_0.4-28   openNLP_0.2-6  NLP_0.1-9     
[7] rJava_0.9-8   

loaded via a namespace (and not attached):
[1] openNLPdata_1.5.3-2 parallel_3.3.0      tools_3.3.0         Rcpp_0.12.5         slam_0.1-34        
[6] grid_3.3.0          knitr_1.13          RWekajars_3.9.0-1  

testset您能解释一下“注释类不适用于tm包”的意思吗?如果你给出一个可重复的例子,这可能也会有所帮助。顺便说一句,“Python在此基础上得到了更大的发展”是一个非常有争议的说法;)嗨,哈克,对不起,我是个新手,不知道怎么问好问题。所以我有一个数据集,其中包含一列,是协议的描述:我明白,没问题。我认为我们应该能够帮助您使用该列,如果您可以提供它,或者如果您可以使用内置数据来模拟它作为示例。这里有一篇大家都应该读的好帖子:嗨,哈克。我已经提出了我的问题。谢谢你的帮助!理查德和伙计们,既然他加了这个例子,我想他问的问题就更清楚了。他想将
openNLP
包中的函数(
annotate
)与
tm
一起使用。这仍然离题吗?您能解释一下“注释的类不适用于tm包”是什么意思吗?如果你给出一个可重复的例子,这可能也会有所帮助。顺便说一句,“Python在此基础上得到了更大的发展”是一个非常有争议的说法;)嗨,哈克,对不起,我是个新手,不知道怎么问好问题。所以我有一个数据集,其中包含一列,是协议的描述:我明白,没问题。我认为我们应该能够帮助您使用该列,如果您可以提供它,或者如果您可以使用内置数据来模拟它作为示例。这里有一篇大家都应该读的好帖子:嗨,哈克。我已经提出了我的问题。谢谢你的帮助!理查德和伙计们,既然他加了这个例子,我想他问的问题就更清楚了。他想将
openNLP
包中的函数(
annotate
)与
tm
一起使用。那还是离题吗?