使用德语语料库的DocumentTerm矩阵中的问题

使用德语语料库的DocumentTerm矩阵中的问题,r,encoding,utf-8,tm,R,Encoding,Utf 8,Tm,我使用PackageTM在R中创建了一个语料库,指定语言和编码如下: de_DE.corpus <- Corpus(VectorSource(de_DE.sample), readerControl = list(language="de_DE",encoding = "UTF_8")) de_DE.corpus[36]$content de_DE.dtm <- DocumentTermMatrix(de_DE.corpus,control = list (encod

我使用PackageTM在R中创建了一个语料库,指定语言和编码如下:

de_DE.corpus <- Corpus(VectorSource(de_DE.sample), readerControl
    = list(language="de_DE",encoding = "UTF_8"))
de_DE.corpus[36]$content
de_DE.dtm <- DocumentTermMatrix(de_DE.corpus,control = list
    (encoding = 'UTF-8'))
inspect(de_DE.dtm[, grepl("grÃ", de_DE.dtm$dimnames$Terms)])
inspect(de_DE.dtm[36, ])


如果有人知道如何解决这个问题,我将不胜感激。提前感谢:)

您能检查您的输入数据吗?因为你的代码对我有用。因此,我认为当您已经在deu de.sample中加载它时,您会遇到一个问题

doc<-c("Single ist so die Begründung der Behörde Eine", "Single Begründung Behörde ")

de_DE.corpus <- Corpus(VectorSource(doc), readerControl
                       = list(language="de_DE",encoding = "UTF_8"))
de_DE.dtm <- DocumentTermMatrix(de_DE.corpus,control = list
                                (encoding = 'UTF-8'))

inspect(de_DE.dtm[1, ])
<<DocumentTermMatrix (documents: 1, terms: 7)>>
Non-/sparse entries: 7/0
Sparsity           : 0%
Maximal term length: 10
Weighting          : term frequency (tf)
Sample             :
    Terms
Docs begründung behörde der die eine ist single
   1          1       1   1   1    1   1      1

doc你能检查一下你的输入数据吗?因为你的代码对我有用。因此,我认为当您已经在deu de.sample中加载它时,您会遇到一个问题

doc<-c("Single ist so die Begründung der Behörde Eine", "Single Begründung Behörde ")

de_DE.corpus <- Corpus(VectorSource(doc), readerControl
                       = list(language="de_DE",encoding = "UTF_8"))
de_DE.dtm <- DocumentTermMatrix(de_DE.corpus,control = list
                                (encoding = 'UTF-8'))

inspect(de_DE.dtm[1, ])
<<DocumentTermMatrix (documents: 1, terms: 7)>>
Non-/sparse entries: 7/0
Sparsity           : 0%
Maximal term length: 10
Weighting          : term frequency (tf)
Sample             :
    Terms
Docs begründung behörde der die eine ist single
   1          1       1   1   1    1   1      1

doc您使用的是哪种操作系统?Windows 10,R版本3.4.1,软件包'tm'版本0.7-1我不知道发生了什么,但这里有一个潜在的线索:
text在多次尝试失败后,我找到的唯一解决方案是:
de_de.corpus您使用的是哪种操作系统?Windows 10,R版本3.4.1,软件包'tm'版本0.7-1我不知道发生了什么,但这里有一个潜在的线索:
text在多次尝试失败后,我找到的唯一解决方案是:
de_de.corpus Hi@Dr Vcomas,谢谢你的回复。你说得对,问题已经在Deu de sample中了。检查输入数据,如果使用
编码(de_de.sample[36])
查询编码,它会显示“UTF-8”,但如果我应用
iconv(de_de.sample[36],to='UTF-8')
则会将字符显示为“.er single ist so die begerÃndung der behÃrde”。我不明白为什么它在编码应用转换时检测到UTF-8,或者我如何才能正确地读取数据。希望通过这些附加信息,有人知道如何解决此问题,并能帮助我。:)编码问题很常见。您将需要检查流程,这些数据来自何处,如果有一个步骤使用给定的编码保存数据,通常ppl提取数据并使用excel打开,例如,这通常会引入编码问题,至少根据我的经验。检查数据处理的每个步骤。我希望它有帮助,你仍然可以考虑回答的问题。不是tm或DocumentTermMatrix问题。你好@Dr Vcomas,谢谢你的回复。你说得对,问题已经在Deu de sample中了。检查输入数据,如果使用
编码(de_de.sample[36])
查询编码,它会显示“UTF-8”,但如果我应用
iconv(de_de.sample[36],to='UTF-8')
则会将字符显示为“.er single ist so die begerÃndung der behÃrde”。我不明白为什么它在编码应用转换时检测到UTF-8,或者我如何才能正确地读取数据。希望通过这些附加信息,有人知道如何解决此问题,并能帮助我。:)编码问题很常见。您将需要检查流程,这些数据来自何处,如果有一个步骤使用给定的编码保存数据,通常ppl提取数据并使用excel打开,例如,这通常会引入编码问题,至少根据我的经验。检查数据处理的每个步骤。我希望它有帮助,你仍然可以考虑回答的问题。不是tm或DocumentTerm矩阵问题。