R 计算Quanteda语料库中每个文档中的某些字母

R 计算Quanteda语料库中每个文档中的某些字母,r,data-science,quanteda,R,Data Science,Quanteda,具体来说,我需要计算每个文档中每个元音的频率:e和I为“高”元音;a、 o和u为“低”元音 有没有一种方法可以计算R中quanteda语料库中每个文档中特定字母的频率? 到目前为止,我只遇到在单词或句子级别上操作的函数,如token\u select()或ntoken() 欢迎任何帮助。我考虑了一个正则表达式模式,但我不确定如何将它应用到Quanteda语料库中的每个文档,并从中获得计数 下面是一个最基本的工作示例: require(quanteda) text1 <- "Th

具体来说,我需要计算每个文档中每个元音的频率:e和I为“高”元音;a、 o和u为“低”元音

有没有一种方法可以计算R中quanteda语料库中每个文档中特定字母的频率? 到目前为止,我只遇到在单词或句子级别上操作的函数,如
token\u select()
ntoken()

欢迎任何帮助。我考虑了一个正则表达式模式,但我不确定如何将它应用到Quanteda语料库中的每个文档,并从中获得计数

下面是一个最基本的工作示例:

require(quanteda)

text1 <- "This is some gibberish for you."
text2 <- "Some more gibberish. Enjoy!"
text3 <- "Gibber, gibber, gibber away."

corp <- rbind(text1, text2, text3) %>% 
  quanteda::corpus() 
require(quanteda)

text1您希望将文本标记为字符,然后使用字典将元音映射为两类高元音和低元音。以下是方法:

库(“quanteda”)
##软件包版本:2.1.2

text1工作起来很有魅力。感觉我从你的回复中学到了很多。我以前不知道dictionary()方法有多强大。现在我想到了很多用例。非常感谢你!