用于文本分析的Quanteda findSequence函数-R包的输出定义
快速问题: R文本分析包Quanteda-findSequence提供了以下输出,我在某些列上找不到文档:用于文本分析的Quanteda findSequence函数-R包的输出定义,r,quanteda,R,Quanteda,快速问题: R文本分析包Quanteda-findSequence提供了以下输出,我在某些列上找不到文档: seqs <- findSequences(tokens, types_upper, count_min=2) head(seqs, 3) sequence len z p mue 3 first time 2 -0.4159751 0.6612859 -165.7366
seqs <- findSequences(tokens, types_upper, count_min=2)
head(seqs, 3)
sequence len z p mue
3 first time 2 -0.4159751 0.6612859 -165.7366
8 political parties 2 -0.4159751 0.6612859 -165.7366
9 preserve protect 2 -0.4159751 0.6612859 -165.7366
seqs查看函数代码,然后检查论文,z
根据λ(对数优势比)和σ(渐近标准误差)计算得出。这是一个z分数,就像Pierre评论的那样,p
是一个概率1-stats::pnorm(z)
mue
在Blaheta和Johnson的“多词动词的无监督学习”第2.3节第二段中进行了解释。“µ=λ”− 3.29σ…这对应于将度量值µ和µ1设置为λ…的0.001置信区间的下限,这是一种在面对噪声数据时进行精确交易召回的系统方法(Johnson,2001)。”
如果您转到第2.3节,您可以看到更多详细信息:
我们提出了两种不同的关联度量µ和µ1,我们
调用下面的“所有子元组”和“单克子元组”度量。正如我们
下面解释一下,它们似乎识别了非常不同的类型
搭配,所以在某些情况下两者都很有用。这些
度量值分别是λ和λ1的估计值,它们是特定的
某些对数线性模型的参数。在计数为
λ和λ1的估计值可能会很小,因此
在比较时,应以某种方式对小计数数据进行折扣
使用来自大计数数据的值。我们通过估算
λ和λ1的渐近标准误差σ和σ1,并设置µ
= λ − 3.29σ和µ1=λ1− 3.29σ1. 这对应于将度量值µ和µ1设置为0.001置信区间的下限
分别针对λ和λ1,这是一种系统的交易召回方式
对于噪声数据的精确性(Johnson,2001)
与计算λ和σ有关的详细信息(以及其他参考资料)也在第2.3节中。这是一个好问题,但在这里可能不是最好的。我建议迁移到交叉验证。他们可能会将其发回,但熟悉该过程的人可能会提供帮助。从函数详细信息来看,z
似乎是一个z分数,p
是获得该分数的概率,mue
是平均值。但是也许其他人可以检查一下。谢谢皮埃尔-谢谢!注:这是一个实验函数,在v0.9.9中重命名为序列
。