用于文本分析的Quanteda findSequence函数-R包的输出定义_R_Quanteda

用于文本分析的Quanteda findSequence函数-R包的输出定义

用于文本分析的Quanteda findSequence函数-R包的输出定义,r,quanteda,R,Quanteda,快速问题： R文本分析包Quanteda-findSequence提供了以下输出，我在某些列上找不到文档： seqs <- findSequences(tokens, types_upper, count_min=2) head(seqs, 3) sequence len z p mue 3 first time 2 -0.4159751 0.6612859 -165.7366

快速问题：

R文本分析包Quanteda-findSequence提供了以下输出，我在某些列上找不到文档：

seqs <- findSequences(tokens, types_upper, count_min=2)
head(seqs, 3)
              sequence len          z         p       mue
     3         first time   2 -0.4159751 0.6612859 -165.7366
     8  political parties   2 -0.4159751 0.6612859 -165.7366
     9   preserve protect   2 -0.4159751 0.6612859 -165.7366

seqs查看函数代码，然后检查论文，z
根据λ（对数优势比）和σ（渐近标准误差）计算得出。这是一个z分数，就像Pierre评论的那样，p
是一个概率1-stats:：pnorm（z）

mue
在Blaheta和Johnson的“多词动词的无监督学习”第2.3节第二段中进行了解释。“µ=λ”− 3.29σ…这对应于将度量值µ和µ1设置为λ…的0.001置信区间的下限，这是一种在面对噪声数据时进行精确交易召回的系统方法（Johnson，2001）。”
如果您转到第2.3节，您可以看到更多详细信息：
我们提出了两种不同的关联度量µ和µ1，我们
调用下面的“所有子元组”和“单克子元组”度量。正如我们
下面解释一下，它们似乎识别了非常不同的类型
搭配，所以在某些情况下两者都很有用。这些
度量值分别是λ和λ1的估计值，它们是特定的
某些对数线性模型的参数。在计数为
λ和λ1的估计值可能会很小，因此
在比较时，应以某种方式对小计数数据进行折扣
使用来自大计数数据的值。我们通过估算
λ和λ1的渐近标准误差σ和σ1，并设置µ
= λ − 3.29σ和µ1=λ1− 3.29σ1. 这对应于将度量值µ和µ1设置为0.001置信区间的下限
分别针对λ和λ1，这是一种系统的交易召回方式
对于噪声数据的精确性（Johnson，2001）
与计算λ和σ有关的详细信息（以及其他参考资料）也在第2.3节中。这是一个好问题，但在这里可能不是最好的。我建议迁移到交叉验证。他们可能会将其发回，但熟悉该过程的人可能会提供帮助。从函数详细信息来看，z
似乎是一个z分数，p
是获得该分数的概率，mue
是平均值。但是也许其他人可以检查一下。谢谢皮埃尔-谢谢！注：这是一个实验函数，在v0.9.9中重命名为序列
。