Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/r/72.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/5/spring-mvc/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
用于文本分析的Quanteda findSequence函数-R包的输出定义_R_Quanteda - Fatal编程技术网

用于文本分析的Quanteda findSequence函数-R包的输出定义

用于文本分析的Quanteda findSequence函数-R包的输出定义,r,quanteda,R,Quanteda,快速问题: R文本分析包Quanteda-findSequence提供了以下输出,我在某些列上找不到文档: seqs <- findSequences(tokens, types_upper, count_min=2) head(seqs, 3) sequence len z p mue 3 first time 2 -0.4159751 0.6612859 -165.7366

快速问题:

R文本分析包Quanteda-findSequence提供了以下输出,我在某些列上找不到文档:

seqs <- findSequences(tokens, types_upper, count_min=2)
head(seqs, 3)
              sequence len          z         p       mue
     3         first time   2 -0.4159751 0.6612859 -165.7366
     8  political parties   2 -0.4159751 0.6612859 -165.7366
     9   preserve protect   2 -0.4159751 0.6612859 -165.7366

seqs查看函数代码,然后检查论文,
z
根据λ(对数优势比)和σ(渐近标准误差)计算得出。这是一个z分数,就像Pierre评论的那样,
p
是一个概率
1-stats::pnorm(z)

mue
在Blaheta和Johnson的“多词动词的无监督学习”第2.3节第二段中进行了解释。“µ=λ”− 3.29σ…这对应于将度量值µ和µ1设置为λ…的0.001置信区间的下限,这是一种在面对噪声数据时进行精确交易召回的系统方法(Johnson,2001)。”

如果您转到第2.3节,您可以看到更多详细信息:

我们提出了两种不同的关联度量µ和µ1,我们 调用下面的“所有子元组”和“单克子元组”度量。正如我们 下面解释一下,它们似乎识别了非常不同的类型 搭配,所以在某些情况下两者都很有用。这些 度量值分别是λ和λ1的估计值,它们是特定的 某些对数线性模型的参数。在计数为 λ和λ1的估计值可能会很小,因此 在比较时,应以某种方式对小计数数据进行折扣 使用来自大计数数据的值。我们通过估算 λ和λ1的渐近标准误差σ和σ1,并设置µ = λ − 3.29σ和µ1=λ1− 3.29σ1. 这对应于将度量值µ和µ1设置为0.001置信区间的下限 分别针对λ和λ1,这是一种系统的交易召回方式 对于噪声数据的精确性(Johnson,2001)


与计算λ和σ有关的详细信息(以及其他参考资料)也在第2.3节中。这是一个好问题,但在这里可能不是最好的。我建议迁移到交叉验证。他们可能会将其发回,但熟悉该过程的人可能会提供帮助。从函数详细信息来看,
z
似乎是一个z分数,
p
是获得该分数的概率,
mue
是平均值。但是也许其他人可以检查一下。谢谢皮埃尔-谢谢!注:这是一个实验函数,在v0.9.9中重命名为
序列