Nlp 调试Baum-Welch算法的实现（用于词性标注）_Nlp_Pos Tagger_Unsupervised Learning

Nlp 调试Baum-Welch算法的实现（用于词性标注）

nlp

Nlp 调试Baum-Welch算法的实现（用于词性标注）,nlp,pos-tagger,unsupervised-learning,Nlp,Pos Tagger,Unsupervised Learning,我正在做一个项目，其中一部分是开发一个用于词性标注的无监督HMM培训器，我现在想测试可能存在的错误我正在使用Baum-Welch算法来训练模型。输入是顺序词（从语料库中提取），输出是一组状态的隐藏状态序列（s1，s2，…sn）。我现在已经完成了编码，但我不确定它是否没有bug 有人能给我一些调试的建议吗？我应该在输出中签入什么？如何检查我的算法的准确性？无监督词性标注是一个非常有趣的新兴研究课题。如果我理解正确，您实际上是在问如何评估标记的准确性，而不是如何调试代码。评估是无监督POS归纳中

我正在做一个项目，其中一部分是开发一个用于词性标注的无监督HMM培训器，我现在想测试可能存在的错误

我正在使用Baum-Welch算法来训练模型。输入是顺序词（从语料库中提取），输出是一组状态的隐藏状态序列

（s1，s2，…sn）

。我现在已经完成了编码，但我不确定它是否没有bug

有人能给我一些调试的建议吗？我应该在输出中签入什么？如何检查我的算法的准确性？

无监督词性标注是一个非常有趣的新兴研究课题。如果我理解正确，您实际上是在问如何评估标记的准确性，而不是如何调试代码。评估是无监督POS归纳中的一个已知问题。对你的问题的简短回答是：从开始，然后将你的状态映射到语料库标记，方法是将状态映射到最常与之同时出现的标记，并找到正确的标记的百分比。此评估过程称为多对一映射

你应该让自己熟悉这些文献，因为它会回答你的问题和更多问题。以下是一些开始的地方：

早期论文：
马克·约翰逊。2007为什么他们找不到好的HMM POS标签？2007年自然语言处理和计算自然语言学习中的经验方法联合会议论文集（EMNLP CoNLL），第296-305页
调查文件：
Christos Christodoulopoulos、Sharon Goldwater和Mark Steedman。2010二十年的无监督POS导入：我们已经走了多远？在EMNLP 2010年会议记录中

例如，当你说“无监督”时，你应该问问自己，你是只想使用原始文本，还是还想使用字典。这方面也有研究

此外，还有可用于该任务的代码

另一个询问NLP的地方是：

如果您还有其他问题，请不要犹豫。无监督词性标注是一个非常有趣的新兴研究课题。如果我理解正确，您实际上是在问如何评估标记的准确性，而不是如何调试代码。评估是无监督POS归纳中的一个已知问题。对你的问题的简短回答是：从开始，然后将你的状态映射到语料库标记，方法是将状态映射到最常与之同时出现的标记，并找到正确的标记的百分比。此评估过程称为多对一映射

你应该让自己熟悉这些文献，因为它会回答你的问题和更多问题。以下是一些开始的地方：

早期论文：
马克·约翰逊。2007为什么他们找不到好的HMM POS标签？2007年自然语言处理和计算自然语言学习中的经验方法联合会议论文集（EMNLP CoNLL），第296-305页
调查文件：
Christos Christodoulopoulos、Sharon Goldwater和Mark Steedman。2010二十年的无监督POS导入：我们已经走了多远？在EMNLP 2010年会议记录中

例如，当你说“无监督”时，你应该问问自己，你是只想使用原始文本，还是还想使用字典。这方面也有研究

此外，还有可用于该任务的代码

另一个询问NLP的地方是：

如果您还有其他问题，请随时提问。

您好，首先感谢您的回答和我尚未处于评估阶段的参考资料。现在我更关心的是我的实施技术的准确性。从我以前实施NLP问题的经验中，我了解到最小的错误可能会导致不同的输出（可能是因为我糟糕的编码风格）。在这种情况下，我没有任何可匹配的样本检查点，我所拥有的只是《华尔街日报》语料库（有标签和无标签）&我的实验目标是学习一些具有不同参数配置的无监督标记。您好，首先感谢您的回答和我尚未处于评估阶段的参考资料。现在我更关心的是我的实现技术的准确性。从我以前实施NLP问题的经验中，我了解到最小的错误可能会导致不同的输出（可能是因为我糟糕的编码风格）。在这种情况下，我没有任何可匹配的样本检查点，我所拥有的只是《华尔街日报》语料库（有标签和无标签）&我的实验目标是学习一些具有不同参数配置的无监督标记。