Machine learning 面向方面提取的监督学习方法_Machine Learning_Dataset_Nlp_Stanford Nlp_Sentiment Analysis

Machine learning 面向方面提取的监督学习方法

machine-learning nlp stanford-nlp

Machine learning 面向方面提取的监督学习方法,machine-learning,dataset,nlp,stanford-nlp,sentiment-analysis,Machine Learning,Dataset,Nlp,Stanford Nlp,Sentiment Analysis,我正在为旅游领域的在线旅游评论开发一个方面级情绪分析项目我有一个人类注释的数据集，它标记了方面术语和方面类别以及它们的情感极性比如, Sentence: This beach was a wonderful time for a day party it had a fun crowd and has a big bar with a great atmosphere. The food was delicious too. 上面的句子有以下方面的术语标记 {party#positiv

我正在为旅游领域的在线旅游评论开发一个方面级情绪分析项目

我有一个人类注释的数据集，它标记了方面术语和方面类别以及它们的情感极性

比如,

Sentence:

This beach was a wonderful time for a day party  it had a fun crowd and has a big bar with a great atmosphere. The food was delicious too.

上面的句子有以下方面的术语标记

{party#positive C} {crowd#positive C} {bar#positive C} {food#positive C}

以及以下方面类别

{entertainment#positive C} {accommodation#positive C}

我想尝试一种

监督学习

方法来训练一个从句子中分类方面术语的模型

我正在使用

stanfordcorenlp

库。但是对于训练数据格式应该是怎样的感到困惑？最好的方法是什么

我见过有人使用

IOB表示法来格式化训练数据，以训练NER
系统。我可以使用类似的方法来完成这项工作吗？如中所述，如何格式化训练数据文件，以便从输入句子中获得如上所述的方面术语
如果有人能给我指出正确的方向，我将非常感激。
这个问题可以通过将其分解为更小的子任务来解决。一种可能的管道方法可能是：
第一阶段是方面术语提取，它将识别原始文本中的方面术语。这也可以分解为两个子任务。首先，您的系统将需要在作为方面术语的文本中标记标记。让我们将这些标记的标记称为aspect术语。这称为命名实体识别（NER）。接下来，如果您有一组预定义的方面术语类，系统将需要将上一个任务中提到的方面术语链接到这些类。这称为实体链接。值得注意的是，在您给出的示例中，带标签的数据集还不适用于上述任务，因为标签未锚定在文本中。您可以通过猜测给定标签对应文本中的哪些标记来创建合适的数据集。这类似于远程监督工作
下一个任务是方面术语情绪分类卷积神经网络已用于句子和文档情感分类，但如果在输入时提供标记，则它们可能适合您的目的。这被称为本作品中的位置嵌入：
谢谢你的回复。请您详细说明为什么数据集不适合当前格式？它应该采用哪种格式？为了训练NER模型，您需要一个数据集，其中的实体标记为文本。IOB符号是实现这一点的一种方法。要创建这样的数据集，可以尝试通过字符串匹配将标签中的单词与文本对齐。不过，我不确定这会起多大作用。这真的取决于你的标签是什么。它们是类还是从文本中提取的单词？如果是后者，那么你几乎总能在文本中找到它们。谢谢你澄清@Sava。实际上，方面术语是由人类注释者从原始文本中提取的单词。通过使用您建议的字符串匹配机制，我想这是可以做到的。除了IOB符号，还有其他符号吗？如果你是从NLP开始的话，在论文的第13页上有一些信息也是一篇很好的论文。