Sentiment analysis 是否有用于无监督培训的情绪论坛数据集?

Sentiment analysis 是否有用于无监督培训的情绪论坛数据集?,sentiment-analysis,unsupervised-learning,Sentiment Analysis,Unsupervised Learning,我最近完成了一门机器学习课程,想制作一个论坛情绪分析工具,将其应用于股票相关论坛 其想法是: 捕获(文本挖掘)用户的评论,并评估其评论的情绪(积极、消极、中立) 捕捉这些评论之后发生的事情(股市),并相应地为用户分配权重(如果用户的情绪是正确的,并且市场遵循相同的方向,则权重更大) 将评论作为预测市场方向的工具 事实上,我自己做(关注论坛)加上我自己的技术分析和强制性尽职调查,这对我来说非常有效。我只是想尝试将其自动化一点,甚至允许一个程序来处理我的一些帐户(首先是纸面交易,如果它表现良好,在真

我最近完成了一门机器学习课程,想制作一个论坛情绪分析工具,将其应用于股票相关论坛

其想法是:

  • 捕获(文本挖掘)用户的评论,并评估其评论的情绪(积极、消极、中立)
  • 捕捉这些评论之后发生的事情(股市),并相应地为用户分配权重(如果用户的情绪是正确的,并且市场遵循相同的方向,则权重更大)
  • 将评论作为预测市场方向的工具
  • 事实上,我自己做(关注论坛)加上我自己的技术分析和强制性尽职调查,这对我来说非常有效。我只是想尝试将其自动化一点,甚至允许一个程序来处理我的一些帐户(首先是纸面交易,如果它表现良好,在真实帐户中分配一些资金)

    这将是我的第一个机器学习项目(只是作为一个概念的证明),所以任何意见将非常感谢

    我发现的最大问题是,我想进行一次无监督的培训,我需要一个样本数据集来进行培训

    问题:是否有任何已知的论坛情绪数据集可用于无监督培训?


    我已经找到了一些情绪数据集(twitter、imbd、亚马逊评论),但它们非常特定于它们的利基(短信、电影、产品……),但我正在寻找更一般的数据。

    因为您正在寻找一种无监督的方法,所以您可以使用与“真实案例场景”匹配的任何数据集。文本挖掘和情感分析通常是针对手头的问题定制的,因此很容易直接从真实数据开始。最好的方法是建立一个刮板,直接抓取你想要分析的论坛帖子。使用Python(beautifulsoup/selenium)可以非常轻松地构建刮板。网上有很多不错的教程,例如:

    因为你正在寻找一种无监督的方法,你可以使用任何一组与你的“真实案例场景”相匹配的数据。文本挖掘和情感分析通常是针对手头的问题定制的,因此很容易直接从真实数据开始。最好的方法是建立一个刮板,直接抓取你想要分析的论坛帖子。使用Python(beautifulsoup/selenium)可以非常轻松地构建刮板。网上有很多不错的教程,例如:

    谢谢;我没有从网站上删除数据的问题;我的问题是如何为每条评论指定一个有效的情绪值(积极、消极、中立),以便我可以使用该数据集进行无监督的培训。@ptolomeoxi如果需要为每条评论指定一个积极/消极/中立的标签,你不是真的在进行监督学习吗?很抱歉,Ptolomeo,可能我误解了你的问题,但我同意Darren的观点,如果你想为你的数据集的每个样本分配一个实验室,那么你就是在寻找一种有监督的方法。在无监督学习中,你不需要数据的标签;我没有从网站上删除数据的问题;我的问题是如何为每条评论指定一个有效的情绪值(积极、消极、中立),以便我可以使用该数据集进行无监督的培训。@ptolomeoxi如果需要为每条评论指定一个积极/消极/中立的标签,你不是真的在进行监督学习吗?很抱歉,Ptolomeo,可能我误解了你的问题,但我同意Darren的观点,如果你想为你的数据集的每个样本分配一个实验室,那么你就是在寻找一种有监督的方法。在无监督学习中,您不需要数据的标签。