Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/algorithm/12.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Algorithm 用于情绪分析的金融俚语和NLP_Algorithm_Twitter_Nlp_Finance_Sentiment Analysis - Fatal编程技术网

Algorithm 用于情绪分析的金融俚语和NLP

Algorithm 用于情绪分析的金融俚语和NLP,algorithm,twitter,nlp,finance,sentiment-analysis,Algorithm,Twitter,Nlp,Finance,Sentiment Analysis,我正在对推特进行情绪分析/意见挖掘,重点关注与金融相关的推特 我面临的最大问题之一是,当使用金融俚语时,我的算法无法检测等价实体(定义见B.Liu 2012:)。例如,对于熟悉它的人,我希望在柠檬化后将以下实体检测为等效实体: 政府债券=政府债券=主权债务 现金=货币 股票=股票 外汇=外汇=货币兑换=外汇 德国国债=德国债券=德国银行10y 国债=美国10=国库券=美国政府=美国主权债务 等等 以下是我的两个问题: 我曾考虑使用一些监督学习(朴素贝叶斯分类)来完成这类任务,但找不到任何用于

我正在对推特进行情绪分析/意见挖掘,重点关注与金融相关的推特

我面临的最大问题之一是,当使用金融俚语时,我的算法无法检测等价实体(定义见B.Liu 2012:)。例如,对于熟悉它的人,我希望在柠檬化后将以下实体检测为等效实体:

  • 政府债券=政府债券=主权债务
  • 现金=货币
  • 股票=股票
  • 外汇=外汇=货币兑换=外汇
  • 德国国债=德国债券=德国银行10y
  • 国债=美国10=国库券=美国政府=美国主权债务
  • 等等
以下是我的两个问题:

  • 我曾考虑使用一些监督学习(朴素贝叶斯分类)来完成这类任务,但找不到任何用于训练的分类数据集。你知道这样的数据集是否存在吗
  • 关于如何执行这项任务,您是否有其他想法

  • 谢谢。

    您可以通过编程方式构建一个简单的数据集,在谷歌上搜索与您的课程相匹配的新闻摘要。返回的摘要构成您的培训数据集(多个课程)。经过培训后,您将通过模型传递每个新的(相关的)tweet

    构建数据集

    是一些帮助抓取新闻摘要的代码。它是基于 贴在Kaggle上的笔记本。只需相应地修改搜索

    返回结果的一些示例(为简洁起见,将其剪掉)

    • “主权债务”+政府债券
      ,收益
      • “政府债券上涨,一年期收益率下跌三个基点……”
      • “俄罗斯主权债务连续第三天下跌,石油交易接近四个月低点……”
    • “T-Notes”
      ,返回
      • “投机者从2012年末以来的最高水平上减少了对美国10年期国债的净看涨赌注。”
      • “美国财政部每月举行七年期国债拍卖。”
    培训数据集

    您的训练数据集将类似于以下(句子、标签)元组

    • (“.成为一种安全的避风港运载工具,与10年前的1.7%相比美国政府,英国脱欧..”,
      国债
    • (“投机者从2012年末以来的最高水平上减少了对美国10年期国债的净看涨赌注,
      国债
    • 美国10年期国债的投机者净多头
    • (《美国股市在非农就业人数增加后创下历史新高》,
      股市
    • (“欧洲股票基准密切混合;汽车股票暴跌…”,
      股票
    • (在瑞士,政府债券期限最长,
      政府债券
    • (“.约1.6万亿美元的负收益主权债务
      政府债券

    希望这有帮助。

    你可以训练一个命名实体识别系统来完成这项工作。哇,看起来正是我需要的。非常感谢。让我再深入一点!谢谢