Algorithm 用于情绪分析的金融俚语和NLP
我正在对推特进行情绪分析/意见挖掘,重点关注与金融相关的推特 我面临的最大问题之一是,当使用金融俚语时,我的算法无法检测等价实体(定义见B.Liu 2012:)。例如,对于熟悉它的人,我希望在柠檬化后将以下实体检测为等效实体:Algorithm 用于情绪分析的金融俚语和NLP,algorithm,twitter,nlp,finance,sentiment-analysis,Algorithm,Twitter,Nlp,Finance,Sentiment Analysis,我正在对推特进行情绪分析/意见挖掘,重点关注与金融相关的推特 我面临的最大问题之一是,当使用金融俚语时,我的算法无法检测等价实体(定义见B.Liu 2012:)。例如,对于熟悉它的人,我希望在柠檬化后将以下实体检测为等效实体: 政府债券=政府债券=主权债务 现金=货币 股票=股票 外汇=外汇=货币兑换=外汇 德国国债=德国债券=德国银行10y 国债=美国10=国库券=美国政府=美国主权债务 等等 以下是我的两个问题: 我曾考虑使用一些监督学习(朴素贝叶斯分类)来完成这类任务,但找不到任何用于
- 政府债券=政府债券=主权债务
- 现金=货币
- 股票=股票
- 外汇=外汇=货币兑换=外汇
- 德国国债=德国债券=德国银行10y
- 国债=美国10=国库券=美国政府=美国主权债务
- 等等
谢谢。您可以通过编程方式构建一个简单的数据集,在谷歌上搜索与您的课程相匹配的新闻摘要。返回的摘要构成您的培训数据集(多个课程)。经过培训后,您将通过模型传递每个新的(相关的)tweet 构建数据集 是一些帮助抓取新闻摘要的代码。它是基于 贴在Kaggle上的笔记本。只需相应地修改搜索 返回结果的一些示例(为简洁起见,将其剪掉)
,收益“主权债务”+政府债券
- “政府债券上涨,一年期收益率下跌三个基点……”
- “俄罗斯主权债务连续第三天下跌,石油交易接近四个月低点……”
,返回“T-Notes”
- “投机者从2012年末以来的最高水平上减少了对美国10年期国债的净看涨赌注。”
- “美国财政部每月举行七年期国债拍卖。”
- (“.成为一种安全的避风港运载工具,与10年前的1.7%相比美国政府,英国脱欧..”,
)国债
- (“投机者从2012年末以来的最高水平上减少了对美国10年期国债的净看涨赌注,
)国债
- (
美国10年期国债的投机者净多头
- (《美国股市在非农就业人数增加后创下历史新高》,
)股市
- (“欧洲股票基准密切混合;汽车股票暴跌…”,
股票
)
- (在瑞士,政府债券期限最长,
)政府债券
- (“.约1.6万亿美元的负收益主权债务,
)政府债券
希望这有帮助。你可以训练一个命名实体识别系统来完成这项工作。哇,看起来正是我需要的。非常感谢。让我再深入一点!谢谢