Nlp 如何制作或获取财务文档语料库

Nlp 如何制作或获取财务文档语料库,nlp,Nlp,我正在处理财务报告/文档的文档分类问题。有现成的语料库吗?我发现了几个用例,但它们都有自己的语料库。你可以使用路透社21578语料库 这是测试分类的基本语料库。您很可能需要创建自己的语料库。我有一个类似的任务,手动创建这样一个语料库太乏味了。因此,我创建了一个python模块,允许您根据自己对主题的特殊兴趣快速开发语料库 该模块允许您生成自己的语料库,并将文本和相关标签存储在sqlite或平面文件中 from news_corpus_builder import NewsCorpusGenera

我正在处理财务报告/文档的文档分类问题。有现成的语料库吗?我发现了几个用例,但它们都有自己的语料库。

你可以使用路透社21578语料库


这是测试分类的基本语料库。

您很可能需要创建自己的语料库。我有一个类似的任务,手动创建这样一个语料库太乏味了。因此,我创建了一个python模块,允许您根据自己对主题的特殊兴趣快速开发语料库

该模块允许您生成自己的语料库,并将文本和相关标签存储在sqlite或平面文件中

from news_corpus_builder import NewsCorpusGenerator

# Location to save generated corpus
corpus_dir = '/Users/skillachie/finance_corpus'

# Save results to sqlite or  files per article 
ex = NewsCorpusGenerator(corpus_dir,'sqlite')

# Retrieve 50 links related to the search term dogs and assign a category of   Pet to the retrieved links
links = ex.google_news_search('dogs','Pet',50)

# Generate and save corpus
ex.generate_corpus(links)
更多关于我的

金融语料库可供下载。语料库分为以下几类:

  • 政策(许可证、监管、SEC、货币、美联储、货币、财政、imf)
  • 国际金融(全球金融、国际货币基金组织、欧洲央行、希腊问题、人民币贬值)
  • 经济(GDP、就业、失业、住房、经济)融资(ipo、股权)
  • 房地产
  • 合并与收购(合并、收购)
  • 石油(石油、石油价格、天然气价格)
  • 商品(商品、黄金、白银)
  • 欺诈(内幕交易、庞氏骗局、金融欺诈)
  • 诉讼(公司诉讼、公司结算)
  • 盈利报告

没问题。你可能也对这个笔记本感兴趣