Html 10-K EDGAR的刮网风险因素

Html 10-K EDGAR的刮网风险因素,html,python-3.x,regex,web-scraping,beautifulsoup,Html,Python 3.x,Regex,Web Scraping,Beautifulsoup,是否有人试图使用BeautifulSoup或任何其他网页抓取库以及正则表达式,从风险因素部分(即EDGAR 10-K文件中的第1A项)提取单个风险因素 如果您可以提供github或伪代码,或者至少提供一些headstart,这样我就可以继续前进,这将非常有帮助 编辑: 10KS的一些例子 我已经给出了不止一个例子,因为HTML代码在所有的例子中都是随机的,所以使用单一类型的正则表达式非常困难。我花了很多时间尝试使用正则表达式开发一种方法,但取得了一些有限的成功。问题在于提交给SEC的底

是否有人试图使用BeautifulSoup或任何其他网页抓取库以及正则表达式,从风险因素部分(即EDGAR 10-K文件中的第1A项)提取单个风险因素

如果您可以提供github或伪代码,或者至少提供一些headstart,这样我就可以继续前进,这将非常有帮助

编辑: 10KS的一些例子


  • 我已经给出了不止一个例子,因为HTML代码在所有的例子中都是随机的,所以使用单一类型的正则表达式非常困难。

    我花了很多时间尝试使用正则表达式开发一种方法,但取得了一些有限的成功。问题在于提交给SEC的底层XML并没有严格遵守标准,而且许多报告偏离了使用的报告格式。有时,他们会使用大写字母、标题或不同的字母和数字组合来描绘章节。有时,它们会包含介绍性段落,为即将列出的风险提供额外的上下文。有太多的随机因素干扰了为文档结构建立任何类型的模式的能力,因此目前由人工解析这些模式比机器解析更有效。但是,有成千上万的文档,这使得这是一个非常乏味、昂贵和冗长的过程。一种可能有用的方法是亚马逊的机械土耳其人,但这仍可能需要大量前期开发时间,并可能导致成本限制,除非项目资金充足。

    您能否分享包含第1A节的样本10-K填充的URL?我已编辑了问题,请检查。您需要提取哪些信息?整个1A部分作为文本?是的,第1A项之间的文本。第1B项的风险因素。中间的文本被标题(可能是粗体或斜体)分成几个部分,所有这些标题都有不同的主题。所以我需要在不同的文本文件中提取所有这些部分。