Html 10-K EDGAR的刮网风险因素_Html_Python 3.x_Regex_Web Scraping_Beautifulsoup

Html 10-K EDGAR的刮网风险因素

html python-3.x regex web-scraping

Html 10-K EDGAR的刮网风险因素,html,python-3.x,regex,web-scraping,beautifulsoup,Html,Python 3.x,Regex,Web Scraping,Beautifulsoup,是否有人试图使用BeautifulSoup或任何其他网页抓取库以及正则表达式，从风险因素部分（即EDGAR 10-K文件中的第1A项）提取单个风险因素如果您可以提供github或伪代码，或者至少提供一些headstart，这样我就可以继续前进，这将非常有帮助编辑： 10KS的一些例子我已经给出了不止一个例子，因为HTML代码在所有的例子中都是随机的，所以使用单一类型的正则表达式非常困难。我花了很多时间尝试使用正则表达式开发一种方法，但取得了一些有限的成功。问题在于提交给SEC的底

是否有人试图使用BeautifulSoup或任何其他网页抓取库以及正则表达式，从风险因素部分（即EDGAR 10-K文件中的第1A项）提取单个风险因素

如果您可以提供github或伪代码，或者至少提供一些headstart，这样我就可以继续前进，这将非常有帮助

编辑： 10KS的一些例子

我已经给出了不止一个例子，因为HTML代码在所有的例子中都是随机的，所以使用单一类型的正则表达式非常困难。

我花了很多时间尝试使用正则表达式开发一种方法，但取得了一些有限的成功。问题在于提交给SEC的底层XML并没有严格遵守标准，而且许多报告偏离了使用的报告格式。有时，他们会使用大写字母、标题或不同的字母和数字组合来描绘章节。有时，它们会包含介绍性段落，为即将列出的风险提供额外的上下文。有太多的随机因素干扰了为文档结构建立任何类型的模式的能力，因此目前由人工解析这些模式比机器解析更有效。但是，有成千上万的文档，这使得这是一个非常乏味、昂贵和冗长的过程。一种可能有用的方法是亚马逊的机械土耳其人，但这仍可能需要大量前期开发时间，并可能导致成本限制，除非项目资金充足。

您能否分享包含第1A节的样本10-K填充的URL？我已编辑了问题，请检查。您需要提取哪些信息？整个1A部分作为文本？是的，第1A项之间的文本。第1B项的风险因素。中间的文本被标题（可能是粗体或斜体）分成几个部分，所有这些标题都有不同的主题。所以我需要在不同的文本文件中提取所有这些部分。