Javascript 从网页中提取部分文本

Javascript 从网页中提取部分文本,javascript,python,Javascript,Python,我正在尝试为特定类型的报告生成getfile.do字符串列表,即“技术”报告。问题是报告“type”标记在字符串的末尾,因此代码应该读取字符串,如果报告标记签出,则应该返回并提取getfile.do(操作) 这是源网页(WWW.SEDAR.COM)的一个示例(有很多不需要的东西,但下面是我想要的。因此,如果我们阅读下面代码中的“技术报告”,我想提取操作信息(以便我可以使用它下载文档)。问题是许多页面链接都不相关 FORM name=“form1512323126173”action=“/GetF

我正在尝试为特定类型的报告生成getfile.do字符串列表,即“技术”报告。问题是报告“type”标记在字符串的末尾,因此代码应该读取字符串,如果报告标记签出,则应该返回并提取getfile.do(操作)

这是源网页(WWW.SEDAR.COM)的一个示例(有很多不需要的东西,但下面是我想要的。因此,如果我们阅读下面代码中的“技术报告”,我想提取操作信息(以便我可以使用它下载文档)。问题是许多页面链接都不相关

FORM name=“form1512323126173”action=“/GetFile.do lang=EN&docClass=24&issuerNo=00021020&issuerType=03&projectNo=02627564&d cId=4117642”方法=“post”target=“AcceptTermsOfUse”p HREF=“javascript:submitFiling(document.form1512323126173,'AcceptTermsOfUse');”标题=“&docClass=24&issuerNo=00021020&issuerType=03&projectNo=026 7564&docId=4117642”onmouseover=“window.status=”&docClass=24&issuerNo=000 1020&issuerType=03&projectNo=02627564&docId=4117642';返回true;“onmouseout=“window.status=”;返回true;“>技术报告(NI 43101)

下面是一个我不感兴趣的例子(在同一页上):

formname=“form1512323126172”action=“/GetFile.do lang=EN&docClass=24&issuerNo=00021020&issuerType=03&projectNo=02627564&d cId=4117645”method=“post”target=“AcceptTermsOfUse”PA HREF=“javascript:submitFiling(document.form1512323126172,'AcceptTermsOfU e”);“title=“&docClass=24&issuerNo=00021020&issuerType=03&projectNo=02627 64&docId=4145”“onmouseover=”window.status=”&docClass=24&issuerNo=00021020&issuerType=03&projectNo=02627564&docId=4117645';返回真;“onmouseout=”window.status=”;返回真;“>合格人员同意书(NI 43-101)

因此,综上所述,我希望看到以下结果:

action=“/GetFile.do lang=EN&docClass=24&issuerNo=00021020&issuerType=03&p项目编号=02627564&d cId=4117642

您可以将python库与

通过以下命令安装第三方库::

pip install beautifulsoup4
pip install requests

你尝试过什么吗?让我们知道你的方法中有一个问题。你似乎希望有人会为你做这项工作。很高兴做这项工作,只是需要一个正确的方向(作为新手)-