Javascript 如何确定文本文件下载的基础URL

Javascript 如何确定文本文件下载的基础URL,javascript,python,url,web-scraping,Javascript,Python,Url,Web Scraping,在下面的页面上,可以下载一个txt文件。 我对txt部分的第一个文件感兴趣 如何获取URL。我能拉。我如何获得不存在的url 在python中包含java脚本 今天是:volume.20110218.txt 你的问题有点模糊。听起来您想对urlib2和BeautifulSoup模块做点什么 使用urllib2函数从基本URL获取HTML,使用BeautifulSoup解析它,并使用表中(第一个TXT?)锚标记的目标(src属性的值)打开另一个连接并提取这些内容。然后打开本地文件(或子流程),并将

在下面的页面上,可以下载一个txt文件。 我对txt部分的第一个文件感兴趣

如何获取URL。我能拉。我如何获得不存在的url 在python中包含java脚本

今天是:volume.20110218.txt


你的问题有点模糊。听起来您想对
urlib2
BeautifulSoup
模块做点什么

使用
urllib2
函数从基本URL获取HTML,使用
BeautifulSoup
解析它,并使用表中(第一个TXT?)锚标记的目标(src属性的值)打开另一个连接并提取这些内容。然后打开本地文件(或子流程),并将第二次获取的内容提供给它

使用BeautifulSoup最困难的部分是找到唯一标识要提取的内容部分的特征。现代HTML非常难看,而且往往有许多外来垃圾被用来生成它的各种工具和库嵌入其中。(提示:单词“class”是Python保留的关键字,也是HTML中的一个常见属性。因此,您会发现通过将“class”属性/模式对包装在字典中,将它们传递给BeautifulSoup函数是最简单的:
{'class':some_pattern}
而不是大多数其他参数所使用的更常见的
关键字=模式

要处理javascript,您可能需要阅读:


听起来您目前的最佳选择可能是将基于Java的包设置为网关,然后编写Python来连接并控制它。您还可以尝试控制真正的浏览器会话,并通过进程间通信机制从中提取信息。

该页面使用javascript链接提交隐藏表单以下载文件。表单隐藏字段似乎也由javascript填充

他们这样做似乎是为了让自动下载更难完成。如果他们不介意自动下载,要求他们提供一个更简单的界面,否则,停止尝试

更新:正如所评论的,它们确实有一个批处理接口:


主要问题是站点URL使用javascript.OK。你真正需要的是对自己的问题有一个清晰的理解,这将帮助你找到其他人对非常相似的问题的答案。在这种情况下,搜索的神奇词汇是:“web scraper”和“javascript”(现在添加这些标记;并添加指向最佳现有StackOverflow答案的链接以响应我的响应);这可能比抓取更有帮助。我有,从那页上寻找数据。