Javascript 如何确定文本文件下载的基础URL_Javascript_Python_Url_Web Scraping

Javascript 如何确定文本文件下载的基础URL

javascript python url web-scraping

Javascript 如何确定文本文件下载的基础URL,javascript,python,url,web-scraping,Javascript,Python,Url,Web Scraping,在下面的页面上，可以下载一个txt文件。我对txt部分的第一个文件感兴趣如何获取URL。我能拉。我如何获得不存在的url 在python中包含java脚本今天是：volume.20110218.txt 你的问题有点模糊。听起来您想对urlib2和BeautifulSoup模块做点什么使用urllib2函数从基本URL获取HTML，使用BeautifulSoup解析它，并使用表中（第一个TXT？）锚标记的目标（src属性的值）打开另一个连接并提取这些内容。然后打开本地文件（或子流程），并将

在下面的页面上，可以下载一个txt文件。我对txt部分的第一个文件感兴趣

如何获取URL。我能拉。我如何获得不存在的url 在python中包含java脚本

今天是：volume.20110218.txt

你的问题有点模糊。听起来您想对

urlib2

和

BeautifulSoup

模块做点什么

使用

urllib2

函数从基本URL获取HTML，使用

BeautifulSoup

解析它，并使用表中（第一个TXT？）锚标记的目标（src属性的值）打开另一个连接并提取这些内容。然后打开本地文件（或子流程），并将第二次获取的内容提供给它

使用BeautifulSoup最困难的部分是找到唯一标识要提取的内容部分的特征。现代HTML非常难看，而且往往有许多外来垃圾被用来生成它的各种工具和库嵌入其中。（提示：单词“class”是Python保留的关键字，也是HTML中的一个常见属性。因此，您会发现通过将“class”属性/模式对包装在字典中，将它们传递给BeautifulSoup函数是最简单的：

{'class'：some_pattern}

而不是大多数其他参数所使用的更常见的

关键字=模式
要处理javascript，您可能需要阅读：

听起来您目前的最佳选择可能是将基于Java的包设置为网关，然后编写Python来连接并控制它。您还可以尝试控制真正的浏览器会话，并通过进程间通信机制从中提取信息。
该页面使用javascript链接提交隐藏表单以下载文件。表单隐藏字段似乎也由javascript填充
他们这样做似乎是为了让自动下载更难完成。如果他们不介意自动下载，要求他们提供一个更简单的界面，否则，停止尝试
更新：正如所评论的，它们确实有一个批处理接口：
主要问题是站点URL使用javascript.OK。你真正需要的是对自己的问题有一个清晰的理解，这将帮助你找到其他人对非常相似的问题的答案。在这种情况下，搜索的神奇词汇是：“web scraper”和“javascript”（现在添加这些标记；并添加指向最佳现有StackOverflow答案的链接以响应我的响应）；这可能比抓取更有帮助。我有，从那页上寻找数据。