下载python中的所有外部和内部javascript文件

下载python中的所有外部和内部javascript文件,python,web-scraping,Python,Web Scraping,我想知道如何从网页下载所有外部javascripts文件和内部javascript代码。是否有任何库或示例可以开始 是Python中广泛使用的web抓取库 下面是一个简单的示例,演示如何检索页面中的JavaScript源路径和内部脚本: from bs4 import BeautifulSoup import urllib2 url = "http://example.com/" soup = BeautifulSoup(urllib2.urlopen(url).read()) sourc

我想知道如何从网页下载所有外部javascripts文件和内部javascript代码。是否有任何库或示例可以开始

是Python中广泛使用的web抓取库

下面是一个简单的示例,演示如何检索页面中的JavaScript源路径和内部脚本:

from bs4 import BeautifulSoup
import urllib2

url = "http://example.com/"
soup = BeautifulSoup(urllib2.urlopen(url).read()) 

sources = []
scripts = []

for script in soup('script', {'type': 'text/javascript'}):
    src = script.get('src')
    if src:  
        sources.append(src)   
    else:  
        scripts.append(script.text)

print scripts
print sources

谢谢你,因为我的名声有限,我不能给你的答案打分。我必须挖掘更多信息来隔离“脚本”和外部“源”中的javascript函数,然后对“源”进行wget。