Python 确定网站上某些文本的来源

Python 确定网站上某些文本的来源,python,html,bash,Python,Html,Bash,我正在尝试编写一个bash脚本,从中下载当天的照片,将其设置为桌面背景,并将页面上的图片描述放在桌面上的文本文件中。(我知道有些脚本可以做到这一点,但NG最近更改了POTD页面,它们不再工作。) 我已经下载了这张图片并成为桌面背景,但我一直在思考如何下载图片的完整描述(网站图片下方的描述,而不是标题元数据中的较短版本)。问题是,我的脚本使用curl(或wget)下载的页面中没有出现描述。不过,在浏览器中查看时,它显然存在 如果描述文本不在html文件中,它从何而来?如何下载/解析描述,最好使用b

我正在尝试编写一个bash脚本,从中下载当天的照片,将其设置为桌面背景,并将页面上的图片描述放在桌面上的文本文件中。(我知道有些脚本可以做到这一点,但NG最近更改了POTD页面,它们不再工作。)

我已经下载了这张图片并成为桌面背景,但我一直在思考如何下载图片的完整描述(网站图片下方的描述,而不是标题元数据中的较短版本)。问题是,我的脚本使用
curl
(或
wget
)下载的页面中没有出现描述。不过,在浏览器中查看时,它显然存在

如果描述文本不在html文件中,它从何而来?如何下载/解析描述,最好使用bash或python


感谢您的帮助。

国家地理页面的html中包含以下属性:

data-platform-endpoint="http://www.nationalgeographic.com/photography/photo-of-the-day/_jcr_content/.gallery.2016-09.json"
您查找的标题位于该URL指向的JSON文件中。例如,在今天版本的JSON文件中,我们发现:

"caption":"<p>A giraffe leads a herd of zebras as the animals stamede from a threat unseen. Your Shot photographer Mohammed AlNaser captured this image in Tanzania\u2019s Serengeti National Park. The zebras \u201cemerged from nowhere,\u201d AlNaser writes. \u201cThey were obviously drinking water and something scared them and created a few seconds of a chaos.\u201d<\/p>\n"
“标题”:“一只长颈鹿牵着一群斑马,斑马从一个看不见的威胁中逃跑。您的摄影师穆罕默德·阿尔纳瑟在坦桑尼亚塞伦盖蒂国家公园拍摄了这张照片。阿尔纳瑟写道,斑马不知从何而来\U201C他们显然在喝水,有什么东西吓了他们一跳,造成了几秒钟的混乱。\u201d\n“

太棒了!谢谢。如果你不介意我问你,你是如何找到它的?@sc8ing在国家地理页面以Chromium打开的情况下,右键单击感兴趣的部分、标题,然后选择“检查”。“将打开一个包含开发人员工具的面板。然后,探索。。。。在我找到了有前途的JSON数据链接后,我用
wget
下载了它,以验证它是否包含感兴趣的内容。非常感谢!