Python 简单的动态网页抓取-无需BeautifulSoup

Python 简单的动态网页抓取-无需BeautifulSoup,python,dynamic,web,screen-scraping,Python,Dynamic,Web,Screen Scraping,我正忙着抓取一个动态网站,以便获得一个URL,每次游戏更新时,我都可以用它下载服务器软件 该网站是“http://craftstud.io/builds而上面写着“服务器XX.X.X.X”的地方正是我想要抓取的地方 我真的不想让Javascript和外部模块变得复杂,所以如果有一个简单的解决方案,我会洗耳恭听 我一辈子也不能安装第三方模块,比如BeautifulSoup(愚蠢的Windows) 谢谢大家

我正忙着抓取一个动态网站,以便获得一个URL,每次游戏更新时,我都可以用它下载服务器软件

该网站是“http://craftstud.io/builds而上面写着“服务器XX.X.X.X”的地方正是我想要抓取的地方

我真的不想让Javascript和外部模块变得复杂,所以如果有一个简单的解决方案,我会洗耳恭听

我一辈子也不能安装第三方模块,比如BeautifulSoup(愚蠢的Windows)


谢谢大家
也就是说,如果你可以通过pip安装,你会发现它在未来有很多用途。(请确保您使用
pip-install-BeautifulSoup4
而不是
pip-install-BeautifulSoup
我几天前刚刚在windows机器上安装了一个副本。)

我相信有时不安装第三方模块是有正当理由的;在您的情况下,您可以学习如何在windows中使用easy_install或pip。这可以很容易地通过谷歌搜索完成,而且你将不再局限于标准库。Windows有什么问题吗?您可以使用pip/easy_install安装任何模块,也可以将其放在项目目录中。使用标准库解析html比安装第三方模块复杂得多。试着去做,如果你陷入困境,回来寻求帮助。@dm03514-是的,这是有正当理由的。我正忙于在Windows for Linux上编程,最终可能会在多个Linux VP上分发脚本。因此,我不想总是对所有试图找到丢失模块的服务器进行故障排除。嘿,谢谢你的示例。然而,我没有使用完全相同的方法。最后我用字符串加“*\”替换了re.search,“*\”表示任意字符,*表示连续重复,然后\表示在找到之后的文本时停止重复。谢谢你!
>>> import re
>>> import urllib2
>>> html = urllib2.urlopen("http://craftstud.io/builds").read()
>>> re.search(r"Server \d+\.\d+\.\d+\.\d+", html).group()
'Server 0.1.24.1'