Python 有没有办法从数百个URL列表中删除facebook帐户链接

Python 有没有办法从数百个URL列表中删除facebook帐户链接,python,facebook,screen-scraping,Python,Facebook,Screen Scraping,我有一个超过1500个与印度新闻媒体网站相关的URL列表。作为我大学项目的一部分,我有兴趣进行一些统计 长话短说,我很想知道这些网站的主页上有哪些链接到他们的Facebook账户?这样做将是一项乏味的任务(到目前为止,我已经完成了其中的25%),因此我一直在通过网络研究是否有可能用程序删除这些网站。我在scraperwiki上看到过scraper,并且主要在Google文档中看到了importxml功能,但是,到目前为止,我在这两个方面都没有取得太大的成功 我在谷歌文档中为给定站点尝试了以下功能

我有一个超过1500个与印度新闻媒体网站相关的URL列表。作为我大学项目的一部分,我有兴趣进行一些统计

长话短说,我很想知道这些网站的主页上有哪些链接到他们的Facebook账户?这样做将是一项乏味的任务(到目前为止,我已经完成了其中的25%),因此我一直在通过网络研究是否有可能用程序删除这些网站。我在scraperwiki上看到过scraper,并且主要在Google文档中看到了
importxml
功能,但是,到目前为止,我在这两个方面都没有取得太大的成功

我在谷歌文档中为给定站点尝试了以下功能:

=ImportXML(A1, "//a[contains(@href, 'www.facebook.com')]")
总的来说,我想问一下,如果每个网站的结构明显不同,是否有可能(以及如何)只扫描特定的href链接(或列表)

提前感谢您对此事的任何帮助


Mark

我建议您将一些代码放在这里,这样我们就可以看到您尝试了什么。另外,如果你想使用python,beautifulsoup或regex与urllib和urllib2的组合就是你想要的模块。Beautiful Soup可以很好地解决这个问题,但你可能找错了目标——网页的facebook“like”嵌入(或其任何组件)以及其他任何东西都会包含facebook.com的href,而不是网站/用户页面的链接。如果你正在寻找FB的任何链接,那么你所提到的作为你的出发点是可行的,但除此之外,你需要在你接受的结果中更加具体。