Python 解析常见链接的博客帖子

Python 解析常见链接的博客帖子,python,xml,url,rss,blogs,Python,Xml,Url,Rss,Blogs,(新手帖子,提前道歉和感谢!) 我的目标是构建一个小型应用程序,监控并解析一组博客帖子的出站链接,这样我就可以: 在一个框架中显示博客中链接到文章的顶部;以及 对于给定的链接文章,显示链接到它的帖子(在我的博客圈中) 到目前为止,我的想法是使用: -Python(带有Django或类似的前端) -阅读提要并从帖子中提取链接 -URL解析 最大的问题是:我是否遗漏了任何明显的可以让这条路变得更容易的东西? 小问题(我还没弄明白): -由于出站链接URL即使指向同一篇文章(例如,NYT URL和Ti

(新手帖子,提前道歉和感谢!)

我的目标是构建一个小型应用程序,监控并解析一组博客帖子的出站链接,这样我就可以:

  • 在一个框架中显示博客中链接到文章的顶部;以及
  • 对于给定的链接文章,显示链接到它的帖子(在我的博客圈中)
  • 到目前为止,我的想法是使用:
    -Python(带有Django或类似的前端)
    -阅读提要并从帖子中提取链接
    -URL解析

    最大的问题是:我是否遗漏了任何明显的可以让这条路变得更容易的东西?

    小问题(我还没弄明白):
    -由于出站链接URL即使指向同一篇文章(例如,NYT URL和TinyURL)时也可能不同,除了比较绝对URL外,我如何检查URL以查看它是否已经在我的链接项目列表中


    在高层次上是有帮助的,但是解析“blogroll”样式的链接列表似乎比主动比较帖子中的URL要容易得多,特别是对于那些可能在URL中做各种有趣事情的新闻网站。您可能需要lxml来解析和操作post内容HTML(提取标签)。

    考虑到转发发生在服务器端,我看不到比跟踪链接然后检查它们真正指向的位置更简单的方法(基本上打开url,在响应对象上调用
    geturl()