Python中的URL分类:如何知道给定的URL是否属于博客主页或任何文章

Python中的URL分类:如何知道给定的URL是否属于博客主页或任何文章,python,algorithm,url,python-2.7,document-classification,Python,Algorithm,Url,Python 2.7,Document Classification,我正在运行URL分类器算法。我很少有与博客相关的URL,我想知道输入的URL是针对任何博客帖子还是针对博客whle blog的URL 示例1-如果我们输入以下URL http://gizmodo.com/ http://gizmodo.com/everyone-can-get-the-new-google-maps-right-now-805487210 它会告诉你上面的网址是首页 示例2-如果我们输入以下URL http://gizmodo.com/ http://gizmodo.com

我正在运行URL分类器算法。我很少有与博客相关的URL,我想知道输入的URL是针对任何博客帖子还是针对博客whle blog的URL

示例1-如果我们输入以下URL

http://gizmodo.com/
http://gizmodo.com/everyone-can-get-the-new-google-maps-right-now-805487210
它会告诉你上面的网址是首页

示例2-如果我们输入以下URL

http://gizmodo.com/
http://gizmodo.com/everyone-can-get-the-new-google-maps-right-now-805487210
它会告诉你上面的URL是blogpost


我是否可以用Python实现这一点?有没有我可能遗漏的算法?或任何开源软件包或服务?

使用urlparse模块并检查.path属性

    import urlparse
    result = urlparse.urlsplit(myURL)
    print result.path

解决方案可能是这样的,尽管它不使用任何库:

scraped_url=[
'http://gizmodo.com/everyone-can-get-the-new-google-maps-right-now-805487210',
'http://gizmodo.com/no-one-can-get-new-ios-7-yet-8432234432',
'http://gizmodo.com/world-war-z-on-google-play-for-free-2332343',
'http://gizmodo.com/',
]
主页=min(已删除的URL,key=len)
blogposts=[如果url!=主页,则为刮取url中的url的url]
请参见此处的演示:


代码假设您有一组从单个服务器上刮取的URL(从技术上讲是一个
列表,这里不是
集,但两者都可以),并且主页URL是最短的(这应该是真的,只要网站有一些一致的命名,并且您可以从URL提取结构)。

Hmmm,您有两种选择:预配置(硬编码)规则或人工智能(以及类似的自适应解决方案?)。你根据什么来区分博客主页?我们收集了博客URL。它们是通过在我们手动添加的一些博客上运行爬虫程序收集的。但接下来,我们希望自动添加博客URL,因此我们面临这个问题。请让我重新表述我的问题:在什么基础上区分“主页”和“博客帖子”?假设
http://example.com/pages/tadeck
是主页,而
http://example.org/notes/who-is-tadeck
可以是博客帖子。显示“主页”的页面和显示“博客文章”的页面的特征是什么?或者可能是关于区分同一领域内的上层页面(主页)和下层页面(如博客文章)?不幸的是,这不是一种可伸缩的方法。如果博客url是myurl.com/blog或myurl.com/technology/blog怎么办?