Python中的URL分类：如何知道给定的URL是否属于博客主页或任何文章_Python_Algorithm_Url_Python 2.7_Document Classification

Python中的URL分类：如何知道给定的URL是否属于博客主页或任何文章

python algorithm url python-2.7

Python中的URL分类：如何知道给定的URL是否属于博客主页或任何文章,python,algorithm,url,python-2.7,document-classification,Python,Algorithm,Url,Python 2.7,Document Classification,我正在运行URL分类器算法。我很少有与博客相关的URL，我想知道输入的URL是针对任何博客帖子还是针对博客whle blog的URL 示例1-如果我们输入以下URL http://gizmodo.com/ http://gizmodo.com/everyone-can-get-the-new-google-maps-right-now-805487210 它会告诉你上面的网址是首页示例2-如果我们输入以下URL http://gizmodo.com/ http://gizmodo.com

我正在运行URL分类器算法。我很少有与博客相关的URL，我想知道输入的URL是针对任何博客帖子还是针对博客whle blog的URL

示例1-如果我们输入以下URL

http://gizmodo.com/

http://gizmodo.com/everyone-can-get-the-new-google-maps-right-now-805487210

它会告诉你上面的网址是首页

示例2-如果我们输入以下URL

http://gizmodo.com/

http://gizmodo.com/everyone-can-get-the-new-google-maps-right-now-805487210

它会告诉你上面的URL是blogpost

我是否可以用Python实现这一点？有没有我可能遗漏的算法？或任何开源软件包或服务？

使用urlparse模块并检查.path属性

    import urlparse
    result = urlparse.urlsplit(myURL)
    print result.path

解决方案可能是这样的，尽管它不使用任何库：

scraped_url=[
'http://gizmodo.com/everyone-can-get-the-new-google-maps-right-now-805487210',
'http://gizmodo.com/no-one-can-get-new-ios-7-yet-8432234432',
'http://gizmodo.com/world-war-z-on-google-play-for-free-2332343',
'http://gizmodo.com/',
]
主页=min（已删除的URL，key=len）
blogposts=[如果url！=主页，则为刮取url中的url的url]

请参见此处的演示：

代码假设您有一组从单个服务器上刮取的URL（从技术上讲是一个

列表，这里不是集，但两者都可以），并且主页URL是最短的（这应该是真的，只要网站有一些一致的命名，并且您可以从URL提取结构）。
Hmmm，您有两种选择：预配置（硬编码）规则或人工智能（以及类似的自适应解决方案？）。你根据什么来区分博客主页？我们收集了博客URL。它们是通过在我们手动添加的一些博客上运行爬虫程序收集的。但接下来，我们希望自动添加博客URL，因此我们面临这个问题。请让我重新表述我的问题：在什么基础上区分“主页”和“博客帖子”？假设http://example.com/pages/tadeck
是主页，而http://example.org/notes/who-is-tadeck
可以是博客帖子。显示“主页”的页面和显示“博客文章”的页面的特征是什么？或者可能是关于区分同一领域内的上层页面（主页）和下层页面（如博客文章）？不幸的是，这不是一种可伸缩的方法。如果博客url是myurl.com/blog或myurl.com/technology/blog怎么办？