Python 从web日志中识别唯一访问者

Python 从web日志中识别唯一访问者,python,logging,machine-learning,data-analysis,web-analytics,Python,Logging,Machine Learning,Data Analysis,Web Analytics,我目前有一个使用机器学习分析网站日志的项目。我正在清理数据,希望识别此网站的唯一访问者 我在处理web日志方面没有太多经验,但很明显,当用户访问时,会检索到几个文件(例如cs.uri.stem列中的记录,如下所示) 我的问题是,当一个用户浏览多个页面时(比如从a页的链接转到B页),情况如何?我怎么知道他在这个网站上的行为 此外,有人能推荐任何有助于分析web日志的优秀python库吗 非常感谢 date time s.ip cs.method cs.uri

我目前有一个使用机器学习分析网站日志的项目。我正在清理数据,希望识别此网站的唯一访问者

我在处理web日志方面没有太多经验,但很明显,当用户访问时,会检索到几个文件(例如
cs.uri.stem
列中的记录,如下所示)

我的问题是,当一个用户浏览多个页面时(比如从a页的链接转到B页),情况如何?我怎么知道他在这个网站上的行为

此外,有人能推荐任何有助于分析web日志的优秀python库吗

非常感谢

         date     time        s.ip cs.method cs.uri.stem                                                               cs.uri.query s.port cs.username         c.ip sc.status sc.substatus sc.win32.status time.taken device            os          browser
1  2014-08-05 00:00:03 10.130.0.12       GET /                                                                                    -     80           - 67.205.67.76       200            0               0       1391 Spider         Other   PingdomBot_1.4
2  2014-08-05 00:00:11 10.130.0.12       GET /about-the-hotel.aspx                                                                -     80           -  70.56.59.43       200            0               0       1194     PC Mac_OS_X_10.8     Firefox_31.0
3  2014-08-05 00:00:11 10.130.0.12       GET /~/media/Images/Hotel_ICON_revamp/about+us/a-hotel-unlike-any-others.ashx            -     80           -  70.56.59.43       200            0               0        976     PC Mac_OS_X_10.8     Firefox_31.0
4  2014-08-05 00:00:12 10.130.0.12       GET /~/media/Images/Hotel_ICON_revamp/about+us/0713-ExComTeam.ashx                       -     80           -  70.56.59.43       200            0               0       1620     PC Mac_OS_X_10.8     Firefox_31.0
5  2014-08-05 00:00:12 10.130.0.12       GET /~/media/Images/Hotel_ICON_revamp/about+us/icon/vivienne-tam.ashx                    -     80           -  70.56.59.43       200            0               0       1713     PC Mac_OS_X_10.8     Firefox_31.0
6  2014-08-05 00:00:12 10.130.0.12       GET /~/media/Images/Hotel_ICON_revamp/about+us/icon/william-lim.ashx                     -     80           -  70.56.59.43       200            0               0       2387     PC Mac_OS_X_10.8     Firefox_31.0
7  2014-08-05 00:00:14 10.130.0.12       GET /~/media/Images/Hotel_ICON_revamp/about+us/icon/barney-cheng.ashx                    -     80           -  70.56.59.43       200            0               0       2180     PC Mac_OS_X_10.8     Firefox_31.0
8  2014-08-05 00:00:14 10.130.0.12       GET /~/media/Images/Hotel_ICON_revamp/about+us/icon/tommy-li.ashx                        -     80           -  70.56.59.43       200            0               0       1146     PC Mac_OS_X_10.8     Firefox_31.0
9  2014-08-05 00:00:14 10.130.0.12       GET /~/media/Images/Hotel_ICON_revamp/about+us/icon/yang-rutherford.ashx                 -     80           -  70.56.59.43       200            0               0        869     PC Mac_OS_X_10.8     Firefox_31.0
10 2014-08-05 00:00:14 10.130.0.12       GET /~/media/Images/Hotel_ICON_revamp/about+us/icon/justin_wong_img1.ashx                -     80           -  70.56.59.43       200            0               0        845     PC Mac_OS_X_10.8     Firefox_31.0

查看
pandas
库可能是个好主意。一旦您使用pandas加载了数据(参见示例),就应该直接查找以一列或多列为条件的唯一元素,例如

您可以使用IP OS Browser指定它们。您可以更具体一点吗?要求我们推荐或查找书籍、工具、软件库、教程或其他非现场资源的问题与堆栈溢出无关。@AdamLeo“当用户浏览多个页面时如何?”您可以更改日志并添加引用者或检查用户IP,如果一个IP访问了一个带有特殊操作系统和浏览器的页面,他可能会从第一个页面的链接转到第二个页面