Python 如何使用lightgbm实现学习排名？_Python_Rank_Lightgbm

Python 如何使用lightgbm实现学习排名？

python

Python 如何使用lightgbm实现学习排名？,python,rank,lightgbm,Python,Rank,Lightgbm,我正在尝试使用lightgbm设置学习排名，我有以下数据集，其中包含基于查询的用户交互： df = pd.DataFrame({'QueryID': [1, 1, 1, 2, 2, 2], 'ItemID': [1, 2, 3, 1, 2, 3], 'Position': [1, 2 , 3, 1, 2, 3], 'Interaction': ['CLICK', 'VIEW',

我正在尝试使用

lightgbm

设置学习排名，我有以下数据集，其中包含基于查询的用户交互：

df = pd.DataFrame({'QueryID': [1, 1, 1, 2, 2, 2], 
                   'ItemID': [1, 2, 3, 1, 2, 3], 
                   'Position': [1, 2 , 3, 1, 2, 3], 
                   'Interaction': ['CLICK', 'VIEW', 'BOOK', 'BOOK', 'CLICK', 'VIEW']})

问题是如何正确设置用于培训的数据集？文档中提到使用Dataset.set_group（），但在将此数据转换为组之前，不清楚如何使用。

。您必须创建一个分数变量，即因变量，然后生成训练和测试文件。最重要的是，您需要为train和test创建两个组文件（查找使用相同qid（即QueryID）的次数）

阅读本文以获取更多参考资料：

下面是我回答另一个问题时给出的一般性示例：（）
如果要避免复制答案，请让我知道，我可以删除它

下面是我如何使用LightGBM LambdaRank的

首先，我们导入一些库并定义数据集

将numpy导入为np
作为pd进口熊猫
导入lightgbm
df=pd.DataFrame({
“查询id”：[i代表范围（100）中的i代表范围（10）中的j]，
“var1”：np.random.random（大小=（1000，），
“var2”：np.random.random（大小=（1000，），
“var3”：np.random.random（大小=（1000，），
“相关性”：列表（np.随机排列（[0,0,0,0,0,0,0,0,1]）*100
})

以下是数据帧：

     query_id      var1      var2      var3  relevance
0           0  0.624776  0.191463  0.598358          0
1           0  0.258280  0.658307  0.148386          0
2           0  0.893683  0.059482  0.340426          0
3           0  0.879514  0.526022  0.712648          1
4           0  0.188580  0.279471  0.062942          0
..        ...       ...       ...       ...        ...
995        99  0.509672  0.552873  0.166913          0
996        99  0.244307  0.356738  0.925570          0
997        99  0.827925  0.827747  0.695029          1
998        99  0.476761  0.390823  0.670150          0
999        99  0.241392  0.944994  0.671594          0

[1000 rows x 5 columns]

这个数据集的结构很重要。在学习对任务进行排序时，您可能需要处理一组查询。在这里，我定义了一个1000行的数据集，包含100个查询，每个查询10行。这些查询也可以是可变长度的

现在对于每个查询，我们都有一些变量，并且我们也得到了相关性。我在这里使用了数字0和1，所以对于每个查询（一组10行），我想创建一个模型，为相关性为1的2行分配更高的相关性

无论如何，我们将继续LightGBM的设置。我将数据集分为训练集和验证集，但您可以做任何您想做的事情。我建议在培训期间至少使用一个验证集

train_df=df[：800]#前80%
验证_df=df[800:]#剩余20%
qids\u train=train\u df.groupby（“query\u id”）[“query\u id”].count（）.to\u numpy（）
X_列=列方向下降（[“查询id”，“相关性”]，轴=1）
y_train=train_df[“相关性”]
qids\u validation=validation\u df.groupby（“查询id”）[“查询id”].count（）.to_numpy（）
X_validation=validation_df.drop（[“查询id”，“相关性”]，axis=1）
y_validation=validation_df[“相关性”]

现在这可能就是你被困的地方。我们为每个数据帧创建这3个向量/矩阵。

X\u列

是独立变量的集合，因此是模型的输入数据

y_train

是您的因变量，即您试图预测/排序的内容。最后，

qids\u train

是您的查询ID。它们看起来像这样：

array([10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10,
       10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10,
       10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10,
       10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10,
       10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10])

这也是

X\u列车

：

         var1      var2      var3
0    0.624776  0.191463  0.598358
1    0.258280  0.658307  0.148386
2    0.893683  0.059482  0.340426
3    0.879514  0.526022  0.712648
4    0.188580  0.279471  0.062942
..        ...       ...       ...
795  0.014315  0.302233  0.255395
796  0.247962  0.871073  0.838955
797  0.605306  0.396659  0.940086
798  0.904734  0.623580  0.577026
799  0.745451  0.951092  0.861373

[800 rows x 3 columns]

0      0
1      0
2      0
3      1
4      0
      ..
795    0
796    0
797    1
798    0
799    0
Name: relevance, Length: 800, dtype: int64

这是你们的列车：

         var1      var2      var3
0    0.624776  0.191463  0.598358
1    0.258280  0.658307  0.148386
2    0.893683  0.059482  0.340426
3    0.879514  0.526022  0.712648
4    0.188580  0.279471  0.062942
..        ...       ...       ...
795  0.014315  0.302233  0.255395
796  0.247962  0.871073  0.838955
797  0.605306  0.396659  0.940086
798  0.904734  0.623580  0.577026
799  0.745451  0.951092  0.861373

[800 rows x 3 columns]

0      0
1      0
2      0
3      1
4      0
      ..
795    0
796    0
797    1
798    0
799    0
Name: relevance, Length: 800, dtype: int64

请注意，它们都是数据帧，LightGBM支持它们，但numpy阵列也可以工作

如您所见，它们指示每个查询的长度。如果您的查询长度可变，那么此列表中的数字也会不同。在我的示例中，所有查询的长度都相同

我们对验证集执行完全相同的操作，然后准备开始LightGBM模型设置和培训。我使用SKlearn API，因为我熟悉它

model=lightgbm.LGBMRanker(
目标=“lambdarank”，
metric=“ndcg”，
)

我在这里只使用最少量的参数。请随意查看LightGBM文档并使用更多参数，它是一个非常强大的库。为了开始训练过程，我们在模型上调用fit函数。这里我们指定我们想要的NDCG@5，并希望函数每10次迭代打印一次结果

model.fit(
X=X_列车，
y=y_列车，
组=qids_列车，
eval_set=[（X_验证，y_验证）]，
评估组=[qids\U验证]，
在=10时进行评估，
详细=10，
)

开始培训并打印：

[10]    valid_0's ndcg@10: 0.562929
[20]    valid_0's ndcg@10: 0.55375
[30]    valid_0's ndcg@10: 0.538355
[40]    valid_0's ndcg@10: 0.548532
[50]    valid_0's ndcg@10: 0.549039
[60]    valid_0's ndcg@10: 0.546288
[70]    valid_0's ndcg@10: 0.547836
[80]    valid_0's ndcg@10: 0.552541
[90]    valid_0's ndcg@10: 0.551994
[100]   valid_0's ndcg@10: 0.542401

我希望我能用这个简单的例子充分说明这个过程。如果您还有任何问题，请告诉我。

您好，您能把问题说清楚一点吗？

Position

是您的目标吗？或者你是想得到一个解决方案，比如亚马逊用来提出有趣的东西？那更像是协同过滤。嗨！不幸的是，您共享的文章没有提供有关数据集外观的更多信息。