在solr中强制概率结果输出

在solr中强制概率结果输出,solr,solrj,solr4,Solr,Solrj,Solr4,我试图在solr中强制输出一个概率结果。i、 页面结果的ex%(比如k/n)具有属性A。我不确定是否有一种直接的方法可以做到这一点 我正在尝试查询重新排序的方法,在中,我希望在第一个solr查询中增强具有属性A的文档。这应确保至少有k个或更多具有属性A的文档位于顶部。然后我想运行另一个查询,它只选择k个元素,然后按照正常的分数顺序选择其余的n-k个元素,并返回这些元素的分数排序输出 然而,我面临的问题是,如果属性A非常频繁,那么我可能会在第一次查询中带来太多的属性A文档,因此无法决定要选择多少文

我试图在solr中强制输出一个概率结果。i、 页面结果的ex%(比如k/n)具有属性A。我不确定是否有一种直接的方法可以做到这一点

我正在尝试查询重新排序的方法,在中,我希望在第一个solr查询中增强具有属性A的文档。这应确保至少有k个或更多具有属性A的文档位于顶部。然后我想运行另一个查询,它只选择k个元素,然后按照正常的分数顺序选择其余的n-k个元素,并返回这些元素的分数排序输出

然而,我面临的问题是,如果属性A非常频繁,那么我可能会在第一次查询中带来太多的属性A文档,因此无法决定要选择多少文档来运行第二次查询


我还是solr的新手,希望我想得太多了。尽管如此,你们中有没有人在solr方面有过类似的问题,并且找到了一个低延迟的解决方案?

如果我适当地考虑了所有的条件,我想加权搜索可以解决这个问题。如果您将我在下面创建的示例数据加载到一个演示核心中,并运行eDiscovery搜索,以便在0.8和0.2之间权衡相关性和新鲜度,那么相关的新鲜答案将出现在顶部。

搜索URL如下:
http://.us-west-2.compute.amazonaws.com:8983/solr/gettingstarted/select?defType=edismax&indent=on&q=*:*&qf=相关性^0.8%20和%20新鲜度^0.2&rows=10&start=0&wt=json

请注意,我将结果集限制在前十个

包含结果的响应标题如下所示:

{
  "responseHeader":{
    "status":0,
    "QTime":6,
    "params":{
      "q":"*:*",
      "defType":"edismax",
      "indent":"on",
      "qf":"relevance^0.8 AND freshness^0.2",
      "start":"0",
      "rows":"10",
      "wt":"json",
      "_":"1477363414109"}},
  "response":{"numFound":35,"start":0,"docs":[
      {
        "id":"1",
        "name":["JBL Professional Audio"],
        "relevance":[true],
        "freshness":[true],
        "_version_":1549127868117680128},
      {
        "id":"2",
        "name":["Versatile Multilayer Disc"],
        "relevance":[true],
        "freshness":[true],
        "_version_":1549127868288598016},
      {
        "id":"3",
        "name":["Key finder"],
        "relevance":[true],
        "freshness":[false],
        "_version_":1549127868290695168},
      {
        "id":"4",
        "name":["MiniDisc"],
        "relevance":[true],
        "freshness":[false],
        "_version_":1549127868291743744},
      {
        "id":"5",
        "name":["Entertainment center"],
        "relevance":[true],
        "freshness":[false],
        "_version_":1549127868292792320},
      {
        "id":"6",
        "name":["TV gateway"],
        "relevance":[true],
        "freshness":[false],
        "_version_":1549127868294889472},
      {
        "id":"7",
        "name":["Da-Lite Lecterns, Podiums, Racks"],
        "relevance":[true],
        "freshness":[false],
        "_version_":1549127868295938048},
      {
        "id":"8",
        "name":["American Dynamics CCTV Products"],
        "relevance":[true],
        "freshness":[false],
        "_version_":1549127868301180928},
      {
        "id":"9",
        "name":["K-box"],
        "relevance":[true],
        "freshness":[false],
        "_version_":1549127868302229504},
      {
        "id":"10",
        "name":["Wife acceptance factor"],
        "relevance":[true],
        "freshness":[false],
        "_version_":1549127868303278080}]
  }}
可以从文档加载的示例数据集如下:

<add>
<doc>
<field name="id">1</field>
<field name="name">JBL Professional Audio</field>
<field name="relevance">true</field>
<field name="freshness">true</field>
</doc>
<doc>
<field name="id">2</field>
<field name="name">Versatile Multilayer Disc</field>
<field name="relevance">true</field>
<field name="freshness">true</field>
</doc>
<doc>
<field name="id">3</field>
<field name="name">Key finder</field>
<field name="relevance">true</field>
<field name="freshness">false</field>
</doc>
<doc>
<field name="id">4</field>
<field name="name">MiniDisc</field>
<field name="relevance">true</field>
<field name="freshness">false</field>
</doc>
<doc>
<field name="id">5</field>
<field name="name">Entertainment center</field>
<field name="relevance">true</field>
<field name="freshness">false</field>
</doc>
<doc>
<field name="id">6</field>
<field name="name">TV gateway</field>
<field name="relevance">true</field>
<field name="freshness">false</field>
</doc>
<doc>
<field name="id">7</field>
<field name="name">Da-Lite Lecterns, Podiums, Racks</field>
<field name="relevance">true</field>
<field name="freshness">false</field>
</doc>
<doc>
<field name="id">8</field>
<field name="name">American Dynamics CCTV Products</field>
<field name="relevance">true</field>
<field name="freshness">false</field>
</doc>
<doc>
<field name="id">9</field>
<field name="name">K-box</field>
<field name="relevance">true</field>
<field name="freshness">false</field>
</doc>
<doc>
<field name="id">10</field>
<field name="name">Wife acceptance factor</field>
<field name="relevance">true</field>
<field name="freshness">false</field>
</doc>
<doc>
<field name="id">11</field>
<field name="name">J</field>
<field name="relevance">true</field>
<field name="freshness">false</field>
</doc>
<doc>
<field name="id">12</field>
<field name="name">Location awareness</field>
<field name="relevance">true</field>
<field name="freshness">false</field>
</doc>
<doc>
<field name="id">13</field>
<field name="name">Hybrid Broadcast Broadband TV</field>
<field name="relevance">true</field>
<field name="freshness">false</field>
</doc>
<doc>
<field name="id">14</field>
<field name="name">Comparison of digital media players</field>
<field name="relevance">true</field>
<field name="freshness">false</field>
</doc>
<doc>
<field name="id">15</field>
<field name="name">Coupon-eligible converter box</field>
<field name="relevance">true</field>
<field name="freshness">false</field>
</doc>
<doc>
<field name="id">16</field>
<field name="name">Crown Audio</field>
<field name="relevance">false</field>
<field name="freshness">true</field>
</doc>
<doc>
<field name="id">17</field>
<field name="name">Q</field>
<field name="relevance">false</field>
<field name="freshness">true</field>
</doc>
<doc>
<field name="id">18</field>
<field name="name">Surround sound</field>
<field name="relevance">false</field>
<field name="freshness">true</field>
</doc>
<doc>
<field name="id">19</field>
<field name="name">Digital Living Network Alliance</field>
<field name="relevance">false</field>
<field name="freshness">false</field>
</doc>
<doc>
<field name="id">20</field>
<field name="name">EcoCute</field>
<field name="relevance">false</field>
<field name="freshness">false</field>
</doc>
<doc>
<field name="id">21</field>
<field name="name">TV gateway</field>
<field name="relevance">false</field>
<field name="freshness">false</field>
</doc>
<doc>
<field name="id">22</field>
<field name="name">List of smart TV platforms and middleware software</field>
<field name="relevance">false</field>
<field name="freshness">false</field>
</doc>
<doc>
<field name="id">23</field>
<field name="name">Predicta</field>
<field name="relevance">false</field>
<field name="freshness">false</field>
</doc>
<doc>
<field name="id">24</field>
<field name="name">AMX Control Systems</field>
<field name="relevance">false</field>
<field name="freshness">false</field>
</doc>
<doc>
<field name="id">25</field>
<field name="name">Batteriser</field>
<field name="relevance">false</field>
<field name="freshness">false</field>
</doc>
<doc>
<field name="id">26</field>
<field name="name">Audio equipment</field>
<field name="relevance">false</field>
<field name="freshness">false</field>
</doc>
<doc>
<field name="id">27</field>
<field name="name">EcoCute</field>
<field name="relevance">false</field>
<field name="freshness">false</field>
</doc>
<doc>
<field name="id">28</field>
<field name="name">Elmo Document Cameras</field>
<field name="relevance">false</field>
<field name="freshness">false</field>
</doc>
<doc>
<field name="id">29</field>
<field name="name">Lab Gruppen Audio</field>
<field name="relevance">false</field>
<field name="freshness">false</field>
</doc>
<doc>
<field name="id">30</field>
<field name="name">Direct-drive turntable</field>
<field name="relevance">false</field>
<field name="freshness">false</field>
</doc>
<doc>
<field name="id">31</field>
<field name="name">Wearable Technology Show</field>
<field name="relevance">false</field>
<field name="freshness">false</field>
</doc>
<doc>
<field name="id">32</field>
<field name="name">Power cord</field>
<field name="relevance">false</field>
<field name="freshness">false</field>
</doc>
<doc>
<field name="id">33</field>
<field name="name">MiniDisc</field>
<field name="relevance">false</field>
<field name="freshness">false</field>
</doc>
<doc>
<field name="id">34</field>
<field name="name">Quattron</field>
<field name="relevance">false</field>
<field name="freshness">false</field>
</doc>
<doc>
<field name="id">35</field>
<field name="name">I</field>
<field name="relevance">false</field>
<field name="freshness">false</field>
</doc>
</add>

1.
JBL专业音频
真的
真的
2.
多功能多层圆盘
真的
真的
3.
密钥查找器
真的
假的
4.
迷你光盘
真的
假的
5.
娱乐中心
真的
假的
6.
电视网关
真的
假的
7.
Da Lite讲台、讲台、讲台
真的
假的
8.
美国动力CCTV产品
真的
假的
9
K盒
真的
假的
10
妻子接纳系数
真的
假的
11
J
真的
假的
12
位置意识
真的
假的
13
混合广播宽带电视
真的
假的
14
数字媒体播放器的比较
真的
假的
15
优惠券转换盒
真的
假的
16
皇冠音响
假的
真的
17
Q
假的
真的
18
环绕声
假的
真的
19
数字生活网络联盟
假的
假的
20
热泵热水器
假的
假的
21
电视网关
假的
假的
22
智能电视平台和中间件软件列表
假的
假的
23
预测
假的
假的
24
AMX控制系统
假的
假的
25
打浆机
假的
假的
26
音响设备
假的
假的
27
热泵热水器
假的
假的
28
埃尔莫文件照相机
假的
假的
29
实验室格鲁本音频
假的
假的
30
直接驱动转台
假的
假的
31
可穿戴技术展
假的
假的
32
电源线
假的
假的
33
迷你光盘
假的
假的
34
夸特隆
假的
假的
35
我
假的
假的

这就是你的想法吗?

如果我适当考虑了你的所有标准,我想加权搜索会奏效。如果您将我在下面创建的示例数据加载到一个演示核心中,并运行eDiscovery搜索,以便在0.8和0.2之间权衡相关性和新鲜度,那么相关的新鲜答案将出现在顶部。

搜索URL如下:
http://.us-west-2.compute.amazonaws.com:8983/solr/gettingstarted/select?defType=edismax&indent=on&q=*:*&qf=相关性^0.8%20和%20新鲜度^0.2&rows=10&start=0&wt=json

请注意,我将结果集限制在前十个

包含结果的响应标题如下所示:

{
  "responseHeader":{
    "status":0,
    "QTime":6,
    "params":{
      "q":"*:*",
      "defType":"edismax",
      "indent":"on",
      "qf":"relevance^0.8 AND freshness^0.2",
      "start":"0",
      "rows":"10",
      "wt":"json",
      "_":"1477363414109"}},
  "response":{"numFound":35,"start":0,"docs":[
      {
        "id":"1",
        "name":["JBL Professional Audio"],
        "relevance":[true],
        "freshness":[true],
        "_version_":1549127868117680128},
      {
        "id":"2",
        "name":["Versatile Multilayer Disc"],
        "relevance":[true],
        "freshness":[true],
        "_version_":1549127868288598016},
      {
        "id":"3",
        "name":["Key finder"],
        "relevance":[true],
        "freshness":[false],
        "_version_":1549127868290695168},
      {
        "id":"4",
        "name":["MiniDisc"],
        "relevance":[true],
        "freshness":[false],
        "_version_":1549127868291743744},
      {
        "id":"5",
        "name":["Entertainment center"],
        "relevance":[true],
        "freshness":[false],
        "_version_":1549127868292792320},
      {
        "id":"6",
        "name":["TV gateway"],
        "relevance":[true],
        "freshness":[false],
        "_version_":1549127868294889472},
      {
        "id":"7",
        "name":["Da-Lite Lecterns, Podiums, Racks"],
        "relevance":[true],
        "freshness":[false],
        "_version_":1549127868295938048},
      {
        "id":"8",
        "name":["American Dynamics CCTV Products"],
        "relevance":[true],
        "freshness":[false],
        "_version_":1549127868301180928},
      {
        "id":"9",
        "name":["K-box"],
        "relevance":[true],
        "freshness":[false],
        "_version_":1549127868302229504},
      {
        "id":"10",
        "name":["Wife acceptance factor"],
        "relevance":[true],
        "freshness":[false],
        "_version_":1549127868303278080}]
  }}
可以从文档加载的示例数据集如下:

<add>
<doc>
<field name="id">1</field>
<field name="name">JBL Professional Audio</field>
<field name="relevance">true</field>
<field name="freshness">true</field>
</doc>
<doc>
<field name="id">2</field>
<field name="name">Versatile Multilayer Disc</field>
<field name="relevance">true</field>
<field name="freshness">true</field>
</doc>
<doc>
<field name="id">3</field>
<field name="name">Key finder</field>
<field name="relevance">true</field>
<field name="freshness">false</field>
</doc>
<doc>
<field name="id">4</field>
<field name="name">MiniDisc</field>
<field name="relevance">true</field>
<field name="freshness">false</field>
</doc>
<doc>
<field name="id">5</field>
<field name="name">Entertainment center</field>
<field name="relevance">true</field>
<field name="freshness">false</field>
</doc>
<doc>
<field name="id">6</field>
<field name="name">TV gateway</field>
<field name="relevance">true</field>
<field name="freshness">false</field>
</doc>
<doc>
<field name="id">7</field>
<field name="name">Da-Lite Lecterns, Podiums, Racks</field>
<field name="relevance">true</field>
<field name="freshness">false</field>
</doc>
<doc>
<field name="id">8</field>
<field name="name">American Dynamics CCTV Products</field>
<field name="relevance">true</field>
<field name="freshness">false</field>
</doc>
<doc>
<field name="id">9</field>
<field name="name">K-box</field>
<field name="relevance">true</field>
<field name="freshness">false</field>
</doc>
<doc>
<field name="id">10</field>
<field name="name">Wife acceptance factor</field>
<field name="relevance">true</field>
<field name="freshness">false</field>
</doc>
<doc>
<field name="id">11</field>
<field name="name">J</field>
<field name="relevance">true</field>
<field name="freshness">false</field>
</doc>
<doc>
<field name="id">12</field>
<field name="name">Location awareness</field>
<field name="relevance">true</field>
<field name="freshness">false</field>
</doc>
<doc>
<field name="id">13</field>
<field name="name">Hybrid Broadcast Broadband TV</field>
<field name="relevance">true</field>
<field name="freshness">false</field>
</doc>
<doc>
<field name="id">14</field>
<field name="name">Comparison of digital media players</field>
<field name="relevance">true</field>
<field name="freshness">false</field>
</doc>
<doc>
<field name="id">15</field>
<field name="name">Coupon-eligible converter box</field>
<field name="relevance">true</field>
<field name="freshness">false</field>
</doc>
<doc>
<field name="id">16</field>
<field name="name">Crown Audio</field>
<field name="relevance">false</field>
<field name="freshness">true</field>
</doc>
<doc>
<field name="id">17</field>
<field name="name">Q</field>
<field name="relevance">false</field>
<field name="freshness">true</field>
</doc>
<doc>
<field name="id">18</field>
<field name="name">Surround sound</field>
<field name="relevance">false</field>
<field name="freshness">true</field>
</doc>
<doc>
<field name="id">19</field>
<field name="name">Digital Living Network Alliance</field>
<field name="relevance">false</field>
<field name="freshness">false</field>
</doc>
<doc>
<field name="id">20</field>
<field name="name">EcoCute</field>
<field name="relevance">false</field>
<field name="freshness">false</field>
</doc>
<doc>
<field name="id">21</field>
<field name="name">TV gateway</field>
<field name="relevance">false</field>
<field name="freshness">false</field>
</doc>
<doc>
<field name="id">22</field>
<field name="name">List of smart TV platforms and middleware software</field>
<field name="relevance">false</field>
<field name="freshness">false</field>
</doc>
<doc>
<field name="id">23</field>
<field name="name">Predicta</field>
<field name="relevance">false</field>
<field name="freshness">false</field>
</doc>
<doc>
<field name="id">24</field>
<field name="name">AMX Control Systems</field>
<field name="relevance">false</field>
<field name="freshness">false</field>
</doc>
<doc>
<field name="id">25</field>
<field name="name">Batteriser</field>
<field name="relevance">false</field>
<field name="freshness">false</field>
</doc>
<doc>
<field name="id">26</field>
<field name="name">Audio equipment</field>
<field name="relevance">false</field>
<field name="freshness">false</field>
</doc>
<doc>
<field name="id">27</field>
<field name="name">EcoCute</field>
<field name="relevance">false</field>
<field name="freshness">false</field>
</doc>
<doc>
<field name="id">28</field>
<field name="name">Elmo Document Cameras</field>
<field name="relevance">false</field>
<field name="freshness">false</field>
</doc>
<doc>
<field name="id">29</field>
<field name="name">Lab Gruppen Audio</field>
<field name="relevance">false</field>
<field name="freshness">false</field>
</doc>
<doc>
<field name="id">30</field>
<field name="name">Direct-drive turntable</field>
<field name="relevance">false</field>
<field name="freshness">false</field>
</doc>
<doc>
<field name="id">31</field>
<field name="name">Wearable Technology Show</field>
<field name="relevance">false</field>
<field name="freshness">false</field>
</doc>
<doc>
<field name="id">32</field>
<field name="name">Power cord</field>
<field name="relevance">false</field>
<field name="freshness">false</field>
</doc>
<doc>
<field name="id">33</field>
<field name="name">MiniDisc</field>
<field name="relevance">false</field>
<field name="freshness">false</field>
</doc>
<doc>
<field name="id">34</field>
<field name="name">Quattron</field>
<field name="relevance">false</field>
<field name="freshness">false</field>
</doc>
<doc>
<field name="id">35</field>
<field name="name">I</field>
<field name="relevance">false</field>
<field name="freshness">false</field>
</doc>
</add>

1.
JBL专业音频
真的
真的
2.
多功能多层圆盘
真的
真的
3.
密钥查找器
真的
假的
4.
迷你光盘
真的
假的
5.
娱乐中心
真的
假的
6.
电视网关
真的
假的
7.
Da Lite讲台、讲台、讲台
真的
假的
8.
美国动力CCTV产品
真的
假的
9
K盒
真的
假的
10
妻子接纳系数
真的
假的
11
J
真的
假的
12
位置意识
真的
假的
13
混合广播宽带电视
真的
假的
14
数字媒体播放器的比较
真的
假的
15
优惠券转换盒
真的
假的
16
皇冠音响
假的
真的
17
Q
假的
真的
18
环绕声
假的
真的
19
数字生活网络联盟
假的
假的
20
热泵热水器
假的
假的
21
电视网关
假的
假的
22
智能电视平台和中间件软件列表
假的
假的
23
预测
假的
假的
24
AMX控制系统
假的
假的
25
打浆机
假的
假的
26
音响设备
假的
假的
27
热泵热水器
假的
假的
28
埃尔莫文件照相机
假的
假的
29
实验室格鲁本音频
假的
假的
30
直接驱动转台
假的
假的
31
可穿戴技术展
假的
假的
32
电源线
假的
假的
33
迷你光盘
假的
假的
34
夸特隆
假的
假的
35
我
假的
假的

这就是你的想法吗?

你能举一个例子,说明在一个虚构的数据集中,哪些元素的排名高于其他元素,以及为什么会这样吗?@LeftyGBalogh嘿,当然。所以,如果我们将文档的新鲜度作为属性度量,那么我希望搜索结果是相关的,但带有概率色彩。i、 e如果我们每页输出10个结果,并且我们将结果新鲜度概率设置为0.2,那么在这10个结果中,应该至少有2个具有fresh属性。希望这篇帮助文章能给你带来一个例子,说明在一个虚构的数据集中,哪些元素的排名会高于其他元素,以及为什么。所以,如果我们将文档的新鲜度作为属性度量,那么我希望搜索结果是相关的,但带有概率色彩。i、 e如果我们每页输出10个结果,并且我们将结果新鲜度概率设置为0.2,那么在这10个结果中,应该至少有2个具有fresh属性。希望这有帮助