elasticsearch 状态索引中的元数据未更新,elasticsearch,stormcrawler,elasticsearch,Stormcrawler" /> elasticsearch 状态索引中的元数据未更新,elasticsearch,stormcrawler,elasticsearch,Stormcrawler" />

elasticsearch 状态索引中的元数据未更新

elasticsearch 状态索引中的元数据未更新,elasticsearch,stormcrawler,elasticsearch,Stormcrawler,我有以下带有URl和元数据的示例站点地图。我能够成功抓取站点地图及其元数据。但是,当我在sitemap.xml中更新URl的元数据时,元数据不会在下一个获取日期更新 示例Sitemap.xml: <?xml version="1.0"?> <urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9" xmlns:news="http://www.sitemaps.

我有以下带有URl和元数据的示例站点地图。我能够成功抓取站点地图及其元数据。但是,当我在sitemap.xml中更新URl的元数据时,元数据不会在下一个获取日期更新

示例Sitemap.xml:

<?xml version="1.0"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"
    xmlns:news="http://www.sitemaps.org/schemas/sitemap-news/0.9"
    xmlns:image="http://www.sitemaps.org/schemas/sitemap-image/1.1">
    <url>
        <loc>/index.html</loc>
        <lastmod>2020-12-30T14:47:00.0000Z</lastmod>
        <title>Home</title>
        <originalName>home</originalName>
        <effectiveDate></effectiveDate>
        <externalAccess></externalAccess>
    </url>
    <url>
        <loc>/PDF_1000195118.pdf</loc>
        <lastmod>2021-01-04T14:49:00.0000Z</lastmod>
        <title>The power</title>
        <description>test document </description>
        <originalName>PDF_1000195118.pdf</originalName>
        <mimeType>application/pdf</mimeType>        
        <externalAccess>false</externalAccess>
        <excludeFromSearch>true</excludeFromSearch>     
    </url>
</urlset>
之后,我将sitemap.xml中的excludeFromSearch更改为false。但它没有得到更新

成功获取后如何更新元数据?

这是因为发现的URL只有在不存在时才会在ES中创建

初始发现在状态索引中创建了一个具有已发现状态的条目,当您更改站点地图时,它将修改后的已发现文档发送到ES,但被忽略,因为已经有一个文档具有该URL

一种解决方法是在更新站点地图之前删除状态索引中的文档,或者直接更新文档


StormCrawler中的站点地图仅用于查找,状态为的文档从不更新,只是在处理URL时被覆盖。

感谢@julien nioche的快速回复。一旦URL成功爬网,有没有办法通过爬网器更新文档元数据?基于我上面解释的原因,没有办法从站点地图更新文档元数据。该文档将被状态为“已获取”的文档覆盖,但它将不包含最新站点地图中的元数据。
 {
        "_index" : "status",
        "_type" : "_doc",
        "_id" : "16276148886a4de6cb055be68f45580043bf855269b2b784ef47e830fbf6f942",
        "_score" : 1.0,
        "_source" : {         
          "status" : "FETCHED",
          "metadata" : {
            "excludeFromSearch" : [
              "true"
            ],
            "lastModifiedDate" : [
              "2021-01-04 20:19:00"
            ],
            "loggedInOnly" : [
              "false"
            ],
            "description" : [
              "test document "
            ],
            "mimeType" : [
              "application/pdf"
            ],
            "title" : [
              "The power"
            ],
            "externalAccess" : [
              "false"
            ],
            "depth" : [
              "1"
            ],
            "isSitemap" : [
              "false"
            ],
            "fetch%2Eerror%2Ecount" : [
              "1"
            ],
          
          "nextFetchDate" : "2021-01-04T12:13:04.000Z"
        }