elasticsearch 状态索引中的元数据未更新
我有以下带有URl和元数据的示例站点地图。我能够成功抓取站点地图及其元数据。但是,当我在sitemap.xml中更新URl的元数据时,元数据不会在下一个获取日期更新 示例Sitemap.xml:
elasticsearch 状态索引中的元数据未更新,
elasticsearch,stormcrawler,
elasticsearch,Stormcrawler,我有以下带有URl和元数据的示例站点地图。我能够成功抓取站点地图及其元数据。但是,当我在sitemap.xml中更新URl的元数据时,元数据不会在下一个获取日期更新 示例Sitemap.xml: <?xml version="1.0"?> <urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9" xmlns:news="http://www.sitemaps.
<?xml version="1.0"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"
xmlns:news="http://www.sitemaps.org/schemas/sitemap-news/0.9"
xmlns:image="http://www.sitemaps.org/schemas/sitemap-image/1.1">
<url>
<loc>/index.html</loc>
<lastmod>2020-12-30T14:47:00.0000Z</lastmod>
<title>Home</title>
<originalName>home</originalName>
<effectiveDate></effectiveDate>
<externalAccess></externalAccess>
</url>
<url>
<loc>/PDF_1000195118.pdf</loc>
<lastmod>2021-01-04T14:49:00.0000Z</lastmod>
<title>The power</title>
<description>test document </description>
<originalName>PDF_1000195118.pdf</originalName>
<mimeType>application/pdf</mimeType>
<externalAccess>false</externalAccess>
<excludeFromSearch>true</excludeFromSearch>
</url>
</urlset>
之后,我将sitemap.xml中的excludeFromSearch更改为false。但它没有得到更新
成功获取后如何更新元数据?这是因为发现的URL只有在不存在时才会在ES中创建
初始发现在状态索引中创建了一个具有已发现状态的条目,当您更改站点地图时,它将修改后的已发现文档发送到ES,但被忽略,因为已经有一个文档具有该URL
一种解决方法是在更新站点地图之前删除状态索引中的文档,或者直接更新文档
StormCrawler中的站点地图仅用于查找,状态为的文档从不更新,只是在处理URL时被覆盖。感谢@julien nioche的快速回复。一旦URL成功爬网,有没有办法通过爬网器更新文档元数据?基于我上面解释的原因,没有办法从站点地图更新文档元数据。该文档将被状态为“已获取”的文档覆盖,但它将不包含最新站点地图中的元数据。
{
"_index" : "status",
"_type" : "_doc",
"_id" : "16276148886a4de6cb055be68f45580043bf855269b2b784ef47e830fbf6f942",
"_score" : 1.0,
"_source" : {
"status" : "FETCHED",
"metadata" : {
"excludeFromSearch" : [
"true"
],
"lastModifiedDate" : [
"2021-01-04 20:19:00"
],
"loggedInOnly" : [
"false"
],
"description" : [
"test document "
],
"mimeType" : [
"application/pdf"
],
"title" : [
"The power"
],
"externalAccess" : [
"false"
],
"depth" : [
"1"
],
"isSitemap" : [
"false"
],
"fetch%2Eerror%2Ecount" : [
"1"
],
"nextFetchDate" : "2021-01-04T12:13:04.000Z"
}