Scylla “锡拉”节点因存储I/O错误而关闭

Scylla “锡拉”节点因存储I/O错误而关闭,scylla,Scylla,“锡拉”节点突然下降(下降和正常状态)。 在查看日志时发现此错误 Feb 06 08:37:11 scylla-zeograph-prod-eu-3 scylla[13753]: [shard 11] storage_service - Disk error: std::system_error (error system:61, No data available) Feb 06 08:37:11 scylla-zeograph-prod-eu-3 scylla[13753]: [shar

“锡拉”节点突然下降(下降和正常状态)。 在查看日志时发现此错误

Feb 06 08:37:11 scylla-zeograph-prod-eu-3 scylla[13753]:  [shard 11] storage_service - Disk error: std::system_error (error system:61, No data available)
Feb 06 08:37:11 scylla-zeograph-prod-eu-3 scylla[13753]:  [shard 11] sstable - failed reading index for /var/lib/scylla/data/idgraph1/graphindex-48ff28e0322211ea92ea00000000000a/mc-1019-big-Data.db: storage_io_error (Storage I/O error: 61: No data available)
Feb 06 08:37:11 scylla-zeograph-prod-eu-3 scylla[13753]:  [shard 0] storage_service - Stop transport: starts
Feb 06 08:37:11 scylla-zeograph-prod-eu-3 scylla[13753]:  [shard 0] storage_proxy - Exception when communicating with 10.38.0.5: storage_io_error (Storage I/O error: 61: No data available)
Feb 06 08:37:11 scylla-zeograph-prod-eu-3 scylla[13753]:  [shard 0] storage_service - Thrift server stopped
Feb 06 08:37:11 scylla-zeograph-prod-eu-3 scylla[13753]:  [shard 0] storage_service - CQL server stopped
Feb 06 08:37:11 scylla-zeograph-prod-eu-3 scylla[13753]:  [shard 0] storage_service - Stop transport: shutdown rpc and cql server done
Feb 06 08:37:11 scylla-zeograph-prod-eu-3 scylla[13753]:  [shard 0] gossip - My status = NORMAL
Feb 06 08:37:11 scylla-zeograph-prod-eu-3 scylla[13753]:  [shard 0] gossip - Announcing shutdown
Feb 06 08:37:11 scylla-zeograph-prod-eu-3 scylla[13753]:  [shard 0] storage_service - Node 10.38.0.5 state jump to normal
Feb 06 08:37:11 scylla-zeograph-prod-eu-3 scylla[13753]:  [shard 11] sstable - failed reading index for /var/lib/scylla/data/idgraph1/graphindex-48ff28e0322211ea92ea00000000000a/mc-1019-big-Data.db: storage_io_error (Storage I/O error: 61: No data available)

可能的问题是什么

首先,您应该知道,当“锡拉”无法读取其中一个数据库文件时(就像本例中发生的那样),它会拒绝启动,正如您所注意到的那样。虽然跳过此错误并继续读取更多文件很容易,但这是危险的——节点可能只使用数据的一个子集,甚至可能是损坏的数据来响应请求。由于“锡拉”中的数据通常在3个节点上进行复制,因此,让一个节点关闭,另两个节点应答(直到操作员最终给出第三个应答)比让节点使用不正确的数据启动更安全


我想你的下一个问题是为什么会有这个I/O错误。您得到的数据不是一般的I/O错误。。。正如Avi在评论中所建议的,请查看系统日志是否也报告错误。您有什么类型的文件系统/var/lib/scylla/data/in?如果此问题仍然存在,您可以在最新版本的“锡拉”上复制此问题,您也可以在“锡拉开发人员邮件列表”(Scylla developer Mail list,简称“锡拉”)上询问此问题-dev@googlegroups.com).

首先,您应该知道,当“锡拉”无法读取其中一个数据库文件时(就像本例中发生的那样),它会拒绝启动,正如您所注意到的那样。虽然跳过此错误并继续读取更多文件很容易,但这是危险的——节点可能只使用数据的一个子集,甚至可能是损坏的数据来响应请求。由于“锡拉”中的数据通常在3个节点上进行复制,因此,让一个节点关闭,另两个节点应答(直到操作员最终给出第三个应答)比让节点使用不正确的数据启动更安全


我想你的下一个问题是为什么会有这个I/O错误。您得到的数据不是一般的I/O错误。。。正如Avi在评论中所建议的,请查看系统日志是否也报告错误。您有什么类型的文件系统/var/lib/scylla/data/in?如果此问题仍然存在,您可以在最新版本的“锡拉”上复制此问题,您也可以在“锡拉开发人员邮件列表”(Scylla developer Mail list,简称“锡拉”)上询问此问题-dev@googlegroups.com).

如果出现I/O错误,应查看系统日志和dmesg。如果出现I/O错误,应查看系统日志和dmesg。