Fault-tolerant Key/Value Service¶

约 1305 个字 1 张图片预计阅读时间 4 分钟

Abstract

Tip

client.go: 供应用程序调用，发起 Get() 和 Put()；
server.go: KV Server，接收 client 的 RPC 请求，并将其提交给 Raft 集群；
rsm.go：复制状态机层，连接 KV Storage 和 Raft 的桥梁，负责将操作提交给 Raft、从 Raft 应用已提交的日志条目到状态机，以及管理快照；

Part 4A: replicated state machine (RSM)¶

replicated state machine (RSM)

可能因为网络分区、节点宕机等，会发生 leader 改变，client 只有在操作真正被正确的 term 提交、且内容未改动时，才能收到 OK。

为了保证数据一致性，rsm 维护一个哈希表 opMap：
- key 为 Id，表示 op 的唯一 id，可以用 log 的 index 表示；
- value 为 opEntry，包含期望的 Term、Req 和结果 channel；
如何保证数据一致性：
- opMap 中是否存在 Id：
  - rsm.opMap[applyMsg.CommandIndex]
- Req 比较：从 applyCh 读取到有 log 提交，就可以去应用，但是这个 Req 可能是旧 leader 的未提交 log，因此需要和当前 client 发起的 Req 做对比：
  - !reflect.DeepEqual(opEntry.Req, op.Req)
- Term 比较：Term 的改变可能意味 leader 的改变，旧 leader 的未提交 log 可能会被覆盖：
  - opEntry.Term != applyMsg.Term

当 raft 节点 kill 时关闭了 applyCh，而此时 applier 还在把提交的命令发送给 applyCh，导致错误。

当 Kill() 时，applyCond.Broadcast() 唤醒所有等待的 goroutinue，并且用 sync.WaitGroup 等待所有 goroutine 退出；
InstallSnapshot 中也会发送快照到 applyCh，因此要判断 rf 是否 killed()；

轮询 applyCh，读取已提交的 log；
若 Raft 异常关闭，需要向 opMap 内所有待处理的 opEntry 发送 ErrWrongLeader，并清空 opMap 后退出；
若 applyMsg 正确，则执行状态机 rsm.sm.DoOp(op.Req)，在加锁前执行，保证每个已提交日志都被应用一次；
1. 如何保证只应用一次？reader() 从 applyCh 逐个接受日志，raft 本身保证每个已提交日志只应用一次，不会重复发送同一个 CommandIndex 的 applyMsg，所以 DoOp 只会执行一次；
2. 为什么在加锁前？因为 DoOp 可能是耗时操作，若在加锁后执行，可能会阻塞其他 goroutine 的访问，影响性能；
三层验证，opMap 是否存在 CommandIndex、Term 是否匹配、Req 是否匹配，正确与否都要做相应处理和回复；

Key/value service without snapshots

使用 rsm 来复制一个 KV Server，每个 kvserver 都会关联一个 rsm/raft 节点，client 通过 Get() 和Put() RPC 向其关联的 kvserver(raft leader) 发送请求，kvserver 将 Get()/Put() 提交给 rsm，rsm 使用 raft 对其复制，并在每个节点上调用 DoOp，应用于 KV Database；
实现一个在没有消息丢失且没有故障的环境下能正常工作的 KV 服务；
Clerk 不知道哪个 kvserver 是 Raft leader，应该如何处理？
如果故障如何处理？

kvMap: 存储所有 kv 及其对应版本号，{key: (value, version)}；
clientPutResults: 缓存每个 client 的最新 Put() 结果，当重复 Request 到达时，直接返回缓存结果，保证线性一致性；

根据 req.(type) 判断是 DoGet() 还是 DoPut()；
DoGet()：同 lab2，从 kvMap 中读取 key 的值，返回 ErrNoKey 或对应 value；
DoPut()：
- 同 lab2；
- 检查 clientPutResults，如果是重复请求，直接返回缓存结果；
- 否则，更新 kvMap，并将结果缓存到 clientPutResults 中；

Key/value service with snapshots