Saga是Golang微服务事务的默认起点,通过拆分长流程为本地事务+补偿操作保障最终一致性,需结合发件箱模式、幂等消费与对账服务实现可靠分布式事务。
微服务中无法使用传统数据库事务保证跨服务一致性,Golang 本身也不提供分布式事务运行时——你得靠模式选型 + 工程控制,而不是找一个 BeginTx 就能解决。
Saga 把一个长流程(如下单→扣库存→扣余额)拆成多个本地事务,每步成功后发事件触发下一步,失败则按反向顺序执行补偿操作。它不强求实时一致,但能保障最终正确性,且与 Go 的轻量协程、事件驱动风格天然契合。
nats.go 或 segmentio/kafka-go 发布/订阅事件,避免服务直连;不要在 HTTP handler 里同步调用另一个服务的接口CancelOrder、RefundPayment)必须幂等:用数据库唯一约束、UPSERT 或 Redis SETNX 记录已处理事件 IDtemporalio/temporal-go,它能自动管理 saga 流程、超时重试、补偿触发和悬挂事务恢复常见错误是“先写 DB,再发消息”,网络抖动或进程崩溃会导致消息丢失,下游永远收不到事件。
outbox_events 表,再由独立的轮询 goroutine 异步读取并投递到消息队列FOR UPDATE SKIP LOCKED(PostgreSQL)或乐观锁(MySQL),防止多实例重复投递TCC(Try-Confirm-Cancel)能提供比 Saga 更强的一致性,但开发成本高、易出错,95% 的电商、内容类业务完全不需要。
Try 阶段必须写入状态表(如 account_frozen_balance),标记资源预留,且该记录要带 expire_at
Confirm 和 Cancel 必须设计为可重入:同一事务 ID 多次调用不能引发数据错乱;推荐用 UPDATE ... WHERE id = ? AND status = 'frozen' 做条件更新status = 'frozen' 但超过 expire_at);Go 中可用 github.com/robfig/cron/v3 每分钟扫一次context.WithValue 透传 transaction_id
消息中间件只能保证“至少一次投递”,网络分区、超时重试、服务重启都会导致重复事件。你的业务代码
必须自己扛住。
event_id 字段(如 UUID v4),且在消费前查库确认是否已处理UPDATE inventory SET stock = stock - 1 WHERE product_id = ? AND stock >= 1,靠 DB 返回影响行数判断是否成功真正难的从来不是写 tx.Commit(),而是定义清楚每个服务的数据主权边界、事件语义粒度、以及失败时谁负责兜底。Saga + 发件箱 + 幂等消费 + 对账,这套组合拳在 Go 生态里已经足够成熟,别被“分布式事务”这个词吓住——它只是把原来单体里藏在框架里的复杂性,显式地搬到你的代码里而已。