当前位置：首页 > 问答 > 正文

MySQL报错MY-011483读写集问题导致故障，远程帮忙修复思路分享

钊智敏
问答
2026-01-24 09:06:12
3

那次是半夜接到报警，说一个核心业务的MySQL从库卡住了，应用已经触发了延迟告警，我赶紧连上服务器，一看从库的SQL线程状态，果然是Slave_SQL_Running: No，报错信息里赫然写着Error MY-011483，说实话，第一次见到这个错误代码，心里咯噔一下，因为平时常见的1062主键冲突、1032数据不存在之类的错误处理多了,这个MY开头的错误看起来像是更底层的玩意儿。

赶紧查官方文档，也在技术社区搜了一下，根据知乎专栏《数据库运维实战》里一位老DBA的分享，这个MY-011483错误通常和Group Replication有关，但即使在传统的主从复制环境里，也可能因为事务的“读写集”冲突而触发，CSDN博客《DBA手记》里的一篇故障复盘文章也提到了类似案例，他们把这个问题形容为“事务在从库上找不到回家的路”。

那什么是“读写集”呢？我用大白话理解一下，就是MySQL在并行复制时，为了确保事务在从库上执行的顺序和主库一致，同时又能让不冲突的事务并发执行，它会给每个事务打上一个“标签”，这个标签就包含了这个事务改了哪些行（写集）以及依赖了哪些数据（读集），当从库的SQL线程重放事务时，如果发现当前要执行的事务的“读写集”，和前面正在并行执行的某个事务的“读写集”有冲突（比如可能要修改同一行数据），为了保证数据一致性,复制就会停下来报这个错。

MySQL报错MY-011483读写集问题导致故障，远程帮忙修复思路分享

我的修复思路就围绕着“读写集”这个核心点展开，远程操作，第一步肯定是先稳住局面，不能瞎搞，我先是执行了STOP SLAVE;，把复制线程彻底停下来，防止问题恶化，最关键的一步是查看详细的错误信息，光有错误代码不够，我用SHOW SLAVE STATUS\G命令，找到了Last_SQL_Errno和Last_SQL_Error这两个字段，里面明确指出了是哪个工作线程（worker thread）出了问题，以及冲突的事务ID信息,这就像查案找到了具体的案发现场和嫌疑人。

根据《DBA手记》文章的提醒，这种情况不能简单地用SET GLOBAL sql_slave_skip_counter = 1;然后START SLAVE;来跳过错误，因为这是并行复制，你跳过一个事务，可能会破坏后续一系列事务的依赖关系，导致更严重的的数据混乱，正确的做法是暂时降低并行度，让复制“退一步”海阔天空。

MySQL报错MY-011483读写集问题导致故障，远程帮忙修复思路分享

我的具体操作是：我记录了当前并行的worker线程数量（slave_parallel_workers的值），我执行了SET GLOBAL slave_parallel_workers = 1;，将并行复制暂时改为单线程复制，单线程复制就没有并行冲突的问题了，事务会严格按照顺序一个一个执行，我再次执行START SLAVE;，并密切关注Seconds_Behind_Master的变化，果然，复制恢复了,延迟开始逐渐减少。

等从库追上主库，状态稳定一段时间后，我需要把配置改回去，毕竟单线程复制性能太差，无法满足业务需求，但我没有简单地恢复成原来的并行数，我仔细检查了主库的事务负载模式，怀疑是某个时间段出现了异常的大量热点更新，导致了冲突，我采取了更稳妥的做法：没有恢复原状，而是将slave_parallel_workers设置为一个比之前更保守的值（比如原来的一半），并观察了一段时间，确认没有再出现类似错误，我根据《数据库运维实战》的建议，检查了slave_preserve_commit_order这个参数，确保它被设置为ON，这能保证从库上事务的提交顺序和主库一致，即使是在并行复制下,这也是一个重要的安全阀。

我把这次故障的发生时间、错误信息、处理步骤、参数调整记录都写进了故障报告，并且给业务方提了个醒，建议他们关注一下在故障发生时间点附近，是否有跑什么特殊的批量更新任务，从应用层面避免产生容易引发冲突的事务模式，这次远程修复经历让我深刻体会到，对于MySQL复制这种核心机制，不仅要会处理常见的错误，对这些相对生僻的底层错误也得有个基本的排查思路，关键是要理解其背后的原理，比如这次的“读写集”，才能做出正确的应急决策,而不是盲目地跳过错误。