当前位置：首页 > 问答 > 正文

怎么快速搞定Oracle里那些烦人的重复数据删不完的问题

黎家
问答
2026-01-17 15:30:12
4

这个问题确实是很多用Oracle数据库的人经常遇到的麻烦事，你明明已经删掉了一些重复数据，但一查，怎么还有？感觉就像野草一样，春风吹又生，要快速搞定这个问题，不能光靠埋头傻删，得有一套清晰的方法，下面我就结合一些常见的实践和数据库管理员的经验（来源：基于Oracle官方文档中关于数据维护和SQL优化的基本思想，以及像Oracle Base、AskTOM等社区常见问题解答的归纳）,来聊聊怎么彻底解决它。

最关键的一步不是动手删除，而是先搞清楚为什么会有重复数据，你得像个侦探一样，找到根源,通常原因就几个：

程序漏洞：比如应用程序在插入数据前没有做有效的检查，或者并发处理时没控制好,导致同一条数据被插入了多次。
没有主键或唯一约束：这是最根本的原因，如果数据库表在设计时，就没有为某些本应唯一的列组合（身份证号+业务日期”）设置唯一性约束,那么数据库本身就无法阻止重复数据的产生。
数据导入失误：比如ETL作业跑了两遍,或者手工导入Excel时操作失误。

如果你不解决根源问题，那么今天你删了，明天它还会再来，永远搞不定，在开始删除之前，先想想怎么从源头上堵住，和开发人员沟通，在程序里加强校验；或者干脆在数据库表上加上合适的主键或唯一约束，这才是“治本”的思路。

好，说完预防，我们再来谈怎么“治标”——也就是如何快速、安全地删除已经存在的重复数据，这里最怕的就是误删,所以安全是第一位的。

第一步，绝对不要直接DELETE，先SELECT确认。 你要删除哪些数据，必须先用查询语句看得明明白白,经典的找重复数据的SQL是这样的：

怎么快速搞定Oracle里那些烦人的重复数据删不完的问题

SELECT column1, column2, COUNT(*)
FROM 你的表名
GROUP BY column1, column2
HAVING COUNT(*) > 1;

这条语句能帮你找出所有在column1和column2组合上重复的记录，并且显示重复的次数，你可以把column1, column2换成你认为是唯一组合的那些列。

第二步，确定要保留哪一条。 重复数据中，你总得留一条吧？不然就全删光了，通常我们会根据某个条件来定，比如保留最近创建的那条（用CREATE_TIME字段），或者ID最小的那条，这时候，我们可以用Oracle的分析函数ROW_NUMBER()来给重复的数据集内部排序。

SELECT t.*,
       ROW_NUMBER() OVER (PARTITION BY column1, column2 ORDER BY 创建时间 DESC) as rn
FROM 你的表名 t;

这个查询的意思是：对于column1和column2组合相同的每一组数据（PARTITION BY），按照创建时间倒序排列（最新的排第一），然后给每组内的每行数据编个号（rn），rn=1的就是我们想保留的那条最新记录。

怎么快速搞定Oracle里那些烦人的重复数据删不完的问题

第三步，将查询转化为删除。 现在我们知道要保留rn=1的记录，那么要删除的就是rn>1的记录，我们可以利用上面的查询作为一个子查询，来精准定位要删除的行，这里有个非常高效且安全的写法，使用ROWID（Oracle中每行数据的物理地址标识，是唯一的）。

DELETE FROM 你的表名
WHERE ROWID IN (
    SELECT rid FROM (
        SELECT ROWID rid,
               ROW_NUMBER() OVER (PARTITION BY column1, column2 ORDER BY 创建时间 DESC) as rn
        FROM 你的表名
    )
    WHERE rn > 1
);

这个语句的结构是：

最内层查询：选出ROWID，并用ROW_NUMBER()打好标记（rn）。
中间层查询：从内层查询的结果中，筛选出rn>1的记录对应的ROWID。
最外层DELETE：根据这些ROWID,精准删除重复的记录。

为什么推荐用ROWID？ 因为用ROWID来删除是Oracle中最快的方式之一，它直接定位到数据的物理位置，比通过列值去比较要快得多，尤其是在表很大、重复规则比较复杂的时候，因为ROWID是唯一的,所以不会误删。

再次强调安全操作：

务必先备份：在执行DELETE之前，最好先对整个表做个备份，或者在一个测试环境先验证你的SQL是否正确，可以先用SELECT *代替DELETE,看看选出来的是不是你真的想删的数据。
开启事务：在生产环境操作时，先BEGIN TRANSACTION;（或设置成手动提交），然后执行删除语句，确认无误后再COMMIT;提交，如果删错了，马上ROLLBACK;回滚,这样数据就恢复了。
考虑性能：如果表特别大（几千万上亿行），一次性删除大量数据可能会锁表很久，影响业务，这时候可以考虑分批次删除，比如每次删1万条,用循环来做。

快速搞定Oracle重复数据的关键在于：先查后删，找准根源，利用ROWID和ROW_NUMBER()进行精准定位和高效删除，并且始终把安全操作放在第一位。 更重要的是，删除之后一定要回过头去修补程序或添加数据库约束,这样才能一劳永逸。