当前位置：首页 > 问答 > 正文

Oracle数据库里那些并行处理的技术，怎么用起来更高效一点儿

畅苗
问答
2025-12-29 21:01:35
4

要让Oracle数据库里的并行处理用起来更高效,关键不是简单地打开开关，而是要理解它什么时候该用，什么时候不该用，以及怎么精细地调整，这就像让一群人一起搬一件大家具，人多了不一定就快，如果门太小，人挤在一起反而更慢，以下是一些基于Oracle官方文档（如《Oracle Database Data Warehousing Guide》和《Oracle Database VLDB and Partitioning Guide》）以及常见实践经验的建议。

最核心的一点是只在合适的任务上使用并行，并行处理最适合的是那些需要处理大量数据、本身可以拆分成独立子任务的操作，典型的例子包括：扫描非常大的表（比如全表扫描）、创建大表的索引、批量插入或加载海量数据（像用SQLLoader或INSERT /+ APPEND */）、以及一些复杂的连接查询和聚合运算（比如GROUP BY），这些操作在数据仓库环境中非常常见，反过来，对于那种只返回一两行数据的在线交易处理（OLTP）类查询，比如根据主键查找订单详情，开启并行通常是有害无益的，因为并行操作需要额外的协调开销，比如分配并行进程、合并结果集，对于小任务来说，这个开销可能比任务本身执行时间还长，得不偿失。

合理设置并行度（DOP）至关重要，并行度决定了有多少个并行进程会同时为一个任务工作，设得太低，资源闲置，速度上不去；设得太高，可能会拖垮整个系统，影响其他用户，Oracle提供了几种设置方式：

在语句级用Hint直接指定：这是最直接和常用的方法，在SQL语句里写上/*+ PARALLEL(table_name, degree) */，比如/*+ PARALLEL(orders, 8) */，这种方式灵活，但对每个SQL都要修改。
在表或索引级设置默认并行度：使用ALTER TABLE orders PARALLEL 4;来修改表的默认并行度，之后所有涉及该表的并行操作，如果没有在Hint中指定，就会用这个值，但要注意，这可能会影响所有查询，需要谨慎。
让Oracle自动决定：从Oracle 11g R2开始，可以设置PARALLEL_DEGREE_POLICY为AUTO，这样Oracle会根据系统当前负载和对象的大小（表占用了多少个并行处理单元所需的“块”数量）来自动计算一个合适的并行度，这在混合负载环境中可能是个不错的选择，但需要DBA对系统有深入的监控，因为它将控制权交给了数据库自身。

到底设置多少合适呢？一个基础的参考原则是，并行度不应超过服务器CPU核数（或CPU线程数），比如一台32核的服务器，理论上最大并行度不宜超过32，但实际设置时，还要考虑并发用户数，如果10个用户同时跑并行度为32的查询，瞬间就会产生320个并行进程，系统很可能不堪重负，需要根据系统的总CPU资源和预期的并发量来综合权衡，有时为了照顾并发性，需要适当降低单个查询的并行度。

确保任务有足够的“食物”喂给并行进程，也就是数据倾斜问题，理想情况下，工作负载应该均匀地分配给每个并行进程，但如果数据分布严重不均，比如按日期分区后，90%的数据都集中在最近的一个分区里，那么当并行扫描这个分区时，处理该分区的进程就会成为瓶颈，其他进程早就干完活闲着等它，解决这个问题的一个有效方法是结合分区技术，将大表分成多个更小的、数据量相对均衡的分区（比如按范围、列表或哈希分区），然后配合并行查询，可以极大地提高效率，减少数据倾斜的影响。

关注系统的整体资源瓶颈，并行处理是典型的“以空间换时间”和“以资源换时间”的策略，它会把一个大型、耗时的操作转换成大量消耗CPU、I/O和内存的操作，在启用并行前，必须确保：

I/O子系统足够快：如果磁盘读写速度是瓶颈，那么启动再多的并行进程也只能在磁盘队列里等待，效果不大，甚至因为I/O争用而变慢，考虑使用更快的存储（如SSD）或条带化技术来提升I/O吞吐量。
内存充足：像并行排序、哈希连接这样的操作需要大量的PGA（程序全局区）内存，如果内存不足，数据库就不得不进行昂贵的磁盘排序，并行带来的收益会大打折扣，需要DBA合理配置PGA_AGGREGATE_TARGET参数。
CPU资源充裕：如前所述，要避免CPU的过度订阅。

利用自适应并行特性，在新版本的Oracle中（例如12c以后），有一些更智能的功能，比如并行语句排队：当PARALLEL_DEGREE_POLICY设置为AUTO或ADAPTIVE时，如果系统当前可用的并行进程不足，新的并行请求不会立即失败或抢占资源，而是进入一个队列等待，直到有足够的资源被释放，这有助于防止系统被突然的高并行负载冲垮，保证系统的整体稳定性。

高效使用Oracle并行处理的秘诀在于：选对场景（大数据量操作）、配好并行度（兼顾效率和并发）、避免数据倾斜（结合分区）、保障资源供给（CPU、内存、I/O），并善用现代数据库的自动化管理功能（如自适应并行），它是一把锋利的双刃剑，用好了削铁如泥，用不好则会伤及自身。

Oracle数据库里那些并行处理的技术，怎么用起来更高效一点儿