程序師世界是廣大編程愛好者互助、分享、學習的平台,程序師世界有你更精彩!
首頁
編程語言
C語言|JAVA編程
Python編程
網頁編程
ASP編程|PHP編程
JSP編程
數據庫知識
MYSQL數據庫|SqlServer數據庫
Oracle數據庫|DB2數據庫
 程式師世界 >> 數據庫知識 >> Oracle數據庫 >> Oracle數據庫基礎 >> 淺談Oracle中的三種Join方法

淺談Oracle中的三種Join方法

編輯:Oracle數據庫基礎

基本概念

Nested loop join:

Outer table中的每一行與inner table中的相應記錄join,類似一個嵌套的循環。

Sort merge join:

將兩個表排序,然後再進行join。

Hash join:

將兩個表中較小的一個在內存中構造一個Hash 表(對Join Key),掃描另一個表,同樣對Join Key進行Hash後探測是否可以join,找出與之匹配的行。

一張小表被hash在內存中。因為數據量小,所以這張小表的大多數數據已經駐入在內存中,剩下的少量數據被放置在臨時表空間中;

每讀取大表的一條記錄,就和小表中內存中的數據進行比較,如果符合,則立即輸出數據(也就是說沒有讀取臨時表空間中的小表的數據)。而如果大表的數據與小表中臨時表空間的數據相符合,則不直接輸出,而是也被存儲臨時表空間中。

當大表的所有數據都讀取完畢,將臨時表空間中的數據以其輸出。如果小表的數據量足夠小(小於hash area size),那所有數據就都在內存中了,可以避免對臨時表空間的讀寫。

如果是並行環境下,前面中的第2步就變成如下了:每讀取一條大表的記錄,和內存中小表的數據比較,如果符合先做join,而不直接輸出,直到整張大表數據讀取完畢。如果內存足夠,Join好的數據就保存在內存中。否則,就保存在臨時表空間中。

適用范圍

Nested loop join:

適用於outer table(有的地方叫Master table)的記錄集比較少(<10000)而且inner table(有的地方叫Detail table)索引選擇性較好的情況下(inner table要有index)。

inner table被outer table驅動,outer table返回的每一行都要在inner table中檢索到與之匹配的行。當然也可以用ORDERED 提示來改變CBO默認的驅動表,使用USE_NL(table_name1 table_name2)可是強制CBO 執行嵌套循環連接。

cost  = outer access cost + (inner Access cost * outer cardinality)

Sort merge join:

用在數據沒有索引但是已經排序的情況下。

通常情況下hash join的效果都比Sort merge join要好,然而如果行源已經被排過序,在執行排序合並連接時不需要再排序了,這時Sort merge join的性能會優於hash join。可以使用USE_MERGE(table_name1 table_name2)來強制使用Sort merge join。
cost = (outer access cost * # of hash partitions) + inner Access cost

Hash join:

適用於兩個表的數據量差別很大。但需要注意的是:如果HASH表太大,無法一次構造在內存中,則分成若干個partition,寫入磁盤的temporary segment,則會多一個I/O的代價,會降低效率,此時需要有較大的temporary segment從而盡量提高I/O的性能。

可以用USE_HASH(table_name1 table_name2)提示來強制使用散列連接。如果使用散列連HASH_AREA_SIZE 初始化參數必須足夠的大,如果是9i,Oracle建議使用SQL工作區自動管理,設置WORKAREA_SIZE_POLICY 為AUTO,然後調整PGA_AGGREGATE_TARGET 即可。

也可以使用HASH_JOIN_ENABLED=FALSE(默認為TRUE)強制不使用hash join。

cost = (outer access cost * # of hash partitions) + inner Access cost

效率比較

Hash join的主要資源消耗在於CPU(在內存中創建臨時的hash表,並進行hash計算),而merge join的資源消耗主要在於磁盤I/O(掃描表或索引)。在並行系統中,hash join對CPU的消耗更加明顯。所以在CPU緊張時,最好限制使用hash join。

在絕大多數情況下,hash join效率比其他join方式效率更高:

在Sort-Merge Join(SMJ),兩張表的數據都需要先做排序,然後做merge。因此效率相對最差;
Nested-Loop Join(NL)效率比SMJ更高。特別是當驅動表的數據量很大(集的勢高)時。這樣可以並行掃描內表。
Hash join效率最高,因為只要對兩張表掃描一次。

  1. 上一頁:
  2. 下一頁:
Copyright © 程式師世界 All Rights Reserved