程式師世界 >> 數據庫知識 >> 其他數據庫知識 >> PostgreSQL >> PostgreSQL教程(三)：表的繼承和分區表詳解

PostgreSQL教程(三)：表的繼承和分區表詳解

編輯：PostgreSQL

一、表的繼承：

    這個概念對於很多已經熟悉其他數據庫編程的開發人員而言會多少有些陌生，然而它的實現方式和設計原理卻是簡單易懂，現在就讓我們從一個簡單的例子開始吧。
    1. 第一個繼承表：
復制代碼代碼如下:
    CREATE TABLE cities (   --父表
        name        text,
        population float,
        altitude     int
    );
    CREATE TABLE capitals ( --子表
        state      char(2)
    ) INHERITS (cities);

    capitals表繼承自cities表的所有屬性。在PostgreSQL裡，一個表可以從零個或多個其它表中繼承屬性，而且一個查詢既可以引用父表中的所有行，也可以引用父表的所有行加上其所有子表的行，其中後者是缺省行為。
復制代碼代碼如下:
    MyTest=# INSERT INTO cities values('Las Vegas', 1.53, 2174); --插入父表
    INSERT 0 1
    MyTest=# INSERT INTO cities values('Mariposa',3.30,1953);     --插入父表
    INSERT 0 1
    MyTest=# INSERT INTO capitals values('Madison',4.34,845,'WI');--插入子表
    INSERT 0 1
    MyTest=# SELECT name, altitude FROM cities WHERE altitude > 500; --父表和子表的數據均被取出。
       name     | altitude
    -----------+----------
     Las Vegas |     2174
     Mariposa   |     1953
     Madison    |      845
    (3 rows)

    MyTest=# SELECT name, altitude FROM capitals WHERE altitude > 500; --只有子表的數據被取出。
      name   | altitude
    ---------+----------
     Madison |      845
    (1 row)

    如果希望只從父表中提取數據，則需要在SQL中加入ONLY關鍵字，如：
復制代碼代碼如下:
    MyTest=# SELECT name,altitude FROM ONLY cities WHERE altitude > 500;
       name     | altitude
    -----------+----------
     Las Vegas |     2174
     Mariposa   |     1953
    (2 rows)

    上例中cities前面的"ONLY"關鍵字表示該查詢應該只對cities進行查找而不包括繼承級別低於cities的表。許多我們已經討論過的命令--SELECT，UPDATE和DELETE--支持這個"ONLY"符號。
    在執行整表數據刪除時，如果直接truncate父表，此時父表和其所有子表的數據均被刪除，如果只是truncate子表，那麼其父表的數據將不會變化，只是子表中的數據被清空。
復制代碼代碼如下:
    MyTest=# TRUNCATE TABLE cities; --父表和子表的數據均被刪除。
    TRUNCATE TABLE
    MyTest=# SELECT * FROM capitals;
     name | population | altitude | state
    ------+------------+----------+-------
    (0 rows)

    2. 確定數據來源：
    有時候你可能想知道某條記錄來自哪個表。在每個表裡我們都有一個系統隱含字段tableoid，它可以告訴你表的來源：
復制代碼代碼如下:
    MyTest=# SELECT tableoid, name, altitude FROM cities WHERE altitude > 500;
     tableoid |   name    | altitude
    ----------+-----------+----------
        16532 | Las Vegas |     2174
        16532 | Mariposa |     1953
        16538 | Madison   |      845
    (3 rows)

    以上的結果只是給出了tableoid，僅僅通過該值，我們還是無法看出實際的表名。要完成此操作，我們就需要和系統表pg_class進行關聯，以通過tableoid字段從該表中提取實際的表名，見以下查詢：
復制代碼代碼如下:
    MyTest=# SELECT p.relname, c.name, c.altitude FROM cities c,pg_class p WHERE c.altitude > 500 and c.tableoid = p.oid;
     relname |   name    | altitude
    ----------+-----------+----------
     cities    | Las Vegas |     2174
     cities    | Mariposa   |     1953
     capitals | Madison    |      845
    (3 rows)

    3. 數據插入的注意事項：
    繼承並不自動從INSERT或者COPY中向繼承級別中的其它表填充數據。在我們的例子裡，下面的INSERT語句不會成功：
復制代碼代碼如下:
    INSERT INTO cities (name, population, altitude, state) VALUES ('New York', NULL, NULL, 'NY');

    我們可能希望數據被傳遞到capitals表裡面去，但是這是不會發生的：INSERT總是插入明確聲明的那個表。

    4. 多表繼承：
    一個表可以從多個父表繼承，這種情況下它擁有父表們的字段的總和。子表中任意定義的字段也會加入其中。如果同一個字段名出現在多個父表中，或者同時出現在父表和子表的定義裡，那麼這些字段就會被"融合"，這樣在子表裡面就只有一個這樣的字段。要想融合，字段必須是相同的數據類型，否則就會拋出一個錯誤。融合的字段將會擁有它所繼承的字段的所有約束。
復制代碼代碼如下:
    CREATE TABLE parent1 (FirstCol integer);
    CREATE TABLE parent2 (FirstCol integer, SecondCol varchar(20));
    CREATE TABLE parent3 (FirstCol varchar(200));
    --子表child1將同時繼承自parent1和parent2表，而這兩個父表中均包含integer類型的FirstCol字段，因此child1可以創建成功。
    CREATE TABLE child1 (MyCol timestamp) INHERITS (parent1,parent2);
    --子表child2將不會創建成功，因為其兩個父表中均包含FirstCol字段，但是它們的類型不相同。
    CREATE TABLE child2 (MyCol timestamp) INHERITS (parent1,parent3);
    --子表child3同樣不會創建成功，因為它和其父表均包含FirstCol字段，但是它們的類型不相同。
    CREATE TABLE child3 (FirstCol varchar(20)) INHERITS(parent1);

    5. 繼承和權限：

    表訪問權限並不會自動繼承。因此，一個試圖訪問父表的用戶還必須具有訪問它的所有子表的權限，或者使用ONLY關鍵字只從父表中提取數據。在向現有的繼承層次添加新的子表的時候，請注意給它賦予所有權限。
    繼承特性的一個嚴重的局限性是索引(包括唯一約束)和外鍵約束只施用於單個表，而不包括它們的繼承的子表。這一點不管對引用表還是被引用表都是事實，因此在上面的例子裡，如果我們聲明cities.name為UNIQUE或者是一個PRIMARY KEY，那麼也不會阻止capitals表擁有重復了名字的cities數據行。並且這些重復的行缺省時在查詢cities表的時候會顯示出來。實際上，缺省時capitals將完全沒有唯一約束，因此可能包含帶有同名的多個行。你應該給capitals增加唯一約束，但是這樣做也不會避免與cities的重復。類似，如果我們聲明cities.name REFERENCES某些其它的表，這個約束不會自動廣播到capitals。在這種條件下，你可以通過手工給capitals 增加同樣的REFERENCES約束來做到這點。

二、分區表：

    1. 概述分區表：
    分區的意思是把邏輯上的一個大表分割成物理上的幾塊兒，分區可以提供若干好處：
    1). 某些類型的查詢性能可以得到極大提升。
    2). 更新的性能也可以得到提升，因為表的每塊的索引要比在整個數據集上的索引要小。如果索引不能全部放在內存裡，那麼在索引上的讀和寫都會產生更多的磁盤訪問。
    3). 批量刪除可以用簡單地刪除某個分區來實現。
    4). 將很少用的數據可以移動到便宜的、慢一些地存儲介質上。
    假設當前的數據庫並不支持分區表，而我們的應用所需處理的數據量也非常大，對於這種應用場景，我們不得不人為的將該大表按照一定的規則，手工拆分成多個小表，讓每個小表包含不同區間的數據。這樣一來，我們就必須在數據插入、更新、刪除和查詢之前，先計算本次的指令需要操作的小表。對於有些查詢而言，由於查詢區間可能會跨越多個小表，這樣我們又不得不將多個小表的查詢結果進行union操作，以合並來自多個表的數據，並最終形成一個結果集返回給客戶端。可見，如果我們正在使用的數據庫不支持分區表，那麼在適合其應用的場景下，我們就需要做很多額外的編程工作以彌補這一缺失。然而需要說明的是，盡管功能可以勉強應付，但是性能卻和分區表無法相提並論。
    目前PostgreSQL支持的分區形式主要為以下兩種：
    1). 范圍分區: 表被一個或者多個鍵字字段分區成"范圍"，在這些范圍之間沒有重疊的數值分布到不同的分區裡。比如，我們可以為特定的商業對象根據數據范圍分區，或者根據標識符范圍分區。
    2). 列表分區: 表是通過明確地列出每個分區裡應該出現那些鍵字值實現的。

    2. 實現分區：
    1). 創建"主表"，所有分區都從它繼承。
復制代碼代碼如下:
    CREATE TABLE measurement (            --主表
        city_id      int    NOT NULL,
        logdate     date NOT NULL,
        peaktemp int,
    );

    2). 創建幾個"子"表，每個都從主表上繼承。通常，這些"子"表將不會再增加任何字段。我們將把子表稱作分區，盡管它們就是普通的PostgreSQL表。
復制代碼代碼如下:
    CREATE TABLE measurement_yy04mm02 ( ) INHERITS (measurement);
    CREATE TABLE measurement_yy04mm03 ( ) INHERITS (measurement);
    ...
    CREATE TABLE measurement_yy05mm11 ( ) INHERITS (measurement);
    CREATE TABLE measurement_yy05mm12 ( ) INHERITS (measurement);
    CREATE TABLE measurement_yy06mm01 ( ) INHERITS (measurement);

    上面創建的子表，均已年、月的形式進行范圍劃分，不同年月的數據將歸屬到不同的子表內。這樣的實現方式對於清空分區數據而言將極為方便和高效，即直接執行DROP TABLE語句刪除相應的子表，之後在根據實際的應用考慮是否重建該子表(分區)。相比於直接DROP子表，PostgreSQL還提供了另外一種更為方便的方式來管理子表：
復制代碼代碼如下:
    ALTER TABLE measurement_yy06mm01 NO INHERIT measurement;

    和直接DROP相比，該方式僅僅是使子表脫離了原有的主表，而存儲在子表中的數據仍然可以得到訪問，因為此時該表已經被還原成一個普通的數據表了。這樣對於數據庫的DBA來說，就可以在此時對該表進行必要的維護操作，如數據清理、歸檔等，在完成諸多例行性的操作之後，就可以考慮是直接刪除該表(DROP TABLE)，還是先清空該表的數據(TRUNCATE TABLE)，之後再讓該表重新繼承主表，如：
復制代碼代碼如下:
    ALTER TABLE measurement_yy06mm01 INHERIT measurement;

    3). 給分區表增加約束，定義每個分區允許的健值。同時需要注意的是，定義的約束要確保在不同的分區裡不會有相同的鍵值。因此，我們需要將上面"子"表的定義修改為以下形式：
復制代碼代碼如下:
    CREATE TABLE measurement_yy04mm02 (
        CHECK ( logdate >= DATE '2004-02-01' AND logdate < DATE '2004-03-01')
    ) INHERITS (measurement);
    CREATE TABLE measurement_yy04mm03 (
        CHECK (logdate >= DATE '2004-03-01' AND logdate < DATE '2004-04-01')
    ) INHERITS (measurement);
    ...
    CREATE TABLE measurement_yy05mm11 (
        CHECK (logdate >= DATE '2005-11-01' AND logdate < DATE '2005-12-01')
    ) INHERITS (measurement);
    CREATE TABLE measurement_yy05mm12 (
        CHECK (logdate >= DATE '2005-12-01' AND logdate < DATE '2006-01-01')
    ) INHERITS (measurement);
    CREATE TABLE measurement_yy06mm01 (
        CHECK (logdate >= DATE '2006-01-01' AND logdate < DATE '2006-02-01')
    ) INHERITS (measurement);

    4). 盡可能基於鍵值創建索引。如果需要，我們也同樣可以為子表中的其它字段創建索引。
復制代碼代碼如下:
    CREATE INDEX measurement_yy04mm02_logdate ON measurement_yy04mm02 (logdate);
    CREATE INDEX measurement_yy04mm03_logdate ON measurement_yy04mm03 (logdate);
    ...
    CREATE INDEX measurement_yy05mm11_logdate ON measurement_yy05mm11 (logdate);
    CREATE INDEX measurement_yy05mm12_logdate ON measurement_yy05mm12 (logdate);
    CREATE INDEX measurement_yy06mm01_logdate ON measurement_yy06mm01 (logdate);

    5). 定義一個規則或者觸發器，把對主表的修改重定向到適當的分區表。
    如果數據只進入最新的分區，我們可以設置一個非常簡單的規則來插入數據。我們必須每個月都重新定義這個規則，即修改重定向插入的子表名，這樣它總是指向當前分區。
復制代碼代碼如下:
    CREATE OR REPLACE RULE measurement_current_partition AS
    ON INSERT TO measurement
    DO INSTEAD
    INSERT INTO measurement_yy06mm01 VALUES (NEW.city_id, NEW.logdate, NEW.peaktemp);

    其中NEW是關鍵字，表示新數據字段的集合。這裡可以通過點(.)操作符來獲取集合中的每一個字段。
    我們可能想插入數據並且想讓服務器自動定位應該向哪個分區插入數據。我們可以用像下面這樣的更復雜的規則集來實現這個目標。
復制代碼代碼如下:
    CREATE RULE measurement_insert_yy04mm02 AS
    ON INSERT TO measurement WHERE (logdate >= DATE '2004-02-01' AND logdate < DATE '2004-03-01')
    DO INSTEAD
    INSERT INTO measurement_yy04mm02 VALUES (NEW.city_id, NEW.logdate, NEW.peaktemp);
    ...
    CREATE RULE measurement_insert_yy05mm12 AS
    ON INSERT TO measurement WHERE (logdate >= DATE '2005-12-01' AND logdate < DATE '2006-01-01')
    DO INSTEAD
    INSERT INTO measurement_yy05mm12 VALUES (NEW.city_id, NEW.logdate, NEW.peaktemp);
    CREATE RULE measurement_insert_yy06mm01 AS
    ON INSERT TO measurement WHERE (logdate >= DATE '2006-01-01' AND logdate < DATE '2006-02-01')
    DO INSTEAD
    INSERT INTO measurement_yy06mm01 VALUES (NEW.city_id, NEW.logdate, NEW.peaktemp);

    請注意每個規則裡面的WHERE子句正好匹配其分區的CHECK約束。
    可以看出，一個復雜的分區方案可能要求相當多的DDL。在上面的例子裡我們需要每個月創建一次新分區，因此寫一個腳本自動生成需要的DDL是明智的。除此之外，我們還不難推斷出，分區表對於新數據的批量插入操作有一定的抑制，這一點在Oracle中也同樣如此。
    除了上面介紹的通過Rule的方式重定向主表的數據到各個子表，我們還可以通過觸發器的方式來完成此操作，相比於基於Rule的重定向方法，基於觸發器的方式可能會帶來更好的插入效率，特別是針對非批量插入的情況。然而對於批量插入而言，由於Rule的額外開銷是基於表的，而不是基於行的，因此效果會好於觸發器方式。另一個需要注意的是，copy操作將會忽略Rules，如果我們想要通過COPY方法來插入數據，你只能將數據直接copy到正確的子表，而不是主表。這種限制對於觸發器來說是不會造成任何問題的。基於Rule的重定向方式還存在另外一個問題，就是當插入的數據不在任何子表的約束中時，PostgreSQL也不會報錯，而是將數據直接保留在主表中。

6). 添加新分區：

    這裡將介紹兩種添加新分區的方式，第一種方法簡單且直觀，我們只是創建新的子表，同時為其定義新的檢查約束，如：
復制代碼代碼如下:
    CREATE TABLE measurement_y2008m02 (
        CHECK ( logdate >= DATE '2008-02-01' AND logdate < DATE '2008-03-01' )
    ) INHERITS (measurement);

    第二種方法的創建步驟相對繁瑣，但更為靈活和實用。見以下四步：
復制代碼代碼如下:
    /* 創建一個獨立的數據表(measurement_y2008m02)，該表在創建時以將來的主表(measurement)為模板，包含模板表的缺省值(DEFAULTS)和一致性約束(CONSTRAINTS)。*/
    CREATE TABLE measurement_y2008m02
        (LIKE measurement INCLUDING DEFAULTS INCLUDING CONSTRAINTS);
    /* 為該表創建未來作為子表時需要使用的檢查約束。*/
    ALTER TABLE measurement_y2008m02 ADD CONSTRAINT y2008m02
        CHECK (logdate >= DATE '2008-02-01' AND logdate < DATE '2008-03-01');
    /* 導入數據到該表。下面只是給出一種導入數據的方式作為例子。在導入數據之後，如有可能，還可以做進一步的數據處理，如數據轉換、過濾等。*/
    \copy measurement_y2008m02 from 'measurement_y2008m02'
    /* 在適當的時候，或者說在需要的時候，讓該表繼承主表。*/
    ALTER TABLE measurement_y2008m02 INHERIT measurement;

    7). 確保postgresql.conf裡的配置參數constraint_exclusion是打開的。沒有這個參數，查詢不會按照需要進行優化。這裡我們需要做的是確保該選項在配置文件中沒有被注釋掉。
復制代碼代碼如下:
    /> pwd
    /opt/PostgreSQL/9.1/data
    /> cat postgresql.conf | grep "constraint_exclusion"
    constraint_exclusion = partition        # on, off, or partition

    3. 分區和約束排除：
    約束排除(Constraint exclusion)是一種查詢優化技巧，它改進了用上面方法定義的表分區的性能。比如：
復制代碼代碼如下:
    SET constraint_exclusion = on;
    SELECT count(*) FROM measurement WHERE logdate >= DATE '2006-01-01';

    如果沒有約束排除，上面的查詢會掃描measurement表中的每一個分區。打開了約束排除之後，規劃器將檢查每個分區的約束然後再視圖證明該分區不需要被掃描，因為它不能包含任何符合WHERE子句條件的數據行。如果規劃器可以證明這個，它就把該分區從查詢規劃裡排除出去。
    你可以使用EXPLAIN命令顯示一個規劃在constraint_exclusion打開和關閉情況下的不同。用上面方法設置的表的典型的缺省規劃是：
復制代碼代碼如下:
    SET constraint_exclusion = off;
    EXPLAIN SELECT count(*) FROM measurement WHERE logdate >= DATE '2006-01-01';
                                              QUERY PLAN
    -----------------------------------------------------------------------------------------------
     Aggregate (cost=158.66..158.68 rows=1 width=0)
       -> Append (cost=0.00..151.88 rows=2715 width=0)
             -> Seq Scan on measurement (cost=0.00..30.38 rows=543 width=0)
                   Filter: (logdate >= '2006-01-01'::date)
             -> Seq Scan on measurement_yy04mm02 measurement (cost=0.00..30.38 rows=543 width=0)
                   Filter: (logdate >= '2006-01-01'::date)
             -> Seq Scan on measurement_yy04mm03 measurement (cost=0.00..30.38 rows=543 width=0)
                   Filter: (logdate >= '2006-01-01'::date)
    ...
             -> Seq Scan on measurement_yy05mm12 measurement (cost=0.00..30.38 rows=543 width=0)
                   Filter: (logdate >= '2006-01-01'::date)
             -> Seq Scan on measurement_yy06mm01 measurement (cost=0.00..30.38 rows=543 width=0)
                   Filter: (logdate >= '2006-01-01'::date)

    從上面的查詢計劃中可以看出，PostgreSQL掃描了所有分區。下面我們再看一下打開約束排除之後的查詢計劃：
復制代碼代碼如下:
    SET constraint_exclusion = on;
    EXPLAIN SELECT count(*) FROM measurement WHERE logdate >= DATE '2006-01-01';
                                              QUERY PLAN
    -----------------------------------------------------------------------------------------------
     Aggregate (cost=63.47..63.48 rows=1 width=0)
       -> Append (cost=0.00..60.75 rows=1086 width=0)
             -> Seq Scan on measurement (cost=0.00..30.38 rows=543 width=0)
                   Filter: (logdate >= '2006-01-01'::date)
             -> Seq Scan on measurement_yy06mm01 measurement (cost=0.00..30.38 rows=543 width=0)
                   Filter: (logdate >= '2006-01-01'::date)

    請注意，約束排除只由CHECK約束驅動，而不會由索引驅動。
    目前版本的PostgreSQL中該配置的缺省值是partition，該值是介於on和off之間的一種行為方式，即規劃器只會將約束排除應用於基於分區表的查詢，而on設置則會為所有查詢都進行約束排除，那麼對於普通數據表而言，也將不得不承擔由該機制而產生的額外開銷。

    約束排除在使用時有以下幾點注意事項：
    1). 約束排除只是在查詢的WHERE子句包含約束的時候才生效。一個參數化的查詢不會被優化，因為在運行時規劃器不知道該參數會選擇哪個分區。因此像CURRENT_DATE這樣的函數必須避免。把分區鍵值和另外一個表的字段連接起來也不會得到優化。
    2). 在CHECK約束裡面要避免跨數據類型的比較，因為目前規劃器會無法證明這樣的條件為假。比如，下面的約束會在x是整數字段的時候可用，但是在x是一個bigint的時候不能用：
    CHECK (x = 1)
    對於bigint字段，我們必須使用類似下面這樣的約束：
    CHECK (x = 1::bigint)
    這個問題並不僅僅局限於bigint數據類型，它可能會發生在任何約束的缺省數據類型與其比較的字段的數據類型不匹配的場合。在提交的查詢裡的跨數據類型的比較通常是OK的，只是不能在CHECK條件裡。
    3). 在主表上的UPDATE和DELETE命令並不執行約束排除。
    4). 在規劃器進行約束排除時，主表上的所有分區的所有約束都將會被檢查，因此，大量的分區會顯著增加查詢規劃的時間。
    5). 在執行ANALYZE語句時，要為每一個分區都執行該命令，而不是僅僅對主表執行該命令。