新しいエンタープライズデータウェアハウス(Data Vault 2.0)の概説
近年、データ分析基盤のエンタープライズデータウェアハウス(EDW)として採用されるケースが増えているData Vault 2.0(以下、DV2.0)は、従来のEDWモデリングのアプローチを改善する新しい考え方を取り入れています。DV2.0の概念はデータモデリングにとどまらず、インフォメーションマートの設計、プロジェクト管理、メタデータ管理、データガバナンス、データ品質など幅広い領域に及びます。本稿では、DV2.0の成り立ちと、特に革新的かつ実践的な変革を実現しているモデリング手法について概説します。

Data Vaultの発展経緯
Data Vault 1.0
Data Vaultの初期モデリング手法は、1990年代にアメリカのデータアーキテクトDaniel Linstedtによって提唱されました。このモデリング手法は、企業のデータの時系列変化の推移を分析するための効率的な方法を提供ました。Data Vaultは、ハブアンドスポークのアーキテクチャを採用し、エンティティをハブ・リンク・サテライトの3タイプで管理することにより、データの履歴性、追跡可能性、および拡張性を確保する手法です。
DV2.0
DV2.0は、初期のData Vaultの基本的な原則を踏襲しつつ、ビッグデータ、リアルタイム処理、そしてアジャイル開発への対応を強化したモデリング手法です。
DV2.0によるデータモデルの構成要素
DV2.0のモデルは大きく2つのセクションに分かれ、それぞれのセクションには次の種類のエンティティ要素が含まれています。
Raw Vault
Raw Vaultは、ソースシステムから連携されたデータを可能な限り原形で保持することを目的としています。この領域では、データの変更や加工、集計を最小限に抑え、データの履歴とトレーサビリティを確保します。
- ハブ(Hubs):ナチュラルキーを管理するエンティティで、エンティティインスタンスに対してユニークなIDを保持します。
- リンク(Links):ハブ間の関係を表します。1対1や1対多だけでなく、多対多の関係を持つことができます。
- サテライト(Satellites):ハブやリンクに関連する属性や詳細データを保持します。また、ここでエンティティの変更履歴を保持します。
Business Vault
- ビジネスルールを適用したサテライト:ビジネスロジック適用されたデータを含むサテライトです。これにより、分析やレポーティングに適した形にデータを加工・計算します。
- 集約データ:要約や集約が行われたデータ構造です。
- ポイントインタイム(PIT)テーブル:エンティティ横断的に特定時点のデータを取得するためのテーブルです。
- ブリッジテーブル:Raw Vault内のエンティティ間の結合を減少させる目的で導入される、バイパス用テーブルです。
Data Vault 2.0を使った論理モデリング例
次のシンプルな受注に関連した概念スキーマを例にとります。

このモデルを論理モデルに展開した場合、第3正規形のデータウェアハウスは履歴データを保持しますが、エンティティの構成は類似したモデルに収束します。
一方、DV2.0では次のような論理モデルで構成されます。(トランザクションの設計には特別なリンクエンティティを使用する選択肢もありますが、下図は基本的なリンクエンティティで設計しています。)

図1と図2の比較から分かる通り、DV2.0では各エンティティに明確な役割を割り当て、厳格なルールに基づいて設計を行います。図には示されていませんが、エンティティ内の属性についても、合理的かつ厳密なルールに従った設計を実施することで、多くのメリットを得ることが可能です。
DV2.0を採用するメリット
DV2.0を採用するメリットは多岐にわたりますが、EDW設計の観点からは、以下のような利点が挙げられます。
- 厳格な標準化によるデータ整合性や品質の維持
- データの履歴管理とトレーサビリティの確保
- アジャイル開発との親和性
- ビジネスルールの変化への対応の柔軟性
- 大量かつニアリアルタイムでのデータ更新
以上のことから、これからデータ分析基盤の構築を検討される場合、DV2.0は考慮すべきひとつの選択肢であると考えます。
参考資料
おわりに
当社のサービス「データ分析基盤の導入ガイドライン」では、実践に基づいた詳細な設計ガイドラインを提供予定です。また、「データ分析基盤の導入コンサルティング」では、DV2.0をEDWの設計・実装において、以下のサービスを提供しています。
- 論理設計
- 論理設計
- 物理設計/実装
- ELT設計/実装
- 性能改善