Union-Find (DSU)（DSU: ディーエスユー）

2025年10月22日

Union-Find (DSU)（DSU: ディーエスユー）

英語表記: Union-Find (DSU)

概要

Union-Find (DSU) は、「非交差集合（Disjoint Set Union）」、つまり互いに重なり合わない複数の集合を効率的に管理するために設計された特殊データ構造です。この構造は、特定の要素がどの集合に属しているかを高速に特定する「Find」操作と、二つの集合を一つに統合する「Union」操作の二つに特化しています。Union-Findは、データ構造（リスト, スタック, キュー, ツリー）という大きな分類の中で、要素間のグループ分けや連結性を動的に扱う集合管理構造の分野において、非常に重要な役割を果たしています。

詳細解説

集合管理構造としての目的と背景

Union-Findが特殊データ構造として必要とされるのは、大規模なデータや複雑なネットワークにおいて、要素間の所属関係や連結性を頻繁にチェックする必要があるからです。例えば、ソーシャルネットワークや大規模なコンピュータネットワークにおいて、「AさんとBさんは同じグループに属しているか？」「この二つのネットワークを結合できるか？」といった問いに、瞬時に答えを出すことが求められます。

このデータ構造の核となる考え方は、各集合を「木（ツリー）」として表現することです。複数の木が存在する状態を「森（フォレスト）」と呼び、各集合の代表となる要素をその木の「根（ルート）」と定めます。これにより、要素の所属判定（Find）は、その要素から根に向かってポインタをたどるだけで済むようになります。これが、Union-Findが集合管理構造として優れている所以です。

主要なコンポーネントと動作原理

Union-Findの実装は比較的シンプルで、通常、各要素の「親」を示すポインタ（または配列インデックス）を用いて行われます。

1. Find操作（集合の代表元の探索）

Find操作は、ある要素 $x$ が属する集合の代表元（根）を見つけるための操作です。$x$ から親ポインタをたどり続け、自分自身を親とする要素に到達したとき、それが代表元であると判断されます。

ここで、Union-Findの驚異的な効率性を支える最重要テクニックが登場します。それが「経路圧縮 (Path Compression)」です。Find操作で根にたどり着いた後、その探索経路上のすべての要素を、直接、根の子として付け替えてしまうのです。このひと手間を加えるだけで、次に同じ要素やその経路上の要素に対してFind操作が行われたとき、たどるべき深さが劇的に浅くなります。私は、この経路圧縮こそが、Union-Findを単なる木の構造ではなく、特殊データ構造の傑作に押し上げた最大の要因だと感じています。

2. Union操作（集合の統合）

Union操作は、二つの要素 $x$ と $y$ が属する集合を一つに統合する操作です。

まず、Find操作を使って $x$ の代表元 $R_x$ と $y$ の代表元 $R_y$ を特定します。
もし $R_x$ と $R_y$ が異なっていれば、二つの集合は別々であるため、統合が必要です。
統合は、一方の代表元をもう一方の代表元の子として接続することで行われます。

この接続の際にも効率化が図られます。ただランダムに繋ぐのではなく、「ランク（木の高さ）による統合」や「サイズ（集合の要素数）による統合」という手法を用います。これは、常に小さい木を大きい木の下に接続することで、木の深さが不必要に増大するのを防ぎます。深さが浅く保たれることで、Find操作の効率も維持されるというわけです。

これらの最適化手法（経路圧縮とランク/サイズによる統合）を組み合わせることで、Union-Findは要素数 $N$ に対して、ほぼ定数時間 $O(\alpha(N))$（アッカーマン関数の逆関数）という、実用上、最速に近い計算量で動作します。これは、非常に大規模なデータセットを扱う場合でも、その性能がほとんど劣化しないことを意味しており、集合管理構造の分野で圧倒的な地位を築いている理由です。

具体例・活用シーン

Union-Findは、その高速な連結性判定能力を活かし、特にグラフアルゴリズムやデータ処理の分野で不可欠なツールとなっています。

ネットワークの接続性チェック:
通信ネットワークや電子回路の設計において、特定の二点間が物理的に接続されているか、または断線しているかをリアルタイムで判定するために使用されます。
画像処理における領域分割:
デジタル画像において、類似した色やテクスチャを持つ隣接するピクセルを一つの領域（集合）としてグループ化する（セグメンテーション）際に、効率的な集合管理のために利用されます。
最小全域木（MST）の構築（Kruskal法）:
これがUnion-Findの最も有名な応用例です。Kruskalのアルゴリズムは、グラフのすべてのノードを連結させつつ、辺の重みの合計が最小となる木（全域木）を見つける手法です。このアルゴリズムは、辺を重みの小さい順に追加していく際に、「その辺を追加すると閉路（ループ）ができてしまわないか？」をチェックする必要があります。Union-FindのFind操作は、この「閉路判定」を極めて高速に行うために使われます。辺の両端のノードが既に同じ集合（連結成分）に属していれば、その辺は閉路を作るため、Union-Findのおかげで即座にスキップできるのです。