NUMA ピンニング（ヌーマピンニング）

2025年11月4日

NUMA ピンニング（ヌーマピンニング）

英語表記: NUMA Pinning

概要

NUMA ピンニングとは、高性能なマルチソケットサーバー環境で利用される、仮想マシン（VM）のパフォーマンスを最適化するための重要な技術です。これは、VMに割り当てられた仮想CPU（vCPU）とメモリリソースを、物理ホストサーバーの特定のNUMAノード（CPUとそれに物理的に最も近いメモリのグループ）に固定（ピンニング）する手法を指します。これにより、CPUが遠隔のメモリにアクセスする際の遅延（レイテンシ）を最小限に抑え、仮想マシンの処理速度と応答性を極限まで引き上げることができます。特にKVMとLinux環境における、大規模なワークロードやレイテンシに敏感なアプリケーションを扱う際の「拡張技術」として非常に重要視されています。

詳細解説

1. NUMAアーキテクチャの背景

なぜNUMAピンニングが必要なのでしょうか？その背景には、現代の高性能サーバーが採用しているNUMA（Non-Uniform Memory Access：不均一メモリアクセス）アーキテクチャがあります。

従来のサーバーは、すべてのCPUが均一な速度でメインメモリにアクセスできるUMA（Uniform Memory Access）が主流でした。しかし、CPUコア数が増え、サーバーがマルチソケット化（複数の物理CPUを搭載）されると、一つのメモリバスを共有することがボトルネックになります。

NUMAアーキテクチャでは、各CPUソケットが自身のローカルなメモリバンクを持ちます。CPUが自身のローカルメモリにアクセスするのは非常に高速ですが、他のソケットに接続されたメモリ（リモートメモリ）にアクセスする場合、QPIやUPIといったインターコネクトを経由する必要があり、このアクセスには顕著な遅延が発生します。この遅延を「NUMAホップ」と呼びます。

2. KVM環境における課題と解決

KVM（Kernel-based Virtual Machine）は、Linuxカーネルの一部として動作するハイパーバイザです。Linuxホスト上でVMを稼働させる際、デフォルトの設定では、VMのvCPUやメモリが複数の物理NUMAノードにまたがって分散配置されてしまう可能性があります。

例えば、8コアのVMを作成した際、4コアがNode 0に、残り4コアがNode 1に、そしてVMのメモリも両ノードに分散されてしまうとします。このVM内のアプリケーションがNode 0に割り当てられたvCPUで動作しているにもかかわらず、Node 1のメモリに頻繁にアクセスしなければならない状況が発生すると、大量のNUMAホップが発生し、期待していたパフォーマンスが得られません。

NUMA ピンニングは、この非効率を解決するために利用されます。これは「KVMとLinux仮想化の拡張技術」として、ホストOSのスケジューラとハイパーバイザ（QEMU/KVM）の設定を連携させ、VMの全リソースを意図的に単一の物理NUMAノード内に閉じ込める設定です。

3. 具体的な動作メカニズム

NUMAピンニングを実現するためには、通常、libvirtなどの管理ツールを通じて、XML設定ファイルを編集します。

トポロジの定義: 仮想マシンのトポロジ情報（vCPU数、仮想NUMAノード数）を物理ホストのNUMAトポロジに合わせて設計します。
CPUアフィニティの設定: VMのvCPUが使用できる物理CPUコアのリストを、特定のNUMAノード内のコアに限定します（CPU Pinning）。
メモリポリシーの設定: VMに割り当てる物理メモリの領域を、CPUがピンニングされたノードのローカルメモリに限定します（Memory Pinning）。

これにより、VMは自身が利用可能な最も高速なリソース空間内で完結して動作できるようになり、仮想環境特有のパフォーマンスのばらつき（ジッタ）が大幅に改善され、極めて予測可能な高い性能を発揮できるようになるのです。これは、標準的な仮想化環境から一歩踏み込んだ、専門的なチューニングの領域と言えるでしょう。

具体例・活用シーン

倉庫での作業効率に例える

NUMA ピンニングは、巨大な倉庫での作業に例えると非常に理解しやすいです。

想像してみてください。あなたは倉庫で働く作業員（vCPU）で、注文リスト（アプリケーションの処理要求）に基づき、棚（メモリ）から商品（データ）を取り出す必要があります。

ピンニングなし（デフォルト）: あなた（作業員）は倉庫の真ん中に立たされています。注文リストの商品の一部はすぐ隣の棚（ローカルメモリ）にありますが、多くは倉庫の端にある遠い棚（リモートメモリ）に保管されています。遠い棚の商品を取りに行くたびに、あなたは倉庫の端から端まで歩き（NUMAホップ）、大幅な時間ロスが発生してしまいます。作業効率は非常に悪いです。
NUMA ピンニングあり: 倉庫管理責任者（ハイパーバイザの設定）が、あなたを特定の棚グループの真横に配置し、あなたの注文リストの内容がすべてその棚グループ内にあることを保証しました。あなたは手を伸ばすだけで必要な商品を取り出せるようになり、移動時間がゼロになります。作業効率は劇的に向上し、注文（処理）が瞬時に完了するようになります。

このように、NUMA ピンニングは、仮想マシンという「作業員」を、最も効率的な「作業エリア」（単一のNUMAノード）に固定し、最高のパフォーマンスを引き出すための仕組みなのです。

活用シーン

NUMA ピンニングは、単なる一般事務用途のVMには不要ですが、以下のようなレイテンシやスループットが厳しく求められる環境で必須の拡張技術となります。

高性能データベースサーバー: OracleやPostgreSQLなど、メモリとI/Oアクセスが頻繁なデータベースインスタンスをVMで稼働させる場合、わずかな遅延も許されません。ピンニングにより応答速度が安定します。
HPC（ハイパフォーマンスコンピューティング）: 科学技術計算やシミュレーションなど、大量の並列処理を行うワークロードでは、NUMAホップが計算全体のボトルネックになるため、ピンニングは不可欠です。
リアルタイム処理システム: 金融取引システムや通信インフラなど、応答時間がミリ秒単位で要求されるシステムでは、パフォーマンスの予測可能性を高めるために利用されます。