字句解析

2025年11月8日

字句解析

英語表記: Lexical Analysis

概要

字句解析（Lexical Analysis）は、コンパイラやインタプリタといった「言語処理系」の「フロントエンド」において、必ず最初に行われる非常に重要な処理プロセスです。入力されたソースコードの文字ストリームを読み込み、プログラミング言語として意味を持つ最小単位である「トークン」（字句）へと分割・識別する役割を担っています。この工程を通過することで、単なるテキストファイルだったコードは、機械が構造的に処理できるデータ形式へと変換され、続く「構文解析」フェーズのための土台が築かれます。

詳細解説

字句解析は、言語処理系の構造において、入力と構文解析の橋渡しをする役割を担っています。

処理の目的と重要性

私たちが書くソースコードは、コンピュータにとってはただの連続した文字の並びに過ぎません。しかし、if や while が予約語であること、total が変数名であること、+ が足し算の演算子であることを理解しなければ、プログラムとして実行することはできません。字句解析の最大の目的は、この文字の並びの中から、意味を持つ塊（トークン）を正確に切り出し、それがどのような種類（型）であるかを識別することにあります。

この処理がコンパイラのフロントエンドで失敗すると、その後の構文解析や意味解析は一切実行できません。まさに、言語処理系のすべての工程のスタートラインを担っているのです。

字句解析器（レクサ）の動作原理

字句解析を行うプログラムは「字句解析器」または「レクサ」（Lexer）、あるいは「トクナイザ」（Tokenizer）と呼ばれます。レクサは、主に以下の仕組みに基づいて効率的に動作します。

正規表現の利用: 各プログラミング言語の文法は、予約語、識別子（変数名）、定数、演算子などのパターンを定義しています。レクサは、これらのパターンを正規表現（Regular Expression）として定義ファイルに持っています。例えば、「識別子はアルファベットで始まり、その後にアルファベットまたは数字が続く」といったルールです。
有限オートマタによる照合: レクサは、入力ストリームの文字を一文字ずつ読み進めながら、定義された正規表現に照らし合わせていきます。この照合プロセスは、効率的なアルゴリズムである有限オートマタ（Finite Automata）によって実現されています。これは、現在の状態と入力文字に応じて次の状態へ遷移する機械モデルであり、高速なパターンマッチングを可能にしています。
トークンの生成: パターンに完全に一致する文字の塊を見つけたら、レクサはその塊を一つの「トークン」として確定させます。トークンは通常、「トークンの種類」（例：予約語、識別子、整数定数）と「字面」（実際にソースコードに書かれていた文字列）のペアとして出力されます。
ノイズの除去: プログラミングの可読性を高めるために不可欠な空白文字（スペース、タブ、改行）やコメントは、プログラムの実行には直接的な影響を与えません。字句解析の段階で、これらの「ノイズ」はほとんどの場合、取り除かれるか無視されます。これにより、フロントエンドの次のステップである構文解析は、意味のある情報だけを処理できるようになり、処理負荷が大幅に軽減されるわけです。

このように、字句解析は、文字という低レベルな情報から、プログラミング言語としての意味を持つ高レベルな情報へと抽象度を上げる、非常に洗練されたプロセスなのです。

具体例・活用シーン

字句解析の働きを理解するために、身近な例やコードの処理過程を見てみましょう。

アナロジー：文章の読解と単語帳づくり

ソースコードを「外国語で書かれた非常に長い文章」だと想像してみてください。

入力: 文字が延々と並んでいます。（例：Thequickbrownfoxjumpedover...）
字句解析（レクサ）の役割: 私たちが文章を読むとき、文字の連続から「単語」や「句読点」を区切りますよね。レクサはこれと同じことを行います。どこまでが一つの意味の塊なのか、スペースや記号を頼りに判断します。
トークンの生成: レクサは、文章を読んで区切った塊（単語）に対して、「これは動詞だ」「これは名詞だ」「これは句読点だ」とラベル（種類）を貼って、「単語帳リスト」を作成します。この単語帳リストこそが「トークン列」です。

もし字句解析がなければ、私たちは文章を読む際に、文字を一つずつ追うだけで、どこが単語の切れ目なのか分からず、意味を理解する次のステップ（構文解析）に進めません。字句解析は、まさに「文字の海」から意味の「単語」を救い出す、言語処理系にとっての辞書作成係なのです。

コード処理の具体的な流れ

C言語風の簡単な式を例に、字句解析がどのように機能するかを見てみましょう。

入力ソースコード:

c if ( count >= 10 )

字句解析後の出力（トークン列）:

字句解析器は、スペースや改行を無視しつつ、以下のようなトークン列を生成します。

トークン 1: 種類: 予約語 (KEYWORD), 字面: if
トークン 2: 種類: 記号 (DELIMITER), 字面: (
トークン 3: 種類: 識別子 (IDENTIFIER), 字面: count
トークン 4: 種類: 演算子 (OPERATOR), 字面: >=
トークン 5: 種類: 整数定数 (LITERAL), 字面: 10
トークン 6: 種類: 記号 (DELIMITER), 字面: )

このトークン列は、コンパイラの「フロントエンド」における次の処理である「構文解析」に渡されます。構文解析器は、文字の羅列ではなく、この構造化されたトークンリストに基づいて、「もし(if) カウント(count) が 10 以上(>=) ならば、という条件文が成立している」という文法的な構造を解析していくのです。