自動化

カテゴリカル変数の相関分析で生じる課題(ピアソン相関の限界)

カテゴリカル変数の相関分析で生じる課題(ピアソン相関の限界)

ピアソン相関係数の前提と課題

ピアソンの積率相関係数は連続的な数値データ(量的データ)間の線形関係を測る指標であり、例えば売上高やクリック数などの間の関係を評価する際に使われます。しかし、カテゴリカル変数(名義尺度や順序尺度)ではその適用に注意が必要です。カテゴリ間には均等な間隔が保証されないため、数値を割り振って単純に計算すると歪んだ結果になることがあります。例えば、アンケートの満足度調査(「不満」「普通」「満足」など)を1、2、3と符号化してピアソン相関を求めると、真の関連を過小評価する「希薄化(attenuation)」が起きやすくなります。特に回答の階級数が少ないとバイアスが大きく、回答階級が多い(5段階や7段階)ほどピアソン相関との差は小さくなる傾向があります。

カテゴリカルデータにおける相関測定の問題点

カテゴリカル変数同士の相関を測る際、ピアソン相関をそのまま使うと、真の相関を過小評価するリスクがあります。これはデータを粗く(カテゴリ化)測ったことで測定誤差が増え、いわゆる信頼性が低下して相関が希薄化するためです。Peters & Van Voorhis (1940) の報告では、もともとの連続変数同士の相関ρが0.7の場合、片方の変数を中央値で2値化すると得られるピアソン相関は0.798ρ程度に下がる(真値の約0.8倍になる)ことが示されています。こうした補正された相関係数(例えばバイシリアル相関)は歴史的に考案されましたが課題もあり、より一般化したポリシリアル・ポリコリック相関などが近年は用いられます。また、名義尺度の場合はピアソン相関自体が適切でなく、代わりにクラメールのVやφ係数など、クロス集計表に基づく手法を使う必要があります。

順序尺度データの相関係数(スピアマン・ケンドール・ポリコリック)

スピアマンの順位相関係数

スピアマンの順位相関係数は、データを大きさ順(順位)に変換した上で相関を計算する手法です。例えば満足度アンケートの「1=不満~5=非常に満足」のような順序尺度データや、成績など順位付けされたデータ間の関係を見る際に用いられます。計算方法は各データを順位に置き換え、ピアソン相関を取るのと等価ですが、同順位がある場合は平均順位で扱います。結果は-1~1を取り、絶対値が大きいほど強い単調関係を意味します。例えば「商品の評価順」と「再購入意向の順位」を比較し、スピアマンの相関で0.9出れば、評価が高いほど再購入意向も高い強い関係と判断できます。

ケンドールの順位相関係数

ケンドールのτ(タウ)順位相関係数は、データの順位間における「一致ペア数」と「不一致ペア数」の差で関係の強さを測ります。具体的には、全てのデータペア(i,j)に対し、2つの順位が同じ増減方向(順方向)か逆方向かを調べ、不一致ペアを引いた値を全組み合わせ数で割って求めます(τ = (順方向ペア – 逆方向ペア) / C(n,2))。結果は-1~1で、1に近ければ全ペアが順方向一致(強い正相関)、-1なら全て逆方向(強い負相関)です。スピアマンよりも外れ値や同順位の影響が少ないため、例えばバラつきの大きい小規模データや同じ値が多いデータで安定した相関評価ができます。

ポリコリック相関係数(概要)

ポリコリック相関係数は、2つの順序尺度カテゴリカル変数間の相関を評価するための指標です。例えば顧客満足度を5段階評価で測った2つの項目の相関を求める際、「観測される5段階の背後には本来連続的な潜在変数が存在し、閾値で区切られている」ことを仮定します。この潜在的な連続変数同士の真の相関をρとみなし、最尤法などで推定します。実務では、スピアマンやケンドールで扱いづらい緻密な順序データ(項目反応のようなアンケートデータなど)の相関を、より実際の相関に近い形で推定できるメリットがあります。

ポリコリック相関係数の概要と計算方法

概要

ポリコリック相関係数は、順序尺度の2つの変数X,Yに対して「観測されたカテゴリカルデータの背後に潜在的な連続変数X,Yがある」とモデル化し、その潜在変数間の相関ρを推定する手法です。具体的には、各カテゴリ間の閾値τによりX,Yを離散化して観測データX,Yが得られると仮定し、XとYは標準正規分布に従う2変量正規分布に従うとします。これにより、順序データから連続変数同士の真の相関を推定でき、ピアソン相関や順位相関で生じる希薄化バイアスを軽減できます。

計算方法

計算は最尤推定が一般的です。まず、各変数のカテゴリ比率から閾値を逆正規分布で求め(Φ1−1を利用)、次に2変量正規分布の共分散行列(相関ρを含む)から各カテゴリ組み合わせの確率Pijを累積正規分布Φ2で算出します。得られた頻度に対する対数尤度をρについて最大化し、最適な相関ρを推定します。多くの場合、Rのpolycorパッケージや統計ソフトの関数で自動計算できます(内部的にはΦ2の評価と最適化が行われます)。実例として、5段階評価で得た顧客満足度データ同士のクロス表からポリコリック相関を計算すると、順位相関0.45に対しρ≈0.65と、真の関係に近い値が得られることもあります。

ポリシリアル相関係数の概要と計算方法

概要

ポリシリアル相関係数は、1つが連続変数、もう1つが順序尺度カテゴリカル変数の場合に用いられる相関の推定方法です。例えばテストの正答率(連続)と設問難易度(「易しい」「普通」「難しい」の順序データ)のような場合です。この手法も観測された順序データYの背後に潜在的な連続変数Yがあると仮定し、X(連続)とYが平均と分散を持つ2変量正規分布に従うと考えます。Yは閾値で離散化されてYが観測されるモデルで、これによりXとYの真の相関を表すρを推定します。

計算方法

計算では、連続変数Xと潜在変数Yの共分散行列を用いて尤度関数を作成し、ρを推定します。具体的には、Yの各カテゴリに対する累積確率から閾値を求め、XとY*の共分散を含む正規分布で各サンプルの尤度を計算します。続いて、全サンプルの対数尤度を最大化するρを数値最適化で求めます。Rのpolycorパッケージなどで実装されており、得られたポリシリアル相関は、単純なスピアマン相関よりも測定誤差のバイアスを減らした値になります。

テトラコリック/バイシリアル相関係数の概要

テトラコリック相関係数

テトラコリック相関係数は、両方の変数が2値(ダミー)データの場合の相関を推定する方法です。例えば商品の購買有無と広告の閲覧有無のように、両方が「はい/いいえ」で表現される場合に用います。このときも各2値の背後に潜在的連続変数があると考え、両者を閾値で離散化した標準正規変数同士の相関ρを最尤推定します。2×2クロス集計に基づくφ係数との違いは、単に観測データから算出するφ(χ²/N)ではなく、隠れた連続特性を仮定して真の相関を推定する点にあります。

バイシリアル相関係数

バイシリアル相関係数は、一方が2値変数でもう一方が連続変数の場合の相関推定です。例えば広告効果(購入有無のダミー)とその広告に費やした金額(連続値)との相関を考えます。通常の点二列相関(point-biserial)は2値を0/1符号化したピアソン相関ですが、バイシリアル相関は「0/1にした背後には閾値で離散化された連続特性がある」と仮定し、推定を行います。歴史的には購入意欲の分布などを仮定して補正項を掛ける方法が提案されましたが、現代ではポリシリアル相関に包含される扱いが一般的です(point-biserialはPearson相関に等しいため別物です)。

質的相関係数の計算方法(クラメールのVなど)

クラメールのV

クラメールのVは、2つの名義尺度変数(分類変数)の連関の強さを示す指標です。具体的にはクロス集計表のχ²値を用いて、
V=√(χ^2/(n×min(r-1,c-1) ))
という式で計算されます。ここでnはサンプル数、r×cはクロス表の行数×列数です。Vの値は0から1の範囲で、1に近いほど2変数の関連が強いことを表します。例えばアンケートで地域(都道府県)と好きな商品のカテゴリが関連するか見るとき、χ²検定と合わせてCramer’s Vで相関強度を確認できます。

その他の連関係数

2×2のクロス表ではφ(ファイ)係数が用いられ、これはχ²/Nの平方根で表されます(クラメールのVと同値になります)。また、YuleのQや連関係数Cなどもありますが、実務ではCramer’s Vが一般的です。質的変数同士の関連分析では、相関係数と呼ばれる手法の代わりに上記のような連関係数やχ²検定が多用されます。

相関係数の使い分けと希薄化修正方法

相関係数の使い分け

相関係数を選ぶ際には変数の尺度と分布を考慮します。連続変数同士ではピアソン相関が基本ですが、データが正規分布に従わない場合や外れ値がある場合はスピアマンやケンドールが有効です。順序尺度どうしでは、まずスピアマン・ケンドール順位相関でざっくり調べ、より精度が必要ならポリコリック相関を用います。一方、1変数が連続でもう1変数が順序尺度ならポリシリアル相関、両方が2値ならテトラコリック相関、名義尺度同士ならクラメールのVやφ係数を使います。実際の分析では、マーケティング調査のようにリッカート尺度(5~7段階)で回答が得られることが多く、カテゴリ数が十分あればピアソン相関でも大きな誤差は出にくい場合もあります。しかしカテゴリ数が少ないときや、厳密な分析が必要な場合は、上記の専門相関係数を検討します。

相関の希薄化(減衰)補正

データを粗くカテゴリ化すると相関が希薄化する問題に対し、補正を試みる手法もあります。基礎理論では、測定値X、Yに誤差があると観測相関rは真の相関ρに2つの信頼度係数√(RXRY)を掛け合わせたものになるとされます(r = ρ√(信頼度X×信頼度Y))。したがって、各変数の測定誤差(信頼度)を見積もって補正すれば真の相関を推定することが可能です。しかし、離散化の誤差はランダムだけでなく閾値設定で系統的に発生するため補正は難しい面があります。歴史的には、二値化による相関希薄化を実験的に特定し、補正項を掛けるバイシリアル相関などが考案されました。現在では、より一般化して最尤推定を用いるポリシリアル・ポリコリック相関を使うことで、バイアスの少ない推定結果が得られます。実務では専用の相関係数を用いるほか、必要に応じて観測相関に対して補正係数を適用することで減衰の影響をある程度緩和できます。

因子分析への応用

カテゴリカル因子分析の概要

因子分析では変数間の相関行列から共通因子を抽出しますが、観測変数がカテゴリカル(順序尺度)の場合、ピアソン相関では関連性が過小評価されがちです。そこで、因子分析に用いる相関をポリコリック相関に置き換えることが一般的です。このように観測変数を連続ではなく順序尺度とみなして因子分析を行う手法を「カテゴリカル因子分析」と呼びます。例えば満足度アンケートの項目を対象に因子分析する際、ポリコリック相関行列を入力すれば、真の潜在的な満足度要因をより正確に抽出できます。

実務での活用例

実務では、顧客満足度やブランド認知などの調査データでポリコリック相関を用いた因子分析が行われます。Sunny Side Up!の例では、真の相関0.7のデータを2値化すると通常の相関では0.454に落ち込みましたが、テトラコリック(ポリコリック)相関を使うと0.655と真値に近い結果が得られました。マーケターがアンケート分析で潜在要因を探る際には、このように特殊相関係数を使うことで要因の精度が上がります。なお、実務ツールではRのpolycorパッケージやMplusのWLSMV推定などが利用されており、カテゴリカルデータに適した因子分析が容易に実施できます。

資料請求

RELATED POSTS 関連記事