Creatorshead

株式会社クリエイターズ・ヘッドのつぶやき

マハラノビス距離

弊社は、IBM社のSPSS ModelerやR/Python言語を用いて各種統計解析案件をこなしてきていますが、先日、新たな統計解析テーマの案件に直面し、現在構築作業に向け調整中です。

その新たなテーマというのが、マハラノビス距離を用いたエラー判別という案件です!

マハラノビス距離とは、統計学で用いられる一種の距離であり、「普通の距離を一般化したもの」という意味でマハラノビス汎距離ともいうようです。

多変数間の相関に基づくものであり、多変量解析に用いられ、新たな標本につき、類似性によって既知の標本との関係を明らかにするのに有用である。

データの相関を考慮し、また尺度水準によらないという点で、ユークリッド空間で定義される普通のユークリッド距離とは異なる。

マハラノビス距離はクラスタリングなどの統計分類に幅広く使われる手法で、ある点をNクラスの1つに分類するのにマハラノビス距離を利用するには、まず各クラスの共分散行列を(普通はそれに属すことがすでにわかっている標本に基づいて)求める。

次に、試験標本が与えられたら、各クラスへのマハラノビス距離を計算する。そしてマハラノビス距離が最小となるようなクラスに属すとして分類を決定する。

これは上記の確率的解釈によれば、確率の最高となるクラスを選ぶことに等しい。

またマハラノビス距離とてこ比は、線形回帰モデルを作る際、外れ値を決定するのによく使われる。

他の標本集団からのマハラノビス距離が大きな点は、てこ比が高いという。これは、回帰曲線の勾配などの係数に対する影響が大きいということである。

という何が何やらロジックは、よく分からない話であるが、本案件では、非常に有用な手法であるようです。

品質工学の分野においては、マハラノビス距離を田口玄一氏が応用した手法として、MTS(マハラノビス・タグチ・システム)、MT法というのが存在するようです。

統計解析の分野も非常に奥が深いです。