Creatorshead

株式会社クリエイターズ・ヘッドのつぶやき

探索的データ解析(EDA)

機械学習エンジニアやデータサイエンティストが、一番最初に行う作業をご存知でしょうか?会社や組織から課題を与えられた場合、最初に行うのが「探索的データ解析」と呼ばれる作業です。

探索的データ解析、英語ではExplanatory Data Analysis(EDA)とは、データの特徴を探求し、構造を理解することを目的としたデータサイエンスの最初の一歩です。

探索的データ解析は機械学習のタスクの一番最初のフェーズで、まずはデータに触れてみて、データを視覚化したり、データのパターンを探したり、特徴量やターゲットの関係性/相関性を感じるとるのが目的です。

より高度な機械学習のモデルの構築をしたり、難解な問題を解決する際には、特徴量エンジニアリングを必要することが多々あり、その際に深いデータの知識と理解が求められます。

問題を解決する前に、どのようなデータセットを扱っているのか、どのような状況にあるのかを、しっかりと理解するのが重要であり、「探索的データ解析(EDA)」はまさしくそれを目的とした作業となります。

なぜ探索的データ解析が重要なのでしょうか?

データサイエンティストの仕事の多くは、当然ながら、何かしらのデータを使って行うことが多いわけです。長い間、親しんで使ったデータもあれば、全く見たことも触ったこともないデータも当然あります。

これらのデータに対して「仮説」を立てて、最終的に予測モデルを構築するのですが、そのプロセスにおいて「探索的データ解析」は重要な役割を持っています。

有名なドイツの哲学者アルトゥル・ショーペンハウアー氏の引用ですが、「金を探し求めている錬金術師達は、金よりも価値の高い多くのものを発見しました(意訳)」と残していますが、まさに探索的データ解析はデータサイエンティストにとって、データをより深く理解して「データよりも価値の高いもの」を見つけるための作業なのです。

EDAを行うためのツールは、いくつかあるのですが、その中でも非常に使い勝手が良いと言われているのは、「Pandas」というオープンソースPythonライブラリです。

機械学習エンジニアの中でも非常に人気が高く、大量なデータを高速かつ簡単に扱うのに優れているツールです。