機械学習と計量経済学の違いとは?

Academic

こんにちは、Block GeniusのHiroです。この記事では機械学習と計量経済学の違いについて説明していこうと思います。両者は似通るところがあり、その違いが曖昧になることがあると思い、自分なりの解釈でその違いを書いていこうと思います。

機械学習とは?

人工知能分野の一つで、コンピュータがデータから理論や法則などを学習する手法です。データは多くの場合、学習用とテスト用に分けられ、学習用データからモデルを構築し、そのモデルの正確性をテスト用データで試します。

機械学習は主に、教師あり学習、教師なし学習、強化学習に分けることができます。教師あり学習とは、すでに目指すべき答えは分かっていて、その答えに近いものを出力するようなモデルを構築する学習になります。

師あり学習の具体例は、計量経済学で主に用いられる回帰分析やクラシフィケーション(分類分け)などです。2つ目の教師なし学習は、データ中には答えはなく、答えをつくるような学習になります。例として、クラスタリングと呼ばれる、分布図中の点をグループ分けするといった学習です。最初からどのようにグループ分けすべきといった模範解答はなく、ある一定の距離内に一定数量の点があれば一つのグループとして分類するというような基準をもとにグループ分けを行います。

強化学習は、ある状況内において取るべき行動を学習する手法です。行動を選択し実行することで、報酬が与えられる仕組みで、より良い行動をとり続けることで報酬を最大化することができます。報酬が最大化された時点で学習を終了し、最終的な行動選択が学習のモデルになります。

計量経済学とは?

計量経済学とは、経済学的理論を数学的なモデル(主に線形・非線形代数)で表し、そのモデルを統計的・定量的に立証・反証する学問です。そこには、立証されるべき仮説があり、統計的に有意な結果が出れば、その仮説が立証されたことになります。数学的モデルは一般的に以下のような一次関数による回帰分析を行います。

y= β0+β1*X1+…+ ε

Β0は一次関数における切片になり、回帰式の底上げ値になります。β1は変数X1の係数になります。回帰分析後、β1の値に対するt検定結果のp値が0.05よりも小さければ、対立仮説(β1は0と異なる)が立証されます。

仮にβ1のp値が0.05を超えていた場合、帰無仮説(β1は0と異なることはない)を受け入れ、β1の変数は統計的にモデルを説明するに値しないと解釈されます。

また回帰分析するデータには、交差系列分析、時系列分析、交差時系列分析の3種類があります。交差分析とは、同一時点における、変数同士の関係性を検証する手法です。例えば、都市の中心地からの距離や部屋の広さ、周囲の環境による不動産価格の推定です。

時系列分析とは、一つの変数を時間的推移にしたがって検証します。下のグラフのように、天然ガスとアメリカドルを時間的推移に基づいてグラフ化します。交差時系列分析とは、交差系列分析と時系列分析を組み合わせた分析手法になります。例としては、毎日のアイスクリームの売り上げを、気温、天候、季節などの変数で分析したり、GDP(国内総生産)値をインフレ、失業率、貿易収支などの変数で時間的推移を伴った分析をすることなどです。

ちなみに、数字で表せない変数、例えば天候や季節といった変数は数値ではなく、晴れ、雨、くもり、春、夏、秋、冬などのようにカテゴリーごとに振り分けられます。その様な場合、ダミー変数というもので代用し、そのカテゴリーが当てはまる日はダミー変数は1となり、当てはまらない場合は0をデータとして入力します。

2つの違いについて

まず最も大きな違いは、「計量経済学は仮説をモデルの変数によって説明することに重点を置くのに対して、機械学習は予測の精度を高めることを目標としていること」です。

計量経済学では、各変数の係数の有意性や不均一分散、重回帰分析において多重共線性などの問題を統計的に確かめ、問題があればそれを修正していきます。そのため、計量経済学はモデルを論理的・統計的に立証し、各独立変数がどれくらい仮説に影響を与える、説明しているのかを数値的に表現することを目的としています。

一方、機械学習は説明変数の統計的な有意性などよりも、学習したモデルからの推測値が実際の数値に近くなることようなモデルを確立し、正しい推測をすることに重点を置きます。

特に機械学習の一つの手法であるディープラーニングにおいては、重要な特徴量を自動的に抽出するのですが、なぜその特徴がデータを説明するのに重要なのかを論理的に説明できないという問題があります。

あるとすれば、その特徴により重きを置くことで推測値と実際の数値との誤差が最小化されたからといった感じであると思います。データを読み込み推測値は出してくれたが、なぜそのような答えになったのかが不明である。機械学習は効率的に膨大な量のデータ分析が可能な反面、モデルの正確性・論理性は説明できないことが、人工知能分野における一つの難点であると思います。効率性と正確性は相容れない関係なのかもしれません。

2つ目の大きな違いは、「計量経済学においては、線形・非線形代数における分析が一般的であるのに対して、機械学習においては線形・非線形代数の分析に限らず、音声や画像認識、分類分析、クラスタリング、など分析の汎用性が非常に高い」ことです。

計量経済学では、上でも述べたとおり、y= β0+β1*Xi+…+ εという一次関数を用いた回帰分析が主流であり、グラフ上での定量的な分析に長けています。それに対して、機械学習は比較的多種の分析手法があり、自然言語処理や画像認識、オンラインショッピングなどでみるリコメンデーション機能など、計量経済学では扱うことのなかった分析手法が可能です。

3つ目の違いは、学習の観点からの違いです。「計量経済学はモデルの構築やその正確性を統計的に証明することに重点を置くのに対して、機械学習は学習のためのアルゴリズムを設計しプログラムを実装して結果がでるまでの全過程を学ぶ」ということです。

計量経済学は経済学理論の仮説を立て、それに従う従属変数とそれを説明する独立変数を含むモデルを構築しますが、データさえ集めれば計量経済学専用のソフトウェアを使えば簡単にモデルを作り、統計的な分析を行うことができます。そのため、モデルの分析や統計的な問題を修正することに注力することになります。

機械学習においては、各学習手法におけるプログラミングを自分でプログラムする必要があるため、一から設計していく必要があります。そのため、機械学習を学ぶにあたって、まずどのような学習法にするかを決め、プログラミング言語を習得し、実際にプログラムを実装する必要があります。一方で、計量経済学の様な、学習によって得られたモデルを統計的に考察することはせず、学習の精度を高めることに集中することになります。

まとめ

この記事では機械学習とは、計量経済学とは何かについて基本的なレベルで説明し、また両者の主な違い3点について説明しました。基本な違いはやはり、計量経済学は統計学の延長線上にあるので、仮説があっての検証になりますが、機械学習は前もった仮説なしで法則や理論を見つけ出すことであると思います。最後まで読んでくださりありがとうございました。

タイトルとURLをコピーしました