ご覧いただきありがとうございます!
こんにちは!!情報系の学生をしています、あまね(@isaka122)です。
最近、統計の勉強をしています。
統計学という学問をご存知でしょうか?
統計学というのは、たくさんのデータから何か規則などを見つけ出す数学のことです。
さて、今日はそんな統計学の基本である回帰分析について勉強したことをまとめていきます。
回帰分析とは?
まず、用語の定義から始めていきます。
回帰分析を簡潔に表したサイトがインターネットにありました。
回帰分析とは、説明変数xによって従属変数yを y = f(x)の形でどの程度説明できるかを分析する手法です。
ここからスタートしていきます。事象の関係について
さて、まず前提としてものごとの関係性について説明します。
身の回りではたくさんの出来事が起こりますよね。
たとえば、ものが落ちる、雨が降る、ドアが閉まる、、その他なんでもOKです。
それらの出来事の関係を2種類決めることができます。
因果関係と相関関係です。
因果関係
因果関係とは、よく耳にするように、原因→結果となる関係のこと。
例えば、「腐った食べ物を食べた」から「お腹をこわした」みたいなものです。
相関関係
それに対して相関関係は、原因と結果かはともかく、何か関係がある2つのできごとです。
例えば、「お金持ちである人は高い車に乗る」のような場合、確かに関係がありそうですよね。
でも、これは因果関係ではありません。
高い車に乗ればお金持ちになれるかと言われれば、そんなことはないですよね。(きっと)
因果関係なのか相関関係なのか、どちらかを見極めるのはむずかしいです。
回帰分析の種類
さて、それでは本題にもどって回帰についてです。
回帰は大きく2種類があります。
- 説明変数が1つである単回帰
- 説明変数が2つ以上ある重回帰
の2種類です。
単回帰では、y = ax + bという線形モデルをデータに当てはめます。
回帰分析の長所・短所
回帰の特徴、主に長所と短所についてです。
回帰の長所
回帰の長所は大きく2つ。
- データを見やすく整理できること
- データの関係を数式化できること
です。
データの関係を数式化できれば、そこから次のデータを予測したり、いろいろな数学的な手法が使えるようになりますね。
回帰の短所
一方で、回帰の短所は、
- 「剰余変数」によって誤った判断になってしまうこと
があります。
剰余変数とは、説明変数以外に従属変数に影響を及ぼしている変数のことです。
この変数を考慮しないでモデルを作っても、それは正確なモデルとは言えません。
つまり、回帰ではあらかじめわかっている「説明変数」と「従属変数」の関係を数式で表すのですが、その他にも従属変数に影響を与えている原因がどこかにある可能性があるのですね!
参考サイト
http://clinicalpsychocommu.blog52.fc2.com/blog-entry-112.html