公開日:2023.09.28

重回帰分析完全ガイド:基礎から応用事例まで

  • データ集計・分析・活用

重回帰分析とは、予測したいデータ(目的変数)に対して、複数の要因データ(説明変数)との関係を数式で表現する統計的な手法です。重回帰分析を活用すればデータから様々な知見を得られますが、利用するには守るべき前提条件や注意点があります。
 
この記事では、重回帰分析の仕組みや使い方について、応用事例を交えて解説します。
 
【定量編】リサーチ業務ラインナップ 無料ダウンロードはこちら>
 
 
 

重回帰分析の基礎知識

重回帰分析は、複数要因の影響を分析できる、とても重要な分析手法です。ここでは重回帰分析を正しく理解するための基礎知識を解説します。
 
 

定義と基本的な概念

重回帰分析とは回帰分析の一種で、ある結果(目的変数)を説明するときに、関連する複数の要因(説明変数)がどの程度結果に影響を与えているかを数式で表す手法です。回帰分析とは変数間の関係を数式で表現する統計的な手法の総称で、関連する要因が一つの場合は単回帰分析、複数の場合が重回帰分析と呼ばれます。
 
重回帰分析を活用すれば複数の要因が変化した場合、結果がどのように変化するかの予測が可能です。
 
例えば、あるチェーン店において重回帰分析を活用したとします。そうすると、売上(目的変数)が近隣人口、売り場面積、幹線道路の通行量、駐車場収容台数などの要因(説明変数)とどのような関係式になっているかを求められます。
 
その結果、新規店舗を出店する際に、その関係式を利用すれば新店舗の売上予測が可能です。また、どの要因が結果に大きな影響を与えているかが分かることで、売上を上げるためにはどの要素を優先的に強化すべきかも把握できます。
 
 

実施するための前提条件

重回帰分析を正しく利用するためには、いくつかの前提条件を守る必要があります。前提条件とは、データが満たすべき統計的な性質のことで、「独立性」「正規性」「等分散性」「線形性」の4つがあります。
 
独立性とは、説明変数同士が互いに独立していることです。データ同士に依存関係があってはなりません。例えば、売り場面積と近隣人口を説明変数とする場合、この2つの間には直接的な相関関係はほとんどありません。一方で売り場面積と商品点数を説明変数とする場合、データ同士には強い相関関係があると推定できます。
 
このような場合は、説明変数として用いるデータをどちらか一方にするのが適切です。
 
次に正規性とは、あるデータを中心にデータが釣鐘状に分布(正規分布)していることです。例えば学力テストであれば、平均点付近を中心に釣鐘状に点数が分布することが期待されます。
 
正規分布は自然界においては最もありふれた確率分布で、正規分布しない場合は何かしらの特殊要因が影響している可能性があります。
 
等分散性とは、データの釣鐘状形状が対象とした2群で近似していることです。データの散らばり方に大きな差があると、等分散性がなくなり前提条件を守れません。例えば学力テストであれば、男女別や学年別などのグループで点数のばらつきが同じであることが期待されます。等分散性の確認には、統計的な検定を利用します。
 
最後に線型性とは、説明変数の値に対して、目的変数が直線的に増減することです。データが曲線的に増減する場合は、適切な分析結果を得られません。
 
以上の4つの前提条件を満たさないと、重回帰分析の結果に偏りが生じたり、信頼度が低下する可能性があります。そのため、重回帰分析を行う前には必ず前提条件をチェックし、満たしていない場合はデータの入れ替えや除外を行いましょう。
 
 
 

重回帰分析の具体的な手順

重回帰分析は、データから有益な分析結果を得るためにとても役立つ手法ですが、そのためには正しい手順を踏むことが大切です。ここでは、重回帰分析を行うために必要な調査の準備、分析の実行、結果の解釈について解説します。
 
 

調査の準備

重回帰分析を行う際には、適切な調査準備が必要です。調査の準備で行うことは、重回帰分析を行う目的に適したデータを選定し、目的変数と説明変数を設定することです。これらの準備が適切でないと、重回帰分析の結果に信頼性や妥当性が欠ける可能性があります。
 
ここでは、重回帰分析に必要なデータの選定や変数の設定について説明します。
 
 
必要なデータの選定
 
データの選定とは、重回帰分析で求めたい目的に応じて、分析のベースとなり得るデータを集めることです。
 
例えば、あるチェーン店において売上を予測するための重回帰分析を行う場合、各店舗の売上や近隣人口、売り場面積など、分析結果に影響しそうなデータを目的や仮説に基づいて選定します。
 
なお、データを選定する際には、以下の点に注意することが大切です。
 
 
■関連性が高いデータは一つにまとめる
強く関係しているデータ同士を一緒に分析すると、重回帰分析の結果が不安定になります。例えば、売り場面積と商品点数は関連性が高いデータ同士のため、一つにまとめるか、代表的なものだけを選ぶ必要があります。
 
 
■データの時間差を短くする
データの取得時期に大きなズレがある場合は、重回帰分析の結果が正しく反映されません。そのため、できるだけデータの時間差を短くしましょう。
 
 
■特殊要因が考えられる異常値を取り除く
データに特殊要因が考えられる異常値が含まれている場合は、重回帰分析の結果に大きな影響を与えます。例えば、飲食店の重回帰分析を行う際、新型コロナウィルスのような社会的に大きな影響があった時期のデータを、それ以前と同列に比較するのは適切ではない可能性が高いです。そのため、特殊要因が考えられる異常値は取り除くか、別の手法で対処する必要があります。
 
 
■データの精度が低い場合は除外する
データの精度が低くても、重回帰分析からある程度の結論や仮説は導き出せます。ただし、その場合は信頼性や妥当性が低くなることは避けられません。精度の低いデータを使用する場合は、その前提をしっかりと理解することが大切です。
 
 
目的変数と説明変数の設定
 
重回帰分析を行う次のステップは、目的変数と説明変数の設定です。目的変数とは、重回帰分析によって最も知りたいことを読み取るのに適切なデータです。例えば、あるチェーン店において売上を予測するための重回帰分析を行う場合、目的変数は売上となります。
 
目的変数は1回の分析で1つしか設定できません。複数の目的変数を調べたいときは、それぞれに対して都度、重回帰分析を行う必要があります。
 
説明変数とは、目的変数に影響を与えると考えられる要因のデータです。例えば、売上を予測するための説明変数には、近隣人口や売り場面積、幹線道路の通行量、駐車場収容台数などが考えられます。
 
説明変数の数は、多すぎても少なすぎても良い分析結果が得られません。多すぎると関係を表す数式が複雑になったり、少なすぎると重要な要因を見逃す可能性が高くなります。
 
一般的には、適切な説明変数の数は5~7 個程度であると言われています。候補となる説明変数が多い場合は、適切な数で重回帰分析を行って、影響度の大きい説明変数を抽出する方法があります。
 
目的変数と説明変数の設定は、重回帰分析の目的や仮説に基づいて行う必要があります。もし、目的変数と説明変数の設定が適切でなければ、重回帰分析で期待するような結果を得られなくなるかもしれません。
 

調査の準備

重回帰分析の解析は、主に統計ソフトウェアを用いて行います。統計ソフトウェアとは、重回帰分析などの統計的な手法を簡単に実行できるコンピュータープログラムです。統計ソフトウェアを用いることで、複雑な重回帰分析を素早く計算できます。
 
使用する統計ソフトウェアは、データ量が大きくない場合はエクセルでも可能です。もし大きいデータを扱うのであれば、フリーソフトの「R」やIBMの多変量解析ソフト「SPSS」などを使用します。
 
分析を行う際には、まず分析するデータを準備します。準備したデータをセットして、目的変数と説明変数を設定すれば、後は統計ソフトウェアが解析を行います。
 
 
 

重回帰分析の具体的な手順

重回帰分析は複数の要因から結果を予測するための統計的手法です。そのため、重回帰分析を用いれば、様々な予測が可能となるため、幅広い分野で利用されています。
 
ここでは、重回帰分析が実世界において、どのような問題解決に役立っているかを紹介します。
 
 

ビジネスにおける利用事例

■顧客満足度の向上
 
ホテルなどが顧客満足度を向上させるために、重回帰分析を用いて顧客満足度とサービス品質や価格や立地などの要因との関係性を分析したケースがあります。
 
ホテルのようなサービス業では顧客満足度の対象となる項目が多く、すべての項目を一気に向上させることは困難です。そこで、どの項目に重点を置けば顧客満足度が向上しやすいかを、重回帰分析で調べることができます。
 
 
顧客満足度=2+0.3×客室清掃+0.25×食事−0.1×価格+0.2×立地+ϵ
※回帰式は仮に設定したもの
 
 
このような回帰式が求められたとすれば、顧客満足度を高めるためには、客室清掃や食事が大きな影響を与えていることが読み取れます。また、価格との関係性も計算できるため、客室清掃や食事のクオリティを上げるためには、どの程度の宿泊料金アップが可能かも推測できます。
 

医学や社会科学での利用事例

■温室効果ガスの環境影響分析
 
温室効果ガスの排出量と気温の上昇の関係性分析に重回帰分析で活用したケースがあります。温室効果ガスの排出量は地球温暖化の原因の一つとされていますが、その影響度は明確ではありませんでした。そこで、気温の上昇(目的変数)と温室効果ガスの排出量や人口、経済活動など(説明変数)との関係性を分析すれば、以下のような回帰式を作成できます。
 
 
気温の上昇=0.5+0.01×温室効果ガスの排出量+0.001×人口−0.002×経済活動+ϵ
※回帰式は仮に設定したもの
 
 
この回帰式を用いれば、現在の温室効果ガス排出量などから気温の上昇を予測できます。例えば、温室効果ガスの排出量が1トン増えると気温が0.01度上がることや、経済活動が1ポイント上がると、気温が0.002度下がることなどが分かります。このようにして、重回帰分析を用いて温室効果ガスの排出量と気温の上昇の関係性を調べれば、環境保護やエネルギー政策の効果や費用対効果を分析できます。
 
 
 

重回帰分析の課題と限界

重回帰分析は予測したいデータと複数要因との関係を分析できる有用なツールですが、その一方で課題や限界も存在します。ここでは、重回帰分析を適切に利用できるように、その課題と限界について解説します。
 
 

多重共線性の問題

 
多重共線性とは、重回帰分析において説明変数同士の強い相関関係が存在することで、回帰係数の推定が不安定になる問題です。多重共線性があると、回帰係数の値が大きく変動したり、回帰係数の絶対値が大きくなって影響度が過大評価される場合があります。
 
また、回帰係数の符号が理論に反したり、回帰式の精度や信頼性が低下したりすることで回帰式の解釈や予測が困難になる可能性もあります。
 
多重共線性を判断する方法としては、相関行列や分散膨張係数(VIF)を用いることが一般的です。相関行列は、説明変数同士の相互関係を把握するための指標です。相関行列においては、相関係数が0.8以上であれば多重共線性があると判断されます。また、VIFでは、値が10以上の場合に多重共線性の存在が疑われます。
 

データの品質と注意点

 
重回帰分析に使用するデータの品質を高めるためには、以下の点に注意するとよいでしょう。

・データ収集の際には目的変数と説明変数との関連性を確認し、適切な変数を選択する
・サンプルサイズや抽出方法を適切に決め、偏りやバイアスを防ぐ
・データ入力の際にはエラーチェックを実施し、誤りや欠損を修正または除外する
・データの形式や単位を統一し、一貫性を保つ
・データの統計量を調べて、異常値や外れ値を適切に処理する
・説明変数同士の相関関係を調べて、独立性を保つ
・説明変数と目的変数の正規性を調べる

 
このような作業を行うことでデータの品質が高められ、重回帰分析の精度や予測能力を向上させられます。
 
 
 

まとめ

ここまで、重回帰分析という統計的な手法について解説しました。重回帰分析は、複数の要因から知りたいデータの影響度を把握できる、とても実用的な統計手法です。そのため、社会の様々な分野で利用されています。
 
また、重回帰分析を行うには基礎的な知識を理解する必要があります。しかし、それらの知識を理解できれば、統計ソフトウェアなどで簡単に利用することができます。ぜひ、基礎的な知識を身につけて、興味や目的に合わせて重回帰分析を活用してください。
 
市場調査についてのご相談はこちら>
 

執筆者
アスマーク編集局
株式会社アスマーク 営業部 マーケティングコミュニケーションG
アスマークのHPコンテンツ全ての監修を担い、新しいリサーチソリューションの開発やブランディングにも携わる。マーケティングリサーチのセミナー企画やリサーチ関連コンテンツの執筆にも従事。
監修:アスマーク マーケティングコミュニケーションG

アスマークの編集ポリシー

 

アンケートの分析手法と手順|分析の質を上げるポイントを解説

アンケートの分析手法と手順|分析の質を上げるポイントを解説

アンケートには「企画」「データ収集」「分析」などのステップがあります。その中で「価値ある情報を見つけ出す」のが分析作業。この分析でいかに問題解決のヒントを見つけられるかが、アンケート調査の成否を決定します。

アンケート調査を成功させるための分析手順と、効果的な分析手法について解説します。

> 詳しく見る


多変量解析とは?できること、手順を解説

多変量解析とは?できること、手順を解説

多変量解析とは、複数データの関連性を分析することで、その関連性を要約したり、数値を予測するための解析作業の総称です。多変量解析は「たくさんのデータを組織的かつ論理的に調べる」ことを意味しており、データの要約・分類、データから予測する工程の総称を指します。

> 詳しく見る