「データの分析」は数学の中でも、つい勉強が後回しになってしまい対策が不十分なまま受験当日を迎えてしまう受験生の多い単元です。
この記事では、まず代表値などデータの分析で出題される用語と公式の確認を行い、その後教科書ではあまり説明されないものの入試で度々出題されている変量の変換について解説しました。
変量の変換とは、xをはじめとする変量に他の値を足したりかけたりと変化させることです。
データの分析においては、「変換してつくった新たな変量の平均・分散・標準偏差・共分散・標準偏差が、変換する前と比べてどのように変化するのか?」という形で出題されます。
知識を整理しながら使い方を覚えていくことで簡単に習得することのできる範囲のため、是非この記事を何度も読み得意にしてください!
【データの分析】代表値とは?
変量の変換の解説に入る前に、データの分析において最低限知っておいてほしい用語である平均・中央値・最頻値について説明します。
これらの用語は意味がわかるだけでなく、データを見た際にどの値がこれらに該当するのか判断できるようにしましょう!
これらを判断するために、データを見たら数が小さいものから大きいものへ順番になるよう数値を並び替える癖をつけてください!
以下の数値を使って説明していきます。
1、2、3、4、5、5、6、6
代表値|平均
平均は日常生活で使う方も多いと思いますが、全てのデータの値を足した合計の値を、データの個数で割ることで求めます。
公式で表すと以下のようになります。
n個のデータX1、X2、X3…Xnの平均Xは、
X =X₁ + X₂ + X₃ + … + Xₙn
と表す。
上記の例で言えば、
(1+2+3+4+5+5+6+6)÷8=4
となり、平均値は4になります。
代表値|中央値
中央値とは、データを値の小さい順に並べた際に中央、つまり真ん中にある値です。
データが奇数の場合は上記の定義のままですが、偶数の場合は中央に位置する2つの値の平均が中央値となります。
つまり、上記の例はデータの数が8個と偶数であるため、中央にある4と5の平均である4.5が中央値となります。
代表値|最頻値
最頻値とは、データの中で最も数の多い値のことです。
上記の例では5と6が2回ずつ登場し、それ以外は1回のため、5と6が最頻値となります。
【データの分析】頻出用語と計算方法
ここでは、データの分析で頻出である
・分散
・標準偏差
・共分散
・相関係数
について、用語の確認と計算方法を紹介します。
単語が多く混乱する方もいると思いますが、以下のことを意識しながら読むと良いでしょう!
・どのデータを使っているのか、意識しながら公式を覚える
・その数値を出すことによって何がわかるのか、どんな良いことがあるのか理解する
【データの分析】分散
1つ目に紹介する分散の公式は、2通りの求め方があります。
分散はs2と表し、データの総数をn、それぞれのデータをX1、X2、X3…Xn平均値をXと表した時、以下のようになります。
【公式①】
【公式②】
分散はデータと平均の差を求めてることからもわかるように、データの散らばり度合いやばらつきを表すことができます。
【データの分析】標準偏差
2つ目に紹介する標準偏差の公式は、標準偏差をsと表すと以下の通りです。
【公式①】
【公式②】
つまり、標準偏差は分散の正の平方根であり、データの平均やデータの実際の数が明らかではなくとも分散がわかっていれば求めることが可能です。
【データの分析】共分散
ここまでの分散と標準偏差は1つのデータの特徴を明らかにするものでしたが、共分散と相関係数は2つのデータの関係を表すものです。
共分散sxyの公式は、以下の通りです。
【公式①】
【公式②】
共分散が正の場合は、「正の相関」が、負の場合は「負の相関」があることを示唆します。
相関とは、散布図がどのような形のグラフなのかをおおよそ表すもので、右肩上がりの場合「正の相関」が、右肩下がりの場合「負の相関」が、点が点在し傾向がないものを「相関がない」と表します。
【データの分析】相関係数
最後に紹介する相関係数rは、2つのデータの相関の強さを表し、-1≦r≦1の範囲で表されます。
-1に近いほど「負の相関」が強く、1に近いほど「正の相関」が強いことを示唆します。
変量の変換
ここまでで公式を説明しましたが、ここからは本題である変量の変換について解説していきます。
変量の変換については暗記する方もいますが、公式にどの数値が使われているかを意識しその場で考えることで、暗記に頼らず答えを出すことが可能です。
この後の解説も暗記しようとするのではなく、考え方を学ぶイメージで読むと良いでしょう。
ここではそれぞれについて、データxを
・a倍した場合
・bを足した場合
について解説していきます。
変量の変換|平均
平均は全てのデータの値を足した合計の値を、データの個数で割ることで求められる値です。
n個のデータ
の平均値は、
と表す。
上記のxをa倍したり、bを足すことで、\bar xも自然とa倍されたり、bが足されます。
例えば、1、2、3の平均は2ですが、それぞれを2倍した2、4、6では平均が4(元の平均2を2倍)に、それぞれに3を足した4、5、6では平均が5(元の平均2に3を加えた数字)になっていることがわかります。
変量の変換|分散
分散の公式は以下の通りです。
括弧の中は実際の値と平均の差であり、先程の平均の変量の変換を加味すると、+bされたものから+bされたものを引くため、結果として差分はなくなり、値は変わらないことがわかります。
一方a倍すると、平均もa倍されその後2乗されているため、分散自体もa^2倍になります。
変量の変換|標準偏差
標準偏差は
つまり、分散で起こる変化の正の平方根が、標準偏差で起こる変化になります。
よって、+bされた場合は変化が起きず、a倍された場合にはa^2倍の正の平方根であるa倍されます。
変量の変換|共分散
共分散と相関係数については、1つ目のデータxをa倍してbを足し、2つ目のデータyをc倍してdを足した場合を考えます。
共分散の公式である
を元に考えてみると、
と表す事ができるため、ac倍されることになります。
変量の変換|相関係数
相関係数の公式
と、共分散
変化後の相関係数は、
となり、整理すると、
になります。
これらを絶対値ごとに場合分けすると以下の意味になるため、必ず覚え判断できるようにしましょう!
ac > oのとき、相関係数は変わらない
ac < oのとき、相関係数は-1倍になる
【データの分析】変量の変換|まとめ
この記事では、
・代表値
・データの分析で出題される用語と公式の確認
・変量の変換
について解説しました。
データの分析は、他の単元に比べて対策が不十分な受験生の多い単元のため、学習しておくと周りに差をつけることが可能です。
武田塾では、データの分析以外にも入試で差のつきやすい単元の学習をすることができます。
無料受験相談も実施しておりますので、全国にある校舎から是非最寄りの校舎にお問い合わせください。