- 本日の作業内容
- 720教室でのTA中止について
今年度のTA経費が学部の事情で大幅に減額されたため,元々来る人がほとんどいなかった720教室でのTAによる指導を今週から中止します.ご了解のほどよろしくお願いします.
- 前回の宿題について
まずは結果を整理するところから行きましょう.今回求めてもらった相関係数はまとめると以下のようになります.
| 年度 | 係数 r |
相関係数 |
スタジアム収容人数に対する入場者数 |
2019 | 0.76 |
2021 | 0.65 |
周辺人口に対する入場者数 |
2019 | 0.51 |
2021 | 0.10 |
周辺人口に対する収容人数 |
| 0.37 |
偏相関係数 |
周辺人口の影響を除いた収容人数に対する入場者数 |
2019 | 0.72 |
2021 | 0.67 |
収容人数の影響を除いた周辺人口に対する入場者数 |
2019 | 0.39 |
2021 | -0.20 |
そしてグラフは次のようになります.
|
|
|
ホームスタジアムの収容人数と平均入場者数 |
|
|
|
ホームタウン人口と平均入場者数 |
では,提出してもらったものについて見ていきましょう.例えば,下のように相変わらず有効数字を全く意識していないものが多く見られました.
次のものはチェックリストの有効数字のところにしっかりとチェックを入れていますが,実際はチェックされていません.どうしてでしょうかね?
また,次のように有効数字を意識せず長い桁のままのために,負号のところで改行されてしまって,大変見づらくなっているようなものもありました.
EXCELでは桁がたくさん出てきても,実際に意味がある桁はそんなに多くありません.また,観客数などが4桁で出ているからと言って相関係数を敢えて4桁にする意味もありません.相関係数は2桁で十分です.
そして,今回も考察が無いものが多くありました.相関係数を紹介して,相関があった,無かったというのは考察ではありません.ただの結果です.なぜそのような相関係数になったのか,その理由を推測するのが考察です.もちろん与えられた限られたデータから完璧な分析ができるわけでもありませんが,自分なら原因をどう考えるか,その作業が重要ですので,次回以降も考察についてはしっかり取り組んでください.
今回の例で言うと,私は次のように考えました.コロナ前はスタジアムの収容人数と観客動員数には結構強い相関があり,スタジアムの大きさもチームの人気だけでなく地域の人口も考慮されるので,周辺人口が多いほど観客動員数も多いという相関がありました.ところが,コロナで人の移動が制限され,また,観客数に上限が設定されたりしたため,スタジアムサイズと観客数の相関が少し下がり,周辺人口については相関がなくなりました.偏相関係数も一緒に考えてみると,周辺人口の影響を除いてもやはりスタジアムが大きいほど観客が入っていることは言えますが,収容人数の影響を除いて周辺人口と観客の相関を見ると相関がほとんどなく,しかも相関係数は負の値となりました.結局コロナ感染は人口の多い都市部,特に三大都市圏を中心に大きく蔓延したことで,人口の多い地域ほど制約が多くなり,観戦者数への影響が強く出たということかなと思います.いかがでしょうか.
- 前回の復習
相関係数について実習しました.あらかじめ用意されている関数 correl() を使用することで,相関係数を求めることができました.ところで相関係数の大きさで相関の強さを表現することが一般的に行われていますが,実際に有意かどうかは今回の検定の結果を見てみないとわかりません.
- 自習資料
資料を参考に予習してください.
- 演習
無相関検定を行います.一般的な表計算ソフトには無相関検定の関数は用意されていません.そこで,以下の流れにそって簡単な作業をいくつか行います.
前回相関係数について学習しました.相関係数 r の絶対値が1に近いほど強い相関があり,0に近い場合には相関が無いと一般には言います.しかし,相関が有意なものかは相関係数の大きさだけでは判断できない場合があります.データの組が少ない場合などです.そのときに,相関係数の大きさから t 分布における t 値に直したものを利用して検定を行うことを無相関検定と言います.次からの例題で試してみましょう.
- データの例
- t0 の計算
次に示す2つのデータについて,資料の式(1)から t0 の値を求めてみましょう.
データ番号 | x | y |
1 | 2 | 12 |
2 | 5 | 5 |
3 | 6 | 18 |
4 | 9 | 19 |
5 | 12 | 4 |
6 | 14 | 8 |
7 | 15 | 11 |
8 | 19 | 26 |
9 | 25 | 29 |
10 | 27 | 12 |
11 | 28 | 21 |
12 | 31 | 16 |
13 | 34 | 28 |
14 | 36 | 17 |
データ番号 | x | y |
1 | 3 | 10 |
2 | 5 | 15 |
3 | 6 | 17 |
4 | 9 | 11 |
5 | 12 | 18 |
6 | 15 | 19 |
7 | 16 | 28 |
8 | 17 | 16 |
9 | 19 | 24 |
10 | 24 | 26 |
11 | 26 | 19 |
12 | 29 | 31 |
13 | 31 | 25 |
14 | 33 | 39 |
15 | 34 | 27 |
16 | 38 | 40 |
17 | 40 | 29 |
18 | 41 | 38 |
19 | 43 | 44 |
20 | 48 | 32 |
21 | 52 | 46 |
無相関検定を行う場合の自由度は t 検定のときとは異り,データの組の数を基準にします.自由度は n - 2 なので,上の場合ではデータの組の数から2を引いて12,下の表では19ですね.
- p 値の算出
得られた t0 の値に対して, t.dist() 関数により p 値を求めて,検定を行ってください.
t.dist()の引数仕様はMicrosoft365版では,t 分布の横軸の値 x,自由度,関数形式,となっています.ポイントは最後の関数形式の部分で,TRUEを指定すると累積確率を返してくれます.ということは,全確率である1からその値を引くと,それ以外の領域の確率を出してくれます.その意味がわかりづらいのですが,別途両側確率を返してくれるt.dist.2t()という関数で確認するとわかりやすいかもしれません.t.dist.2t()関数の引数仕様は,x,自由度,だけとなっていますので,単純に両側確率を返すだけです.
t 検定では,二つの値を比較して,「一方がもう一方よりも大きか」だけを検定する「片側検定」と,「二つの値が異なるか」を見る「両側検定」の2つがあり,今回は異なるかをみる両側検定を使用しますので,上の説明のようにして t0 から危険率 p が求められます.
古い関数であるtdist()を使うと,引数使用が,x,自由度,分布の指定,となっており,分布の指定では「1-片側検定」「2-両側検定」となっていて分かり易いかもしれません.
無相関検定で使用する関数比較 |
関数 | 引数仕様 | 使用法 |
t.dist() | x,自由度,関数形式 | 2 * (1 - t.dist()) の値が両側検定の p に対応 |
t.dist.2t() | x,自由度 | 自動的に両側検定の p に対応 |
tdist() | x,自由度,分布の指定 | 「分布の指定」を2として両側検定にの p に対応 |
- 検定実習
先週の新型コロナに関するデータを使用して,有意な相関であるか,無相関検定で確認してみましょう.
国内感染者の表 SJIS版 UTF版
- 次回の予習範囲
次回は分散分析について学習します.予習用の資料を参考に予習してください.
- 宿題
いつものレポート提出システムを利用して行います.
宿題の公開は原則として水曜日の18:00からとなります.また,提出の締め切りは翌週の火曜日の13:00までです.よろしくお願いします.