- 本日の作業内容
- 前回の宿題について
今回初めて検定を行いましたが,細かい所でいろいろと勘違いや理解不足があるようです.後程具体的に指摘します.で,まずは結果ですが,以下のようになっていると正解です.
計測工学基礎2019年度と2020年度の成績に関する検定結果
2019年度の平均点:63.3
2020年度の平均点:76.7
帰無仮説:両者の平均点には有意な差は無い
対立仮説:両者の平均点には有意な差がある
t 検定の結果: 危険率 p = 4.23 × 10-6 (Φ = 129)
よって帰無仮説は棄却可能
結論:両者の平均点には有意な差がある
|
上の検定結果を受けてグラフは以下のように描けます.
宿題用のHTMLファイルで,有意差の記号について説明していたのですが,アスタリスクによる有意差の表現を加えていない人も結構いました.次回以降,検定のときには気をつけて下さい.
では,ここからはいつものように問題のあるものを見ていきましょう.まずは何人かで見られたエラーバーの長さがおかしいものです.下の図を見てください.
標準偏差は2019年度が 15.2 で2020年度で 16.7 となっているのに,グラフ内のバーの長さがそうなっていません.グラフ作成時に自分で標準偏差の値を指定しなければいけないのですが,その作業が間違っています.
次に示すのは,毎年何人か出てくるのですが,有意差の有無を示す線の描画が汚いものです.2つ出てきました.また,以下の2つは縦軸の説明もありません.
下の表現は不適切です.かけ算はかな漢字変換で「かける」を変換すると出てきますし,数式モードで作成すると演算記号の中にありますので,きちんと × を使ってください.
有意差を表すアスタリスク * の記号はここに付けるのではなく,グラフにつけてください.
さて,以下のようなよくわからない結論を出す人が複数人見られました.危険率が 10-6 と非常に小さいのに,それでもまだ帰無仮説を棄却できないとはどういうことでしょうかね.
そして,次のは × 10-6 を付け忘れたのでしょうか?
さて,今回は 結果を考察するよう指示していたのですが,考察を書いた人がほとんど居ませんでした.例えば,以下のようなものは考察ではありません.ただの検定結果です.
考察とはなぜそのようになったのかを考えるものです.今回であれば,小テストの有無がどうして成績に影響したのかについて考えてもらうことです.残念ながら考察の無い人が大半でした.
で,今回0点のレポートは以下のようなものです.まず一つ目は相変わらずこちらの指示に従わずきちんと説明することが無いものです.
そして,2つ目ですが,また何をやっているのか,分からないものが出てきました.t 検定とは2つの平均値の差があるかどうかを見るものです.どうしてこんなことになるでしょうか?
- 前回の復習
統計的仮説検定の第一歩である t 検定について実習しました.表現が難しいので,上の例も参考にこれからはきちんと書くようにしてください.来週の作業で再び検定(無相関検定)がありますので,また使用します.
- 自習資料
資料を参考に予習してください.
- 演習
今回の内容は相関係数です.前々回まで最小二乗法を用いた回帰曲線について実習しましたが,似ているようで非なるものです.というのも,回帰という場合には理論的な背景から数式がある程度定まっていて,係数やべき乗などの検討を行う作業になるのに対して,相関は関係があるかないか,あるとしたらどのような依存関係にあるのか,を見るだけです.
例えば,夏の気温とアイスクリームの売上やビールの消費量の関係が有名なものです.これらは商売に直結するので,予想気温に従って仕入れやメニューを変更することで,顧客の需要を満たすことができます.そのため,その関係式はリサーチ会社から販売されるほどです.
で,ここで確認ですが,当然ですが夏の気温が物理的に何か作用してアイスクリームの売上に影響するのではありません.気温に従って人体の発汗や自律神経などに影響が出て,その体の反応から脳が冷たいものを要求することで,消費行動に繋がることがある,という程度のことです.このように因果関係は基本的にはわからないものの,お互いの変化にある一定の関係が推測される場合に,相関があると言います.以下では実際に求め方を学習します.
- 手計算による相関係数の算出
資料の式(2)に基づいて相関係数を計算してみましょう.以下の2種類のデータの組で計算します.
データその1
| x | y |
1 | 3 | 10 |
2 | 8 | 9 |
3 | 10 | 13 |
4 | 11 | 27 |
5 | 15 | 24 |
6 | 19 | 28 |
7 | 22 | 45 |
8 | 24 | 32 |
9 | 27 | 36 |
10 | 33 | 51 |
|
|
データその2
| x | y |
1 | 3 | 106 |
2 | 8 | 110 |
3 | 10 | 80 |
4 | 11 | 76 |
5 | 15 | 102 |
6 | 19 | 98 |
7 | 22 | 79 |
8 | 24 | 65 |
9 | 27 | 88 |
10 | 33 | 92 |
11 | 39 | 96 |
12 | 41 | 67 |
13 | 42 | 88 |
14 | 46 | 92 |
15 | 55 | 57 |
16 | 58 | 59 |
17 | 69 | 65 |
18 | 74 | 81 |
19 | 77 | 43 |
20 | 81 | 53 |
|
|
- 相関係数を求める関数
表計算ソフトには通常相関係数を求める関数が2つあり,名前は違うのですが,全く同じことを行うものとなっています.名前は一つは correl() で,もう一方は pearson() です.相関のことを英語で correlation というので,前者はその名前の短縮形,相関係数(正確にはPearsonの積率相関)を算出したのが Pearson という名前の人なので,後者はその名前が関数名になっています.動作は同じです.
先ほどの手計算による r = S xy / √S x S y があっていたかどうか,上記の関数を用いて確認してみましょう.
- 演習
新型コロナウイルス感染流行がJ1リーグの観客動員にどのような影響を与えたかを考えてみましょう.以下のデータを使用して作業します.
- コロナ感染状況
まず,コロナ感染の現状を確認するために,以下のデータを使用して,相関係数の練習をします.
感染者データ(シフトJIS版)
感染者データ(UTF-8版)
上の2種類のデータは日本語文字コードが違います.自分の環境で文字化けしない方を使ってください.
都道府県の人口(2021年人口動態調査)と累積感染者数(NHK調べ)について,そして,都道府県の人口と人口10万人あたりの感染者数について,散布図を作成し,相関係数を求めてみます.
|
|
|
都道府県別人口と累積感染者数
相関係数 r = 0.97 |
|
都道府県別人口と人口10万人当たりの累積感染者数
相関係数 r = 0.61 |
単純に人口の多い都道府県で感染者数が多いという予想どおりの結論になりました.右側の人口10万人当たりの感染者数を見ると,一つだけ大きく外れている点があります.元のデータをよく見ると,これは沖縄県であることがわかります.沖縄の感染がどれだけ深刻だったかがわかるデータです.
- Jリーグ観客数
では,ここからはコロナとJリーグ観客動員の関係を見てみましょう.以下のデータを使用します.こちらも同様に文字コードの違いで2種類用意しています.
観客データ(シフトJIS版)
観客データ(UTF-8版)
- スタジアム収容人数と観客動員数
資料はコロナ感染流行前の2019シーズンと,昨シーズンの2種類のデータがあります.それぞれの年度で,スタジアムの収容人数と平均入場者数について,散布図で視覚化するとともに,相関係数を CORREL() 関数を用いて調べてみましょう.
2019年度は昨年度とJ1所属チームが異なっていますが,今回はそれは特に気にしないでやってしまいましょう.
- 周辺人口と観客動員数
Jリーグはホームタウン制度を取っており,ホーム地域を具体的に申告しています.中には,名古屋グランパスやコンサドーレ札幌のように全県(全道)としているところもありますが,一応中心となる区域も定まっています.表にはそのホームタウンの人口のデータ(2022年人口動態調査)もありますので,それを用いて,ホームタウン人口と平均入場者数についても同じように調べてみましょう.
- 周辺人口とスタジアム収容人数
後で,偏相関係数を求めるのに必要になりますので,周辺人口とスタジアム収容人数の相関係数も求めておきましょう.
- 偏相関
資料の式 (4) の偏相関係数ですが,以下の例で試してみてください.
- スタジアムの収容人数と入場者数から周辺人口の影響を除いた偏相関係数
- 周辺人口と入場者数からスタジアムの収容人数の影響を除いた偏相関係数
いろいろと分析してみてください.
- 次回の予習範囲
次回は相関分析について学習します.予習用の資料を参考に予習してください.
- 宿題
いつものレポート提出システムを利用して行います.
宿題の公開は原則として水曜日の18:00からとなります.また,提出の締め切りは翌週の火曜日の13:00です.よろしくお願いします.