【メモ】統計学用語（統計検定2級）

この記事の使い方

この清書版では、各用語を「統計検定で出そうな短い問題」と「その問題で何を見ているか」の2列の表で整理した。定義を丸暗記するよりも、場面とセットで読む方が用語の役割が残りやすい。

読み方のコツは3つだけである。

まず問題文を読み、何を比べたいのかを先に考える。
次に解説文で、その用語がどの部分を切り取る言葉かを確認する。
最後に、平均なのか割合なのか、ばらつきなのか関係性なのかを意識して読み進める。

1. 身近な統計とデータソース

身近な統計

データソース

項目	内容
問題文	ECサイトの売上分析をする。広告管理画面では売上1200万円、受注DBでは1180万円だった。平均購入単価を計算する前に最初に確認すべきことは何か。
解説文	ここで問われているのがデータソースである。同じ「売上」でも定義や集計タイミングが違うと値が変わるので、どの元データを使うかを先に固定しないと、その後の統計処理は全部ずれる。

項目	内容
問題文	広告管理画面では注文件数が `400件`、受注DBではキャンセル除外後に `380件` だった。売上は同じく1200万円とされているとき、平均購入単価はどちらのデータソースを使うかでどう変わるか。
解説文	広告管理画面の件数を使えば `1200万円÷400件=3万円`、受注DBなら `1200万円÷380件≈3.16万円` になる。計算式は同じでも、分母の定義が違うだけで結論が変わる。統計で最初に確認すべきなのがデータソースである理由はここにある。

公的統計

項目	内容
問題文	自分の周囲では景気が悪そうに見えるが、ニュースでは雇用改善と言っている。社会全体の傾向を確かめるため、まず何を参照するのが自然か。
解説文	この場面では公的統計が基準になる。国や自治体が同じ定義で集めた統計なので、個人の実感と社会全体の数字を切り分けて考えやすい。

項目	内容
問題文	自分の知人10人のうち3人が転職活動中だった。一方、公的統計では失業率が `2.5%` とされていた。この2つの数字が大きく違って見えるのはなぜか。
解説文	知人10人は母集団が極端に小さく、職種や地域も偏っている可能性が高い。一方、公的統計は定義をそろえて大きな対象を調べている。身近な実感と社会全体の数字は、対象範囲も集め方も違うので、そのまま比較できない。

2. データの分布と1変数データ

データの分布の記述

質的変数

項目	内容
問題文	アンケートで「満足・普通・不満」の3択を集めた。平均点を出すより先に確認すべきなのは、各選択肢が何人ずついたかである。このときの変数の種類は何か。
解説文	これは質的変数である。値に見えても足し算や平均より、どのカテゴリがどれだけ多いかを見るのが本筋になる。

項目	内容
問題文	商品の色が「赤30個、青50個、白20個」だった。色に `1,2,3` と番号を振って平均 `1.9` を出した。この平均があまり意味を持たないのはなぜか。
解説文	赤・青・白は順序も距離もないカテゴリなので、番号を振っても足し算や平均に本質的な意味はない。質的変数では、平均より度数や割合を見る方が自然である。数字が付いていても、それが本当に量なのかを見極める必要がある。

量的変数

項目	内容
問題文	来店客の滞在時間を分単位で記録した。平均や標準偏差を計算してよいデータかを判断したい。このときの変数の種類は何か。
解説文	滞在時間は量的変数である。数として大小や差に意味があり、平均、分散、相関、回帰などの計算対象にできる。

項目	内容
問題文	来店客の滞在時間が `12分, 18分, 25分, 30分` だった。このデータで平均や標準偏差を計算することに意味があるのはなぜか。
解説文	滞在時間は量としての差が意味を持つからである。 `30分` は `15分` の2倍の長さで、 `30-12=18分` の差にも意味がある。量的変数では、値の大小や差をそのまま解釈できるので、平均や分散が有効になる。

離散型

項目	内容
問題文	1時間あたりの問い合わせ件数を記録したところ、0件、1件、2件のような値になった。このような量のタイプは何か。
解説文	これは離散型である。件数のように数えて得るデータで、飛び飛びの値だけを取る。

項目	内容
問題文	ある店舗の1日あたりのクレーム件数が `0, 1, 2, 3` のように記録された。この値を `1.4件` のように平均で表すことはできるが、1回の観測として `1.4件` が出ないのはなぜか。
解説文	件数そのものは離散型だからである。平均は複数日のならした値として `1.4件` と言えるが、1日の実データとしては `0件, 1件, 2件...` のような整数しか出ない。離散型では、平均と実際に取りうる値が一致しないことがよくある。

連続型

項目	内容
問題文	工場でボトルの充填量を測ったところ、499.8ml、500.1ml、500.03mlのような値が出た。このような量のタイプは何か。
解説文	これは連続型である。理屈上は細かくいくらでも刻める量で、確率では密度を積分して区間の確率を考える。

項目	内容
問題文	ボトルの充填量を測ると `500.0ml` ちょうどのものもあれば `500.01ml` や `499.99ml` もある。確率を考えるとき、なぜ「500mlちょうどの確率」より「499.5mlから500.5mlの確率」のように区間で見るのか。
解説文	連続型では、1点ぴったりの確率は本質的には0で、意味があるのは区間全体の確率だからである。実際の測定でも、器械の丸め方や誤差があるので、区間で考える方が現実に合っている。連続型は「点」より「幅」で理解するのが基本になる。

棒グラフ

項目	内容
問題文	アンケート100人の結果が、賛成48人、中立32人、反対20人だった。どの意見がどれだけ多いかを一目で比較したい。このとき棒グラフで何が読み取りやすくなるか。
解説文	棒グラフでは、48、32、20という差が棒の長さの差としてそのまま見える。賛成が中立より16人多いこと、反対は賛成の半分以下であることなど、カテゴリ間の差を比較しやすい。円グラフよりも「どちらがどれくらい多いか」を読むのに向いている。

項目	内容
問題文	3店舗のクレーム件数がA店 `12件`、B店 `7件`、C店 `5件` だった。どの店が突出して多いかを会議で即座に共有したい。棒グラフのどこを見ると判断しやすいか。
解説文	A店の棒が最も長く、B店との差は `12-7=5件`、C店との差は `7件` であることがすぐ分かる。棒グラフは、割合より前に「差そのもの」を読む図である。カテゴリ間の比較では、角度や面積より長さの方が人間は読み取りやすいので、現場ではまず棒グラフを出す方が誤読が少ない。

円グラフ

項目	内容
問題文	ある月の支出が、家賃8万円、食費4万円、通信費1万円、娯楽費2万円だった。支出全体のうち家賃がどれくらいを占めるかを直感的に見せたい。円グラフはどんな点の理解に向くか。
解説文	総額は15万円なので、家賃は `8/15≈53.3%` を占める。円グラフは、このような構成比を面積感覚で見せるのに向く。棒グラフほど細かな差の比較には強くないが、「全体の中で何割か」を伝えるには効果的である。

項目内容

問題文売上構成が、食品 50%、日用品 30%、衣料 20% だった。経営会議で「何が半分を占めているか」を示したい。円グラフはなぜこの説明に向くか。

解説文食品が円の半分を占める形になり、「主力は食品」という印象を一目で伝えやすいからである。円グラフは、全体を100%と見たときの配分を理解する図で、構成比の話には強い。ただし 30% と 20% のような細かな差は棒グラフほど読みやすくないので、「構成を見る図」と割り切って使うのがよい。

項目	内容
問題文	売上構成が、食品 `50%`、日用品 `30%`、衣料 `20%` だった。経営会議で「何が半分を占めているか」を示したい。円グラフはなぜこの説明に向くか。
解説文	食品が円の半分を占める形になり、「主力は食品」という印象を一目で伝えやすいからである。円グラフは、全体を100%と見たときの配分を理解する図で、構成比の話には強い。ただし `30%` と `20%` のような細かな差は棒グラフほど読みやすくないので、「構成を見る図」と割り切って使うのがよい。

幹葉図

項目	内容
問題文	20人分の小テスト点数を、元の値をある程度残したまま並べて、山や外れた点を見たい。どの図が向くか。
解説文	幹葉図が向く。小標本の分布を、値そのものを大きく失わずに眺められる。

項目	内容
問題文	点数が `41, 43, 44, 48, 52, 55, 57` だった。幹を十の位、葉を一の位にすると、どんな利点があるか。
解説文	例えば「4の幹に 1 3 4 8、5の幹に 2 5 7」と並べれば、40点台に4人、50点台に3人いることと、実際の点数が同時に読める。ヒストグラムよりも元データが残り、単なる一覧よりも分布の形が見える。少人数データで「値を捨てずに分布を見たい」ときに強い。

度数分布表

項目	内容
問題文	100人分の身長データがあるが、そのままでは見づらい。160cm台、170cm台のように区間ごとに人数を整理したい。何を作るか。
解説文	度数分布表を作る。生データを階級ごとにまとめて、分布の形をつかみやすくする表である。

項目	内容
問題文	テスト点が `40点台3人`、`50点台5人`、`60点台8人`、`70点台4人` だった。この表から最初に何を読み取れるか。
解説文	60点台が最も多く、そこが分布の中心らしいと読める。生データを1つずつ見るより、どの階級に人が集まっているかが分かるため、代表値やグラフ化の前処理として重要である。度数分布表は、細かな値を少し丸める代わりに、全体像を得るための道具である。

ヒストグラム

項目	内容
問題文	配達時間のデータについて、短時間に集中しているのか、長い配達が多いのかを視覚的に見たい。どの図が基本か。
解説文	ヒストグラムを使う。量的データの分布の山や裾を見やすくし、階級幅を細かくすると密度のイメージに近づく。

項目	内容
問題文	待ち時間データを `0-5分`、`5-10分`、`10-15分`、`15-20分` に区切ったところ、度数が `4, 9, 5, 2` だった。このヒストグラムから何が言えるか。
解説文	`5-10分` の階級が最も高く、その付近が分布の山だと分かる。右側の階級にいくほど度数が減っているなら、長く待つ人は少数派だと読める。ヒストグラムは、棒グラフと見た目は似ていても、棒の並び順に意味があり、隣り合う階級のつながりから分布の形を読むところが本質である。

累積度数グラフ

項目	内容
問題文	「全体の半分は何分以内に配達できているか」を図から読み取りたい。どの図が向くか。
解説文	累積度数グラフが向く。下からどれだけ積み上がったかを見る図なので、中央値や四分位点を読み取りやすい。

項目	内容
問題文	20件の配達について、`10分以下が4件`、`15分以下が12件`、`20分以下が18件`、`25分以下が20件` だった。中央値はどのあたりと読めるか。
解説文	20件の半分は10件なので、累積度数が10件を超える最初の地点は `15分以下` である。したがって中央値はおおよそ15分付近と読める。累積度数グラフでは、「全体の何割がこの値以下か」が直接見えるので、50%点や25%点、75%点を探すのに向いている。

右に裾が長い

項目	内容
問題文	所得分布を見ると、多くの人は中間帯にいるが、一部にかなり高所得の人がいる。この分布の形をどう表現するか。
解説文	右に裾が長い分布という。大きい値の側に長い尾があるので、平均が上に引っ張られやすい。

項目	内容
問題文	月収データが `20, 22, 23, 24, 80` 万円だった。平均と中央値を比べると、どちらが大きくなりやすく、なぜそうなるか。
解説文	平均は `169÷5=33.8` 万円、中央値は `23` 万円で、平均の方が大きい。80万円という大きな値が右側の尾を作り、平均を強く押し上げるからである。右に裾が長い分布では、平均は豊かな少数者に引っ張られやすく、「典型的な人」を表すなら中央値の方が実感に合うことが多い。

左に裾が長い

項目	内容
問題文	簡単な試験で高得点者が多いが、一部だけ極端に低い点を取った。分布の形はどう表現されるか。
解説文	左に裾が長い分布という。小さい値の側に尾が伸びていて、平均が低い側へ引かれる。

項目	内容
問題文	テスト点が `20, 80, 82, 85, 88` だった。平均と中央値はどちらが小さくなりやすいか。
解説文	平均は `355÷5=71`、中央値は `82` で、平均の方が小さい。20点という極端に低い値が左側の尾を作り、平均を引き下げるからである。左に裾が長い分布では、平均が「思ったより低い」値になりやすい。

対称

項目	内容
問題文	ある試験の点数が50点を中心に左右ほぼ同じ形に広がっている。この分布の特徴を一言で表すと何か。
解説文	対称な分布である。平均と中央値が近くなりやすく、正規分布を考える入口になる。

項目	内容
問題文	データが `40, 45, 50, 55, 60` だった。平均と中央値を求め、この分布が対称と呼ばれやすい理由を述べよ。
解説文	平均は `250÷5=50`、中央値も `50` で一致する。中心の50をはさんで `40` と `60`、`45` と `55` が対になっているため、左右の釣り合いがよい。対称な分布では、平均と中央値が近くなりやすく、代表値どうしのズレが小さい。

ベル型

項目	内容
問題文	同じ機械で長さを何度も測ると、真ん中付近の値が多く、離れるほど少なくなった。よくある分布の形は何か。
解説文	ベル型である。測定誤差のように多くの小さな要因が重なると出やすく、正規分布の直感に近い。

項目	内容
問題文	同じ部品の長さを100回測ると、49.8mmから50.2mm付近に多く集まり、49.0mmや51.0mmはほとんど出なかった。このときベル型と考える感覚は何か。
解説文	中心付近ほど頻度が高く、中心から離れるほど頻度がなめらかに減っていく形である。測定誤差は、温度、視差、機械の微小なブレなど、小さなズレがたくさん重なって生じる。この「小さな要因の足し算」がベル型を生みやすい、というのが直感の核である。

一様

項目	内容
問題文	公平なルーレットなら、どの区画にもほぼ同じくらい止まると考える。このような分布の形は何か。
解説文	一様な分布である。どこも同じ程度に起こるとみなす形で、確率では区間の長さに比例して確率が決まる。

項目	内容
問題文	乱数 `0` から `10` が一様に出るとき、`0` から `2` の区間と `6` から `8` の区間では、どちらの方が出やすいか。
解説文	どちらも長さが `2` なので同じである。一様分布では位置ではなく長さだけが効く。端にあるか真ん中にあるかは関係なく、「幅が同じなら確率も同じ」というのが一様の感覚である。

単峰

項目	内容
問題文	社員の年齢分布を見ると、30代前半にひとつだけ大きな山があった。この特徴を何というか。
解説文	単峰という。代表的な層が1つあり、平均や中央値で全体像をつかみやすい。

項目	内容
問題文	来店時刻のヒストグラムで、12時台だけが明確に高く、他の時間帯はなだらかだった。この分布からどんなことが推測できるか。
解説文	昼休み来店という主な集団が1つあると考えやすい。山が1つなら、代表値や標準偏差でざっくり要約しても大外れしにくい。単峰は「主役の集団が1つ」という意味合いで読むと分かりやすい。

多峰

項目	内容
問題文	来店時間を平日客と休日客を混ぜて集計したら、昼と夜に山が2つ出た。この特徴を何というか。
解説文	多峰という。異なる集団が混ざっている可能性が高く、層別して見る必要を示唆する。

項目	内容
問題文	通勤時間データで `20分付近` と `60分付近` に2つの山があった。平均だけで説明しにくいのはなぜか。
解説文	短距離通勤者と長距離通勤者という別集団が混ざっている可能性が高いからである。平均を1つ出すと `40分前後` になっても、その近くに実際の人が少ないかもしれない。多峰分布では、まず「混ざり物がないか」を疑う方が理解が進む。

中心傾向の指標

平均値

項目	内容
問題文	ある商品の5日間の販売個数が `8, 10, 12, 9, 11` だった。平均値を求めよ。
解説文	平均値は `合計÷個数` なので、`(8+10+12+9+11)÷5=50÷5=10` である。なぜこの式になるかというと、「毎日同じ個数だけ売れたとしたら何個か」を逆算しているからである。平均は、合計を平らにならしたときの高さだと考えると感覚的に分かりやすい。

項目	内容
問題文	3人の残業時間が `2時間, 4時間, 9時間` だった。平均残業時間を求め、この値をどう読むか。
解説文	平均は `(2+4+9)÷3=5時間` である。実際には5時間の人がいなくても、「全員の残業を均等に割り直したら1人5時間ずつ」と読める。平均は実在する値とは限らないが、合計量を均等配分した仮想的な基準点として強い意味を持つ。

中央値

項目	内容
問題文	5人の月収が `20, 22, 23, 24, 120` 万円だった。平均値と中央値を比べると、典型的な人を表すのはどちらか。
解説文	平均値は `209÷5=41.8`、中央値は並べた真ん中なので `23` である。120万円が平均を強く押し上げるので、実感に近い代表値としては中央値の方が自然である。中央値は「順番だけ」を使うため、極端な外れ値に強い。

項目	内容
問題文	データが `3, 5, 7, 9, 100, 120` の6個だった。中央値を求めよ。また奇数個の場合と何が違うか。
解説文	個数が偶数なので、真ん中2つ `7` と `9` の平均を取り、中央値は `8` である。奇数個なら真ん中1つをそのまま取るが、偶数個では中央の2値の間に置く。中央値は大きな外れ値 `100,120` があっても中心位置を大きく動かさない。

最頻値

項目	内容
問題文	靴屋で最も売れているサイズを知りたい。どの代表値を見るべきか。
解説文	最頻値を見る。最もよく出る値やカテゴリを表すので、カテゴリデータでも使いやすい。

項目	内容
問題文	売れた靴サイズが `24, 24, 25, 25, 25, 26` だった。最頻値を求めよ。
解説文	最頻値は `25` である。最頻値は「いちばん多い値」を答えるだけなので、平均のような計算は不要だが、カテゴリデータでも使える代表値という点が強い。

散らばりなどの指標

分散（1変量データ）

項目	内容
問題文	平均500mlで充填しているとしても、実際にはどれくらいばらついているかを知りたい。どの指標が中心になるか。
解説文	分散が中心になる。平均との差を二乗して平均した量で、標本では `n-1` で割ることで偏りを補正する。

項目内容

問題文 4本の充填量が 4, 5, 5, 6 だった。標本平均と標本分散を求めよ。

解説文平均は (4+5+5+6)÷4=5。平均との差は -1, 0, 0, 1、二乗は 1, 0, 0, 1 なので合計は 2。標本分散は 2÷(4-1)=2/3 である。差を二乗するのは、プラスとマイナスが打ち消し合わないようにするためで、さらに大きなズレをより重く見る意味もある。 n ではなく n-1 で割るのは、平均を同じ標本から求めたぶん自由度を1つ使っているからである。

項目	内容
問題文	4本の充填量が `4, 5, 5, 6` だった。標本平均と標本分散を求めよ。
解説文	平均は `(4+5+5+6)÷4=5`。平均との差は `-1, 0, 0, 1`、二乗は `1, 0, 0, 1` なので合計は `2`。標本分散は `2÷(4-1)=2/3` である。差を二乗するのは、プラスとマイナスが打ち消し合わないようにするためで、さらに大きなズレをより重く見る意味もある。 `n` ではなく `n-1` で割るのは、平均を同じ標本から求めたぶん自由度を1つ使っているからである。

標準偏差（1変量データ）

項目	内容
問題文	分散を出したが単位が ml² になって直感しにくい。元の単位でばらつきを読みたいとき、何を見るか。
解説文	標準偏差を見る。分散の平方根を取って、元の単位に戻した散らばりの大きさである。

項目	内容
問題文	4本の充填量が `4, 5, 5, 6` で、標本分散が `2/3` と分かった。標本標準偏差を求めよ。
解説文	標本標準偏差は `√(2/3)≈0.816` である。分散のままだと単位が二乗されてしまうので、平方根を取って元の単位に戻す。感覚としては、「平均からだいたい0.8くらいズレる」と読めるようになるため、分散より実務で使いやすい。

範囲

項目	内容
問題文	1日の気温が最低12度、最高23度だった。最も簡単に広がりを表すと何になるか。
解説文	範囲である。最大値から最小値を引いたもので、ざっくりした散らばりを見る。

項目	内容
問題文	5人の作業時間が `12, 13, 13, 14, 25` 分だった。範囲を求めよ。また、この指標の弱点も述べよ。
解説文	範囲は `25-12=13` 分である。計算は簡単だが、最小値と最大値しか使わないため、真ん中の3人がどう散っているかは反映しない。外れ値1つで大きく変わりやすいので、ざっくり確認用の指標と考えるのがよい。

最小値

項目	内容
問題文	充填量の検査で、下限規格を割った製品がないか確認したい。どの値に注目するか。
解説文	最小値に注目する。いちばん小さい観測値で、下振れ事故の有無を見るのに使う。

項目	内容
問題文	充填量が `498, 500, 501, 503` ml だった。下限規格が `499ml` なら、最小値を見ることで何が分かるか。
解説文	最小値は `498ml` なので、規格割れが1本でも起きていると分かる。平均が500mlを超えていても、最小値が規格を下回れば品質上の問題は残る。最小値は「平均では隠れる最悪ケース」を拾うためにある。

最大値

項目	内容
問題文	サーバー負荷がどこまで上がったかを知りたい。どの値を確認するのが自然か。
解説文	最大値を確認する。ピーク時の危険度や上振れの大きさを見る指標である。

項目	内容
問題文	1日のCPU使用率が `35%, 42%, 67%, 91%` だった。平均だけでなく最大値を確認する意味は何か。
解説文	最大値 `91%` が分かると、瞬間的にはかなり逼迫していたことが分かる。平均が `58.75%` でも、ピーク対策が必要かどうかは別問題である。最大値は容量設計や安全管理で特に重要になる。

四分位範囲

項目	内容
問題文	家賃データに超高額物件が少し混じっていて、平均や範囲が荒れている。外れ値に強い散らばりの指標は何か。
解説文	四分位範囲を使う。真ん中50%の広がりだけを見るので、外れ値の影響を受けにくい。

項目	内容
問題文	データ `2, 3, 4, 5, 9, 10, 12, 20` の四分位範囲を求めよ。
解説文	下位4つ `2, 3, 4, 5` の中央値は `3.5` なので第1四分位数は `3.5`、上位4つ `9, 10, 12, 20` の中央値は `11` なので第3四分位数は `11`。したがって四分位範囲は `11-3.5=7.5` である。20という大きな値が入っていても、真ん中50%だけを見るので、範囲より安定して散らばりを捉えられる。

箱ひげ図

項目	内容
問題文	A店とB店の接客時間を1枚で比べたい。中央値、四分位点、外れ値の気配をまとめて見られる図は何か。
解説文	箱ひげ図である。中心と散らばりを、グループ比較しやすい形で要約できる。

項目	内容
問題文	A店の第1四分位数が `8分`、中央値が `10分`、第3四分位数が `13分`、B店がそれぞれ `9分`、`10分`、`11分` だった。どちらの方が接客時間のばらつきが大きいと読めるか。
解説文	A店の箱の長さは `13-8=5分`、B店は `11-9=2分` なので、A店の方が真ん中50%の散らばりが大きい。箱ひげ図では、中央の線が中央値、箱の長さが四分位範囲を表す。平均を出さなくても、中心と散らばりを一度に比較できるのが利点である。

ローレンツ曲線

項目	内容
問題文	上位20%の人が所得全体の何割を持っているかを見たい。累積人口と累積所得の関係を描く図は何か。
解説文	ローレンツ曲線を使う。完全平等なら45度線になり、そこからどれだけ離れるかで偏りの形を見られる。

項目	内容
問題文	人口の下位 `50%` が所得の `20%` しか持たず、下位 `80%` で所得の `50%` を持つ国がある。このときローレンツ曲線は45度線より上か下か。何を意味するか。
解説文	ローレンツ曲線は45度線より下に来る。完全平等なら下位50%が所得の50%を持つはずだが、実際は20%しか持っていないからである。45度線から離れるほど、「一部に所得が偏っている」ことを意味する。ローレンツ曲線は、格差を1本の曲線として可視化する図である。

ジニ係数

項目	内容
問題文	2つの国の所得格差を1つの数で比べたい。ローレンツ曲線から作る代表的な指標は何か。
解説文	ジニ係数である。ローレンツ曲線と完全平等線の間の面積比で決まり、ここでは面積という微積的な見方が効く。

項目	内容
問題文	国Aのジニ係数が `0.25`、国Bが `0.45` だった。どちらの方が格差が大きいと読めるか。また0に近い値は何を意味するか。
解説文	国Bの方が格差が大きい。ジニ係数は0に近いほど平等、1に近いほど偏りが強いと読む。面積比でできているので少し抽象的だが、感覚的には「ローレンツ曲線が45度線からどれだけ大きく離れているか」を1つの数字に圧縮したものだと考えるとよい。

2つのグラフの視覚的比較

項目	内容
問題文	新旧キャンペーンの購入金額分布を比べる前に、まず図だけで見ておきたい。何を意識して見るべきか。
解説文	中心、散らばり、外れ値、山の数、サンプル数の違いを視覚的に比較する。検定の前に違和感を拾うのが統計の基本動作である。

項目	内容
問題文	A店の購入金額は平均 `3000円`、B店も平均 `3000円` だったが、A店は金額が狭くまとまり、B店は低額と高額に二極化していた。平均だけでは見えない何を、グラフ比較で拾えるか。
解説文	散らばりや山の数の違いを拾える。平均が同じでも、A店は安定した購買、B店は客層が割れているかもしれない。数値要約だけでなくグラフを見るのは、「同じ平均でも中身は違う」を見抜くためである。

カイ二乗値

項目	内容
問題文	サイコロを60回振ったら、1から6までが均等に出たとは言いにくい結果になった。観測度数と期待度数のズレをまとめる量は何か。
解説文	カイ二乗値である。ズレを標準化して二乗和にした量で、後の適合度検定や独立性の検定でも使う。

項目	内容
問題文	3種類の商品A,B,Cが公平なら各 `10個` ずつ売れるはずなのに、実際は `8, 10, 12` 個だった。カイ二乗値を求めよ。
解説文	カイ二乗値は `((8-10)^2/10)+((10-10)^2/10)+((12-10)^2/10)=4/10+0+4/10=0.8` である。平均との差ではなく期待値との差を使うのは、「本来こう出るはず」という基準からのズレを見たいからである。さらに期待度数で割るのは、同じ2個のズレでも、期待が100なのか10なのかで重みが違うからである。

歪度

項目	内容
問題文	2つの売上分布を比べて、どちらが右裾に引っ張られているかを数値で言いたい。何を見るか。
解説文	歪度を見る。左右非対称さを数値化した指標で、右裾か左裾かを定量的に比べられる。

項目	内容
問題文	データAは `10, 10, 11, 11, 30`、データBは `1, 20, 20, 21, 21` だった。どちらが右に歪み、どちらが左に歪んでいると読みやすいか。
解説文	データAは右側に30という大きな値があるので右に歪み、データBは左側に1という小さな値があるので左に歪んでいると読める。歪度はこの非対称さを1つの数字にしたものだが、感覚としては「平均がどちら側に引っ張られているか」を見ると入りやすい。

尖度

項目	内容
問題文	データAは `9, 10, 10, 10, 11`、データBは `0, 10, 10, 10, 20` だった。どちらが外れ値を出しやすい分布だと考えられるか。
解説文	データBの方が、中心は同じでも両端に極端な値が出ているので、尾が重い分布だと考えられる。この違いを数値で見ようとするのが尖度である。名前から山の鋭さだけを見るように感じるが、実際には外れ値の出やすさ、つまり尾の重さを見る意味が大きい。

中心と散らばりの活用

偏差

項目	内容
問題文	模試で72点を取った。平均65点の集団で、自分が平均より何点上かを言いたい。この差を何というか。
解説文	偏差という。観測値から平均を引いたもので、平均との差そのものを表す。

項目	内容
問題文	模試で72点、クラス平均が65点だった。偏差を求めよ。
解説文	偏差は `72-65=7` である。平均との差をそのまま表しており、「平均より7点高い」と読める。統計の多くの式は、この偏差を材料にして作られている。

標準化（z得点）

項目	内容
問題文	数学は平均70点、標準偏差10点の中で80点だった。英語は平均60点、標準偏差5点の中で70点だった。どちらが相対的に良いか。
解説文	数学の z得点は `(80-70)÷10=1`、英語の z得点は `(70-60)÷5=2` である。したがって相対的には英語の方が上である。平均との差だけでなく、その科目がどれだけ散っているかで割るのがポイントで、「平均から何標準偏差ぶん離れているか」を見ている。

項目	内容
問題文	ある売上が平均 `500万円`、標準偏差 `50万円` の分布で `575万円` だった。z得点を求め、この値の感覚的な意味を述べよ。
解説文	`z=(575-500)÷50=1.5` である。つまり平均より `1.5` 標準偏差だけ高い位置にある。z得点は単位を消して「平均との差がどれくらい大きいか」を共通尺度に直すので、点数、売上、身長のような異なる量でも並べて比較できる。

変動係数

項目	内容
問題文	A店は平均売上100万円、標準偏差20万円、B店は平均売上1000万円、標準偏差150万円だった。相対的に不安定なのはどちらか。
解説文	A店の変動係数は `20÷100=0.20`、B店は `150÷1000=0.15` である。したがって相対的に不安定なのはA店である。標準偏差だけだとB店の方が大きく見えるが、平均規模が10倍違うので、そのまま比較すると誤る。

項目	内容
問題文	機械Aは平均重量 `50g`、標準偏差 `2g`、機械Bは平均重量 `200g`、標準偏差 `6g` だった。どちらが相対的に安定しているか。
解説文	Aの変動係数は `2÷50=0.04`、Bは `6÷200=0.03` なので、Bの方が相対的に安定している。平均水準が違うときは、標準偏差そのものより「平均の何割ぶれるか」で見た方が実感に合う。

指数化（基準年比較）

項目	内容
問題文	今年の物価や売上を、基準年を100として比べたい。どの考え方を使うか。
解説文	指数化を使う。絶対値ではなく、基準に対して何割増減したかを見やすくする方法である。

項目	内容
問題文	基準年の売上が200万円、今年の売上が240万円だった。今年の売上指数を求めよ。
解説文	指数は `240÷200×100=120` である。つまり基準年を100とすると今年は120で、20%増と読める。指数化は「基準を100に置いた比」にすぎないので、複数系列でも増え方を同じ土俵で比べやすい。

3. 2変数以上のデータ

散布図と相関

散布図

項目	内容
問題文	広告費を増やした店舗ほど来店数が増えているか知りたい。まず最初にどの図で関係を確かめるのが基本か。
解説文	散布図を使う。相関係数を出す前に、直線的か、曲線的か、外れ値があるかを目で確認できる。

項目	内容
問題文	4店舗のデータが `(広告費, 来店数)=(1,10),(2,20),(3,30),(4,12)` だった。相関係数だけ先に出す前に散布図を見たいのはなぜか。
解説文	最初の3点は右上がりだが、4点目だけ外れていることが一目で分かるからである。相関係数を1つ出すだけでは、「だいたい直線なのか」「1点だけ異常なのか」が区別しにくい。散布図は、計算前に関係の形を検品する道具だと考えるとよい。

相関係数

項目	内容
問題文	勉強時間と得点の関係を、1つの数で表したい。関係の向きと強さを示す代表的な指標は何か。
解説文	相関係数である。 `-1` から `1` の範囲で、線形な結びつきの向きと強さを表す。

項目	内容
問題文	データが `(1,2), (2,4), (3,6)` だった。相関係数を求めるとどうなるか。
解説文	この3点は完全に一直線 `y=2x` 上にあるので、相関係数は `1` になる。相関係数は「右上がりの直線にどれだけぴったり乗っているか」を見ており、比例係数が2であること自体は気にしない。単位や倍率を消して、形の一致だけを見る量だと理解するとよい。

共分散

項目	内容
問題文	気温が高い日にアイス売上も増えるかを見たい。2つの量が同じ向きに動くかを測る量は何か。
解説文	共分散である。正なら同方向、負なら逆方向に動きやすいが、単位が残るので比較には相関係数の方が使いやすい。

項目	内容
問題文	データが `(1,2), (2,4), (3,6)` だった。標本共分散を求めよ。
解説文	`x` の平均は `2`、`y` の平均は `4`。偏差は `(-1,0,1)` と `(-2,0,2)` なので、偏差積の和は `(-1)(-2)+0+1×2=4`。標本共分散は `4÷(3-1)=2` である。平均との差どうしを掛けるのは、「2つが同時に平均より上か下か」を数値化するためである。

層別した散布図

項目	内容
問題文	全体では広告費と売上の関係が弱く見えるが、都市部と郊外に分けると関係がはっきりした。何をして見直したのか。
解説文	層別した散布図で見直したのである。異なる集団を混ぜると関係がぼやけたり逆転したりするため、層別は重要である。

項目	内容
問題文	都市部では `(10,100),(20,120)`、郊外では `(30,180),(40,200)` のように、どちらの層でも広告費が増えるほど売上が上がっていた。しかし全体をまとめると、店舗規模の差が大きく見える。このときなぜ層別した散布図が必要か。
解説文	都市部と郊外という別集団を混ぜると、「広告費の効果」より「立地や規模の違い」が前面に出てしまうからである。層別した散布図にすると、各層の中での右上がりが見えやすくなる。統計では、混ぜて見えなくなる関係を分けて取り戻すことが重要である。

相関行列

項目	内容
問題文	売上、来店数、広告費、客単価の関係をまとめて見たい。複数変数どうしの相関を一覧にした表は何か。
解説文	相関行列である。変数全体の関係地図を作るので、重回帰の前処理にも向く。

項目	内容
問題文	相関行列を見たところ、売上と来店数が `0.92`、売上と広告費が `0.40`、来店数と広告費が `0.85` だった。この表から最初に気づくべきことは何か。
解説文	来店数と広告費がかなり強く連動しているので、重回帰に両方を入れると多重共線性の気配があると気づける。相関行列は「どの変数が似た情報を持っていそうか」を事前に拾う表でもある。単に強い相関を探すだけでなく、後のモデル構築のリスクを見るためにも使う。

みかけの相関（擬相関）

項目	内容
問題文	アイス売上と水難事故件数に相関があった。これだけで「アイスが事故を増やす」と言えない理由を表す言葉は何か。
解説文	みかけの相関、擬相関である。どちらも気温の影響を受けているだけかもしれず、相関は因果を意味しない。

項目	内容
問題文	気温が `20度, 25度, 30度` と上がる日に、アイス売上が `100, 150, 220`、水難事故件数が `1, 3, 7` と増えていた。この3系列を見たとき、なぜアイス売上と事故件数の相関だけでは因果を言えないか。
解説文	気温という第三の要因が両方を同時に押し上げている可能性が高いからである。アイス売上が増えたから事故が増えたのではなく、暑い日だから両方が増えただけかもしれない。擬相関は、「一緒に動いて見えるが、原因は別にある」という典型例である。

偏相関係数

項目内容

問題文小型店では広告費が 10, 12 万円、売上が 100, 108 万円、大型店では広告費が 30, 32 万円、売上が 220, 228 万円だった。全体で見ると広告費と売上は強く関係して見えるが、その一部は店舗面積の違いによるかもしれない。面積の影響を除いて関係を見たいとき、何を考えるべきか。

解説文ここで使うのが偏相関係数の考え方である。全体で相関が高く見えても、「大型店だから広告費も売上も大きい」という第三の要因が混じっている可能性がある。偏相関は、その第三の要因を一定とみなしたうえで、広告費と売上だけの関係がどれだけ残るかを見ようとする。単純相関より一歩踏み込んで、交絡を外した関係を読むための道具である。

カテゴリカルデータ

度数表

項目	内容
問題文	アンケート50人の結果が、満足28人、普通15人、不満7人だった。この結果を最初にどう整理すると、全体像がつかみやすいか。
解説文	度数表にすると整理しやすい。満足28、普通15、不満7と並べるだけでも、満足が過半数であり、不満は少数だと分かる。統計では、いきなり難しい分析に行く前に、まず件数を数えて構造を把握することが基本になる。

2元クロス表

項目	内容
問題文	来店100人について、男性は「購入30人・非購入20人」、女性は「購入20人・非購入30人」だった。性別と購入有無の組み合わせを整理するとき、どんな見方が必要か。
解説文	2元クロス表で整理すると見やすい。男性の購入率は `30/50=60%`、女性は `20/50=40%` と読めるので、単に購入者数を見るより関係がはっきりする。独立性の検定は、この表に入った観測度数と期待度数を比べるところから始まる。

単回帰と予測

最小二乗法

項目	内容
問題文	広告費から売上を予測する直線を引きたい。どの線を採用するかは、どんな基準で決めるのが基本か。
解説文	最小二乗法を使う。観測値と予測値のズレの二乗和が最も小さい線を選び、ここでは微分による最適化の考え方が入る。

項目	内容
問題文	データが `(1,2), (2,4), (3,6)` なら、最小二乗法で求まる回帰直線は何か。
解説文	3点がすでに `y=2x` に完全に乗っているので、回帰直線は `y=2x` になる。最小二乗法は、各点から直線までの縦のズレを二乗して足した量を最小にする方法である。二乗するのは、符号を消して、大きなズレをより重く扱うためである。

変動の分解

項目	内容
問題文	売上のばらつきのうち、広告費で説明できた分と、説明できなかった分を分けて考えたい。何の考え方が必要か。
解説文	変動の分解が必要である。全体のばらつきを、回帰で説明できた部分と残差の部分に分ける考え方である。

項目	内容
問題文	全体変動が `50`、回帰で説明できた変動が `32`、残差変動が `18` だった。ここで何が成り立っているか。また何を意味するか。
解説文	`50=32+18` という関係が成り立つ。これが全体変動=説明変動+残差変動という分解である。全体の散らばりのうち `32/50=64%` は回帰直線で説明でき、残り `36%` は説明しきれていないと読める。回帰は「当てること」だけでなく、「どれだけ説明できたかを分けて考えること」に本質がある。

決定係数

項目	内容
問題文	回帰直線を引いたあとで、「売上のばらつきの何割を広告費で説明できたか」を数値で言いたい。何を見るか。
解説文	決定係数を見る。説明できた変動の割合を表し、 `1` に近いほど説明力が高い。

項目	内容
問題文	観測値が `2, 4, 6`、予測値が `2, 5, 5` だった。決定係数 `R^2` を求めよ。
解説文	観測値の平均は `4`。全体の変動は `(2-4)^2+(4-4)^2+(6-4)^2=8`、残差平方和は `(2-2)^2+(4-5)^2+(6-5)^2=2`。したがって `R^2=1-2/8=0.75` である。全体のばらつきのうち75%はモデルで説明でき、25%は説明できていないと読む。

回帰係数

項目	内容
問題文	広告費を1万円増やすと、売上は平均で何円変わるかを知りたい。回帰式のどの量を読めばよいか。
解説文	回帰係数を読む。説明変数が1単位変わったときの、目的変数の平均変化量を表す。

項目	内容
問題文	データが `(広告費, 売上)=(1,52), (2,55), (3,57), (4,60)` のとき、回帰直線の傾きはおよそいくつか。
解説文	傾きは `Σ(x-x平均)(y-y平均)÷Σ(x-x平均)^2` で求める。ここでは `x平均=2.5`、`y平均=56`、分子は `13`、分母は `5` なので傾きは `13÷5=2.6` である。式の感覚としては、「xが1増えると y が平均でどれだけ増えるか」を、x側の広がりで割って1単位あたりに直している。

分散分析表

項目	内容
問題文	回帰ソフトの出力で、平方和、自由度、平均平方、F値が並んでいて意味を取り違えそうだ。これは何の表か。
解説文	分散分析表である。ばらつきの内訳を整理し、モデル全体の当てはまりを確認するための表である。

項目	内容
問題文	回帰平方和 `40`、残差平方和 `10`、回帰自由度 `1`、残差自由度 `8` と出ていた。分散分析表では次に何を計算し、何を見ようとしているか。
解説文	平均平方を計算する。回帰平均平方は `40÷1=40`、残差平均平方は `10÷8=1.25` で、F値は `40÷1.25=32` になる。分散分析表は、説明できた変動が説明できない変動より十分大きいかを、自由度調整込みで比べるための表である。

観測値と予測値

項目	内容
問題文	ある店の実売上は120万円で、回帰式の予測は110万円だった。ここで区別すべき2つの値は何か。
解説文	観測値と予測値である。前者は現実に起きた値、後者はモデルが出した値であり、その差が残差になる。

項目	内容
問題文	ある日の売上の観測値が `120万円`、回帰式による予測値が `113万円` だった。ここから何が分かるか。
解説文	この日は実際の売上が予測より `7万円` 高かったと分かる。予測値は「モデルが普通ならこう言う値」、観測値は「実際に起きた値」である。この差を見ることで、モデルが拾えていない要因や、特別なイベントの有無を考えられる。

残差プロット

項目	内容
問題文	回帰をしたあとで、予測が大きい店ほどズレも大きい気がする。モデルの無理を図で確認するには何を見るか。
解説文	残差プロットを見る。残差がランダムに散っていないなら、直線モデルや等分散の前提が怪しい。

項目	内容
問題文	残差プロットを見ると、予測値が大きいほど残差の散らばりも大きくなっていた。この図は何を疑うきっかけになるか。
解説文	誤差分散が一定でないことや、対数変換の必要性を疑うきっかけになる。良い残差プロットは、0の周りにランダムに散る形である。扇形や曲線のパターンが見えたら、モデルの形や変換を見直すサインだと読める。

標準誤差

項目	内容
問題文	回帰係数が3.2と出たが、その値がどれくらい不安定かも知りたい。何を確認するか。
解説文	標準誤差を確認する。推定値がどれくらいぶれやすいかを表し、検定や信頼区間の材料になる。

項目	内容
問題文	回帰係数が `3.2`、標準誤差が `0.8` だった。この係数は何標準誤差ぶん0から離れているか。
解説文	`3.2÷0.8=4` なので、4標準誤差ぶん離れている。標準誤差は「この係数がどれくらい揺れるか」の大きさなので、係数を標準誤差で割ると、0との差を相対的な大きさで評価できる。検定統計量がこの形を取る理由はここにある。

変数変換

項目	内容
問題文	売上分布が極端に右に歪んでいて、そのままでは回帰がうまくいかない。どういう操作を検討するか。
解説文	変数変換を検討する。対数変換などで分布や関係の形を整え、分析しやすくする。

項目	内容
問題文	売上が `10万, 20万, 40万, 80万` のように倍々で増えていた。この系列をそのままより対数変換して見ると理解しやすいのはなぜか。
解説文	対数を取ると、`log 10, log 20, log 40, log 80` の差はほぼ等間隔になり、「倍率で増える」動きが「差で増える」形に近づくからである。変数変換は、数字をきれいに見せる飾りではなく、関係の読み方を自然にするための操作である。

時系列データの処理

成長率

項目	内容
問題文	売上が100万円から110万円になった店と、1000万円から1010万円になった店を比べたい。差額ではなく、何を見るのが自然か。
解説文	成長率を見る。どちらが何パーセント伸びたかで比べると、変化の勢いを捉えやすい。

項目	内容
問題文	売上が100万円から110万円になった。成長率を求めよ。
解説文	成長率は `(110-100)÷100=0.10`、つまり `10%` である。差額の10万円だけでは規模の違う系列を比べにくいので、元の値で割って割合に直す。微分積分に寄せて言えば、成長率は「変化量を元の大きさで割ったもの」である。

指数化（時系列）

項目	内容
問題文	異なる商品の売上推移を同じグラフで比べたい。基準時点を100にそろえて比較する方法を何というか。
解説文	指数化という。水準差をいったん外して、伸び方の違いに注目できる。

項目	内容
問題文	商品Aは1月売上が50万円、2月が60万円、商品Bは1月売上が200万円、2月が220万円だった。2月の指数をそれぞれ求め、どちらの伸びが大きいか答えよ。
解説文	商品Aの2月指数は `60÷50×100=120`、商品Bは `220÷200×100=110` である。金額差だけ見るとBの方が20万円増で大きく見えるが、伸び率ではAの方が大きい。時系列の指数化は、水準差を外して「伸び方」だけを比べるための操作である。

幾何平均

項目	内容
問題文	投資利回りが1年目に10%増、2年目に5%減、3年目に20%増だった。変化率の平均を考えるとき、通常の平均より何が自然か。
解説文	幾何平均が自然である。変化率は掛け算で積み上がるため、対数と相性のよい幾何平均で考える。

項目	内容
問題文	ある資産が1年目に `10%増`、2年目に `10%減` だった。2年間の平均的な成長率を求めるとき、幾何平均はどう使うか。
解説文	増減率を倍率に直すと `1.10` と `0.90`。幾何平均倍率は `√(1.10×0.90)=√0.99≈0.995` なので、平均成長率は約 `-0.5%` である。普通の平均だと `0%` になってしまうが、実際の資産額は `1.10×0.90=0.99` 倍で少し減っている。変化率は足し算ではなく掛け算で積み上がる、という感覚が重要である。

系列相関

項目	内容
問題文	昨日売れた商品は今日も売れやすいかを知りたい。時系列で前の値と今の値の似方を見る量は何か。
解説文	系列相関である。過去の値が現在にどれだけ残っているかを見る。

項目	内容
問題文	日別売上が `100, 102, 101, 103, 102` のように、前日と似た値で動いていた。このとき系列相関は正になりやすいのはなぜか。
解説文	大きい日の次も大きく、小さい日の次も小さい傾向があるからである。系列相関は、「連続する時点どうしが似ているか」を見る相関で、時系列では独立でないことが多いという感覚をつかむために重要である。

コレログラム

項目	内容
問題文	1日前、2日前、3日前との系列相関をまとめて眺めたい。ラグごとの系列相関を並べた図を何というか。
解説文	コレログラムという。どの遅れまで影響が残っているかを視覚的に確認できる。

項目	内容
問題文	コレログラムで、ラグ1が `0.8`、ラグ2が `0.6`、ラグ3が `0.4`、ラグ4が `0.1` だった。この系列から何が読み取れるか。
解説文	直近の過去ほど現在に強く影響し、時間が離れるにつれて影響が弱まっていると読める。コレログラムは、過去の記憶がどれくらい長く残るかを見る図であり、時系列モデルを選ぶ手がかりになる。

トレンド

項目	内容
問題文	月ごとの売上には上下があるが、3年で見ると右肩上がりに見える。この長期的な流れを何というか。
解説文	トレンドという。短期の変動の奥にある、長期的な増加や減少の流れである。

項目	内容
問題文	ある商品の月次売上が、季節で上下しながらも `100, 103, 106, 110, 114...` と長期では伸びていた。このとき、月々の上下と切り分けて見たいものは何か。
解説文	トレンドである。季節変動や一時的なノイズに目を奪われると、長期の成長や縮小を見誤る。トレンドは「短期の波の下にある傾き」と考えると分かりやすい。

平滑化（移動平均）

項目	内容
問題文	日別売上が曜日要因でギザギザしていて、大きな流れが見えない。近い日どうしの平均を取る操作を何というか。
解説文	平滑化、代表例は移動平均である。短期ノイズをならして、トレンドを読みやすくする。

項目	内容
問題文	7日間の売上が `100, 120, 80, 130, 90, 140, 110` だった。3日移動平均の最初の値はどう計算するか。
解説文	最初の3日移動平均は `(100+120+80)÷3=100` である。次は `(120+80+130)÷3` のように窓を1日ずつずらして計算する。移動平均は、近い時点の情報をまとめることで、細かな凸凹をならして大きな流れを見やすくする操作である。

4. 推測のためのデータ収集法

観察研究と実験研究

観察研究

項目	内容
問題文	コーヒーをよく飲む人ほど長生きかを、既存の健康調査データから見たい。研究のタイプは何か。
解説文	観察研究である。現実をそのまま観察するので、交絡要因が混じりやすい。

項目	内容
問題文	健康調査1000人で、コーヒーをよく飲む群の平均寿命が82歳、あまり飲まない群が79歳だった。この3歳差をそのまま「コーヒーの効果」と言い切れないのはなぜか。
解説文	観察研究では、年齢、所得、喫煙、運動習慣など他の要因が一緒に動いているかもしれないからである。差は見えても、その差がコーヒーだけの影響とは限らない。観察研究では「差がある」と「原因である」を慎重に切り分ける必要がある。

実験研究

項目	内容
問題文	広告Aと広告Bのどちらが効くかを知るため、利用者へランダムに出し分けた。研究のタイプは何か。
解説文	実験研究である。条件を割り当てて比べるため、因果の議論がしやすい。

項目	内容
問題文	利用者1000人をランダムに2群へ分け、A広告500人、B広告500人に出し分けた。Aの購入率が `12%`、Bが `9%` だった。この差を観察研究より因果に近く読めるのはなぜか。
解説文	ランダムに割り付けたことで、年齢や興味関心などの背景条件が平均的には両群でそろいやすくなったからである。観察研究では元から違う人どうしを比べてしまうが、実験研究では差の原因を広告に寄せて考えやすい。

調査の設計

項目	内容
問題文	従業員満足度調査で、質問文の言い方によって回答が変わりそうだ。統計で最初に考えるべき作業は何か。
解説文	調査の設計である。誰に、何を、どう聞くかが悪いと、その後の分析では取り戻せない。

項目	内容
問題文	「今の福利厚生は十分に充実していると思いますか」という質問と、「福利厚生に不満はありますか」という質問では、同じ内容でも答えが変わりそうだ。この差が調査設計で重要なのはなぜか。
解説文	質問文の言い回し自体が回答を誘導する可能性があるからである。統計では、集めた後の計算だけでなく、聞き方の時点でデータの質が決まる。調査設計は分析の前段ではなく、分析そのものの一部だと考えるべきである。

母集団

項目	内容
問題文	工場全体の不良率を知りたい。このとき、本当に知りたい対象全体を何というか。
解説文	母集団という。推測統計では、標本からこの母集団の姿を逆算する。

項目	内容
問題文	「今月生産した10万個すべての製品の不良率」を知りたい。この10万個は標本か母集団か。
解説文	母集団である。知りたい対象そのものだからである。母集団は必ずしも全国民のように巨大とは限らず、今月の全製品、ある学校の全生徒のように、問題設定ごとに決まる。

標本

項目	内容
問題文	工場の全製品は見られないので、1日100個だけ抜き取って検査した。この一部を何というか。
解説文	標本という。現実には母集団全体ではなく、この標本から推測する。

項目	内容
問題文	10万個の母集団から100個を検査した。この100個は何の役割を持つか。
解説文	母集団の状態を推測するための観測窓の役割を持つ。標本自体は一部にすぎないが、取り方が適切なら全体の縮図として使える。統計は「見えていない全体を、見えている一部から読む」技術なので、標本の質が命になる。

全数調査

項目	内容
問題文	社員200人全員に健康診断を受けてもらった。この調査方法を何というか。
解説文	全数調査という。対象全体を調べるので、理屈の上では標本誤差はないが、実務上は漏れや測定誤差が残る。

項目	内容
問題文	社員200人全員を調べたのに、入力ミスや未回答が少し残っていた。このとき「全数調査だから完全」と言い切れないのはなぜか。
解説文	全数調査は標本誤差をなくせても、測定誤差や非回答、記録ミスまでは自動で消してくれないからである。全員を調べることと、良いデータを得ることは別問題である。

標本調査

項目	内容
問題文	全国の有権者全員ではなく1000人にだけ支持政党を聞いた。この調査方法を何というか。
解説文	標本調査という。一部を調べて全体を推測する、統計の中心的な方法である。

項目	内容
問題文	有権者5000万人全員に聞く代わりに1000人へ聞く方法が現実的なのはなぜか。
解説文	時間と費用を大きく抑えながら、全体傾向をかなりの精度で推測できるからである。標本調査は妥協ではなく、適切に設計すれば十分に有効な方法である。統計検定では「全数が正義」ではなく、「よい標本が正義」と考える方が本質に近い。

ランダムネス

項目	内容
問題文	クーポンを配る相手を担当者の好みではなく抽選で決めた。ここで大事にしている性質は何か。
解説文	ランダムネスである。人の恣意を減らし、偶然のルールに乗せることで比較をきれいにする。

項目	内容
問題文	営業担当が「常連客にだけ新施策を試す」と、もともと買いやすい人へ偏る。抽選で対象を決める方がよいのはなぜか。
解説文	担当者の好みや期待が割付に入り込むと、施策の効果と客層の差が混ざってしまうからである。ランダムネスは偶然任せに見えるが、実際には人間の恣意を排除するための強い技術である。

無作為抽出

項目	内容
問題文	顧客ID一覧から乱数で200人を選んだ。この標本の取り方を何というか。
解説文	無作為抽出という。各人が選ばれる仕組みを明確にして、偏りを減らす抽出法である。

項目	内容
問題文	顧客1000人から無作為に100人を選ぶとき、「誰が選ばれても同じ仕組みである」ことが重要なのはなぜか。
解説文	特定の人だけ選ばれやすいと、標本が母集団の縮図でなくなるからである。無作為抽出の核心は、偶然で選ぶことそのものより、「選ばれる確率のルールが公平で説明できること」にある。

標本調査と無作為抽出

標本サイズ

項目	内容
問題文	支持率調査を100人でやるか1000人でやるか決めたい。精度に直結する量は何か。
解説文	標本サイズである。件数が大きいほど推定は安定するが、コストも増える。

項目	内容
問題文	支持率50%付近を調べるとき、標本サイズが100人と400人では、標準誤差はどう違うか。
解説文	標準誤差は `√(0.5×0.5/n)` なので、100人なら `0.05`、400人なら `0.025` である。件数を4倍にすると標準誤差は半分になる。精度は `1/√n` の速さでしか良くならないので、件数を増やすコスト感覚が大事になる。

標本誤差

項目	内容
問題文	同じ母集団なのに、今週の支持率調査は48%、来週は51%だった。この自然なブレを何というか。
解説文	標本誤差という。標本を取り直すたびに生じる、避けられない揺れである。

項目	内容
問題文	本当の支持率が50%だとしても、標本100人では48人支持、別の100人では51人支持になることがある。このズレは失敗なのか、それとも統計の性質として自然なのか。
解説文	統計の性質として自然である。標本調査は全員ではなく一部を見るので、標本を取り直せば少しずつ結果が揺れる。これが標本誤差であり、信頼区間や検定はこの自然なブレを前提に作られている。

偏りの源

項目	内容
問題文	固定電話だけで調査したら、若年層の声が入りにくかった。このズレの原因をまとめて何というか。
解説文	偏りの源という。件数を増やしても消えない一方向のズレなので、設計段階で潰す必要がある。

項目	内容
問題文	固定電話調査1000人で支持率が60%だったが、スマホ中心の若年層がほとんど入っていなかった。1000人という大きな件数でも安心できないのはなぜか。
解説文	これは件数不足ではなく偏りの問題だからである。対象の取り方が偏っていれば、1000人いても同じ方向にずれ続ける。標本誤差は件数で減らせるが、偏りは設計を直さない限り消えない。

系統抽出法

項目	内容
問題文	製造ラインの製品を100個ごとに1個ずつ抜き取った。この抽出法は何か。
解説文	系統抽出法である。実務では使いやすいが、周期的な癖があると偏ることがある。

項目	内容
問題文	100個ごとに1個を取る方法で、もし100個周期で不良が出やすい機械の癖があったら何が起こるか。
解説文	いつも同じ位置だけを見てしまい、偏った標本になる可能性がある。系統抽出法は効率的だが、母集団側に周期性があると危険である。便利さと偏りのリスクをセットで理解しておく必要がある。

層化抽出法

項目	内容
問題文	年代別の構成を保ったまま世論調査をしたい。まず年代ごとに分けてから抽出する方法は何か。
解説文	層化抽出法である。似た者どうしの層に分けることで、代表性と精度を高めやすい。

項目	内容
問題文	若年層20%、中年層50%、高年層30% の母集団で、各層からその割合に応じて抽出したい。この方法が単純無作為抽出より有利になるのはどんなときか。
解説文	層ごとに意見や行動がかなり違うときである。層化抽出をすると、どの層も一定数は必ず入るので、たまたま若年層が少なすぎる標本になるような事故を防ぎやすい。層の違いを先に利用して精度を上げる発想である。

クラスター抽出法

項目	内容
問題文	全国の学生調査で、個人を直接選ぶ代わりに学校をいくつか選んだ。この抽出法は何か。
解説文	クラスター抽出法である。塊ごと選ぶので実務的だが、同じ塊の中は似やすい。

項目	内容
問題文	学校を10校選び、その中の全生徒を調べた。この方法が安上がりな一方で、精度面では不利になりやすいのはなぜか。
解説文	同じ学校の生徒は似た環境にいるため、情報が重複しやすいからである。見かけ上は人数が多くても、実質的には似た回答が集まりやすく、単純無作為抽出ほど多様な情報が入らない。

多段抽出法

項目	内容
問題文	まず都道府県、次に市区町村、最後に世帯を選んだ。この段階的な抽出法は何か。
解説文	多段抽出法である。大規模調査で現実的な手順を作るためによく使う。

項目	内容
問題文	全国調査で、最初から個人名簿を全部そろえるのは大変なので、地域から順に絞り込んでいきたい。この方法が使われる現実的な理由は何か。
解説文	調査コストと実務負担を下げるためである。多段抽出法は、統計理論だけでなく現場の運用可能性を考えた方法で、「理想的な抽出」と「実際にできる抽出」の折り合いをつける工夫だと言える。

実験計画の基本

実験のデザイン

項目	内容
問題文	肥料AとBの効果を比べたいが、畑の場所によって育ち方が違う。比較の条件をどうそろえるか考える作業を何というか。
解説文	実験のデザイン、実験計画という。分析の前に比較の構図を整えることが、実験では最重要である。

項目	内容
問題文	同じ肥料比較でも、日当たりのよい区画にAを多く置いてしまえば結果が歪む。実験のデザインで先に考えるべきことは何か。
解説文	見たい要因以外の差が、群の違いに混ざらないように配置することである。統計では、分析式より前に比較の構図を整えないと、後からどれだけ計算しても因果はきれいに読めない。実験のデザインは「公平な試合の組み方」を決める作業だと考えると分かりやすい。

フィッシャーの3原則

項目	内容
問題文	肥料実験で、区画差や偶然差を減らしたい。ランダム化、反復、局所管理をまとめて何というか。
解説文	フィッシャーの3原則という。見たい差以外の差を減らして、要因効果を読みやすくする。

項目	内容
問題文	A肥料とB肥料を比べるとき、区画をランダムに割り付け、複数区画で繰り返し、日当たりの似た区画どうしで比べた。この3つの工夫が必要なのはなぜか。
解説文	ランダム化は恣意を消し、反復は偶然差を測り、局所管理は大きな外乱を先に抑えるためである。3原則は別々のテクニックではなく、「見たい差だけを目立たせる」という同じ目的を3方向から支えている。

5. 確率モデルの導入

確率

事象と確率

項目	内容
問題文	サイコロを1回振って偶数が出るかを見る。この「偶数が出る」という出来事を何といい、その起こりやすさを何というか。
解説文	出来事を事象、その起こりやすさを確率という。統計では不確実な現象をこの言葉で扱う。

項目	内容
問題文	公平なサイコロを1回振る。「偶数が出る」という事象の確率を求めよ。
解説文	偶数は `2,4,6` の3通りなので、確率は `3/6=1/2` である。確率は「起こる場合の数÷全場合の数」という素朴な考え方から始まる。まず何を事象とみなすかを決めないと、確率計算自体が始まらない。

加法定理

項目	内容
問題文	製品が「傷あり」または「汚れあり」である確率を出したい。重なりを二重に数えないためのルールは何か。
解説文	加法定理を使う。 `AまたはB` の確率は、単純な足し算ではなく重なりを引いて求める。

項目	内容
問題文	製品に傷がある確率が `0.10`、汚れがある確率が `0.20`、両方ある確率が `0.05` だった。傷または汚れがある確率を求めよ。
解説文	加法定理より `0.10+0.20-0.05=0.25` である。単純に足すと、両方ある製品を2回数えてしまうので、その重なりを1回分引く。図で言えば、2つの円の重なり部分を調整している。

条件付き確率

項目	内容
問題文	雨が降っていると分かった上で、傘を持っている人の割合を考えたい。このときの確率を何というか。
解説文	条件付き確率という。前提情報が増えたあとで確率を考え直す方法である。

項目	内容
問題文	100日中、雨の日は20日、そのうち16日は傘を持っていた。雨の日に傘を持つ確率を求めよ。
解説文	条件付き確率は `16÷20=0.8` である。分母が100ではなく20になるのは、「雨の日だけに世界を絞り直した」からである。条件付き確率は、母集団を縮めたうえで割合を取り直す操作だと理解するとよい。

乗法定理

項目	内容
問題文	1枚目も2枚目も当たりくじを引く確率を知りたい。順番に起きる事象をつなぐルールは何か。
解説文	乗法定理を使う。 `AかつB` の確率を、順番に掛け合わせて求める。

項目内容

問題文 5本中1本だけ当たりのくじを、戻さずに2回引く。1回目も2回目も当たりである確率はどうなるか。

解説文この例では1本しか当たりがないので確率は 0 である。より一般に、順番に起きる事象の確率は 1回目の確率×1回目が起きた後の2回目の条件付き確率 で求める。例えば当たりが2本なら 2/5×1/4=1/10 になる。掛け算になるのは、最初の関門を通り、その後さらに次の関門を通る、という段階構造だからである。

ベイズの定理

項目	内容
問題文	検査で陽性が出た人が、本当に病気である確率を知りたい。観測結果から原因側の確率を更新する公式は何か。
解説文	ベイズの定理である。条件の向きをひっくり返し、証拠を見た後の確率を求める。

項目内容

問題文ある病気の有病率は 1%、検査の感度は 90%、偽陽性率は 5% とする。陽性だった人が本当に病気である確率を求めよ。

解説文病気で陽性になる確率は 0.01×0.90=0.009、病気でないのに陽性になる確率は 0.99×0.05=0.0495。したがって「陽性だった人が本当に病気である確率」は 0.009÷(0.009+0.0495)≈0.154 で、約15.4%である。陽性だから高確率で病気とは限らず、元々その病気がどれだけ珍しいかが強く効く。ここがベイズの定理の感覚的な要点である。

確率変数

離散型確率変数

項目	内容
問題文	10個の製品に不良品が何個あるかを考える。取りうる値が0個、1個、2個のように数えられるとき、これは何か。
解説文	離散型確率変数である。値が飛び飛びで、確率を各値ごとに割り当てる。

項目	内容
問題文	「1時間の来客数」を確率変数 `X` とすると、 `X=0,1,2,...` のような値を取る。このとき `P(X=3)` のように1点の確率をそのまま考えられるのはなぜか。
解説文	来客数は整数でしか動かず、値が飛び飛びだからである。離散型確率変数では、各値に直接確率を割り当てられる。件数問題で「ちょうど3件」という言い方が自然なのは、この性質による。

連続型確率変数

項目	内容
問題文	次の問い合わせ電話が来るまでの待ち時間を考える。秒単位で連続的に値を取るとき、これは何か。
解説文	連続型確率変数である。点ではなく区間の確率を考え、密度の積分で求める。

項目	内容
問題文	待ち時間 `X` について、 `P(X=3分ちょうど)` より `P(2分以上4分以下)` を考える方が自然なのはなぜか。
解説文	連続型では、1点ちょうどの確率は本質的に0で、意味があるのは幅を持つ区間の確率だからである。測定でも丸め誤差があるため、現実には「ちょうど3分」より「3分前後」と読む方が自然である。

期待値

項目	内容
問題文	くじを何度も引いたとき、平均収支がどこに落ち着くか知りたい。確率つき平均を何というか。
解説文	期待値という。長く繰り返したときの平均的な着地点を表す。

項目	内容
問題文	当たりなら100円もらえ、確率は `0.2`、はずれなら0円で確率は `0.8` のくじがある。期待値を求めよ。
解説文	期待値は `100×0.2+0×0.8=20` 円である。各結果を確率で重み付けした平均になっている。長く何度も引いたとき、1回あたり平均20円くらいに落ち着くと考えると理解しやすい。

分散（確率変数）

項目	内容
問題文	同じ期待収支のくじでも、当たり外れが激しいものと穏やかなものを比べたい。何を見ればよいか。
解説文	分散を見る。期待値のまわりにどれくらい散るかを表す。

項目	内容
問題文	当たりなら100円、はずれなら0円で、当たる確率が `0.2` のくじの分散を求めよ。
解説文	期待値は20円。分散は `(100-20)^2×0.2+(0-20)^2×0.8=6400×0.2+400×0.8=1600` である。平均との差を二乗するので、平均は同じでも当たり外れが激しいくじほど分散が大きくなる。

標準偏差（確率変数）

項目	内容
問題文	先ほどのくじの分散が `1600` だった。標準偏差を求めよ。
解説文	標準偏差は `√1600=40` 円である。平均との差20円のくじだが、1回ごとのブレはその倍くらい大きい、と読める。標準偏差は「平均から典型的にどれくらい離れるか」を元の単位で見せてくれる。

確率変数の和と差

項目	内容
問題文	2店舗の売上合計や、売上から費用を引いた利益を考えたい。もとの確率変数から新しい量を作る考え方を何というか。
解説文	確率変数の和と差を考えるという。実務では合計や差が意思決定に直結するので重要である。

項目	内容
問題文	売上を `X`、費用を `Y` としたとき、利益を `X-Y` と表した。この表現が重要なのはなぜか。
解説文	意思決定で見たい量が、元の変数そのものではなく、その組み合わせであることが多いからである。統計では、確率変数を足したり引いたりして新しい量を作り、その平均や散らばりを考える。利益、合計需要、在庫差など、実務で本当に見たいものはしばしば和や差である。

同時分布

項目	内容
問題文	気温とアイス売上が同時にどう動くかを確率で表したい。2変数の組を扱う分布を何というか。
解説文	同時分布という。複数の確率変数がどの組み合わせで起こるかを表す。

項目	内容
問題文	天気 `X` が「晴れ・雨」、来店 `Y` が「多い・少ない」の2値を取るとする。 `P(X=晴れ, Y=多い)` のように組で確率を考えるのは何を見ているのか。
解説文	2変数が同時にどう現れるかを見ている。片方だけの分布では、「晴れの日に来店が多いか」のような結びつきは読めない。同時分布は、関係を見るための土台になる。

和の期待値

項目	内容
問題文	2店舗の売上合計の平均を知りたい。各店舗売上の期待値からどう考えるのが基本か。
解説文	和の期待値は期待値の和になる。独立かどうかに関係なく、平均は素直に足せる。

項目	内容
問題文	A店の売上の期待値が100万円、B店の売上の期待値が150万円だった。合計売上の期待値を求めよ。
解説文	和の期待値は `100+150=250` 万円である。平均は足し算に対して素直なので、独立かどうかに関係なくそのまま足せる。合計の平均を考えるときに一番扱いやすい性質である。

和の分散

項目	内容
問題文	2店舗の売上合計のブレを知りたい。各店舗の分散をただ足すだけでよいとは限らないのはなぜか。
解説文	和の分散には共分散が入るからである。独立なら単純に足せるが、連動して動くなら補正が必要になる。

項目	内容
問題文	A店売上の分散が `25`、B店売上の分散が `36` で独立とする。合計売上の分散を求めよ。
解説文	独立なら共分散が0なので、和の分散は `25+36=61` である。平均との差は足し算されるが、散らばりは単純な和ではなく共分散まで含む。独立のときだけ、気持ちよく足し算できる。

2変数の共分散

項目	内容
問題文	雨量が増える日に傘の売上も増えるかを、確率変数として表したい。方向の一致を見る量は何か。
解説文	2変数の共分散である。2つの確率変数が同方向か逆方向かを表す。

項目	内容
問題文	雨量 `X` が平均2、傘売上 `Y` が平均4 で、偏差積の平均が `3` だった。この3は何を表すか。
解説文	これは `X` と `Y` の共分散である。平均より大きい雨量の日に平均より大きい売上が出やすいなら、偏差積はプラスに寄る。つまり共分散の符号は「同じ向きに動くか」を表している。

2変数の相関

項目	内容
問題文	共分散は単位の影響を受けるので比較しづらい。単位を消して関係の強さを見たいとき、何を見るか。
解説文	2変数の相関を見る。共分散を標準化した量で、強さを比較しやすい。

項目	内容
問題文	共分散が `6`、`X` の標準偏差が `2`、`Y` の標準偏差が `3` のとき、相関係数を求めよ。
解説文	相関係数は `6÷(2×3)=1` である。共分散を標準偏差で割ることで単位を消し、「強さ」だけを残している。共分散は大きくても単位が違えば比べにくいので、その不便を解消したのが相関係数である。

確率分布

ベルヌーイ試行

項目	内容
問題文	製品1個を見て、合格か不合格かだけ判定する。この1回の試行を何というか。
解説文	ベルヌーイ試行という。成功か失敗かの2択だけを持つ最小単位である。

項目	内容
問題文	広告を見て「購入した=1、購入しない=0」と記録した。この1人ぶんの観測がベルヌーイ試行とみなせるのはなぜか。
解説文	結果が成功と失敗の2択に整理されているからである。ベルヌーイ試行は難しいモデルではなく、二択の結果を1回観測する最小単位だと考えればよい。二項分布は、このベルヌーイ試行を何回も重ねたものにすぎない。

二項分布

項目	内容
問題文	100個の製品から不良品が何個出るか知りたい。成功確率一定のベルヌーイ試行を繰り返した成功回数の分布は何か。
解説文	二項分布である。不良品数、賛成者数、当たり回数などの基本モデルになる。

項目	内容
問題文	不良率 `0.2` の製品を5個調べる。ちょうど1個が不良品である確率を求めよ。
解説文	二項分布より `5C1×0.2^1×0.8^4=5×0.2×0.4096=0.4096` である。 `5C1` が付くのは、不良品が5個のうちどの位置に出るかが5通りあるからである。二項分布は「成功回数」を数えるので、順番の違いを組合せでまとめて数える。

ポアソン分布

項目	内容
問題文	1時間あたりのサポート問い合わせ件数を考えたい。まれな出来事の件数を表す代表的な分布は何か。
解説文	ポアソン分布である。一定時間内の発生回数を扱うときによく使う。

項目	内容
問題文	1時間あたり平均2件の問い合わせが来るとする。1時間にちょうど3件来る確率を求めよ。
解説文	ポアソン分布より `e^-2×2^3÷3! = e^-2×8÷6 ≈ 0.180` である。平均件数 `λ` がそのまま分布を決めるのが特徴で、短い時間の件数問題によく出る。

幾何分布

項目	内容
問題文	初めて成約が出るまで営業電話を何件かけるか知りたい。最初の成功までの回数を表す分布は何か。
解説文	幾何分布である。待ち続けても成功確率が変わらない場面の基本モデルである。

項目	内容
問題文	1件の営業電話で成約する確率が `0.4` とする。3件目で初めて成約する確率を求めよ。
解説文	最初の2件は失敗、3件目で成功なので `0.6×0.6×0.4=0.144` である。幾何分布は「成功が初めて出る位置」を見るので、前は全部失敗、最後だけ成功という形になる。

一様分布

項目	内容
問題文	0から1までの乱数がどこに出ても同じと考える。この分布を何というか。
解説文	一様分布である。区間のどこも同じ程度に起こるとみなす。

項目	内容
問題文	`X` が区間 `[0,10]` の一様分布に従うとする。 `2≤X≤5` となる確率を求めよ。
解説文	一様分布では確率は長さの比なので、`(5-2)÷(10-0)=3/10=0.3` である。どこも同じ密度ということは、区間の確率が区間の長さだけで決まる、という意味である。

指数分布

項目	内容
問題文	次の問い合わせが来るまでの待ち時間を知りたい。待ち時間を表す基本的な連続分布は何か。
解説文	指数分布である。ポアソン的な到着現象の待ち時間モデルとしてよく使う。

項目	内容
問題文	1分あたり平均 `0.5` 件の問い合わせが来るとする。次の問い合わせまで4分以上待つ確率を指数分布で近似するといくらか。
解説文	指数分布では `P(X≥t)=e^(-λt)` なので、`e^(-0.5×4)=e^-2≈0.135` である。待ち時間が長くなるほど確率が指数的に減る、というのがこの分布の感覚である。

正規分布

項目	内容
問題文	同じ機械で長さを何度も測ると、小さな誤差が重なって真ん中付近に値が集中した。統計で最もよく出る分布は何か。
解説文	正規分布である。真ん中が厚く両端が薄いベル型で、面積が確率になる。

項目	内容
問題文	平均 `50`、標準偏差 `10` の正規分布に従う点数で、 `40点から60点` の範囲が特に典型的と感じられるのはなぜか。
解説文	この範囲は平均の前後1標準偏差にあたり、分布の中央の厚い部分だからである。正規分布では平均付近に観測が集まり、そこから離れるほど急に起こりにくくなる。正規分布を理解するときは、式より先に「中心が厚く、端が薄い面積の山」として掴むと入りやすい。

2変量正規分布

項目	内容
問題文	身長と体重を同時に見たら、散布図が楕円っぽく散った。2変数を同時に扱う正規分布を何というか。
解説文	2変量正規分布である。相関を含めて2つの量の同時の揺れを表す。

項目	内容
問題文	身長が高い人ほど体重も重い傾向があり、散布図の点群が右上がりの楕円に見えた。この形を2変量正規分布で読むとき、何が入っていると考えるか。
解説文	各変数の平均と分散に加えて、2変数の相関が入っていると考える。相関が強いほど楕円は細長く傾き、相関が弱いほど丸に近づく。2変量正規分布は「2つの正規分布が独立に並んだだけ」ではなく、同時の揺れ方まで含んだモデルである。

超幾何分布

項目	内容
問題文	不良品10個を含む箱から、戻さず5個抜いたときの不良品個数を知りたい。どの分布が対応するか。
解説文	超幾何分布である。復元しない抽出なので、引くたびに成功確率が変わる。

項目	内容
問題文	箱に良品8個、不良品2個が入っている。戻さず2個引くとき、2個とも不良品である確率をどう考えると超幾何分布らしいか。
解説文	1回目に不良を引く確率は `2/10`、その後は不良が1個しか残らないので2回目は `1/9` となり、確率は `2/10×1/9=1/45` である。引くたびに中身が変わるため、成功確率が一定でない。ここが二項分布との最大の違いである。

負の二項分布

項目	内容
問題文	3件の成約が出るまでに何件失敗するか知りたい。複数回の成功までの試行を表す分布は何か。
解説文	負の二項分布である。幾何分布を一般化したものと見れば理解しやすい。

項目	内容
問題文	成約確率が毎回 `0.4` の営業を続け、2回成約するまでの失敗回数を考えたい。幾何分布では足りず、負の二項分布になるのはなぜか。
解説文	幾何分布が扱うのは「最初の1回成功まで」だが、ここでは「2回成功するまで」を見ているからである。成功が1回でなく複数回に増えたとき、その待ち時間を表すのが負の二項分布である。幾何分布の拡張版と捉えると整理しやすい。

標本分布

独立試行

項目	内容
問題文	公平なコインを何度も投げる。前の結果が次の結果に影響しないとき、この試行をどう表現するか。
解説文	独立試行という。独立性があると期待値や分散の計算がかなり扱いやすくなる。

項目	内容
問題文	1回目が表だったからといって、2回目が裏になりやすくなるわけではない。この感覚を統計ではどう捉えるか。
解説文	各試行が独立だと捉える。独立とは「前の結果を知っても次の確率が変わらない」ことであり、人間が感じがちな“そろそろ裏が出るはず”という直感とは違う。確率モデルでは、この独立性を前提に計算が組み立てられることが多い。

標本平均の期待値

項目	内容
問題文	毎日50本ずつ充填量を測り、その平均を記録する。標本平均は長い目で見ると何を狙っているか。
解説文	標本平均の期待値は母平均である。標本平均は母平均を中心に揺れる。

項目	内容
問題文	母平均が `500` ml の母集団から標本を取る。標本平均の期待値はいくつか。
解説文	標本平均の期待値も `500` である。平均を取る操作は、長い目で見れば真ん中をずらさない。標本平均が母平均を狙う理由はここにある。

標本平均の分散

項目	内容
問題文	1本だけの測定より、50本平均の方が安定するのはなぜか。標本平均のどの性質で説明するか。
解説文	標本平均の分散が `母分散÷n` になるからである。件数が大きいほど平均はぶれにくい。

項目	内容
問題文	母分散が `25` の母集団から `n=25` 個の標本を取る。標本平均の分散を求めよ。
解説文	標本平均の分散は `25÷25=1` である。1個ずつのデータはぶれても、平均を取るとズレが相殺されるので、 `n` が大きいほど平均は安定する。これが `1/√n` の精度改善の土台である。

チェビシェフの不等式

項目	内容
問題文	ある分布の平均が10、標準偏差が2とする。平均から4以上離れる確率に対し、チェビシェフの不等式から何が言えるか。
解説文	4は標準偏差2のちょうど2倍なので、 `k=2`。チェビシェフの不等式より `平均から2標準偏差以上離れる確率≤1/2^2=1/4` である。したがって、平均から4以上離れる確率は高くても25%である。分布の形を知らなくても、危険側の上限だけは言えるところが強みである。

大数の法則

項目	内容
問題文	サイコロを何回も振るほど、1の出る割合が `1/6` に近づいていく。この考え方を何というか。
解説文	大数の法則である。観測回数が増えると、平均や割合が理論値に近づく。

項目	内容
問題文	サイコロを6回だけ振ると1の割合は `0/6` や `2/6` にもなりうるが、600回振ると `1/6` に近づきやすい。なぜそう考えるのか。
解説文	少数回では偶然のブレが大きいが、回数が増えるとプラスとマイナスのズレが平均化されるからである。大数の法則は、「たくさん集めると真の姿が見えやすくなる」という統計全体の土台になっている。

中心極限定理

項目	内容
問題文	元データが少し歪んでいても、50人平均を何度も作るとベル型に近づいて見えた。これを説明する定理は何か。
解説文	中心極限定理である。標本平均が正規分布に近づくので、推定や検定がしやすくなる。

項目	内容
問題文	母平均50、母標準偏差10の母集団から `n=100` の標本を取る。標本平均が54以上となる確率を正規近似で求めよ。
解説文	中心極限定理より、標本平均はおよそ平均50、標準偏差 `10/√100=1` の正規分布に従う。したがって `Z=(54-50)÷1=4` なので確率はかなり小さい。中心極限定理の感覚は、「個々のデータは荒れていても、平均にするとかなり整う」ということである。

二項分布の正規近似

項目	内容
問題文	1000人調査の賛成者数を毎回厳密な二項分布で計算するのは面倒だ。試行回数が大きいとき、何で近似することが多いか。
解説文	正規分布で近似する。これを二項分布の正規近似という。

項目	内容
問題文	`X~Bin(100, 0.4)` のとき、平均と分散を使って正規分布で近似するとどうなるか。
解説文	平均は `np=40`、分散は `np(1-p)=24` なので、 `X` をおよそ `N(40, 24)` とみなす。試行回数が大きいと、成功回数の分布は左右の形がなだらかになり、正規分布でかなり近く表せる。

連続修正

項目	内容
問題文	二項分布で「賛成者が520人以下」の確率を正規近似で出したい。離散と連続のズレを埋めるための調整を何というか。
解説文	連続修正という。 `0.5` だけ境界をずらして近似精度を上げる。

項目	内容
問題文	`X~Bin(100, 0.4)` とし、 `P(X≤44)` を正規近似で求めたい。連続修正では境界をどう直すか。
解説文	`44` 以下は離散では `44` まで含むので、連続分布では `44.5` 以下に直す。つまり `P(X≤44)` を `P(Y≤44.5)` と近似する。 `0.5` を足すのは、「44という点」ではなく、その点の幅まで含めて面積に移すためである。

母集団（標本分布）

項目	内容
問題文	顧客全体から標本を何度も取り直す想像実験をしている。このとき、標本を生み出す大元を何というか。
解説文	母集団である。標本分布は、この母集団から標本を繰り返し取る考え方で定義される。

項目	内容
問題文	「標本平均の分布」を考えるとき、実際には標本を何度も取り直す想像をしている。この想像の出発点が母集団であることはなぜ重要か。
解説文	標本平均のばらつきは、どんな母集団から引くかで決まるからである。標本分布は標本だけで完結しているのではなく、その背後にある母集団の性質を反映する。

母数

項目	内容
問題文	本当の平均身長や本当の不良率は直接見えないが、そこを当てたい。この見えない定数を何というか。
解説文	母数という。統計の推定や検定は、結局この母数について語る作業である。

項目	内容
問題文	母平均 `μ`、母分散 `σ^2`、母比率 `p` のように文字で置かれる量は、なぜ観測値そのものではなく「母数」と呼ばれるのか。
解説文	標本ごとに変わる観測値ではなく、母集団に固有の固定された値だと考えるからである。推定量は標本で揺れるが、母数はその揺れの目標地点である。統計の多くの式は、この見えない定数をどう当てるか、どう疑うかのためにある。

母平均

項目	内容
問題文	工場全体で見たときの本当の平均充填量を指す言葉は何か。
解説文	母平均である。標本平均はこの値を推定するために使う。

項目	内容
問題文	今日測った20本の平均が `501ml` だった。この `501` は母平均そのものか、それとも母平均を推測する材料か。
解説文	`501` は標本平均であり、母平均を推測する材料である。母平均は工場全体の本当の平均で、標本平均はその近くを狙って揺れる観測値だと区別する必要がある。

母分散

項目	内容
問題文	工場全体で見たときの本当の充填量のばらつきを指す言葉は何か。
解説文	母分散である。標本分散から、この見えない散らばりを推定する。

項目	内容
問題文	今日測った20本の標本分散が `4` だった。この `4` は母分散そのものではないのはなぜか。
解説文	20本だけを見た標本から計算した値なので、取り直せば少し変わるからである。母分散は母集団全体の本当の散らばりで、標本分散はその推定値にすぎない。ここを混同すると、推定や検定の意味が見えなくなる。

正規母集団に関する分布

標準正規分布

項目	内容
問題文	試験点数を平均0、標準偏差1に直して比較したい。基準として使う分布は何か。
解説文	標準正規分布である。正規分布を共通の物差しに乗せた形である。

項目	内容
問題文	平均50、標準偏差10の正規分布に従う点数で、70点の z得点を求めよ。
解説文	`z=(70-50)÷10=2` である。標準正規分布は「平均から何標準偏差ぶん離れているか」で表した分布なので、異なる単位の正規分布も同じ表で扱える。

標準正規分布表の利用

項目	内容
問題文	z得点が1.96より大きい確率を表で読みたい。何の表を使うか。
解説文	標準正規分布表を使う。正規分布の面積、つまり確率を読むための表である。

項目	内容
問題文	両側5%検定でよく出る `1.96` は、標準正規分布表ではどういう意味か。
解説文	`1.96` は、左右の端にそれぞれ2.5%、合計5%だけ残る境界を意味する。標準正規分布表は面積表なので、「どこから先が珍しいか」を面積で読むために使う。 p値や信頼区間が面積の問題だと分かると、表の意味が急に見えやすくなる。

t分布

項目	内容
問題文	サンプル10人で平均差を見たい。標本が少なく母分散も分からないとき、何の分布を使うか。
解説文	t分布を使う。標準正規分布より尾が厚く、標本の少なさによる不確かさを反映する。

項目	内容
問題文	`n=10`、標本平均 `52`、帰無仮説の母平均 `50`、標本標準偏差 `3` のとき、t値を求めよ。
解説文	`t=(52-50)÷(3/√10)≈2.11` である。母標準偏差が分からないので、標本標準偏差で割ったぶん余計に不確かになり、その不確かさを反映するために標準正規分布ではなく t分布を使う。標本が少ないと t分布の尾が厚いのは、この「見積もりの粗さ」のせいである。

カイ二乗分布

項目	内容
問題文	機械の充填量のばらつき自体を推定したり検定したりしたい。何の分布が出てくるか。
解説文	カイ二乗分布が出てくる。分散や二乗和に関する問題の基本になる。

項目	内容
問題文	平均との差を二乗して足し合わせた量が分散の推定や検定で重要になる。このときカイ二乗分布が自然に出てくるのはなぜか。
解説文	標準化した正規変数を二乗して足した量がカイ二乗分布になるからである。分散はそもそも「偏差の二乗の平均」に近い量なので、二乗和を扱うとカイ二乗分布が現れる。式の暗記より、「分散問題だから二乗の分布が出る」という感覚が大事である。

F分布

項目	内容
問題文	ラインAとラインBで、ばらつきの大きさを比べたい。何の分布を使うか。
解説文	F分布を使う。2つのばらつきの比を扱うときの代表的な分布である。

項目	内容
問題文	2つの分散を比べるとき、差ではなく比を取って F分布を見るのはなぜか。
解説文	分散の大小は倍率で読む方が自然だからである。 `9` と `4` の差は `5` だが、安定性としては「2.25倍ぶれている」と読む方が実感に合う。F分布は、この分散比が偶然どれくらい大きくなりうるかを見るための分布である。

分布表の活用

項目	内容
問題文	平均の検定か、分散の検定かで、引くべき分布表が変わる。どの表を引くか判断する作業を何と考えればよいか。
解説文	分布表の活用である。問題が平均なのか比率なのか分散なのかを見分けて、正規、t、カイ二乗、Fを使い分ける。

項目	内容
問題文	「平均の検定で母分散未知なら t表」「分散の検定ならカイ二乗表」のように表を切り替える必要がある。ここで大事なのは何を先に見分けることか。
解説文	何を知りたい問題か、つまり対象の母数が平均・比率・分散のどれかを先に見分けることである。分布表は暗号表ではなく、問題の構造に応じて選ぶ道具である。

上側確率点（パーセント点）

項目	内容
問題文	上位5%だけが超える境界値を知りたい。検定の棄却域や信頼区間の端に使うこの値を何というか。
解説文	上側確率点、パーセント点という。珍しさの境界線そのものと考えると分かりやすい。

項目	内容
問題文	標準正規分布で上側5%点が約 `1.645` であるとは、具体的に何を意味するか。
解説文	`Z>1.645` となる確率が約5%という意味である。つまり `1.645` は、「ここを超えたら上位5%の珍しい領域に入る」という境界線である。検定の棄却域は、この境界線をどこに引くかの問題だと理解するとよい。

6. 推定

推定の基本

点推定

項目	内容
問題文	標本100個中3個が不良品だったので、不良率をまず3%と述べたい。このように1つの値で言う方法を何というか。
解説文	点推定という。母数を1点で言い表す最も基本的な推定である。

項目	内容
問題文	標本100個のうち不良品が3個だった。母不良率の点推定値を求めよ。
解説文	点推定値は標本比率なので `3÷100=0.03`、つまり `3%` である。比率の点推定で標本比率を使うのは、「標本の中で見えた割合を、そのまま母集団へ持ち上げる」という最も自然な考え方だからである。

推定量

項目	内容
問題文	「標本平均を使う」「標本比率を使う」のような、標本から計算するルールそのものを何というか。
解説文	推定量という。まだデータを入れる前の計算ルールである。

項目	内容
問題文	`X1,...,Xn` から `Xbar=(X1+...+Xn)/n` を計算して母平均を推定する。この `Xbar` は推定量か推定値か。
解説文	推定量である。まだ具体的な数値データを代入していない、計算式としてのルールだからである。統計では「式の段階」と「値が出た段階」を分けて考える必要がある。

推定値

項目	内容
問題文	標本平均を計算したら503.2mlになった。実際に出たこの数値を何というか。
解説文	推定値という。推定量に実データを入れて得られた結果である。

項目	内容
問題文	推定量として標本比率を使い、実際の標本で `18/200=0.09` になった。この `0.09` は何か。
解説文	推定値である。計算ルールである標本比率に、実データを入れて得られた具体的な数値だからである。推定量がレシピなら、推定値はそのレシピで実際に作った料理だと考えると区別しやすい。

有限母集団

項目	内容
問題文	在庫500個の中から50個抜いて検査した。母集団が有限個であることを意識する場面で使う言葉は何か。
解説文	有限母集団という。戻さず抽出する場合には、抽出が進むほど状況が少し変わる。

項目	内容
問題文	在庫500個から戻さずに200個も抜き取るとき、無限母集団の近似で雑に済ませにくいのはなぜか。
解説文	かなりの割合を取り出すため、1個引くたびに残りの構成が無視できないほど変わるからである。有限母集団では、復元抽出の近似よりも「母集団が減っていく」ことを意識する必要がある。

一致性

項目	内容
問題文	支持率調査の件数を増やすほど、推定値が真値に近づいてほしい。この性質を何というか。
解説文	一致性という。標本サイズを大きくすると、推定量が真値に寄っていく性質である。

項目	内容
問題文	標本サイズが `100, 1000, 10000` と増えるにつれて、標本比率が真の支持率に近づきやすくなる。この振る舞いは何を示しているか。
解説文	標本比率が一致性を持つことを示している。小標本ではぶれても、大標本で真値に寄るなら、長い目では信頼できる推定量だといえる。一致性は「件数を増やせば報われるか」を表す性質である。

不偏性

項目	内容
問題文	何度も抽出を繰り返したとき、推定値の平均が真値を外してほしくない。この性質を何というか。
解説文	不偏性という。長い目で見た平均が真値に一致する性質である。

項目	内容
問題文	ある推定量を何度も使ったとき、その平均がいつも真の母平均に一致する。この推定量はどんな性質を持つか。
解説文	不偏性を持つ。不偏性は「毎回当たる」ことではなく、「何度も繰り返した平均では偏らない」ことを意味する。1回ごとのズレと、長い目で見た偏りは別物だと理解することが大切である。

信頼区間

項目	内容
問題文	不良率を3%と1点で言うだけでは不安なので、2%から5%くらいと言いたい。幅で示すこの方法を何というか。
解説文	信頼区間という。母数がありそうな範囲を、手続きとして一定の成功率で示す。

項目	内容
問題文	支持率の点推定が48%でも、「だいたいどこからどこまでか」を一緒に言いたい。この幅を持った言い方はなぜ必要か。
解説文	標本から出した値は毎回少しずつぶれるので、1点だけだと不確かさが見えないからである。信頼区間は「どれくらいの幅で見ておくべきか」を示す道具で、統計が点ではなく幅で考えるべき場面を教えてくれる。

信頼係数

項目	内容
問題文	95%区間にするか99%区間にするか決めたい。この95や99を何というか。
解説文	信頼係数という。高くするほど慎重になるが、区間は広くなる。

項目	内容
問題文	95%信頼区間より99%信頼区間の方が広くなりやすいのはなぜか。
解説文	より高い確率で真値を含むようにしたいなら、両端を遠くまで広げる必要があるからである。信頼係数を上げることは安心を増やすことだが、その代わり区間の鋭さは失われる。ここには「慎重さ」と「精密さ」のトレードオフがある。

1つの母集団の区間推定

母平均の区間推定

項目	内容
問題文	機械が本当に平均500mlで充填しているかを、標本20本から幅つきで言いたい。何の区間推定をしているか。
解説文	母平均の区間推定である。標本平均の周りに標準誤差と分布表を使って区間を作る。

項目	内容
問題文	`n=25`、標本平均 `100`、標本標準偏差 `10` とする。95%信頼区間を近似的に求めよ。
解説文	標準誤差は `10/√25=2`。95%区間を近似的に `100±1.96×2` とすると `100±3.92` なので、およそ `(96.08, 103.92)` である。中心が標本平均で、幅は「どれくらいぶれるか」を表す標準誤差に、95%用の境界値を掛けて作る。

母分散の区間推定

項目	内容
問題文	平均は合っていても、充填量のブレが許容範囲かを知りたい。何の区間推定を使うか。
解説文	母分散の区間推定を使う。ばらつきそのものにも不確かさがある。

項目	内容
問題文	`n=10`、標本分散 `s^2=4` とする。 `χ^2_{0.975,9}=19.0`、 `χ^2_{0.025,9}=2.70` を用いて、母分散の95%信頼区間を求めよ。
解説文	正規母集団では `((n-1)S^2)/σ^2` がカイ二乗分布に従うので、母分散の区間は `((n-1)s^2/19.0, (n-1)s^2/2.70)` となる。ここでは `(9×4/19.0, 9×4/2.70)=(1.89, 13.33)` 程度である。式の形が逆数っぽく見えるのは、カイ二乗分布に乗るのが `σ^2` そのものではなく `1/σ^2` を含む形だからである。

母比率の区間推定

項目	内容
問題文	支持率48%という調査結果に、どの程度の誤差幅があるか知りたい。何の区間推定をしているか。
解説文	母比率の区間推定である。割合の推定には割合特有の標準誤差を使う。

項目	内容
問題文	`n=200` 人の調査で支持者が120人だった。支持率の95%信頼区間を近似的に求めよ。
解説文	標本比率は `120/200=0.6`。標準誤差は `√(0.6×0.4/200)=√0.0012≈0.0346`。したがって95%区間は `0.6±1.96×0.0346≈0.6±0.068` で、およそ `(0.532, 0.668)` である。割合の区間が中央で最も広く、0や1に近いと狭くなりやすいのは、この `p(1-p)` が効いているからである。

相関係数の区間推定

項目内容

問題文標本サイズ n=30 で、広告費と売上の標本相関係数が 0.50 だった。この相関を 0.50 とぴったり言い切らず、ある幅で考えるべきなのはなぜか。

解説文相関係数も標本によってかなりぶれるからである。例えば Fisher の z変換を使うと、 r=0.50 は z≈0.549、標準誤差は 1/√(30-3)≈0.192 となる。95%区間を作って戻すと、おおよそ 0.17 から 0.73 程度の幅になる。相関は1つの数字で出てきても、その裏にはかなりの不確かさがあるので、区間で読む必要がある。

2つの母集団の区間推定

母平均の差の区間推定

項目	内容
問題文	A群は `n=25`、平均 `70`、標準偏差 `5`、B群は `n=25`、平均 `65`、標準偏差 `5` とする。平均差の95%信頼区間を近似的に求めよ。
解説文	平均差は `70-65=5`。差の標準誤差は `√(5^2/25+5^2/25)=√2≈1.414`。したがって95%区間は `5±1.96×1.414≈5±2.77` で、およそ `(2.23, 7.77)` である。差の区間推定では、2つの平均の不確かさが両方効くので、標準誤差の中に2群ぶんの分散が入る。

母分散の比の区間推定

項目	内容
問題文	Aラインの標本分散が `9`、Bラインの標本分散が `4` だった。Aの方がどれくらい不安定かを、単なる「Aの方が大きい」でなく比で述べたい。このとき何を見ようとしているか。
解説文	ここで見たいのは母分散の比である。点推定なら `9÷4=2.25` で、「AのブレはBの2.25倍くらい」と読める。ただし標本分散自体がぶれるので、本来はF分布を使って「真の比はどのあたりにありそうか」を区間で考える必要がある。安定性比較では、差より比の方が意味を持つ場面が多い。

項目	内容
問題文	Aラインの標本分散が `9`、Bラインの標本分散が `4` だった。分散比の点推定値をまず求めよ。
解説文	分散比の点推定値は `9÷4=2.25` である。区間推定ではここにF分布の境界値が掛かるが、まず中心となる比は「AのブレはBの2.25倍くらい」と読む。分散の比は、安定性比較を1つの尺度にするための発想である。

母比率の差の区間推定

項目内容

問題文 A案の購入率が 12%、B案が 15% だった。差は 3ポイント と言えるが、本当にそれくらい差があるのか、0に近いのかはまだ不明である。このとき何を見にいくべきか。

解説文見るべきなのは母比率の差の区間推定である。比率差は標本ごとにぶれるので、 3ポイント差 をそのまま真実とみなすのは危ない。区間を作れば、差が0付近まで含まれるのか、それとも明確にプラス側なのかを判断できる。ABテストでは、単に差の大きさだけでなく、その不確かさを見ることが重要である。

項目	内容
問題文	A案は `200人中110人` が購入、B案は `200人中90人` が購入した。購入率差の95%信頼区間を近似的に求めよ。
解説文	標本比率は `0.55` と `0.45`、差は `0.10`。標準誤差は `√(0.55×0.45/200 + 0.45×0.55/200)=√0.002475≈0.0497`。よって95%区間は `0.10±1.96×0.0497≈0.10±0.097` で、およそ `(0.003, 0.197)` である。差の区間が0をまたぐかどうかが、効果がありそうかを読む最初の目安になる。

7. 仮説検定

仮説検定の基本

仮説検定の理論

項目	内容
問題文	新薬に本当に効果があるかを判断したい。まず「効果がない」を基準に置いてデータの珍しさを見る考え方を何というか。
解説文	仮説検定の理論である。帰無仮説の下で今のデータがどれだけ珍しいかを測る。

項目	内容
問題文	新薬群の平均改善量が `8`、偽薬群が `5` だった。差が `3` あるからといって、すぐ「薬が効く」と断定せず検定をするのはなぜか。
解説文	標本には偶然のブレがあるので、差 `3` が本当に大きいのか、たまたまでも起こる範囲なのかを見分ける必要があるからである。仮説検定は、「差があるか」ではなく「差がない世界でこのデータはどれくらい珍しいか」を問う考え方である。

p値

項目	内容
問題文	広告AとBで差が出たが、それが偶然でも起こりそうか知りたい。帰無仮説の下で今以上に極端な結果が出る確率を何というか。
解説文	p値という。小さいほど帰無仮説とデータの相性が悪く、面積として読める点で微積の感覚ともつながる。

項目	内容
問題文	検定統計量が標準正規分布に従い、 `z=2.0` だった。両側検定の p値はおよそいくらか。
解説文	標準正規分布で `P(Z≥2.0)≈0.0228` なので、両側ではその2倍で `0.0456` 程度になる。 p値は「今の値よりさらに極端な領域の面積」なので、計算しているのは結局、分布の端っこの面積である。

帰無仮説

項目	内容
問題文	新施策の効果を議論する前に、「差がない」を基準として置いた。この仮説を何というか。
解説文	帰無仮説という。統計ではまず保守的な基準線から出発する。

項目	内容
問題文	ABテストで、Aの購入率が `12%`、Bが `15%` だった。このとき帰無仮説を具体的に書くとどうなるか。
解説文	例えば `H0: p_A=p_B` と書く。つまり「本当は差がない」を基準に置く。帰無仮説は、いったん差や効果を認めず、データがそれを崩せるかを見るための出発点である。

対立仮説

項目	内容
問題文	「差がない」に対して、「差がある」を主張したい。この仮説を何というか。
解説文	対立仮説という。帰無仮説が崩れたときに採用したい側の主張である。

項目	内容
問題文	先ほどのABテストで、新施策Bの方が良いと主張したいとき、対立仮説はどう書けるか。
解説文	両側なら `H1: p_A≠p_B`、Bが高い方向だけ見たい片側なら `H1: p_B>p_A` と書ける。対立仮説は「最終的に示したい主張」だが、後から都合よく変えると検定の意味が崩れるので、通常は先に決める。

両側検定

項目	内容
問題文	新広告が売上を上げる可能性だけでなく、下げる可能性も含めて差を見たい。どの検定方向を使うべきか。
解説文	両側検定を使う。上方向も下方向も珍しければ差ありとみなす。

項目	内容
問題文	新装置が平均重量を増やすか減らすか分からず、とにかく「今までと違うか」を見たい。このとき両側検定が自然なのはなぜか。
解説文	関心が「増えたか」ではなく「変わったか」だからである。両側検定では、基準より大きい側も小さい側も同じように珍しさを見る。変化の方向を限定できない段階では、両側検定の方が誠実である。

片側検定

項目	内容
問題文	新広告は売上を上げるかどうかだけが関心で、下がるかどうかは検定の対象にしない。このときの検定は何か。
解説文	片側検定である。方向を事前に決め打ちするので、後出しで選ぶのは危険である。

項目	内容
問題文	不良率が「5%を超えていないか」だけが問題で、「5%よりかなり低いか」は気にしない。このとき片側検定になるのはなぜか。
解説文	関心が上側の逸脱だけにあるからである。品質管理では、「悪化していないか」だけを見たいことが多く、その場合は片側検定が自然になる。ただし結果を見てから片側に切り替えるのは不適切である。

第1種の過誤

項目	内容
問題文	本当は効果がない薬を、「効く」と判定してしまった。この誤りを何というか。
解説文	第1種の過誤である。ない差をあると誤判定するタイプのミスである。

項目	内容
問題文	品質が変わっていないのに、「工程が悪化した」と判定してラインを止めてしまった。このミスは何にあたるか。
解説文	第1種の過誤にあたる。帰無仮説が本当なのに棄却してしまうミスであり、いわば“空振りの警報”である。有意水準5%は、この空振りを長い目で見て5%程度に抑えようという約束に対応している。

第2種の過誤

項目	内容
問題文	本当は効果がある薬を、「効かない」と見逃してしまった。この誤りを何というか。
解説文	第2種の過誤である。ある差を見逃すタイプのミスである。

項目	内容
問題文	実際には新広告の方が良いのに、標本数が少なくて「差なし」と結論してしまった。このミスは何にあたるか。
解説文	第2種の過誤である。効果が本当にあるのに検出できないミスであり、“見逃し”に相当する。第1種の過誤を厳しく抑えすぎると、この見逃しは増えやすい。

検出力

項目	内容
問題文	本当に差があるときに、その差をちゃんと拾える実験にしたい。この拾いやすさを何というか。
解説文	検出力という。見逃しにくさを表し、サンプルサイズ設計と直結する。

項目	内容
問題文	ABテストの標本数を `100人ずつ` から `1000人ずつ` に増やすと、同じ差でも見つけやすくなる。これは検出力がどう変わったと見るべきか。
解説文	検出力が上がったと見る。標本数が増えると標準誤差が小さくなり、同じ差でも検定統計量が大きくなりやすいからである。検出力は「本当にある差を拾う力」であり、実験設計では有意水準だけでなくこちらも同じくらい重要である。

1つの母集団の母数の検定

母平均の検定

項目	内容
問題文	ラインの平均充填量が500mlからズレていないか確かめたい。何の検定をするか。
解説文	母平均の検定をする。標本平均と基準値の差を、標準誤差で割って判断する。

項目	内容
問題文	母標準偏差を `5` と既知とし、 `n=25`、標本平均 `102`、帰無仮説の母平均 `100` とする。両側検定の検定統計量を求めよ。
解説文	標準誤差は `5/√25=1`。したがって検定統計量は `(102-100)÷1=2` である。平均との差をそのまま見るのでなく、「その差が自然なブレ何個ぶんか」に直すことで、珍しさを判定できる。

母分散の検定

項目	内容
問題文	充填量のばらつきが規格より大きくないか知りたい。何の検定をするか。
解説文	母分散の検定をする。ばらつきの大きさ自体を基準と比べる。

項目	内容
問題文	正規母集団から `n=10` の標本を取り、標本分散が `9` だった。帰無仮説 `σ^2=4` に対する検定統計量を求めよ。
解説文	検定統計量は `((n-1)s^2)/σ_0^2 = 9×9÷4 = 20.25` である。分散の検定で二乗和が出てくるのは、分散そのものが「偏差の二乗和」を材料にしているからで、その結果カイ二乗分布につながる。

母比率の検定

項目	内容
問題文	不良率が5%を超えていないか確かめたい。何の検定をするか。
解説文	母比率の検定をする。標本比率が仮説上の比率からどれだけ離れたかで判断する。

項目	内容
問題文	200個調べて116個が成功だった。帰無仮説 `p=0.5` に対する検定統計量を近似的に求めよ。
解説文	標本比率は `116/200=0.58`。帰無仮説の下での標準誤差は `√(0.5×0.5/200)=√0.00125≈0.0354`。よって `z=(0.58-0.5)÷0.0354≈2.26` である。仮説比率 `0.5` を使って標準誤差を作るのは、「帰無仮説が正しい世界ならどれくらいぶれるか」を測りたいからである。

2つの母集団の母数の検定

母平均の差の検定（分散既知）

項目	内容
問題文	2つの工程の平均充填量の差を比べたい。両群の母分散が既知だと分かっているとき、どの種類の検定になるか。
解説文	分散既知の母平均の差の検定である。現実にはまれだが、理論の入口として重要である。

項目	内容
問題文	A工程は `n=25`、標本平均 `102`、母標準偏差 `5`、B工程は `n=25`、標本平均 `100`、母標準偏差 `5` とする。平均差に対する z値を求めよ。
解説文	差は `2`。差の標準誤差は `√(5^2/25+5^2/25)=√2≈1.414` なので、 `z=2÷1.414≈1.41` である。分散既知では標準誤差を母分散から直接作れるため、t分布ではなく正規分布で考える。

母平均の差の検定（分散未知だが等分散）

項目内容

問題文 Aクラスは n=10、平均 75、標準偏差 6、Bクラスは n=10、平均 70、標準偏差 6 だった。2クラスの母平均に差があるかを、ばらつきは同じ程度とみなして検討したい。どう考えるか。

解説文ここでは等分散を仮定した母平均の差の検定を使う。2群の標準偏差がほぼ同じなので、ばらつき情報を1つにまとめた pooled variance を作り、その標準誤差で平均差を割る。 pooled variance は 36、差の標準誤差は √(36×(1/10+1/10))=√7.2≈2.68、したがって t値は (75-70)÷2.68≈1.86 になる。式の感覚は、「2群のブレが同程度なら、同じ母分散を共有しているとみなした方が安定して差を測れる」というものである。

母平均の差の検定（分散未知で等しいとは限らない）

項目	内容
問題文	A群は `n=16`、平均 `105`、標準偏差 `8`、B群は `n=16`、平均 `100`、標準偏差 `6` だった。Welch 型の検定統計量を求めよ。
解説文	差は `5`。標準誤差は `√(8^2/16 + 6^2/16)=√(4+2.25)=2.5`。したがって検定統計量は `5÷2.5=2.0` である。Welch 型では2群のばらつきを別々に扱うので、等分散を無理に仮定しなくてよい。

項目	内容
問題文	等分散か怪しいときに Welch 型を使うのは、どんな誤りを避けたいからか。
解説文	本当はばらつきが違うのに、無理に同じと仮定して標準誤差を作ってしまう誤りを避けたいからである。Welch 型はやや保守的でも、分散差に強い。現実のデータでは、まずこちらを標準にすることも多い。

母分散の比の検定

項目	内容
問題文	ラインAとBのどちらが安定しているかを、ばらつきで比べたい。何の検定を使うか。
解説文	母分散の比の検定を使う。F分布が登場する典型場面である。

項目	内容
問題文	Aラインの標本分散が `9`、Bラインの標本分散が `4` だった。分散比の検定統計量を求めよ。
解説文	F比は `9÷4=2.25` である。F分布は「ばらつき÷ばらつき」の形から生まれるので、分散を比較するときに自然に出てくる。平均との差の検定が標準誤差で割る形なのに対し、ここではブレそのものどうしを割っている。

母比率の差の検定

項目	内容
問題文	メルマガ件名AとBで開封率に差があるか知りたい。何の検定を使うか。
解説文	母比率の差の検定を使う。2つの割合の差が偶然の範囲かを見る。

項目	内容
問題文	A案は `200人中130人` が開封、B案は `200人中100人` が開封した。帰無仮説 `p_A=p_B` の下で z値を近似的に求めよ。
解説文	標本比率は `0.65` と `0.50`、差は `0.15`。プールした比率は `(130+100)÷400=0.575`。標準誤差は `√(0.575×0.425×(1/200+1/200))≈0.0699` なので、 `z≈0.15÷0.0699≈2.15` である。帰無仮説の下では「差がない世界」を仮定するので、標準誤差には2群をまとめた比率を使う。

適合度検定

項目	内容
問題文	サイコロが公平かどうか確かめたい。観測度数が想定分布に合っているかを見る検定は何か。
解説文	適合度検定である。観測度数と期待度数のズレをカイ二乗値で測る。

項目	内容
問題文	サイコロを60回振って、出現回数が `8, 9, 10, 11, 12, 10` だった。公平性に対するカイ二乗統計量を求めよ。
解説文	公平なら期待度数は各面 `10`。したがってカイ二乗値は `((8-10)^2+(9-10)^2+(10-10)^2+(11-10)^2+(12-10)^2+(10-10)^2)÷10 = 10÷10 = 1` である。平均との差ではなく期待度数との差を見るのは、「理論上こう出るはず」とのズレを測っているからである。

独立性の検定

項目	内容
問題文	性別と購買有無に関係があるか知りたい。2元クロス表から何の検定をするか。
解説文	独立性の検定をする。2つのカテゴリ変数が無関係かどうかを見る。

項目	内容
問題文	購買者数が、男性は「買った30・買わない20」、女性は「買った20・買わない30」だった。独立性の検定のカイ二乗統計量を求めよ。
解説文	行合計も列合計も50なので、独立なら各セルの期待度数は `25`。したがってカイ二乗値は `4セルそれぞれ (5^2÷25)=1` の合計で `4` になる。独立性の検定では、行と列が無関係なら期待度数は「行合計×列合計÷総数」で決まるところが核心である。

8. 線形モデル

回帰分析

回帰直線の傾きの推定と検定

項目	内容
問題文	勉強時間が1時間増えると点数が何点上がるかを知りたい。また、その傾きが0とは言いにくいかも知りたい。何を行うか。
解説文	回帰直線の傾きの推定と検定を行う。傾きは平均的な変化率であり、その有意性を見るときにも中心になる。

項目	内容
問題文	回帰直線の傾き推定値が `2.6`、その標準誤差が `0.8` だった。傾きの検定統計量を求めよ。
解説文	検定統計量は `2.6÷0.8=3.25` である。傾きが0という帰無仮説の下で、推定傾きがそのブレの何倍だけ離れているかを見ている。平均との差の検定と同じ構造で、「差÷標準誤差」で珍しさを測る。

重回帰モデル

項目	内容
問題文	売上を広告費だけでなく、立地、客単価、店員数も含めて説明したい。どのモデルを使うか。
解説文	重回帰モデルを使う。複数要因を同時に扱うことで、現実に近い説明ができる。

項目	内容
問題文	広告費だけで売上を説明すると、立地の良い店ほど広告費も売上も大きく、広告効果を過大評価しそうだ。このとき重回帰モデルが必要なのはなぜか。
解説文	複数要因を同時に入れないと、ある変数の効果に別の要因が混ざるからである。重回帰モデルは現実の複雑さをそのまま少しずつ切り分ける道具で、「他の条件をそろえたうえで」を数式化するために使う。

偏回帰係数

項目	内容
問題文	立地の差をそろえたうえで、広告費だけの効果を知りたい。重回帰でその効果を表す係数は何か。
解説文	偏回帰係数である。他の変数を一定と見たときの、その変数固有の影響を表す。

項目	内容
問題文	重回帰式が `売上=50+2×広告費+5×客単価` だった。広告費の係数 `2` はどう読むべきか。
解説文	客単価が同じとみなしたとき、広告費が1単位増えると売上が平均で2単位増えると読む。偏回帰係数は「他の変数を固定したうえでの増分効果」であり、単回帰の傾きより一段深い意味を持つ。

回帰係数の検定

項目	内容
問題文	重回帰に入れた広告費の係数が、本当に0と違うと言えるか知りたい。何を行うか。
解説文	回帰係数の検定を行う。各説明変数がモデルに入る意味を持つかを確認する。

項目	内容
問題文	広告費の偏回帰係数が `1.8`、標準誤差が `0.6` だった。この係数の t値を求めよ。
解説文	`1.8÷0.6=3.0` である。偏回帰係数の検定も本質は同じで、0との差を標準誤差で割って「偶然の範囲か」を見ている。他の変数を入れた後でも、この係数に独自の説明力が残っているかを確かめる検定である。

多重共線性

項目	内容
問題文	店舗面積と従業員数がほとんど同じ情報を持っていて、係数が不安定になった。この問題を何というか。
解説文	多重共線性という。説明変数どうしが似すぎていると、係数の解釈が壊れやすい。

項目	内容
問題文	店舗面積と従業員数の相関が `0.97` だった。両方を入れると係数の符号が不自然に変わることがあるのはなぜか。
解説文	2つの変数がほぼ同じ情報を持っているため、「どちらの変数に効果を割り振るか」をモデルが不安定に決めてしまうからである。多重共線性は予測を大きく壊さないこともあるが、係数解釈を壊しやすい点が厄介である。

ダミー変数を用いた回帰

項目	内容
問題文	地域が東京か大阪かを回帰式に入れたい。カテゴリを0と1などで表す方法を何というか。
解説文	ダミー変数を用いた回帰という。質的情報を回帰モデルに組み込むための基本技法である。

項目	内容
問題文	東京を `1`、大阪を `0` としたダミー変数を入れた回帰式で、その係数が `8` だった。この `8` はどう読むか。
解説文	他の条件が同じなら、東京の方が大阪より平均で `8` だけ高いと読む。ダミー変数の係数は、1と0にした2カテゴリの平均差を表している。カテゴリを数字に変えるが、大小関係を作っているのではなく、差を表すスイッチとして使っている点が重要である。

自由度調整済み決定係数

項目	内容
問題文	説明変数を増やしたら決定係数は上がったが、本当に良いモデルになったのか怪しい。何を見ればよいか。
解説文	自由度調整済み決定係数を見る。変数を増やしただけの見かけの改善を割り引いて評価できる。

項目	内容
問題文	標本サイズ `n=20`、説明変数の数 `p=2`、決定係数 `R^2=0.70` のとき、自由度調整済み決定係数を求めよ。
解説文	`1-(1-0.70)×(20-1)÷(20-2-1) = 1-0.30×19/17 ≈ 0.665` である。普通の決定係数は変数を増やすだけで上がりやすいので、自由度調整済み決定係数では「説明変数を増やしたぶんの得」を少し割り引いている。

実験計画の理解

実験

項目	内容
問題文	新しい接客トークが購買率を上げるかを、現場で条件を変えて試したい。こうした行為を何というか。
解説文	実験という。条件を操作して効果を測るのが特徴である。

項目	内容
問題文	接客トークを変える、広告文を変える、値札の色を変えるなど、自分で条件を操作して結果を見る。この点が観察研究と違うのはなぜか。
解説文	原因になりうる条件をこちら側で動かしているからである。実験では「何を変えたか」が明確なので、結果の差をその条件に帰しやすい。ここが観察研究との大きな違いである。

処理群と対照群

項目	内容
問題文	新トークを使う店と、従来通りの店を比べたい。この2つの群を何というか。
解説文	新トークを使う側が処理群、従来通りが対照群である。比較の基準を持つために不可欠である。

項目	内容
問題文	新アプリ画面を見せた群の購入率が `14%`、旧画面群が `10%` だった。このとき旧画面群が必要なのはなぜか。
解説文	新画面を見せなかった場合の基準を持つためである。処理群だけ見ても、14%が高いのか低いのか判断できない。対照群は「変えなかった世界」の代理であり、効果を読む土台になる。

反復

項目	内容
問題文	1店舗だけで試すと偶然かもしれないので、複数店舗で繰り返したい。この考え方を何というか。
解説文	反復という。偶然差を測れるようにして、効果の有無を見やすくする。

項目	内容
問題文	新POPの効果を1店舗だけで見たら売上が20%伸びた。しかし他の店舗でも試したい。この追加実施が必要なのはなぜか。
解説文	その1店舗だけの偶然や特殊事情かもしれないからである。反復を増やすと、効果と偶然差を分けて考えられるようになる。分散分析や検定が成立するためにも、反復は重要な土台である。

ブロック化

項目	内容
問題文	都市部と郊外では元の売上水準が違うので、その差をそろえて比較したい。何を行うか。
解説文	ブロック化を行う。大きな外乱要因を先に分けて、不要なばらつきを減らす。

項目	内容
問題文	都市部4店、郊外4店で新POPを試すとき、都市部どうし、郊外どうしで比較するよう組むのはなぜか。
解説文	都市部と郊外の元々の差が大きく、施策効果と混ざるのを防ぎたいからである。ブロック化は「最初から違うもの」を先に分けて、見たい差だけを残す工夫である。

一元配置実験

項目	内容
問題文	広告A、B、Cの3種類を比べたい。1つの要因だけに注目して複数群を比較する実験を何というか。
解説文	一元配置実験という。1要因で3群以上を比べる標準的な実験形である。

項目	内容
問題文	比べたいのが「広告の種類」だけで、色や価格は同じにした。このとき一元配置実験と呼べるのはなぜか。
解説文	意図的に動かしている要因が1つだけだからである。要因が1つなら、その違いによる群間差に集中して考えられる。複数要因を同時に変えると、どの要因の効果か分からなくなる。

3群以上の平均値の差（分散分析）

項目	内容
問題文	A群 `10,12`、B群 `14,16`、C群 `18,20` の3群について、一元配置分散分析の考え方を説明せよ。
解説文	各群平均は `11, 15, 19`、全体平均は `15` である。群平均が全体平均から大きく離れていれば群間変動は大きくなり、各群の中の散らばりが小さければ群内変動は小さくなる。この2つを比べるのが分散分析で、「群ごとの差が、自然なバラつきより十分大きいか」を見ている。

項目	内容
問題文	3群の平均を比べたいとき、A-B、A-C、B-C の t検定を3回繰り返すより、最初に分散分析をするのはなぜか。
解説文	比較回数が増えると、第1種の過誤が膨らみやすいからである。分散分析はまず「どこかに差があるか」を全体として1回で判定する。3群以上では、個別比較に入る前の入口として分散分析を置く方が筋がよい。

F比

項目	内容
問題文	群の違いによるばらつきが、同じ群の中の自然なばらつきより十分大きいか知りたい。この比を何というか。
解説文	F比という。分散分析でも回帰でも、モデルの説明力を見る中心指標になる。

項目	内容
問題文	先ほどの3群データで、群間平方和が `64`、群内平方和が `6` だった。F比を求めよ。
解説文	群間自由度は `3-1=2`、群内自由度は `6-3=3`。したがって群間平均平方は `64÷2=32`、群内平均平方は `6÷3=2` で、 `F=32÷2=16` である。F比は「説明できたばらつき」と「説明できない自然なばらつき」の比なので、大きいほど群差が偶然とは言いにくい。

9. 統計ソフトウェアの活用

活用

計算出力を活用できるか

項目	内容
問題文	ソフトが出した回帰表に、係数、標準誤差、p値、決定係数が並んでいる。計算結果をそのまま読むのでなく、何が求められるか。
解説文	計算出力を活用できることである。どの欄が何を意味するかを読めないと、統計ソフトは単なる数字発生装置になる。

項目	内容
問題文	回帰表で広告費の係数が `1.2`、p値が `0.03`、決定係数が `0.60` と出た。この3つをどう読み分けるべきか。
解説文	係数 `1.2` は効果の大きさ、p値 `0.03` はその効果が偶然では説明しにくい度合い、決定係数 `0.60` はモデル全体の説明力を表す。ソフトの出力は列ごとに役割が違うので、どれが「効果量」でどれが「有意性」でどれが「全体評価」かを切り分けて読む必要がある。

問題解決に活用できるか

項目	内容
問題文	p値を出すだけでなく、「どの施策を採用するか」「どの工程を改善するか」を決めたい。統計の最終目的は何か。
解説文	問題解決に活用することである。統計は計算で終わりではなく、意思決定へ翻訳できて初めて役に立つ。

項目	内容
問題文	A施策は p値が小さいが効果は `0.5%増`、B施策は p値はやや大きいが利益が `8%増` だった。現場で何を考えるべきか。
解説文	有意かどうかだけでなく、効果の大きさ、コスト、実行可能性まで含めて判断すべきである。統計は「差がある」を言う道具であって、「何を採用すべきか」を自動で決める機械ではない。問題解決に活用するとは、分析結果を意思決定の言葉へ翻訳することである。

参考資料（出典）

なし

この記事の使い方​

1. 身近な統計とデータソース​

身近な統計​

データソース​

公的統計​

2. データの分布と1変数データ​

データの分布の記述​

質的変数​

量的変数​

離散型​

連続型​

棒グラフ​

円グラフ​

幹葉図​

度数分布表​

ヒストグラム​

累積度数グラフ​

右に裾が長い​

左に裾が長い​

対称​

ベル型​

一様​

単峰​

多峰​

中心傾向の指標​

平均値​

中央値​

最頻値​

散らばりなどの指標​

分散（1変量データ）​

標準偏差（1変量データ）​

範囲​

最小値​

最大値​

四分位範囲​

箱ひげ図​

ローレンツ曲線​

ジニ係数​

2つのグラフの視覚的比較​

カイ二乗値​

歪度​

尖度​

中心と散らばりの活用​

偏差​

標準化（z得点）​

変動係数​

指数化（基準年比較）​

3. 2変数以上のデータ​

散布図と相関​

散布図​

相関係数​

共分散​

層別した散布図​

相関行列​

みかけの相関（擬相関）​

偏相関係数​

カテゴリカルデータ​

度数表​

2元クロス表​

単回帰と予測​

最小二乗法​

変動の分解​

決定係数​

回帰係数​

分散分析表​

観測値と予測値​

残差プロット​

標準誤差​

変数変換​

時系列データの処理​

成長率​

指数化（時系列）​

幾何平均​

系列相関​

コレログラム​

トレンド​

平滑化（移動平均）​

4. 推測のためのデータ収集法​

観察研究と実験研究​

観察研究​

この記事の使い方

1. 身近な統計とデータソース

身近な統計

データソース

公的統計

2. データの分布と1変数データ

データの分布の記述

質的変数

量的変数

離散型

連続型

棒グラフ

円グラフ

幹葉図

度数分布表

ヒストグラム

累積度数グラフ

右に裾が長い

左に裾が長い

対称

ベル型

一様

単峰

多峰

中心傾向の指標

平均値

中央値

最頻値

散らばりなどの指標

分散（1変量データ）

標準偏差（1変量データ）

範囲

最小値

最大値

四分位範囲

箱ひげ図

ローレンツ曲線

ジニ係数

2つのグラフの視覚的比較

カイ二乗値

歪度

尖度

中心と散らばりの活用

偏差

標準化（z得点）

変動係数

指数化（基準年比較）

3. 2変数以上のデータ

散布図と相関

散布図

相関係数

共分散

層別した散布図

相関行列

みかけの相関（擬相関）

偏相関係数

カテゴリカルデータ

度数表

2元クロス表

単回帰と予測

最小二乗法

変動の分解

決定係数

回帰係数

分散分析表

観測値と予測値

残差プロット

標準誤差

変数変換

時系列データの処理

成長率

指数化（時系列）

幾何平均

系列相関

コレログラム

トレンド

平滑化（移動平均）

4. 推測のためのデータ収集法

観察研究と実験研究

観察研究