上下外れ値境界計算機
箱ひげ図や統計分析で使用される「フェンス」を算出し、異常値を特定します。
この範囲(-50.00 〜 150.00)の外にあるデータは統計的な「外れ値」です。
外れ値の境界線(フェンス)とは?統計学の強力なフィルター
データ分析を行う際、他の値から極端に離れた「異常な値」が結果を歪めてしまうことがあります。これを外れ値(Outlier)と呼びます。 しかし、主観的に「これは変だ」と決めつけてデータを除外するのは危険です。
そこで、1970年代に統計学者ジョン・テューキー(John Tukey)が提唱したのが、四分位範囲(IQR)に基づいた「テューキーの方法(Tukey's Fences)」です。この方法を使えば、客観的かつ数学的な基準で「どこからが外れ値か」を決めることができます。
計算の公式
計算は3つのステップで行われます:
- IQR(四分位範囲)を求める: IQR = Q3 - Q1
- 下側境界を求める: Lower Fence = Q1 - (倍率 × IQR)
- 上側境界を求める: Upper Fence = Q3 + (倍率 × IQR)
一般的に、倍率には 1.5 が使われます。
四分位数 (Q1, Q3) の見つけ方
この計算機を使うには、まずお手持ちのデータの「第1四分位数(Q1)」と「第3四分位数(Q3)」を知る必要があります。
- データを小さい順に並べたとき、下から25%の位置にあるのが Q1 です。
- 下から75%(上から25%)の位置にあるのが Q3 です。
Excelなら `QUARTILE.EXC` 関数、Googleスプレッドシートなら `QUARTILE` 関数で簡単に取得できます。
なぜ 1.5倍 なのか?
なぜ「1.5倍」という中途半端な数字が標準なのでしょうか? もしデータが完璧な「正規分布(ベルカーブ)」に従っている場合、この境界線の外側にデータが存在する確率は約 0.7% です。
これは「稀だが起こり得る」という絶妙なラインであり、これを超えたデータは「何らかの特殊な要因(測定ミス、入力ミス、あるいは特別な個体)」が含まれている可能性が高いと物理学や経済学で判断される目安となっています。
箱ひげ図(Box Plot)との深い関係
「上下のフェンス」という言葉に馴染みがなくても、「箱ひげ図」を見たことがある方は多いでしょう。 箱ひげ図から伸びる「ひげ(Whiskers)」の端は、通常まさにこのフェンスの位置(またはフェンス内の最大/最小値)を表しています。ひげよりも外側にある点は、個別にドットで描かれ、明確に外れ値として区別されます。
データクリーニングの実践例
例えば、あるクラスのテストの点数を分析するとします。 多くの生徒が 60点〜80点(Q1=65, Q3=75)の範囲にいる場合、IQRは10点です。
- 1.5倍フェンス:65 - 15 = 50点以下 / 75 + 15 = 90点以上
この場合、偶然体調が悪くて0点を取ってしまった生徒や、天才的に100点を取った生徒を「特筆すべきデータ(外れ値)」として自動的に抽出できるのです。
よくある質問 (FAQ)
Q. 外れ値は見つけたらすぐに削除すべきですか?
A. いいえ!外れ値には2種類あります。「エラー(入力間違い)」なら削除や修正が必要ですが、「真の特異値(例えば新薬の効果が出た人)」なら、それこそが最も重要なデータである可能性があります。まずは「なぜ外れたのか」を探ることがデータ分析の本質です。
Q. 1.5倍ではなく3倍を使うこともあると聞きましたが?
A. はい。3倍のフェンスを超える値は「極端な外れ値(Extreme Outliers)」と呼ばれます。より厳格に異常値を判定したい場合に採用されます。
Q. 平均値からの標準偏差(3シグマ)で判定するのと何が違いますか?
A. 標準偏差は平均値に引きずられやすい(外れ値があると平均も動いてしまう)性質がありますが、四分位数(IQR)は外れ値の影響を受けにくい「頑健(ロバスト)」な指標です。そのため、最初から外れ値が混じっている可能性があるデータの分析には、こちらの方が適しています。