『勉強会カテゴリー/タグ』についての背景や取扱については”コチラ”をご覧ください.
中学数学の学び直し!特別編:プログラミングで役立つ「平均・分散・標準偏差」
1. 平均(Average)とは?
「平均」は、中学数学でもお馴染みですね。データの合計を、データの個数で割った値です。これは、データ全体の中心的な傾向を知るための最も基本的な指標です。
【平均の計算】
例えば、あるテストの点数が $[80, 70, 90]$だったとします。
この計算は、プログラミングでも簡単に行えます。
# Python
data = [80, 70, 90]
average = sum(data) / len(data)
print(average) # 80.0
“`
2. 分散(Variance)とは?
「分散」は、データが平均値からどれくらい散らばっているかを示す値です。分散が大きいほど、データのばらつきが大きいことを意味します。
【シグマ($\Sigma$)記号について】
分散の計算式には、高校数学で習う「シグマ($\Sigma$)記号」が登場します。$\Sigma$は「合計(Sum)」を意味する記号です。
Σ(x) = x₁ + x₂ + x₃ + … + xₙ
“`
このように、データ$x$のすべての要素を足し合わせることを表します。
このシグマ記号を使って、分散の計算式は以下のように表せます。
これを先ほどのテストの点数`[80, 70, 90]`で計算してみましょう。平均は80でした。
=$\frac{ (0^2 + (-10)^2 + 10^2)}{ 3}$
= $\frac{(0 + 100 + 100) }{3 }= \frac{200}{3} ≈ 66.7$
3. 標準偏差(Standard Deviation)とは?
「標準偏差」は、分散の平方根を取ったものです。分散と同じくデータの散らばり具合を示しますが、元のデータと同じ単位になるため、より直感的に理解しやすいという特徴があります。
先ほどのテストの例では、分散が66.7だったので、標準偏差は以下のようになります。
この標準偏差は、「平均値を中心に±8.16の範囲にデータが収まっている」という目安として利用できます。
プログラミングでは、これらの計算はライブラリを使うことで簡単に行えます。
# Python
import numpy as npdata = np.array([80, 70, 90])
# 分散の計算
variance = np.var(data)
print(f”分散: {variance}”) # 66.66…
# 標準偏差の計算
std_dev = np.std(data)
print(f”標準偏差: {std_dev}”) # 8.16…
“`
4. まとめと今後の学習
今回は、データ分析で欠かせない「平均」「分散」「標準偏差」について解説しました。
- 平均: データの中心的な値
- 分散: データの散らばり具合を示す値
- 標準偏差: 分散をより直感的にした値
これらの概念を理解することで、プログラミングでデータを扱う際に、その特徴を数値で正確に捉えることができるようになります。データサイエンスの学習においては、まずこれらの基礎をしっかりと押さえることが重要です。
連載の続きはこちら!
コメント