『勉強会カテゴリー/タグ』についての背景や取扱については”コチラ”をご覧ください．

中学数学の学び直し！特別編：プログラミングで役立つ「平均・分散・標準偏差」

この連載では、中学数学の知識とプログラミングのつながりを解説しています。今回は特別編として、データ分析の基礎中の基礎である「平均」「分散」「標準偏差」について、計算方法も含めて深く掘り下げていきます。これらの知識は、データの特徴を数値で捉える上で不可欠です。

1. 平均（Average）とは？
2. 分散（Variance）とは？
3. 標準偏差（Standard Deviation）とは？
4. まとめと今後の学習

1. 平均（Average）とは？

「平均」は、中学数学でもお馴染みですね。データの合計を、データの個数で割った値です。これは、データ全体の中心的な傾向を知るための最も基本的な指標です。

【平均の計算】

例えば、あるテストの点数が $[80, 70, 90]$だったとします。

平均 =$\frac{ (80 + 70 + 90) }{ 3 }= 80$

この計算は、プログラミングでも簡単に行えます。

“`python
# Python
data = [80, 70, 90]
average = sum(data) / len(data)
print(average) # 80.0
“`

2. 分散（Variance）とは？

「分散」は、データが平均値からどれくらい散らばっているかを示す値です。分散が大きいほど、データのばらつきが大きいことを意味します。

【シグマ（$\Sigma$）記号について】

分散の計算式には、高校数学で習う「シグマ（$\Sigma$）記号」が登場します。$\Sigma$は「合計（Sum）」を意味する記号です。

“`
Σ(x) = x₁ + x₂ + x₃ + … + xₙ
“`

このように、データ$x$のすべての要素を足し合わせることを表します。

このシグマ記号を使って、分散の計算式は以下のように表せます。

分散 = $\frac{1}{n}\sum_{i=1}^n(x_i – \text{平均})^2$

これを先ほどのテストの点数`[80, 70, 90]`で計算してみましょう。平均は80でした。

分散 =$ \frac{((80-80)^2 + (70-80)^2 + (90-80)^2) }{ 3}$
=$\frac{ (0^2 + (-10)^2 + 10^2)}{ 3}$
= $\frac{(0 + 100 + 100) }{3 }= \frac{200}{3} ≈ 66.7$

3. 標準偏差（Standard Deviation）とは？

「標準偏差」は、分散の平方根を取ったものです。分散と同じくデータの散らばり具合を示しますが、元のデータと同じ単位になるため、より直感的に理解しやすいという特徴があります。

標準偏差 = $\sqrt{\text{分散}}$

先ほどのテストの例では、分散が66.7だったので、標準偏差は以下のようになります。

標準偏差 = $\sqrt{66.7}$ ≈ 8.16

この標準偏差は、「平均値を中心に±8.16の範囲にデータが収まっている」という目安として利用できます。

プログラミングでは、これらの計算はライブラリを使うことで簡単に行えます。

“`python
# Python
import numpy as npdata = np.array([80, 70, 90])

# 分散の計算
variance = np.var(data)
print(f”分散: {variance}”) # 66.66…

# 標準偏差の計算
std_dev = np.std(data)
print(f”標準偏差: {std_dev}”) # 8.16…
“`

4. まとめと今後の学習

今回は、データ分析で欠かせない「平均」「分散」「標準偏差」について解説しました。

平均: データの中心的な値
分散: データの散らばり具合を示す値
標準偏差: 分散をより直感的にした値

これらの概念を理解することで、プログラミングでデータを扱う際に、その特徴を数値で正確に捉えることができるようになります。データサイエンスの学習においては、まずこれらの基礎をしっかりと押さえることが重要です。

中学数学の学び直し！特別編：プログラミングで役立つ「平均・分散・標準偏差」 | ゆいにっき