こんにちは。
どうも僕です。
今日はPythonで中央値と平均値を求めるプログラムを作ったのでそれをまとめます。さらにヒストグラムというグラフを図示する方法も書きたいと思います。ただ、こちらの方は不完全であることをはじめに言います。そして、ヒストグラムを通して中央値と平均値の性質を見ていきたいと思います。
中央値(median)を求めるプログラム
平均値(mean)を求めるプログラム
数学的知識: 中央値とは何か
これから議論するのは中央値(median)と平均値(mean)です。平均値は馴染みのある概念ですので、説明は省略します。要は字義通り「平均の値」です。平均値を求めるためには全部の数を足して、それを数の個数で割れば求まります。
ここでは中央値を説明します。中央値とは与えられた数字のあつまりを小さい順に並べて、そのうちの真ん中の値のことです。
例えば、 という集まりがあったとします。この集まりの中にある数を小さい順に並べると、1, 3, 4となります。この列の中の真ん中の数字は3であるので、 の中央値は3となります。つまり、 です。
さらに、例えば、 という集まりがあるとします。このときもまず数字を小さい順に並べ替えます。すると、
1, 2, 3, 4, 4, 4, 5, 7, 9
となります。同じ数もそのまま並べます。この列の中の真ん中の数字は4であるので、 の中央値は4となります。つまり、 です。
ここで、Pythonの実装のため、0番目から数えることにします。すると、 の中央値は1番目にあり、 の中央値は4番目にあります。これはそれぞれ と で求まります。3は の総数であり、9は の総数です。
一般に、奇数 個の集まりのとき、その中央値は 番目にあります。
さて、さきほどまで集まりの個数が奇数のときを考えていました。そのときはちょうど真ん中の数があります。ですが、集まりが偶数のときはそのような真ん中の数がありません。例えば、 という集まりを考えたとき、真ん中の数はありません。このときは、2と3を足して2で割ったものを中央値とします。2と3はそれぞれ1番目と2番目にあります。中央値として選ばれるのは1番目の数と2番目の数ですが、それらはそれぞれ および で求まります。ここで、4は の総数です。
以上より、 の中央値は となります。つまり、 となります。
一般に、偶数 個の集まりのとき、その中央値は 番目と 番目の数を足して2で割ったものです。
以上から、中央値の求める方法は次のようにおこなうことがわかります。
0) 数の集まり が与えられている。
1) を小さい順に並べ替える。それを とおく。
2) の個数を調べる。それを とおく。ここで、並べ替えても個数は変わらないので の個数を調べてもよい。
3) もしも、 の個数が偶数ならば、つまり が2で割り切れるならば、 の 番目の数と 番目の数を取り出す。そしてそれらを足して、2で割ったものを求める。それが の中央値である。
4) もしも、そうでないならば、つまり の個数が奇数であるならば、 番目の数を取り出す。それが の中央値である。
あとはこのアルゴリズムをプログラム言語に書き換えればいいだけです。
中央値と平均値のプログラムに必要なPythonの知識
中央値を求めるプログラムに必要なPythonの知識
中央値を求めるプログラムを理解するため、sortedとlenとリストの要素を抜き出す方法を説明します。
sorted
前節の1)からわかるように、まず、与えられたリストを並べ替えなければなりません。
リストを並べ替える操作はsortedというのを使います。次の例を見てください。
この例から分かるように、 というリストに対して、 とすると、 と小さい順に並べられた状態で返ってきます*1。
len
次に前節の2)で示したように、リストの個数を調べます。それはlenという関数を使えばいいです。次の例を見てください。
これから分かるように、 は リスト の個数を数えて、それを表しています。
リストにある特定のもの(数字)を取り出す
最後にリストにある数字を取り出す方法を学びます。それはリスト にある 番目の数字を取り出すためには、 [ ] とすればいいです。次を参照してください。
ただし、Pythonは0番目から始まるので注意してください。
以上で、中央値を求めるためのプログラムに必要なコマンドを説明しました。他のコマンドはすでに説明済みなので省略します。わからなかったらば、適宜Pythonに関する前記事を参照してください(まだ1つしかないけど)。
平均値を求めるプログラムに必要なPythonの知識
平均値を求めるのに必要なコマンドはsumだけです。 リストの要素を全て足すという関数です。以下を参照してください。
この をリストの個数 で割れば、平均値は求まります。つまり、 です。
中央値と平均値のプログラム
以上より、中央値のプログラムは最初に示したようにできました。
解説すると、
1) で の入れ替えたもの を定義する。
2) で の個数を定義する。
で の個数を2で割ったうちの整数部分を定義する。例えば、 であり、 である。
3) もし、 の個数が偶数ならば、 の 番目と 番目の数字を取り出す。つまり、[ ] と [ ] である。この数を足して2で割ったものを返せ。
4) もし、そうでないならば、つまり が奇数であるならば、 の [ ] 番目の数字を返せ。
ただし、 [ ] となっているのは、リストにある特定の数を取り出すとき、取り出したい数は整数になっていなければならない。だから、 を使っている。例えば、 のとき、 となる。したがって、もし [ ] とすると、エラーが表示される。次を参照。
これでプログラムは終了です。
中央値と平均値の関係
最後にオマケとして、中央値と平均値の関係を見ます。まず、中央値と平均値の差 を定義します。
次の3つリストを定義します。個数はすべて20個です。
それぞれのリストの中央値、平均値、差は次のようになります。
これだけではイメージできないのでヒストグラムにして図示化します。 本当はPythonによるヒストグラムの使い方も説明したかったのですが、省略します。
(1) まずは、 のヒストグラムです。
紫は中央値
赤は平均値
このとき、中央値と平均値が同じなので重なっています。 は対称的なデータの配置です。
(2) 次に、 のヒストグラムです。
紫は中央値
赤は平均値
このとき、中央値 < 平均値です。 は小さなデータが集中しています。このようなデータの配置のとき、平均値は中央値より大きくなります。
(3) 最後に、 のヒストグラムです。
紫は中央値
赤は平均値
このとき、平均値 < 中央値です。 は大きなデータが集中しています(偏っています)。このようなデータの配置のとき、平均値は中央値より小さくなります。
以上より、
(1) データが均等になっているときは、中央値と平均値はほとんど同じ
(2) データが小さい方に偏っているときは、中央値は平均値よりも小さい
(3) データが大きい方に偏っているときは、中央値は平均値よりも大きい
ということがわかります。
おわりに
これでおしまいです。
Pythonで中央値と平均値のプログラムとグラフを作りました。
平均値は簡単ですが中央値はリストの個数が偶数か奇数かで分ける必要がありました。しかし、それでも今回のプログラムは容易に書けます。ですが、かなり役に立つプログラムかと思います。
ヒストグラムの書き方を説明したかったですが、できなかったことが残念です。次回に書きたいと思います。
僕から以上
--------
plt. vlines(, xmax, xmin, colors = "", linestyle = "", label = "")
solid - 実線
dash -- 破線
dashdot -. 波点線
dotted : 点線
線の幅 linewidth, lw
floatで単位はpoint