データの分布をみるときに、尖度と歪度というキーワードを聞いたことがあると思います。これらは分布の特徴を表す指標で、これらの情報から分布の形が数値的に見えてきます。
今回は尖度と歪度の意味と数値の見方について解説していきます。
前提
尖度と歪度は正規分布を基準とした値です。そのため、正規分布では尖度も歪度も0(あるいは0に近い値)となります。
尖度
尖度はその名のとおり、その分布が正規分布に対してどれだけ尖っているかを示した値です。正確には、分布の山の尖りと裾の広がりを表す数値です。
一応、尖度を求める式を紹介します。nはサンプルサイズ、sは標準偏差です。
ExcelやPythonなどプログラム言語にも尖度を求める関数は用意されているので、我々一般人が上の式で尖度を求める機会はほとんどないと思います。なので参考程度に。
正規分布よりも尖った分布では正の値、正規分布よりもなだらかな分布では負の値になります。
以下の図で、様々な分布の尖度を比較してみました。オレンジの分布が正規分布です。尖度は0.056となっており、かなり0に近い値です。
青色のラプラス分布は正規分布よりも尖った分布をしています。尖度を見てみると2.21となっており、数値的にも尖っていることがわかりました。
一方、一様分布(uniform)は正規分布よりなだらかな(尖ってはない)分布をしており、尖度も-1.251となっていました。
歪度
歪度は正規分布と比較してどれだけ歪んだ形をしているかということを表します。
歪度は以下の式で求めます。
こちらもExcelやPythonに関数があるので、参考程度に見ておいてください。
分布が左に歪んだ(頂点が左にずれている)分布では、歪度は正の値をとります。一方、右に歪んだ(頂点が右にずれている)分布では、歪度は負の値をとります。
下図中央は正規分布です。正規分布の歪度は0.011と0に近い値です。
下図左側の分布は頂点が左にずれています。歪度は0.790と正の値となっています。一方下図右側の分布では頂点が右にずれているため、歪度も-0.175と負の値になっています。
まとめ
尖度と歪度について内容を確認しました。
尖度と歪度を見れば、その分布が正規分布にどれほど近いか(あるいは離れているか)ということがある程度把握できます。
実際尖度と歪度だけでその分布を正規分布かどうかを判定する場合は少なく、検定によって判断する場合が多いです。しかし、分布の特徴を数値的に示せるという点での利点も大きいです。
個人的には歪度が大きくなればどっちに歪む?が混同しがちです。それぞれの数値と分布の形の対応をしっかりと押さえておきたいですね。
ではでは👋