【Python】バイオリンプロットとは？特徴と書き方を解説

2021年4月20日
2023年4月21日
matplotlib, Python
Python, グラフ, バイオリンプロット

matplotlib

今回は、バイオリンプロットについてです。

バイオリンプロットはグラフの1種ですが、聞き馴染みの無い方が多いのではないでしょうか？

今回は、バイオリンプロットの特徴の紹介と、Pythonでのグラフの書き方を紹介していきたいと思います^^

1 バイオリンプロットとは？
- 1.1 メリット
- 1.2 デメリット
2 Pythonでバイオリンプロットを描く
3 Pythonでデータサイエンスするなら
4 まとめ

バイオリンプロットとは？

バイオリンプロットは箱ひげ図によく似たグラフです。

箱ひげ図同様、中央値や四分位範囲を読み取ることができます。

箱ひげ図や四分位範囲については、以下の記事を参考にしてみてください。

【Python】箱ひげ図とは？図の読み方と書き方を紹介

メリット

バイオリンプロットのメリットとして、確率密度がわかるという点が挙げられます。確率密度はヒストグラムをイメージするといいと思いますが、ざっくりデータの分布にことだと思ってください。

この特徴から、バイオリンプロットは箱ひげ図とヒストグラムの特徴を組みあわせたようなグラフと言えます。

確率密度がわかることで、データの分布に複数の山があるときには特に有用です。箱ひげ図では、データの分布の山が複数あってもわかりません。

デメリット

デメリットはなんといってもその認知度の低さです。

街でバイオリンプロットを知っているかアンケートをとれば、95人は知らないと答えるのではないでしょうか（あくまで偏見）。

せっかくデータの内容がわかりやすくなるようにグラフを描いても、読み手が図の意味を知らなければ内容を把握することができません。

Pythonでバイオリンプロットを描く

バイオリンプロットの特徴を理解したところで、Pythonで実際にグラフを描いてみましょう。

使用するデータ

今回も、ボストンの住宅価格データを使います。

import pandas as pd
from sklearn.datasets import load_boston


data = load_boston()
name = pd.DataFrame(data.target).rename(columns={0:"name"})
df = pd.DataFrame(data.data, columns=data.feature_names).merge(name, left_index=True, right_index=True)

df = pd.DataFrame(data.data, columns=data.feature_names)

グラフを描く

Pythonでは、matplotlibまたはseabornを使ってバイオリンプロットを描画することができます。

今回は、seabornで描いてみます。

なお、グラフを描くことがメインなので、見やすくなるようにもとのデータ（df）を少しいじっています。

X軸に”RAD”を、Y軸に”AGE”を取ったバイオリンプロットを描きます。

#"RAD"が5以下のデータのみに絞る
df = df.loc[df["RAD"]<5]

import seaborn as sns
sns.violinplot(x=df["RAD"], y=df["AGE"])

このように、2軸でデータの分布がわかるのがヒストグラムの特徴です。”RAD”が４のプロットを見ると、分布の山が2つになっています。この特徴は、箱ひげ図では把握できません。

グルーピング

X軸について、グルーピングしてグラフを描くこともできます。

今回使用しているデータには、「性別」などのフラグとして表せるデータがありません。なので、少しデータに細工をしてから書いてみます。

“SMOKER”列を新たに作成し、”TAX”が250未満ならNo、以上ならYesとします。

df["SMOKER"] = "YES"
df.loc[df["TAX"]< 250, "SMOKER"]= "NO"

グルーピングする列は、引数hueで指定します。

sns.violinplot(x=df["RAD"], y=df["AGE"], hue=df["SMOKER"])

このように、各値でグルーピングしてグラフを描画できます。

Pythonでデータサイエンスするなら

Pythonでデータサイエンスをするなら、以下の書籍がおすすめです。Pandas、matplotlib、Numpy、scikit-learnといったデータサイエンスに必要なライブラリを、体系立てて一通り学ぶことができます。

リンク

ややお値段高めですが、これ1冊で十分という内容・ボリュームなので、損はしないと思います^^

まとめ

バイオリンプロットとは？というところから、Pythonでのグラフの書き方までを紹介しました。

滅多にお目にかからないグラフかもしれませんが、ヒストグラムと箱ひげ図の特徴をハイブリッドした可視化方法として優秀なグラフだと思います。

使う機会があることを祈ります^^

ではでは👋

【Python】バイオリンプロットとは？特徴と書き方を解説

バイオリンプロットとは？

メリット

デメリット

Pythonでバイオリンプロットを描く

使用するデータ

グラフを描く

グルーピング

Pythonでデータサイエンスするなら

まとめ

matplotlibの最新記事8件

【Python】matplotlibで黒背景のグラフを描画する

【Python】FlaskでWebアプリケーションを作る⑥ -matplotlibのグラフをWeb画面に描画する

【Python】matplotlibで凡例を表示する

【Python】matplotlibで1枚の画像に複数のグラフを描画する方法② -plt.subplots()

【Python】matplotlibで1枚の画像に複数のグラフを描画する方法① -add_subplots()

【Python】matplotlibでグラフのアニメーションを作る

【Python】エラーバー付きの棒グラフを描画する

【Python】seabornで折れ線グラフを並べて描画する