- 2022年12月12日
- 2023年5月15日
【Pandas】DataFrame、Seriesの重複を抽出する/取り除く
膨大で整理されていないデータセットには、切り口によって重複するデータも存在しえます。 Pandasではそうした重複している行を抽出したり、除去することができます。今回はその方法について紹介します。 使用するデータ Kaggleから、FIFA22のMLS(Major League Soccer)所属の […]
膨大で整理されていないデータセットには、切り口によって重複するデータも存在しえます。 Pandasではそうした重複している行を抽出したり、除去することができます。今回はその方法について紹介します。 使用するデータ Kaggleから、FIFA22のMLS(Major League Soccer)所属の […]
前回はFlaskでのルーティングについて紹介しました。 Webアプリケーションでルーティング制御をするのは、画面遷移する場合が多いと思います。 画面はHTMLで記述します。Flaskのソースコードに直接HTML形式で記述することもできますが、HTMLファイルを用意してそれを読み込むような制御も可能で […]
これまでにFlaskを使った最も簡単なアプリケーションを作成する方法を紹介しました。今回はそのアプリケーションをもう少し拡張してみます。 今回はルーティングを使ってWebアプリケーションでできる処理を増やしてみます。 ルーティングとは webアプリケーションにおけるルーティングとは、クライアントのリ […]
PythonではPandasやOpenCVをはじめとして、便利なパッケージが多数提供されています。それらは通常ネットワークを経由してAnacondaやpip等のリポジトリからインストールします。 しかし、時にはネットワークの繋がらない閉鎖的な環境にPython環境を構築する必要もあり、その際はリポジ […]
全く同じPython環境を複数のサーバ環境に構築しなければいけない場面は、少なくないと思います。例えば開発環境、テスト環境、ステージング環境、本番環境で同じPython環境を構築する場合です。 その環境に多数のパッケージをインストールしなければならない場合、手間になるだけではなくインストール抜けとい […]
今回はPandasのDataFrameやSeriesで日付のデータを扱いたい場合の変換方法等を紹介していきます。 使用するデータ 今回はS&P500データを使用します。 日付型への変換 日付列をdatetime64型に変換 文字列項目をdatetime64型に変換するには、to_dateti […]
画像処理ヒストグラムを使ってその画像の特徴量を分析するケースがあります。今回は画像におけるヒストグラムの意味と、OpenCVで画像からヒストグラムの情報を取得する方法を紹介します。 画像におけるヒストグラム 画像におけるヒストグラムとは、画像中の画素値の度数分布を表したものです。 ヒストグラムを理解 […]
時系列データの分析をする際に「移動平均」という言葉を聞いたことがあると思います。 今回は移動平均とはなにかということと、Pandasで移動平均の求め方について取り上げます。 移動平均とは 株価や気温など、時間の推移によって細かく値が変化するデータは、その変動の細かさ故に全体の傾向を掴むのが難しいケー […]
matplotlibではlegend()を使ってグラフに凡例を表示させることができます。 今回はlegend()の基本的な使い方からカスタマイズして使う使い方まで紹介していきます。 使用するデータ 今回は以下のようなデータを作成、グラフに描画します。 凡例を表示する 凡例はlegend()で表示させ […]
Pandasでデータの前処理をするときによくある処理に、「特定の条件に一致する行にのみに処理を加える」というのがあります(あると思います)。 今回はデータフレームに対して、ある条件に一致する行にのみ処理を実行する方法を紹介します。 前提 以下のようなデータフレームを準備します。ウォルマートの株価デー […]