- 2022年1月24日
- 2023年5月15日
【Pandas】 データフレームをコピーしたいときにcopy()を使う意味
データフレームはPandasにおいてメインを担うであろう2次元表形式のオブジェクトです。プログラムの上ではデータフレームを加工する場面が多いですが、一方でオリジナルのデータフレームも保持しておきたいものです。そういう際は別変数にコピーしますが、=を使ってそのままデータフレームをコピーする場合と、co […]
データフレームはPandasにおいてメインを担うであろう2次元表形式のオブジェクトです。プログラムの上ではデータフレームを加工する場面が多いですが、一方でオリジナルのデータフレームも保持しておきたいものです。そういう際は別変数にコピーしますが、=を使ってそのままデータフレームをコピーする場合と、co […]
データを分析するときは、正しいデータ型でデータを扱わないと、予期しない結果やエラーが出る可能性があります。 Pythonでデータ分析をするときはPandasをよく使いますが、Pandasでは読み込んだデータの型を自動で推定してくれます。このときの精度は高く、初期の時点でおかしなデータ型として読み込ま […]
集めたデータを分析しようと中身を見てみると欠損が所々に、、、 といったように、生のデータがすぐ分析に使える状態でないことは多々あります。データに欠損があると、分析における様々な処理に支障がでます。 欠損があるときは、そのデータ項目を削除したり、ルールを決めて欠損値を補完する場合が多いです。 今回は、 […]
時系列データを分析する際、そのままのデータで分析できる場合もあれば、うまく分析できない場合もあります。 分析できるかできないかは、データの「定常性」に関わる場合が多いです。今回は、「定常性」とは?をざっくり説明した後、うまく分析できないデータを分析できるようにするための処理を紹介していきます。 定常 […]
Pandasのデータフレームと辞書型配列は相互に変換可能で、密接な関係にあります。今回は、辞書型配列をデータフレームに変換する方法と、データフレームを辞書型配列に変換する方法を紹介していきます。 使用するデータ 今回も、ボストンの住宅価格データセットを用いて描画していきます。 データフレームを辞書型 […]
Pandasはデータ処理に関して多彩な機能を提供しているライブラリで、データ分析や機械学習に関わる人には必須のツールです。 Pandasでできることは多すぎて、全てを網羅することが難しいですが、よく使う操作やこれは知っておいた方がいいという知識をまとめてチートシートを作成しました。 人によってはこん […]
前回は、PythonからElasticsearchのデータを取得する方法を紹介しました。 ElasticsearchのAPIを使用すると、JSON形式でデータを取得します。 一方、Pythonでデータ分析等を行う際は、Pandasのデータフレーム形式の方が扱いやすいです。 そこで今回は、Elasti […]
こんにちは! Pythonではデータ分析や機械学習といったことができますが、そのためにはデータを読み込む必要があります。 そのときに読み込むデータがcsvファイルであったりExcelファイルであるケースも少なくないと思います。 また、処理した結果をこれらのファイルとして出力して別のプログラムで使うと […]
Pandasでデータフレーム同士を結合したい場面は少なくないと思います。データフレームを結合するといっても、その方法は様々です。 データフレームを結合するときは、merge()またはjoin()を使います。 この記事では、 といったことができるようになることを目標にします。 記事内のコードを丸写しし […]
こんにちは! 前回の投稿で、Pythonでデータ分析を行うにあたって必須のライブラリとして”Pandas”を紹介しました。 ただ、前回紹介した内容だけでは全く物足りないので、pandasでできることについてもっと深堀りしていこうと思います。 今回の記事では、 データフレームか […]