- 2021年9月25日
- 2023年4月21日
【Python】画像タイプのPDFからOCRでテキスト抽出する
以前に、PDFからテキスト抽出をしてデータフレームにする方法を紹介しました。 ですが、実際には紙の資料をスキャンしてPDF化した資料も多々あり、その場合は純粋なテキスト抽出ができません。 そこで今回は、OCRという画像から文字を読み取る方法で、スキャンされた資料のPDFからテキストを抽出する方法を紹 […]
以前に、PDFからテキスト抽出をしてデータフレームにする方法を紹介しました。 ですが、実際には紙の資料をスキャンしてPDF化した資料も多々あり、その場合は純粋なテキスト抽出ができません。 そこで今回は、OCRという画像から文字を読み取る方法で、スキャンされた資料のPDFからテキストを抽出する方法を紹 […]
Pythonではスクレイピングができますが、今回はPDFファイルの文字を読み取るプログラムを作成していきます。 テキストの読み取りだけでなく、テキストの座標やページ番号なども併せてCSVファイルとして出力していきます。 PDFが画像ベースの場合(PDF上で文字を選択できない場合)は、こちらの記事を参 […]
こんにちは! Pythonでグラフを描くとき、通常は画像として出力しますよね。しかし、一度に出力するグラフの量が多くなってくると、以下のような不便な点が出てきます 1枚1枚画像を開くのが手間だ どの画像にどのグラフがあるかわかりづらい 画像を探すのが大変 そんな悩みを解決する方法として、グラフをPD […]