TAG

PDF

  • 2021年9月25日
  • 2023年4月21日

【Python】画像タイプのPDFからOCRでテキスト抽出する

以前に、PDFからテキスト抽出をしてデータフレームにする方法を紹介しました。 ですが、実際には紙の資料をスキャンしてPDF化した資料も多々あり、その場合は純粋なテキスト抽出ができません。 そこで今回は、OCRという画像から文字を読み取る方法で、スキャンされた資料のPDFからテキストを抽出する方法を紹 […]

  • 2021年7月26日
  • 2023年4月21日

【Python】PDFのテキストを抽出し、いろんな情報と共にCSV出力する

Pythonではスクレイピングができますが、今回はPDFファイルの文字を読み取るプログラムを作成していきます。 テキストの読み取りだけでなく、テキストの座標やページ番号なども併せてCSVファイルとして出力していきます。 PDFが画像ベースの場合(PDF上で文字を選択できない場合)は、こちらの記事を参 […]

  • 2021年3月29日
  • 2023年4月21日

【Python】グラフをPDFで出力する方法を紹介。PNG出力との違いは?

こんにちは! Pythonでグラフを描くとき、通常は画像として出力しますよね。しかし、一度に出力するグラフの量が多くなってくると、以下のような不便な点が出てきます 1枚1枚画像を開くのが手間だ どの画像にどのグラフがあるかわかりづらい 画像を探すのが大変 そんな悩みを解決する方法として、グラフをPD […]