PHPでPDFファイルからテキストを抜き出す方法

知り合いに、PHPを使ってPDFファイルを全文検索する方法を質問され、いざ調べてみるとイマイチ検索しにくかったので、メモ代わりに書いておくことにします。

1. Red Hat系(Red Hat Enterprise LinuxFedoraCentOSScientific Linux)の場合、yumコマンドでPopplerと関連ライブラリをインストール
yum -y install poppler*

2. SSHからpdftotextコマンドを使って、PDFファイルをテキストファイルに変換してみる
pdftotext ./test.pdf ./test.txt

3. うまくいったらPHPで実装する
<?php
$command = “pdftotext ./test.pdf ./test.txt”;
exec($command, $output, $return_var);
echo $return_var;
?>

※ファイルを保存するフォルダのパーミッションに気を付けてください

あとは、テキストデータをDBなどに保存して、検索できるようにすればOK。

またpdftotextコマンドには、細かい指定ができるオプションも用意されており、PDFファイルの情報を取得するpdfinfoコマンドと組み合わせれば、いろいろできるんじゃないかと思います。
pdfinfo ./test.pdf

コメントを残す