2013年12月17日

PDF-XChange Viewer の OCR機能を使ってみる(日本語)

PDFファイルからテキストを抜き出すには、
 テキスト選択ツールを使ってテキストをドラッグして選択、
 右クリックしてコピー、
 メモ帳などのエディタにペースト、 で出来ます。

私の経験上、ほとんどのPDFファイルはテキスト選択ツールでテキストを抜き出すことが可能です。
OCR機能が必要になるのはテキスト選択ツールが使えないようなPDFファイルです。

PDF-XChange Viewer のOCR機能を使ってみる


PDF-XChange Viewer のOCR機能を使うには、認識オプションに日本語を追加しておきます。
 → ●PDF-XChange Viewer のOCR認識オプションに日本語を追加する

私の手持ちのファイルでテキスト選択ツールが使えないものがありましたので、OCR機能の実験をしてみます。
実験用PDFファイル
 「少年事件における実名報道と人権をめぐる問題」 山根改  (縦書き)

PDF-XChange Viewer でPDFファイルを開きます。

OCRボタンをクリック。
ocr-if2.jpg

OCRダイアログが開きますので、Japanese を選択して [OK]
ocr-j.jpg

処理中を知らせる画面が現れます。この画面が消えれば完了。
ocr-11.jpg

これでテキスト選択ツールが使えるようになります。
ocr-te.jpg

選択ツールボタンをクリック。
 テキストをドラッグして選択し、コピー
 メモ帳などのエディタを起動させ、ペースト
これで、テキストを抜き出すことが出来ました。

どの程度正確に読み取れたか検証します。
元ファイルのテキスト(縦書き)
我々は、この過熱報道にも拘わらず、この事件はあくまでも特殊で、奇異なことだったんだと思い込むようになり、いつしかそれをまるで小説の世界のことのように思い、小説のもつ本来の表現力よりも実話性をもとめるようになり、そして雑誌などでもこの実話性を「売り」にするのである。その結果、犯罪を犯した少年の顔写真や実名もこの「売り」の道具にされるのである。

抜き出したテキスト
我ヶは丶 この過熱報遭にも拘わらず、 この事件はあくま でも特殊で、 奇異なことだつたんだと恵い込むようになり、 い つしかそれをまるで小説の世界のことのように恩い丶 小説のもつ本来の表現力よりも実話性をもとめるようになり丶 そして雜詰などでもこの実話性を芍売り舛にするので あるoその績果丶 犯罪を犯した少年の顔写真や実名もこの 芍売り舛 の遭具にされるのであるo

縦書きという事もあり、鉤括弧「」が読み取れませんでした。
句読点や漢字の間違いも多く、かなりの手直しが必要です。

この記事へのコメント
Google検索で知りました。
OCR機能があるのは知りませんでした。評判のいいソフトらしいですが、変なマーク
がつくので使用するのを止めてしまいました。今でもマークがつくのでしょうか。

http://gyazo.com/3105b2bc0492324fdb3a599d51007a0a
Posted by 99 at 2014年07月07日 16:12
99さん、コメントありがとうございます。
無料版でPRO版の機能を使うと、ページの上部 左右にでかでかと変なマークが挿入されます。
PRO版の機能とは、ページの挿入、抽出、削除、白紙の挿入、ページの切り抜き、署名、ファイルの添付、コメントの削除 などです。
これらのほとんどは pdf_as の機能にありますので、pdf_as を合わせてお使いになることをおススメします。
Posted by hisayan at 2014年07月08日 12:46
管理人さん ありがとうございます。
思い出しました。Pro機能のところをクリックしてしまったのですね。
pdf_asはすでに使っていますよ。満足しています。
これからもいいブログを書いてくださいね。
Posted by 99 at 2014年07月08日 22:30
コメントを書く
お名前:

メールアドレス:

ホームページアドレス:

コメント:

※ブログオーナーが承認したコメントのみ表示されます。
この記事へのトラックバックURL
http://blog.sakura.ne.jp/tb/82694511
※ブログオーナーが承認したトラックバックのみ表示されます。

この記事へのトラックバック