Pertanyaan Ekstrak teks dari dokumen yang dipindai


Apakah ada cara untuk memilih teks dari dokumen yang dipindai? (output adalah jpg) Apa jenis alat yang ditawarkan Ubuntu untuk melakukan tugas seperti itu? Apakah ada perpustakaan yang dapat saya gunakan sebagai ganti biner perangkat lunak pra-bangun untuk melakukan hal yang sama? Saya mencoba mengubahnya menjadi .pdf menggunakan Imagemagick dan kemudian mencoba untuk memilih teks, yang jelas tidak berhasil.


10
2018-05-10 10:29


asal




Jawaban:


Nama untuk jenis prosedur ini OCR (Pengenalan Karakter Optik). Tautan itu juga menawarkan beberapa pilihan:

gocr - Sebuah baris perintah OCR
fuzzyocr - plugin spamassassin untuk memeriksa lampiran gambar
libhocr0 - OCR Ibrani
ocrad - Program Pengenalan Karakter Optik
ocrfeeder - Analisis tata letak dokumen dan sistem pengenalan karakter optik
ocropus - analisis dokumen dan sistem OCR
tesseract-ocr
runcing - sistem OCR multi-bahasa 

Dan itu menunjukkan bahwa Tesseract (tutorial yang sangat lama) adalah pilihan yang lebih baik dari ini. Jadi cobalah.


9
2018-05-10 10:36





Beberapa waktu lalu mengevaluasi berbagai paket OCR di Ubuntu, menemukan bahwa Tesseract adalah yang paling buruk dari mereka (tapi cukup buruk), dan menulis skrip pembungkus untuk OCR (karena Tesseract menginginkan format masukan yang tidak jelas seperti TIFF). Inilah saya ~/bin/ocr:

#!/bin/sh
# usage: ocr filename.jpg
if test -z "$1"; then
    echo "usage: ocr filename.jpg [...]"
    echo "needs imagemagick and tesseract-ocr"
    echo "if tesseract fails, check if you've got tesseract-ocr-eng installed"
fi
tmpdir="$(mktemp -d)"
for fn in "$@"; do
  convert "$fn" "$tmpdir/page.tif"
  tesseract "$tmpdir/page.tif" "$tmpdir/page" 2>&1 | grep -v '^Tesseract Open Source OCR Engine$'
  cat "$tmpdir/page.txt"
  cp -i "$tmpdir/page.txt" "${fn%.jpg}.txt"
  rm "$tmpdir/page.tif" "$tmpdir/page.txt"
done
rm -r "$tmpdir"

Preprocessing gambar dengan GIMP (mengkonversi ke B & W menggunakan alat Threshold) tampaknya banyak membantu.

Saya harap semuanya membaik sejak saat itu. Saya telah melihat nama OCR Feeder di posting blog baru-baru ini, saya akan mencobanya.


3
2018-05-10 12:39





Paket Tesseract-ocr adalah baris perintah. Jika Anda menginginkan program dengan GUI, saya menggunakan "gscan2pdf" dan Anda dapat menemukannya di Pusat Perangkat Lunak Ubuntu.

Di gscan2pdf, yang perlu Anda lakukan hanyalah mengeklik ikon pindai kecil di dekat bagian atas. Saya pikir ini memberi Anda dua atau tiga opsi, GOCR yang tidak terlalu bagus, dan Tesseract yang bekerja dengan baik. Pilih Tesseract dan dari titik ini Anda perlu mengklik tab yang sesuai sehingga Anda dapat menemukan pengaturan resolusi. Taruhan terbaik Anda adalah 300 atau bahkan 600 dan Tesseract akan melakukannya dengan baik.

Dokumen yang dipindai dengan buruk, bengkok, atau lama tidak dapat dikonversi dengan baik. Semoga berhasil!

PS .. Saya terus membaca bahwa Tesseract hanya bisa membaca gambar TIFF. Ini bukan kasus untukku. Saya dapat mengimpor JPG atau PNG juga.

PPS ... maaf atas pengeditannya! Anda dapat mencoba OCRFeeder di pusat perangkat lunak juga. Saya belum mencobanya.


2
2018-05-12 21:09





Saya menemukan ini, ini disebut Tesseract OCR, semoga ini berguna bagi Anda.

http://linuxappfinder.com/package/tesseract-ocr


1
2018-05-10 12:24





Saya memiliki Linux Mint 17.2 x32 Cinnamon. Mungkin langkah-langkah ini akan bekerja di Ubuntu 14.04 x32 juga.

  1. Instal Tesseract OCR sudo apt-get install -y tesseract-ocr tesseract-ocr-eng Anda dapat menambahkan bahasa lain dengan menginstal paket tambahan. Screenshot ini berasal dari sinapsis: Paket bahasa Tesseract di Synaptic

Menggunakan Tesseract

OPSI 1 - oleh commandline buka terminal, lalu buka folder tempat Anda menyimpan file gambar (jpg, png) dan jalankan perintah:

a) untuk mengonversi semua file gambar menjadi teks

for i in *png; do b=`basename "$i" .png`; tesseract -l eng "$i" "$b" text; done

Untuk menggabungkan semua file teks menjadi satu, jalankan perintah cat *.txt >> all.txt

b) untuk mengkonversi semua file gambar ke file hocr (buka dengan Firefox)

for i in *png; do b=`basename "$i" .png`; tesseract -l eng "$i" "$b" hocr; done

OPSI 2 - oleh GUI

a) Instal gImageReader, dan gunakan

sudo add-apt-repository -y ppa:sandromani/gimagereader
sudo apt-get update
sudo apt-get install -y gimagereader

b) Aplikasi kedua adalah VietOCR. Versi sebenarnya adalah 4.0, jadi unduh VietOCR-4.0.zip

Buka file dan buka VietOCR.jar oleh Java:

Buka VietOCR oleh Java Jika Anda belum menginstal Java, Anda dapat menginstalnya dari repositori atau Anda dapat menginstalasi resmi Java 8 Oracle. Langkah-langkah untuk menginstal Oracle Java 8 di Ubuntu 14.04

sudo add-apt-repository ppa:webupd8team/java
sudo apt-get update
sudo apt-get install oracle-java8-installer
sudo apt-get install oracle-java8-set-default

Saya merekomendasikan VietOCR, karena memungkinkan Anda untuk file pdf OCR, konversi massal juga merupakan pilihan.


0
2017-11-28 11:20