Memasang Tesseract OCR di Linux

Tesseract OCR (Optical Character Recognition) adalah enjin sumber terbuka dan bebas dan program baris arahan untuk mengekstrak teks dari gambar menggunakan teknologi dan algoritma pengenalan watak optik. Projek ini disokong oleh Google dan mulai hari ini, ia dianggap sebagai mesin OCR sumber terbuka terbaik yang tersedia. Ia dapat mengesan dan mengekstrak teks dalam pelbagai bahasa dengan ketepatan yang tinggi.

Memasang Tesseract OCR di Linux

Tesseract OCR tersedia secara lalai pada sebilangan besar pengedaran Linux. Anda boleh memasangnya di Ubuntu menggunakan arahan di bawah:

$ sudo apt memasang tesseract-ocr

Arahan terperinci untuk pengedaran lain ada di sini. Walaupun Tesseract OCR tersedia di repositori banyak pengedaran Linux secara lalai, disarankan untuk memasang versi terbaru dari pautan yang disebutkan di atas untuk ketepatan dan penghuraian yang lebih baik.

Memasang Sokongan untuk Bahasa Tambahan di Tesseract OCR

Tesseract OCR merangkumi sokongan untuk mengesan teks dalam lebih dari 100 bahasa. Namun, anda hanya mendapat sokongan untuk mengesan teks dalam bahasa Inggeris dengan pemasangan lalai di Ubuntu. Untuk menambahkan sokongan untuk menguraikan bahasa tambahan di Ubuntu, jalankan perintah dalam format berikut:

$ sudo apt memasang tesseract-ocr-hin

Perintah di atas akan menambahkan sokongan untuk bahasa Hindi ke Tesseract OCR. Kadang kala anda dapat memperoleh ketepatan dan hasil yang lebih baik dengan memasang sokongan untuk skrip bahasa. Contohnya, memasang dan menggunakan paket tesseract untuk skrip Devanagari "tesseract-ocr-script-deva" memberi saya hasil yang jauh lebih tepat daripada menggunakan paket "tesseract-ocr-hin".

Di Ubuntu, anda dapat mencari nama pakej yang betul untuk semua bahasa dan skrip dengan menjalankan perintah di bawah:

Pencarian apt-cache $ tesseract-

Setelah anda mengenal pasti nama pakej yang betul untuk dipasang, ganti rentetan "tesseract-ocr-hin" dengannya pada perintah pertama yang dinyatakan di atas.

Menggunakan Tesseract OCR untuk Mengekstrak Teks dari Imej

Mari kita ambil contoh gambar yang ditunjukkan di bawah (diambil dari halaman Wikipedia untuk Linux):

Untuk mengekstrak teks dari gambar di atas, anda harus menjalankan perintah dalam format berikut:

tangkapan $ tesseract.output png -l eng

Menjalankan perintah di atas memberikan output berikut:

Dalam perintah di atas, "tangkap.png ”merujuk kepada gambar dari mana anda ingin mengekstrak teks. Output yang ditangkap kemudian disimpan dalam output.fail txt ”. Anda boleh menukar bahasa dengan mengganti argumen "eng" dengan pilihan anda sendiri. Untuk melihat semua bahasa yang sah, jalankan arahan di bawah:

$ tesseract --list-langs

Ia akan menunjukkan kod singkatan untuk semua bahasa yang disokong oleh Tesseract OCR pada sistem anda. Secara lalai, ia hanya akan menunjukkan "eng" sebagai output. Namun, jika anda memasang pakej untuk bahasa tambahan seperti yang dijelaskan di atas, perintah ini akan menyenaraikan lebih banyak bahasa yang boleh anda gunakan untuk mengesan teks (seperti kod bahasa 3 huruf ISO 639).

Sekiranya gambar mengandungi teks dalam pelbagai bahasa, tentukan bahasa utama terlebih dahulu diikuti dengan bahasa tambahan yang dipisahkan dengan tanda tambah.

tangkapan $ tesseract.output png -l eng + fra

Sekiranya anda ingin menyimpan output sebagai fail PDF yang boleh dicari, jalankan perintah dalam format berikut:

tangkapan $ tesseract.png output -l eng pdf

Perhatikan bahawa fail PDF yang boleh dicari tidak akan mengandungi teks yang dapat diedit. Ia merangkumi gambar asalnya, dengan lapisan tambahan yang berisi teks yang diakui ditumpangkan pada gambar. Oleh itu, walaupun anda dapat mencari teks dalam fail PDF dengan tepat menggunakan mana-mana pembaca PDF, anda tidak akan dapat mengedit teks tersebut.

Perkara lain yang harus anda perhatikan bahawa ketepatan pengesanan teks meningkat sangat tinggi jika fail gambar berkualiti tinggi. Dengan pilihan, selalu gunakan format fail atau fail PNG tanpa kerugian. Menggunakan fail JPG mungkin tidak memberikan hasil yang terbaik.

Mengekstrak Teks dari Fail PDF Berbilang halaman

Tesseract OCR secara semula jadi tidak menyokong pengekstrakan teks dari fail PDF. Walau bagaimanapun, adalah mungkin untuk mengekstrak teks dari fail PDF berbilang halaman dengan menukar setiap halaman menjadi fail gambar. Jalankan arahan di bawah untuk menukar fail PDF menjadi sekumpulan gambar:

$ pdftoppm -png fail.output pdf

Untuk setiap halaman fail PDF, anda akan mendapat “output-1” yang sesuai.png "," output-2.fail png ”, dan sebagainya.

Sekarang, untuk mengekstrak teks dari gambar ini dengan menggunakan satu perintah, anda harus menggunakan "untuk gelung" dalam perintah bash:

$ untuk saya di *.png; lakukan tesseract "$ i" "output- $ i" -l eng; selesai;

Menjalankan perintah di atas akan mengekstrak teks dari semua ".fail png "terdapat di direktori kerja dan simpan teks yang dikenali di" output-original_filename.fail txt ”. Anda dapat mengubah bahagian tengah perintah sesuai dengan keperluan anda.

Sekiranya anda ingin menggabungkan semua fail teks yang mengandungi teks yang dikenali, jalankan arahan di bawah:

$ kucing *.txt> bergabung.txt

Proses mengekstrak teks dari fail PDF berbilang halaman ke dalam fail PDF yang boleh dicari hampir sama. Anda harus memberikan argumen "pdf" tambahan kepada arahan:

$ untuk saya di *.png; lakukan tesseract "$ i" "output- $ i" -l eng pdf; selesai;

Sekiranya anda ingin menggabungkan semua fail PDF yang boleh dicari yang mengandungi teks yang dikenali, jalankan arahan di bawah:

$ pdfunite *.pdf bergabung.pdf

Kedua-dua "pdftoppm" dan "pdfunite" dipasang secara lalai pada versi stabil terbaru Ubuntu.

Kelebihan dan Kekurangan Mengekstrak Teks dalam TXT dan Fail PDF yang boleh dicari

Sekiranya anda mengekstrak teks yang dikenali ke fail TXT, anda akan mendapat output teks yang dapat diedit. Walau bagaimanapun, sebarang format dokumen akan hilang (huruf tebal, huruf miring, dan sebagainya). Fail PDF yang boleh dicari akan mengekalkan format asal, tetapi anda akan kehilangan keupayaan penyuntingan teks (anda masih boleh menyalin teks mentah). Sekiranya anda membuka fail PDF yang boleh dicari di mana-mana penyunting PDF, anda akan mendapat gambar yang tersemat di dalam fail dan bukan output teks mentah. Mengubah fail PDF yang boleh dicari ke dalam HTML atau EPUB juga akan memberi anda gambar yang tersemat.

Kesimpulannya

Tesseract OCR adalah salah satu enjin OCR yang paling banyak digunakan sekarang. Ini adalah sumber terbuka percuma dan menyokong lebih dari seratus bahasa. Semasa menggunakan Tesseract OCR, pastikan untuk menggunakan gambar beresolusi tinggi dan betulkan kod bahasa dalam argumen baris perintah untuk meningkatkan ketepatan pengesanan teks.