Pertanyaan Apakah ada pdf ke text converter yang lebih baik daripada pdftotext?


Saya menggunakan pdftotext (bagian dari poppler-utils) untuk mengonversi dokumen PDF menjadi teks. Ia bekerja, untuk sebagian besar, tetapi satu hal yang saya harap lakukan adalah menyisipkan baris kosong di antara paragraf terpisah, bukan menumbuknya bersama.

Apakah ada cara untuk mendapatkan pdftotext untuk melakukan ini? Dan jika tidak, apakah ada pdf lain ke utilitas teks yang dapat melakukan ini?


51
2017-07-06 16:54


asal


Dalam judul, Anda mengatakan "pdftotext" (yang merupakan bagian dari poppler-utils) dan di dalam tubuh Anda mengatakan "pdt2text" (yang saya tidak tahu). Yang Anda maksud? - enzotib
Jika Anda mencari konverter online dari PDF ke teks, saya sarankan untuk mencoba kitpdf.com. Ini adalah platform gratis dan mudah digunakan. Beri tahu saya jika Anda merasa berguna! Terima kasih. - Julliana
Spam tautan mati dari pengguna palsu "Julliana" - devon


Jawaban:


Kamu bisa mencoba ebook-convert dari Kaliber.

Jika ada, saya akan mengatakannya salah dalam arah lain: terlalu banyak jeda baris.

Hal lain yang pasti saya pertimbangkan adalah mengkonversi ke HTML menggunakan pdfreflow, lalu ubah HTML menjadi TXT.


22
2017-08-09 04:52





Jika Anda menggunakan pdftotext Anda bisa menggunakan -layout bendera untuk mempertahankan tata letak teks pada halaman di file pdf masukan Anda:

pdftotext -layout input.pdf output.txt

97
2018-06-13 15:25



Ada juga -table untuk tata letak tabel khusus, berfungsi dengan baik. - P.Windridge
hai, apa unit dari semua nomor tipe mengambang <page id="1" bbox="0.000,0.000,432.000,648.000" rotate="0">? berarti apa unit bbox ? - Vivek Sable
@ P.Windridge, di mana opsi tabel ini? Saya tidak dapat menemukannya di versi 0.48.0 dari poppler-utils di Ubuntu 17.04 - gozzilli
@gozzilli Itu cara tua. Pdftotext terbaru adalah v4.00, tersedia di Alat Xpdf tarball sini. - Adrian
@gozzilli Versi dimulai dengan 0. menunjukkan bahwa itu Popplers cabang kode asli Xpdf. Mereka memulai nomor versi mereka ketika mereka mencabangkan kode. Kedua kelompok sekarang tampaknya mempertahankan versi terpisah dari alat PDF ini. - Andrew


Sebagai penggemar open source (dan otomatisasi) saya benci untuk mengatakan ini, tetapi hasil terbaik yang baru saja saya dapatkan (pada PDF yang cukup besar dan rumit) adalah membukanya di Adobe Reader, lalu pilih File | Save As Text.

(Saya melakukan pra-pemrosesan untuk eksperimen analisis teks, bukan sebagai pembaca, tetapi saya pikir pilihan pertama dan kedua saya akan sama.)

Saya telah membandingkan sisi keluaran dengan sisi. Pilihan kedua saya adalah konversi-ebook.

Adobe: tersisa di FF untuk halaman istirahat, kiri di nomor halaman, belum dikonversi judul / paragraf ke baris tunggal, tetapi memiliki tanda hubung tetap. Junk yang disembunyikan di PDF tidak mendapat output. Benar mendapatkan ibukota besar di awal bagian, mis. "The", bukan "T he" atau bahkan "T he".

E-book-convert: Left in page numbers, dan beberapa hidden junk di header / footer (tetapi tidak ada FF). Mengonversi sebagian besar paragraf menjadi satu baris. Yang ketinggalan dengan spasi ganda! Peluru tidak selalu sejajar dengan teks. Benar mendapat "The" di awal bab ini.

pdftotext (tanpa --layout): Tidak buruk, peluru berbaris, tetapi suara header / footer. FF ada di sana. Tanda hubung dihapus. Terburuk untuk memulai bab huruf besar: "T \ n \ nhe".

pdftotext (with --layout): Sama, tetapi lebih banyak indentasi. "Dia" untuk memulai bab.

pdftohtml >> pdfreflow >> htmltotext: Ini menghapus nomor halaman, tetapi masih sampah di header / footer. "Dia" untuk memulai bab. Tanda hubung dihapus. (Ini menggunakan beberapa baris per paragraf, namun mereka bukan jeda baris yang sama seperti pada versi lain!)


9
2017-09-11 02:58



Acrobat reader 9 pada linux menghasilkan kata-kata terjepit dalam kasus saya. ebook-convert bekerja dengan baik. - ov7a


Jika Anda memiliki akun Google, Anda dapat menggunakan Google Docs untuk mengunggah PDF dan mengubahnya menjadi teks yang dapat diedit.


4
2017-07-06 18:13





Saya juga mencoba pypdf dan membandingkannya dengan pdftotext pada dua dokumen. Itu memiliki linebreak lebih dan membagi beberapa nama bagian (REFERENSI adalah R E F E R E N C E S).

pdf2txt melakukan keluaran sampah lengkap.

Saya sering menggunakan pdfBox (java) jika pdftotext menutup output. Anda mungkin mencobanya.


1
2017-10-04 18:22