Tools - Tesseract

Faire de l’OCR, sur des PDFs ?

Séparer chaque page. A revoir s’il est pertinent de fusionner 2 pages de PDF (par exemple dans le cas d’une revue avec articles au format double page). Voir pdfunite ?

pdfseparate fichier-multi-pages.pdf 'monpdf-%d.pdf'

Convertir chaque page dans un format d’image manipulable :

for f in *.pdf
    gm convert "$f" -resize 6039x (string replace "pdf" "webp" "$f")
end

Effectuer la reconnaissance des caractères :

for f in *.pdf
    tesseract "$f" (string replace "philo" "texte" "$f") -l fra
end

Tools : Backups, curl, divers, Exiftool, firejail, Fortune, Git, git-annex, Gnuplot pas des inconnus, GraphicsMagick, LaTeX, Magic Wormhole, make, Manipulation de DVDs, markdown, mkvtoolnix, Monitoring, notmuch, Pandoc, Photorec & DDRescue, QR Code, Récupération de fichiers, Recutils, RFID, Rsync, Schémas, Sed, Smartmontools, SQL, Tesseract, tmux, Tor Boyau, Translate Shell, urxvt, wget, whois, wireshark, X2GO, xorriso