Faire de l’OCR, sur des PDFs ?
Séparer chaque page. A revoir s’il est pertinent de fusionner 2 pages de PDF (par exemple dans le cas d’une revue avec articles au format double page). Voir pdfunite ?
pdfseparate fichier-multi-pages.pdf 'monpdf-%d.pdf'
Convertir chaque page dans un format d’image manipulable :
for f in *.pdf
gm convert "$f" -resize 6039x (string replace "pdf" "webp" "$f")
end
Effectuer la reconnaissance des caractères :
for f in *.pdf
tesseract "$f" (string replace "philo" "texte" "$f") -l fra
end
Tools : Backups, curl, divers, Exiftool, firejail, Fortune, Git, git-annex, Gnuplot pas des inconnus, GraphicsMagick, LaTeX, Magic Wormhole, make, Manipulation de DVDs, markdown, mkvtoolnix, Monitoring, notmuch, Pandoc, Photorec & DDRescue, QR Code, Récupération de fichiers, Recutils, RFID, Rsync, Schémas, Sed, Smartmontools, SQL, Tesseract, tmux, Tor Boyau, Translate Shell, urxvt, wget, whois, wireshark, X2GO, xorriso