Að ljóslesa skönnuð skjöl í Linux

Óli Gneisti og Svavar Kjarrval hafa undanfarið verið að koma hæstaréttardómum á rafrænt form. Svavar hefur skannað og Óli hefur séð um að ljóslesa og setja á vefinn. Ef einhverjir hafa áhuga á að ljóslesa efni á íslensku með frjálsum forritum í Linux þá eru hérna upplýsingar um vinnuferlið.

Forrit

Tesseract er ljóslestrarforrit. Það er orðið mjög gott í að skilja íslensku, svo lengi sem það hefur íslensku viðbótina og orðabók.

gImageReader er grafískt viðmót fyrir Tesseract með nokkrum ágætum viðbótum.

Deskew Tools tekur myndir af skjölum og snýr þeim þannig að línurnar séu beinar og það auðveldar ljóslestur. Það að nota Deskew Tools á hverja einustu mynd er fullmikil vinna þannig að hægt er að nota þetta script til að vinna allar myndir í ákveðinni möppu.

ImageMagick hjálpar við að snúa myndum, breyta á milli myndsniða, klippa af myndum og svo framvegis.

gscan2pdf er forrit sem lofar góðu en virkar ekki alltaf alveg sem skildi. Það gæti þá séð um að skanna, að laga skekkjur, að klippa til, að ljóslesa og breyta í PDF skjal.

Rafbókaforrit

Við erum ekki að breyta skönnuðu skjölunum í rafbækur en þar sem það er oft næsta skref þá er gott að benda á þessi forrit.

Sigil býr rafbækur, ePub.

Calibre hefur umsjón með tilbúnum rafbókum og getur breytt milli sniða.

Vinnuferlið

Þó skannar geti gefið frá sér tilbúin PDF skjöl þá er betra að vinna með PNG skjöl nema að allar textalínur séu beinar. Fyrst er að passa að skjölin snúa rétt, ef ekki þá er hægt að snúa þeim með ImageMagick. Næst notum við Deskew Tools til að laga allar skekkjur. Þegar það er komið þá getum við notað IM til að klippa utan af myndum. Við getum líka sleppt því og nota IM til að búa til PDF skjal.

Við opnum PDF skjalið í gImageReader. Við stillum það á íslensku. Við getum valið hvort við viljum fá hreinan texta úr ljóslestrinum og þá veljum við „Plain text“ en ef við viljum gera skannaða PDF leitarbært þá veljum við hOCR/PDF. Þá getum við smellt á Recognize og þá fer ljóslesturinn af stað. Ljóslesturinn getur tekið langan tíma. Þegar það er tilbúið er hægt að keyra út PDF skjal með ósýnilegum texta.

Skipanir

Stundum byrjum við með JPG myndir sem snúa vitlaust. Svona breytum við þeim í PNG og snúum þeim rétt.
mogrify -format png -rotate „270“ *.jpg

Klippa og smækka. Fuzz og Trim taka utan af skjalinu. Skjölin eru stundum stærri en ljóslestrarforritið þarf þannig að þau eru minnkuð með Resize.
mogrify -fuzz 1% -trim -resize 1800 +repage *.png

Svona búum við til PDF skjal úr PNG.
convert *.png hdomar.pdf