Að ljóslesa skönnuð skjöl í Linux

Óli Gneisti og Svavar Kjarrval hafa undanfarið verið að koma hæstaréttardómum á rafrænt form. Svavar hefur skannað og Óli hefur séð um að ljóslesa og setja á vefinn. Ef einhverjir hafa áhuga á að ljóslesa efni á íslensku með frjálsum forritum í Linux þá eru hérna upplýsingar um vinnuferlið.

Forrit

Tesseract er ljóslestrarforrit. Það er orðið mjög gott í að skilja íslensku, svo lengi sem það hefur íslensku viðbótina og orðabók.

gImageReader er grafískt viðmót fyrir Tesseract með nokkrum ágætum viðbótum.

Deskew Tools tekur myndir af skjölum og snýr þeim þannig að línurnar séu beinar og það auðveldar ljóslestur. Það að nota Deskew Tools á hverja einustu mynd er fullmikil vinna þannig að hægt er að nota þetta script til að vinna allar myndir í ákveðinni möppu.

ImageMagick hjálpar við að snúa myndum, breyta á milli myndsniða, klippa af myndum og svo framvegis.

gscan2pdf er forrit sem lofar góðu en virkar ekki alltaf alveg sem skildi. Það gæti þá séð um að skanna, að laga skekkjur, að klippa til, að ljóslesa og breyta í PDF skjal.

Rafbókaforrit

Við erum ekki að breyta skönnuðu skjölunum í rafbækur en þar sem það er oft næsta skref þá er gott að benda á þessi forrit.

Sigil býr rafbækur, ePub.

Calibre hefur umsjón með tilbúnum rafbókum og getur breytt milli sniða.

Vinnuferlið

Þó skannar geti gefið frá sér tilbúin PDF skjöl þá er betra að vinna með PNG skjöl nema að allar textalínur séu beinar. Fyrst er að passa að skjölin snúa rétt, ef ekki þá er hægt að snúa þeim með ImageMagick. Næst notum við Deskew Tools til að laga allar skekkjur. Þegar það er komið þá getum við notað IM til að klippa utan af myndum. Við getum líka sleppt því og nota IM til að búa til PDF skjal.

Við opnum PDF skjalið í gImageReader. Við stillum það á íslensku. Við getum valið hvort við viljum fá hreinan texta úr ljóslestrinum og þá veljum við „Plain text“ en ef við viljum gera skannaða PDF leitarbært þá veljum við hOCR/PDF. Þá getum við smellt á Recognize og þá fer ljóslesturinn af stað. Ljóslesturinn getur tekið langan tíma. Þegar það er tilbúið er hægt að keyra út PDF skjal með ósýnilegum texta.

Skipanir

Stundum byrjum við með JPG myndir sem snúa vitlaust. Svona breytum við þeim í PNG og snúum þeim rétt.
mogrify -format png -rotate „270“ *.jpg

Klippa og smækka. Fuzz og Trim taka utan af skjalinu. Skjölin eru stundum stærri en ljóslestrarforritið þarf þannig að þau eru minnkuð með Resize.
mogrify -fuzz 1% -trim -resize 1800 +repage *.png

Svona búum við til PDF skjal úr PNG.
convert *.png hdomar.pdf

Velkomin frá Agli og Kiljunni

Þessi færsla er ætluð þeim sem annað hvort lásu um Rafbókavefinn hjá Agli Helgasyni eða sáu umfjöllun um vefinn í Kiljunni (sem er þó ekki búið að sýna þegar þetta er birt).

Ef þú hefur áhuga á að taka þátt í yfirlestri þá gott að horfa fyrst á þetta kennslumyndband og skrá sig síðan á prófarkalestursvefinn.

Ef þú vilt fá rafbækur er auðveldast að taka inn þessa þjöppuðu skrá sem inniheldur allar nema þrjár nýjustu rafbækurnar. Þá mælum við með forritinu Calibre til að halda utan um rafbókasafnið. Þó er einnig hægt að taka inn hverja bók fyrir sig (m.a. í innbyggðum vafra Kindle rafbókalesara).

Rafbækurnar á Rafbókavefnum eru nær allar í bæði almennu formi (Epub) fyrir flestar gerðir spjaldtölva og rafbókalesara og hins vegar á formi fyrir Kindle (Mobi). Þar að auki eru flestar bækur sem hafa verið lesnar yfir hjá okkur einnig á hreinu textaformi og sem vefskjal sem hægt er að opna í vafra.

Bylting á íslenskum bókamarkaði

amazon-kindle-logoÍ gær varð bylting (það ætti kannski að segja stór bylting eða gjörbylting) á íslenskum bókamarkaði þegar bárust fréttir af því að hægt væri að kaupa íslenskar rafbækur beint af Amazon.

Við höfum haft rafbækur í mörg ár en það hefur verið eins og þegar Bretar byrjuðu að selja skyndibita, hann var vondur og það tók langan tíma að útbúa hann. Við höfum haft rafbækur en þær hafa verið dýrar og ferlið við að kaupa þær hefur verið flókið (auðveldara hjá t.d. Emmu samt). Við sem höfum átt t.d. Kindle vitum hve þægilegt það er að klára eina bók, skreppa á Amazon í rafbókalesaranum og kaupa strax nýja bók sem hægt er að lesa strax. Einn smellur, hvort sem það er í tölvu, snjalltæki eða rafbókalesara og þá er rafbókin komin. Ekkert vesen. Í gær gaf ég rafbók afmælisgjöf, bara að fylla út netfangið og kaupa og eftir örfáar mínútur gat afmælisbarnið sótt bókina.

Kostirnir við að versla við Amazon eru gríðarlegir þó við ættum öll að vera meðvituð um hve stórt fyrirtækið er orðið. Amazon hefur, ólíkt t.d. Barnes and Noble sem selur Nook, heimild til að selja erlendar bækur til Íslands. Það er hægt að versla við Amazon án þess að eiga Kindle tæki því þú getur notað Kindle smáforritið.

Ég hef ekki athugað allar bækurnar sem eru í boði á Amazon en í fljótu bragði sýnist mér að verðið sé þolanlegt, t.d. virðist ódýrara að kaupa Rökkurhæðir á rafbókaformi heldur en prentaða. Maður veltir þó fyrir sér hvernig gengismál eiga eftir að hafa áhrif á verðið, dollarinn er t.d. mjög verðlítill núna en hvað gerist ef hann hækkar?

Það er óhugsandi annað en að aðrar íslenskar bókaútgáfur fylgi í kjölfarið og fari að selja á Amazon. Spurningin er bara hvað það tekur langan tíma og hvort að Forlagið verði næst inn eða síðast í röðinni.

Óli Gneisti Sóleyjarson

Námsskeið: Búðu til frjálsar rafbækur

Rafbókavefurinn býr til og dreifir gjaldfrjálst rafbókum á íslensku. Þetta eru bækur sem eru komnar úr höfundarétti og bækur sem dreift er með leyfi höfundarétthafa. Nú þegar eru 125 rafbækur aðgengilegar á vefnum.

Rafbókavefurinn vinnur bæði með léttefni og hámenningu. Af hámenningu má nefna Þjóðsögur Jóns Árnasonar, Hómerskviður, Þúsund og eina nótt og Heiðnu-Biblíuna.

Til að breyta prentaðri bók í rafbók þarf fyrst að mynda hana með sérstökum bókaskanna. Næst breytir forrit myndunum í texta með svokölluðum ljóslestri. Að lokum hjálpa sjálfboðaliðar við að lagfæra villur sem verða alltaf þegar mynd er breytt í texta (sérstaklega þegar um er að ræða sér-íslenska stafi).

Sjálfboðaliðar skrá sig í sérstakt vefkerfi þar sem þeir fá annars vegar mynd af blaðsíðu og hins vegar ljóslesinn texta sem þeir geta leiðrétta til samræmis við frumtextann.

Nú býður Rafbókavefurinn í samvinnu við Landsbókasafnið upp á námskeið þar sem væntanlegum sjálfboðaliðum verður kennt á vefkerfið.

Námskeiðin verða þrjú og eru haldin á Þjóðarbókhlöðunni. Hægt er að skrá sig á námskeiðin á Facebook.

Þriðjudagurinn 18. febrúar kl. 20:00

Þriðjudagurinn 25. febrúar kl. 20:00

Þriðjudagurinn 4. mars kl. 20:00

Allar bækur af Rafbókavefnum (30. janúar 2014)

Markmið Rafbókavefsins er ekki að fá sem flestar heimsóknir á vefinn heldur að dreifa rafbókum sem víðast. Til þess að auðvelda þessa dreifingu höfum við búið til þjappaða skrá með öllum rafbókum sem eru komnar á vefinn í dag.

En við biðjum þá sem hala niður þessari skrá að hjálpa okkur aðeins. Dreifið þessari færslu hér sem víðast til þess að hjálpa okkur að fá bæði dreifingu á efninu og sjálfboðaliða í dreifða prófarkalesturskerfið okkur.

Í dreifðum prófarkarlestri er farið yfir texta bóka sem hefur verið skannaðar inn og ljóslesnar (í ljóslestri er mynd af blaðsíðu breytt í texta). Allur ljóslestur, sérstaklega á íslenskum texta, er ófullkominn og krefst þess að mannsaugað fari yfir til að finna villur.

Til þess að hjálpa sjálfboðaliðum að læra á prófarkalesturskerfið okkar höfum við búið til kennslumyndband sem sýnir hvernig kerfið virkar (það er ekki sérstaklega flott en það ætti að vera gagnlegt). Eins og sést í myndbandinu þá er ekki sérstök þörf á sérstökum hæfileikum í íslensku til að finna villur enda er alltaf hægt að bera textann saman við mynd af blaðsíðu bókarinnar.

Endilega skráið ykkur á dreifða prófarkalesturskerfið. Þar má m.a. lesa yfir texta Hómerskviðna, Biblíunnar (frá 1908), þjóðsagnasafns Jóns Árnasonar og einnig ýmislegt léttmeti.

Að lokum er skráin með þeim 125 bókum sem birst hafa á Rafbókavefnum til þessa: RBV300114

Safnið í þessari skrá er ætlað fyrir Calibre rafbókaumsjónarforritið en það þarf þó ekki að hafa forritið uppsett (mæli þó sterklega með því). Allar bækurnar eru í bæði Epub og Mobipocket (Kindle) formi sem ætti að tryggja að allir geti lesið þær.

Neil Gaiman um bókasöfn, lestur og dagdrauma

Það er mikilvægt fyrir fólk að segja frá því hvaða málstað það styður, hvers vegna og hvort það gæti mögulega verið hlutdrægt. Einskonar yfirlýsingu um hagsmunatengsl. Þannig að ég ætla að ræða við ykkur um lestur. Ég ætla að segja ykkur að bókasöfn séu mikilvæg. Ég ætla að gefa í skyn að það að lesa skáldskap, ánægjulestur, sé eitt það mikilvægasta sem maður getur gert. Ég ætla að biðla til fólks á tilfinningaþrunginn hátt um að skilja – og taka þátt í að verja – bókasöfn og bókaverði.

Halda áfram að lesa

Ólafur Briem – efni með leyfi höfundarétthafa

Heiðinn siður á ÍslandiFrá því að prófarkalestursverkefni Rafbókavefsins hófst hefur það verið markmið okkar að bjóða upp á yfirlestur á bókum sem eru enn í höfundarétti með leyfi að dreifa textanum frjálst á netinu.

Í kvöld hefst yfirlestur á fyrsta textanum af þessu tagi en það er bókin Heiðinn siður á Íslandi eftir Ólaf Briem (endurskoðuð útgáfa 1985). Það er dætur Jóhanns Briem listmálara, sem var bróðir Ólafs, þær Katrín, Ólöf og Brynhildur sem veita leyfi fyrir verkinu. Í kjölfarið mun einnig fara í yfirlestur bókin Norræn goðafræði eftir Ólaf.

Þó efni bókanna sé tengt þá eru þær um margt ólíkar. Sú fyrrnefnda er fræðilegri í umfjöllun sinni en sú síðarnefnda er inngangsrit sem hefur verið mikið notað í kennslu í framhaldsskólum landsins frá því hún kom fyrst út árið 1940 (síðasta útgáfa var 1990).

Bækurnar hafa ekki verið endurútgefnar frá því að Ólafur lést og því má búast við að marga hlakki til að komast í þær og við hvetjum það fólk að skrá sig á Prófarkalestursvefinn.

Þetta er fyrsta höfundavarðabókin sem við lesum yfir en vonandi ekki sú síðasta. Þeir sem eiga réttinn á bókum, hvort sem það sé sínum eigin eða ættingja sinna, og vilja koma þeim í yfirlestur er hvatir til að hafa samband. Við getum að sjálfsögðu engu ráðið um hraða yfirlesturs enda fer það eftir virkni og áhuga sjálfboðaliða okkar.

H.C. Andersen rafbækur á alþjóðlega barnabókadeginum

Alþjóðlega barnabókadeginum er fagnað á afmælisdegi H.C. Andersen þann 2. apríl. Í ár mun Rafbókavefurinn (www.rafbokavefur.is) minnast dagsins með hjálp mennta- og menningarmálaráðherra klukkan 15:00 á aðalsafni Borgarbókasafnsins. Ráðherra mun birta bækurnar sem sjálfboðaliðar í dreifðum prófarkalestri Rafbókavefsins hafa lesið yfir.

Efni á Rafbókavefnum er öllum aðgengilegt án endurgjalds.

Dreifði prófarkalestur Rafbókavefsins er opið verkefni sem hver sem er getur tekið þátt í. Markmiðið er að gera aðgengilegar rafrænar útgáfur bóka sem eru komnar úr höfundaréttarvernd sem og bóka sem höfundar hafa veitt leyfi fyrir að verði rafvæddar.

Þó við leggjum í tilefni dagsins áherslu á Ævintýri og sögur H.C. Andersen er rétt að benda á að fleiri rafbækur sem sjálfboðaliðar okkar hafa lesið yfir verða birtar þennan dag:

Umhverfis jörðina á 80 dögum eftir Jules Verne
Fanginn í Zenda eftir Anthony Hope – þýdd af Ólafi Björnssyni
Lítil saga um herhlaup Tyrkjans á Íslandi árið 1627 eftir Ólaf Egilsson
Námur Salómons konungs eftir H. Rider Haggard – þýdd af Einari Kvaran
Sagan af Natan Ketilssyni eftir Gísla Konráðsson

Þetta er fyrsti áfanginn í dreifðum prófarkalestri Rafbókavefsins sem er rétt að komast af stað. Meðal efnis sem sjálfboðaliðar okkar eru að lesa yfir eru Hómerskviður og Þjóðsögur Jóns Árnasonar.

Prófarkarlestursvefur í prófun

BókaskanniFrá því að Rafbókavefurinn fór af stað hefur markmiðið verið að fá fleiri til að vera með. Nú er loksins komið að því að feta fyrstu skrefin í þessa átt.

Rafbókavefurinn hefur í dag til umráða bókaskanna sem var byggður af Svavari Kjarrval og Svavari Jóhannessyni. Markmiðið er að mynda bækur sem eru komnar út úr höfundavernd. Nú þegar hafa margar bækur verið myndaðar.

En það er bara hálfur sigur. Þegar búið að er að skanna bók þá þarf að setja skrárnar í gegnum ljóslestursforrit sem breytir myndum í texta. Því miður gera öll ljóslestursforrit mistök – sérstaklega á íslenskum texta. Það þarf mannsauga til að fara yfir textann.

Rafbókavefurinn hefur sett upp prófarkarlesturskerfi frá Gutenberg verkefninu. Það virkar þannig að hver sem er getur skráð sig og lagfært ljóslesinn texta. Það gengur þannig fyrir sig að prófarkarlesarinn fær annars vegar mynd af síðu og hins vegar texta sem hægt er að lagfæra. Markmiðið er að leiðrétti textinn verði eins og á síðunni.

Hér er rétt að leggja áherslu á að það á ekki að leiðrétta villur sem koma fyrir í á skönnuðu síðunni.

Á þessum tímapunkti er ekki verið að leita að sem flestum prófarkarlesurum. Vefurinn er ekki alveg tilbúinn og sérstaklega vantar upp á að íslenska kerfið og leiðbeiningarnar. Það er verið að leita að fólk sem vill prufa kerfið og benda á hluti sem eru óskýrir og mættu betur fara. Við erum að fara inn á síðasta prufustig áður en vefurinn verður „formlega“ opnaður.

Þegar fólk skráir sig á prófarkarlesturskerfið og er búið að staðfesta skráninguna fær það einnig aðgang að spjallborði sem er vel til þess fallið að ræða málin.