Het is weer zover! Ik neem u aan de hand om uw digitaliseringstraject goed op te starten. Omdat ik regelmatig de vraag krijg wat OCR nu eigenlijk is, wil ik vandaag dieper in gaan op het kiezen tussen OCR en geen OCR.
Wat is OCR?
Laten we beginnen met een introductie. Wat is OCR nu precies? OCR is de afkorting voor Optical Character Recognition. Met behulp van Optical Character Recognition is het mogelijk om een tekst op papier om te zetten naar een tekst op uw computerscherm. OCR-software kan pas gebruikt worden, nadat eerst een goede digitale image van de tekst is gemaakt. Hoe hoger de kwaliteit van de scan, des te beter de tekst vervolgens door de computer herkend kan worden.
Wanneer u er voor kiest om te gaan digitaliseren, moet u er ook over nadenken wat er gebeurt als straks alles digitaal is. Want digitaliseren is stap één, maar als u alles gescand heeft bent u er nog niet. Een scan van een papier is niets meer dan een image. De tekst die op zo’n image staat, is daarmee nog niet terug te vinden. Wanneer uw dossiers zijn opgebouwd met geschreven tekst, zult u wel goed moeten nadenken over OCR. Geschreven tekst is natuurlijk veel moeilijker te indexeren dan getypte tekst.
Meta Tags
Met OCR maakt het niet uit of u gestructureerd opslaat of niet. De OCR technologie brengt een laag over iedere image, waardoor u snel terug kunt vinden. U kunt dan meta tags meegeven aan een dossier of image waar u kunt zoeken op bijvoorbeeld naam, datum en inhoud. Als u zich afvraagt wat een meta tag is; dat zijn woorden die u toekent die informatie over het document weergeven.
Let wel op; veel documenten bevatten natuurlijk gelijke woorden. Ik zal u een voorbeeld geven: als u zoekt op “Jan Goosens” komen alle documenten tevoorschijn waarin deze woorden te vinden zijn. Met bepaalde zoekwoorden zult u dus een bulk aan informatie krijgen, en dan moet u nog eens het goede document daaruit gaan filteren. Wat ik hiermee wil aanduiden is dat u goed moet nadenken over uw zoekwoorden, want uiteindelijk is het doel natuurlijk dat u minder tijd kwijt bent met zoeken en niet het tegenovergestelde!
Dit was even een korte uitleg over OCR, waarmee ik hoop een aantal onduidelijkheden te hebben weggenomen. Is het voor u nog steeds niet helemaal duidelijk? Stel me gerust uw vraag!