next up previous contents
Next: Evaluatie / Conclusie, blok Up: Onderzoek resultaat Previous: Off-line herkenning   Contents


Off-line herkenning problemen

Problemen die je kan tegenkomen bij het off-line proberen te herkennen van handschrift zijn op verschillende manieren in te delen. Ik noem hier een aantal basis problemen en zet die in volgorde van het verwerkings proces.

Als eerste is er de invoer. De invoer moet van een mens komen. Daarbij komen de volgende problemen naar voren: - Iedereen schrijft anders.
- Waar wordt mee geschreven (pen, potlood, viltstift).
- Waarop wordt geschreven (schoon wit papier, kranten papier met tekst etc..).
- Hoe wordt er geschreven (netjes, recht, zelfde handschrift, of juist scheef, dik, dun etc..).

Na de invoer (de tekst op een ondergrond) moet de invoer gedigitaliseerd worden. - Welke kwaliteit heeft de digitaliseer fase tot resultaat(de resolutie en de kleur). - Op welke manier is de invoer gedigitaliseerd (is een pagina bijvoorbeeld recht gescand, of overbelicht).

Deze twee onderdelen kunnen al heel veel invloed hebben op het resultaat van handschrift herkenning. Tot het proces zullen dan ook zaken behoren als het beoordelen van de kwaliteit van de invoer en het verwerken van de invoer. In een eerste ontwikkelings fase kunnen deze problemen echter gemeden worden door uit te gaan van een minimale kwaliteit vereiste.

In het herkennings proces komt een groot probleem naar voren: hoe worden woorden of letter tekens herkend. Deze vraag is erg logisch, want herkenning is het doel van het programma, maar denk er nog eens over na. Namelijk:
- Hoe wordt een woord herkend? Alleen al de locatie/afbakening van een woord.
- Wat is een woord op basis van een digitaal bestand.
- Is een woord een reeks letters?
- Wat is dan een letter?

Hiermee bedoel ik voornamelijk: hoe wordt door het programma bepaald wat een woord is. Een woord bestaat uit letters, maar letters kunnen aan elkaar geschreven zijn of los van elkaar. Als bekend zou zijn dat alle letters los van elkaar zouden zijn geschreven en dat de afbakening van woorden komt doordat er dan en grotere ruimte tussen 2 woorden zit, dan zou het al een stuk eenvoudiger worden om een woord of een letter te kunnen localiseren en daarna te herkennen.

Stel dat een woord locatie herkend is, hoe moet er nu een woord herkend worden? Dit is het moeilijkste punt in het programma. Vele onderzoeken zijn er al geweest, sommigen maakten gebruik van neurale netwerken, anderen van verborgen markov modellen en dat in combinatie met of zonder een database met woorden.

Uiteindelijk zou een woord herkend kunnen zijn, onderzoeksresultaten geven weer dat er 95kan zijn, of soms nog zelfs hoger. Maar vele factoren spelen een rol en die moeten allemaal uitgesloten worden, en dan heb ik nog niet eens alle problemen genoemd, maar een simpele weergave gegeven van de eerste problemen die tegengekomen zullen worden bij het tekst herkennen.


next up previous contents
Next: Evaluatie / Conclusie, blok Up: Onderzoek resultaat Previous: Off-line herkenning   Contents
R.M.Morrien 2002-02-11