Die Herausforderung hierbei war, dass man sämtliche Dokumente, unabhängig von der
Sprache erkennen soll und dessen Namen so wie Dokumenttyp bestimmen soll.
Zur Texterkennung wurde vorrangig mit der Software Tesseract gearbeitet, da diese
mittels OCR den Text in sämtlichen Bildern erkennt, solange diese die Richtige
Orientierung und der Text in einer Tesseract bekannten Sprache geschrieben ist.
Nachdem OCR wurden anhand verschiedenen Algorithemen, Bewertungsmetriken
implementiert. Mittels dieser Bewertungsmetriken war es uns möglich einen sinnhaften
Namen für fast sämtliche getestete Dokumente zu finden ohne jeglichen Benutzerinput.
Um den Dokumententyp zu bestimmen wurde ein struktueller Vergleich zwischen dem
eingescannten Dokument und unseren bereits bekannten Mustern gemacht. Falls ein
Dokument nicht erkannt wurde, wandelt unsere Software dieses vollautomatisch in ein
wiederverwendbares Muster um, um dieses für spätere Dokumente des selben Types
verwenden zu können.
Die Bestimmung des Dokumententyps war ebenfalls ein voller Erfolg. So erzielte unsere
Software eine beinahe 100% Trefferquote bei sämtlichen getesteten Dokumenten.
Facts:
Typ: Bachelorprojekt
Studiengang: Bachelor Informationstechnik & System-Management