Zum Hauptinhalt springen

Studierendenprojekte

Automatisierte Dokumenten Erkennung

Im Studiengang Informationstechnik & System-Management 2020 wurde

eine Software zur automatisierten Dokumentenerkennung entwickelt. Ziel dieses Projektes

war es, sämtliche Dokumente zu klassifizieren, ohne oder mit geringt möglichen

Benutzerinput.

Die Herausforderung hierbei war, dass man sämtliche Dokumente, unabhängig von der
Sprache erkennen soll und dessen Namen so wie Dokumenttyp bestimmen soll.
Zur Texterkennung wurde vorrangig mit der Software Tesseract gearbeitet, da diese
mittels OCR den Text in sämtlichen Bildern erkennt, solange diese die Richtige
Orientierung und der Text in einer Tesseract bekannten Sprache geschrieben ist.
Nachdem OCR wurden anhand verschiedenen Algorithemen, Bewertungsmetriken
implementiert. Mittels dieser Bewertungsmetriken war es uns möglich einen sinnhaften
Namen für fast sämtliche getestete Dokumente zu finden ohne jeglichen Benutzerinput.
Um den Dokumententyp zu bestimmen wurde ein struktueller Vergleich zwischen dem
eingescannten Dokument und unseren bereits bekannten Mustern gemacht. Falls ein
Dokument nicht erkannt wurde, wandelt unsere Software dieses vollautomatisch in ein
wiederverwendbares Muster um, um dieses für spätere Dokumente des selben Types
verwenden zu können.
Die Bestimmung des Dokumententyps war ebenfalls ein voller Erfolg. So erzielte unsere
Software eine beinahe 100% Trefferquote bei sämtlichen getesteten Dokumenten.

Facts:
Typ: Bachelorprojekt
Studiengang: Bachelor Informationstechnik & System-Management

Dokumenten Erkennung

Foto: FH Salzburg