Follower

Freitag, 11. März 2016

Koordinierungsprojekt zur Weiterentwicklung von Verfahren der OCR (OCR-D)

OCR-D ist ein Koordinierungsprojekt, das auf die Weiterentwicklung von Verfahren der Optical Character Recognition (OCR) für historische Drucke ausgerichtet ist. Dabei werden Workflow und Verfahren der automatischen Texterkennung untersucht, beschrieben und ggf. optimiert. Ein wesentliches Ziel ist es, die Transformation von Drucken des deutschsprachigen Raums aus dem 16. bis 19. Jahrhundert in elektronischen Volltext konzeptuell vorzubereiten.

An diesem Vorhaben beteiligen sich die Herzog August Bibliothek Wolfenbüttel, die Bayerische Staatsbibliothek in München sowie die Berlin-Brandenburgische Akademie der Wissenschaften und insbesondere das Deutsche Textarchiv (DTA) in Berlin.

In den letzten Jahren haben vor allem wissenschaftliche Bibliotheken umfangreiche Bestände bilddigitalisiert. Mit Hilfe von OCR-Verfahren können aus diesen Bilddaten durchsuchbare Volltexte automatisch generiert werden. Der Mehrwert durch die Nutzung von digitalen Volltexten ist heute in vielen Wissenschaftsdisziplinen, insbesondere im Bereich der geisteswissenschaftlichen Forschung unverzichtbar. Bislang ist der Zugriff auf den elektronischen Volltext jedoch oft nicht oder nur in unzureichender Form möglich. Viele historische Bestände liegen in digitalisierter Form durch die „Verzeichnisse der im deutschen Sprachbereich erschienenen Drucke“ (kurz VD) vor. Resultate aus gängigen OCR-Verfahren waren bislang ungenügend. Insbesondere werden alte Drucktypen, vor allem Fraktur, nur schwerlich erkannt. Hier besteht Entwicklungsbedarf, der in OCR-D untersucht werden soll. Das Projekt mit einer Laufzeit von drei Jahren wird von der DFG unterstützt.

Keine Kommentare: