An diesem Vorhaben beteiligen sich die Herzog August Bibliothek Wolfenbüttel, die Bayerische Staatsbibliothek in München sowie die Berlin-Brandenburgische Akademie der Wissenschaften und insbesondere das Deutsche Textarchiv (DTA) in Berlin.
In den letzten Jahren haben vor allem wissenschaftliche Bibliotheken umfangreiche Bestände bilddigitalisiert. Mit Hilfe von OCR-Verfahren können aus diesen Bilddaten durchsuchbare Volltexte automatisch generiert werden. Der Mehrwert durch die Nutzung von digitalen Volltexten ist heute in vielen Wissenschaftsdisziplinen, insbesondere im Bereich der geisteswissenschaftlichen Forschung unverzichtbar. Bislang ist der Zugriff auf den elektronischen Volltext jedoch oft nicht oder nur in unzureichender Form möglich. Viele historische Bestände liegen in digitalisierter Form durch die „Verzeichnisse der im deutschen Sprachbereich erschienenen Drucke“ (kurz VD) vor. Resultate aus gängigen OCR-Verfahren waren bislang ungenügend. Insbesondere werden alte Drucktypen, vor allem Fraktur, nur schwerlich erkannt. Hier besteht Entwicklungsbedarf, der in OCR-D untersucht werden soll. Das Projekt mit einer Laufzeit von drei Jahren wird von der DFG unterstützt.
Keine Kommentare:
Kommentar veröffentlichen