Historiker, Germanisten und andere Geisteswissenschaftler haben es oft
mit schwierigen Forschungsobjekten zu tun: mit jahrhundertealten
Druckwerken, die sich nicht leicht entziffern lassen und die oft
schlecht erhalten sind. Viele dieser Dokumente sind inzwischen
digitalisiert – in der Regel abfotografiert oder eingescannt – und
stehen weltweit online zur Verfügung. Für die Forschung ist das ein großer Fortschritt.
Es gibt aber immer noch eine Herausforderung zu meistern: die
digitalisierten alten Schriften mit Texterkennungs-Software in eine
moderne Form zu bringen, die auch für Nicht-Fachleute und für Computer
lesbar ist. Auf diesem Gebiet haben Wissenschaftler vom Zentrum für
Philologie und Digitalität der Julius-Maximilians-Universität Würzburg
(JMU) für eine deutliche Weiterentwicklung gesorgt.
Mit OCR4all stellt das JMU-Forschungsteam der Fachwelt ein neues
Werkzeug zur Verfügung. Es setzt digitalisierte historische Drucke mit
einer Fehlerquote von weniger als einem Prozent in computerlesbaren Text
um. Und es bietet eine grafische Benutzeroberfläche, für deren
Bedienung kein Informatik-Fachwissen nötig ist. Bei bisherigen Tools
dieser Art war die Nutzerfreundlichkeit nicht sonderlich ausgeprägt,
meist musste mit Programmierbefehlen hantiert werden.
OCR4all steht der Öffentlichkeit auf der Plattform GitHub (mit Anleitungen und Anschauungsbeispielen) frei zur Verfügung: https://github.com/OCR4all
via https://idw-online.de/de/news714435
Keine Kommentare:
Kommentar veröffentlichen