Mithilfe von OCR-Verfahren können aus Image-Digitalisaten automatisch maschinenlesbare Volltexte generiert werden. Die Nutzung von digitalen Volltexten ist in vielen Wissenschaftsdisziplinen und insbesondere im Bereich der geisteswissenschaftlichen Forschung heute unverzichtbar. Die Deutsche Forschungsgemeinschaft (DFG) fördert beispielsweise mit den im deutschen Sprachraum erschienenen Drucken des 16., 17., und 18. Jahrhunderts (VD 16, VD 17, VD 18) die Erstellung von Digitalisaten historisch bedeutender Textbestände. Die Förderinitiative zur Verbesserung von OCR zielt nun darauf ab, standardisierbare Prozesse zu etablieren und die Erstellung von Referenzkorpora zu unterstützen, um die Volltexterstellung auf Basis dieser Image-Digitalisate zu optimieren.
Die gegenwärtigen infrastrukturellen Herausforderungen bei der automatischen Texterkennung liegen weniger im Bereich der technischen Verbesserung einzelner OCR-Engines als vielmehr im Mangel an einschlägigem Trainingsmaterial für diese Engines (Referenzkorpora und lexikalische Ressourcen), in der Uneinheitlichkeit der Workflows zur Volltextgenerierung, in fehlender Interoperabilität von Prozessen und Formaten sowie in ungenügender Nachvollziehbarkeit der Genauigkeitsraten von OCR-Ergebnissen. Referenzkorpora ebenso wie Werkzeuge und Prozesse müssen frei zugänglich, nachnutzbar und transparent gestaltet sein, um langfristige Verbesserungen im Sinne der wissenschaftlichen Nutzbarkeit von Volltexten zu ermöglichen.
Die zweistufig angelegte Ausschreibung zielt darauf, Verfahren der Volltextgenerierung zu verbessern und, wo nötig, zu vereinheitlichen. Dabei soll in einer ersten Phase eine Koordinierungsstruktur geschaffen werden. Im Antrag für das Koordinierungsprojekt sollen die thematischen Module und Aufgabenbereiche eines koordinierten Vorgehens beschrieben werden. Auf dieser Basis können dann im Rahmen einer offenen Ausschreibung Projektanträge für die Umsetzung der einzelnen Module (zweite Phase) eingereicht werden. Der Antrag für das Koordinierungsprojekt soll darüber hinaus ein Konzept für die Interaktion der Module beinhalten.
Die DFG ruft nun Einrichtungen mit Erfahrung auf diesem Gebiet dazu auf, Anträge für das Koordinierungsprojekt einzureichen.
Der Antrag auf Koordinierung muss folgende Aspekte umfassen:
Bei der Konzeption der einzelnen Themen- und Aufgabenbereiche sollte berücksichtigt werden, dass die Image-Digitalisate der VDs sowie Drucke des 19. Jahrhunderts als zentrale Materialien gelten. Folgende Felder und Problemstellungen sollten adressiert werden, wobei auf relevanten Erfahrungen und Ergebnissen aus dem nationalen und internationalen Kontext aufzubauen ist:
Aufgaben des Koordinierungskonsortiums während der Ausschreibungsphase für die Module (zweite Phase) und der Laufzeit der geförderten Projekte bestehen in:
Antragsberechtigt bezogen auf den Koordinierungsantrag sind alle in den Förderprogrammen von LIS antragsberechtigten Personen und Einrichtungen. Empfehlenswert ist die Antragstellung durch ein eng kooperierendes Konsortium einschlägiger Informationsinfrastruktureinrichtungen. Es wird geraten, die Größe des Konsortiums auf eine nicht allzu hohe Anzahl an Beteiligten zu beschränken. Am Koordinierungsgremium sollten auch Vertreterinnen und Vertreter der Wissenschaft in geeigneter Weise beteiligt werden. Die am erfolgreichen Koordinierungsantrag beteiligten Einrichtungen sind ebenfalls zu einer Antragstellung im Rahmen der Ausschreibung der einzelnen Module berechtigt. Eine Förderung des Koordinierungsprojektes kann zunächst für bis zu drei Jahre bewilligt werden. Eine Verlängerung ist möglich.
Für die Antragstellung gelten die Bedingungen des Merkblatts „Werkzeuge und Verfahren des wissenschaftlichen Informationsmanagements“ (12.13). Bitte legen Sie dem Antrag den „Leitfaden für die Antragstellung – Projektanträge im Bereich Wissenschaftliche Literaturversorgungs- und Informationssysteme“ zugrunde (12.01).
Absichtserklärungen, die die Einreichung von Anträgen ankündigen, werden bis 1. September 2014 erbeten. Die Anträge für das Koordinierungsprojekt werden bis 1. November 2014 erbeten.
Am 12. und 13. März 2014 fand in Bonn ein Workshop zum Thema „Verfahren zur Verbesserung von OCR-Ergebnissen“ statt. Die Ergebnisse des Workshops liegen dieser Ausschreibung zugrunde:
Das Merkblatt „Werkzeuge und Verfahren des wissenschaftlichen Informationsmanagements“ (12.13) und der Leitfaden für die Antragstellung – Projektanträge im Bereich „Wissenschaftliche Literaturversorgungs- und Informationssysteme“(12.01) sind zu finden unter:
Ansprechpartnerinnen in der DFG: