Datenkorpora für Künstliche Intelligenz
DFG fördert den Aufbau von Datenkorpora zum Trainieren von Künstlicher Intelligenz (KI)
Der Ausschuss für Wissenschaftliche Bibliotheken und Informationssysteme (AWBI) der Deutschen Forschungsgemeinschaft (DFG) greift Bedarfe der wissenschaftlichen Community auf, die im Rahmen des Ideenwettbewerbs zur Unterstützung von KI in der Forschung durch Informationsinfrastrukture(interner Link) formuliert wurden. Mit der vorliegenden Ausschreibung können Projekte gefördert werden, in denen die Aufbereitung und zur Verfügungstellung von Daten als Grundlage für die (Weiter-)Entwicklung von KI für die Wissenschaft erfolgt.
Hintergrund
Methoden, die im Kontext der Künstlichen Intelligenz angewendet werden, wie zum Beispiel Maschinelles Lernen (ML) und Text- und Datamining (TDM), haben in weiten Teilen der digitalen Forschungspraxis sowie der wissenschaftlichen Informationsversorgung zunehmend Relevanz, etwa zur Analyse und Verarbeitung großer Datenmengen sowie zur Sprachverarbeitung und -generierung. Die Entwicklung und Anwendung dieser Methoden basieren auf vielfältigen, multimodalen Daten (Sachdaten, Messdaten, Verhaltensdaten, ein- und mehrsprachige Textdaten, Bilddaten, synthetische Daten, Digitalisate, Erschließungsdaten etc.), die in ihrer Qualität und Verfügbarkeit teilweise erheblich variieren und deren Aggregation und Bereinigung (data cleansing) teils beträchtliche Aufwände verursachen. Dementsprechend besteht in der Wissenschaft ein Bedarf an systematisch aufbereiteten, kuratierten, annotierten und aggregierten Datenkorpora.
Ziele der Ausschreibung
Die Förderung soll den Auf- und Ausbau qualitativ hochwertiger, umfangreicher Datenkorpora ermöglichen, um eine breite und wissenschaftlich fundierte Datenbasis für die (Weiter-)Entwicklung und Anwendung von Methoden der Künstlichen Intelligenz für die Wissenschaft zu schaffen. Der künftige Einsatz von Methoden und Anwendungen, die auf den geförderten Datenkorpora beruhen werden, kann dabei sowohl in der Forschung als auch innerhalb wissenschaftlicher Informationsinfrastrukturen liegen. Qualität, Umfang und Zusammensetzung der Datenkorpora müssen dabei auf die jeweiligen Bedarfe abgestimmt sein und unter der Prämisse stehen, über einzelne Forschungsfragen und Standorte hinweg Forschung zu ermöglichen oder die Informationsversorgung zu verbessern. Die Bereitstellung der Datenkorpora soll bewährte Prinzipien (FAIR, CARE) und Standards berücksichtigen und über vorhandene Informationsinfrastrukturen, insbesondere die Nationalen Forschungsdateninfrastruktur (NFDI), erfolgen.
Gegenstand der Förderung
Es wird der Auf- und Ausbau von Datenkorpora für Künstliche Intelligenz gefördert. Dabei können folgende Aspekte ebenfalls in Projekte einbezogen werden:
- Konzeption von Auswahl- und Qualitätskriterien sowie Umsetzung von Qualitätssicherungsmaßnahmen
- Nachnutzung und gegebenenfalls Anpassung sowie insbesondere Anwendung von Verfahren der Datenbereinigung, -aggregation, -annotation bzw. -kuration und -harmonisierung
- Verfügbarmachung und Bereitstellung des aufzubauenden Datenkorpus innerhalb bestehender wissenschaftlicher Informationsinfrastrukturen
Form der Antragstellung
Bitte reichen Sie Ihren Antrag in englischer Sprache ein, um eine internationale Begutachtung zu ermöglichen. Die Antragstellung richtet sich nach dem Leitfaden für die Antragstellung von Projektanträgen im Bereich „Wissenschaftliche Literaturversorgungs- und Informationssysteme“ (LIS) (DFG-Vordruck 12.0(interner Link)). Bitte beachten Sie zusätzlich die folgenden spezifischen Hinweise der vorliegenden Ausschreibung sowie das Merkblatt und den ergänzenden Leitfaden (DFG-Vordruck 12.1(interner Link)) des Förderprogramms „Informationsinfrastrukturen für Forschungsdaten“. Die nachfolgenden Hinweise korrespondieren mit dem LIS-Leitfaden.
Beschreibung des Vorhabens (LIS-Leitfaden Teil B)
Bitte gehen Sie bei der Beschreibung des Vorhabens insbesondere auf folgende Aspekte explizit ein:
- Erläutern Sie ausführlich, warum und inwiefern das aufzubauende Datenkorpus die (Weiter-) Entwicklung und/oder Anwendung von Methoden der Künstlichen Intelligenz in der Forschung oder deren Einsatz innerhalb von wissenschaftlichen Informationsinfrastrukturen unterstützt. Welche Datenangebote gibt es in diesem Bereich bereits? Welches Potenzial liegt in der Aggregation und/oder systematischen Aufbereitung der Daten zu einem kuratierten Korpus?
- Zeigen Sie den Bedarf an dem zu erstellenden Datenkorpus auf. Legen Sie einen oder mehrere Use Cases dar, aus denen deutlich wird, welche wissenschaftlichen Fragestellungen oder Verbesserungen der Informationsversorgung mittels KI durch das aufzubauende Datenkorpus ermöglicht werden. Welche Aufgaben und Tätigkeiten sind zentral um das Datenkorpus aufzubauen? Zeigen Sie auf, wie sichergestellt wird, dass das Korpus für den geplanten Verwendungszweck adäquat aufbereitet wird.
- Erläutern Sie ausführlich die Zusammensetzung des entstehenden Datenkorpus und begründen Sie die Auswahl: Welche Daten sollen ausgewählt werden? Aus welchen Quellen werden diese Daten zusammengeführt? Gehen Sie gegebenenfalls auch auf das Thema Bias ein und beschreiben Sie Ihren Umgang damit.
- Erläutern Sie die Kriterien, anhand derer Sie die Qualität der Daten bestimmen. Stellen Sie dar, inwiefern diese Kriterien gängigen Standards entsprechen. Inwiefern finden zum Beispiel die FAIR- und CARE-Prinzipien Anwendung?
- Beschreiben Sie die Zielqualität und das Format der Daten. Erläutern Sie, in welcher Qualität die Daten eingangs vorliegen und auf welches Zielniveau die Daten aufbereitet werden. Welche Maßnahmen werden unternommen und welche Methoden eingesetzt, um die Zielqualität zu erreichen?
- Beschreiben Sie ausführlich, wie das Datenkorpus längerfristig für die wissenschaftliche Nutzung verfügbar bleibt. Wenn das Datenkorpus nach Projektende absehbar Aktualisierungen unterliegt (z. B. weil eine Versionierung konzeptionell angelegt ist), beschreiben Sie, wie die fortwährende Kuration sichergestellt wird.
- Die Bereitstellung des Datenkorpus soll, sofern vorhanden, über fachlich einschlägige Informationsinfrastrukturen, zum Beispiel NFDI-Konsortien oder Fachinformationsdienste (FID), organisiert werden. In welcher Struktur (zentral oder dezentral) liegt das Korpus zum Abschluss des Vorhabens vor? Erläutern Sie, wie eine technische und/oder organisatorische Integration des Datenkorpus in bestehende Informationsinfrastrukturen hergestellt bzw. umgesetzt wird. Dabei sollen, wo immer möglich und sinnvoll, Kooperationen angestrebt werden.
Maßnahmen zur Erfüllung des Förderbedingungen und Umgang mit den Projektergebnissen (LIS-Leitfaden Teil B, 4.3)
- Das zu erstellende Datenkorpus ist mit einer geeigneten Lizenz zur kostenlosen Nutzung in der Wissenschaft zu versehen. Nennen Sie die gewählte Lizenz explizit in der Beschreibung des Vorhabens.
- Die Verfügbarkeit und der Zugang zum künftigen Datenkorpus ist für wissenschaftliche Nutzer*innen so offen wie möglich zu gestalten. Sofern kein Open Access gewährt werden kann, ist dies im Antrag detailliert zu begründen. Grundsätzlich ist aufzuzeigen, wie die Zugriffsmodalitäten für Nutzer*innen gestaltet sind.
Bitte bestätigen Sie, dass Sie folgende Maßnahmen ergreifen werden:
- Signifikante Teilergebnisse werden bereits nach dem ersten Projektjahr veröffentlicht.
- Das Datenkorpus wird sowohl in fachlichen als auch in überfachlichen Verzeichnissen, Registries oder ähnlichem, auffindbar gemacht.
- Die Dokumentation des Datenkorpus erfolgt gemäß einschlägiger Qualitätsstandards.
- Bestätigen Sie explizit, dass eine Doppelförderung ausgeschlossen ist und dass der Auf- oder Ausbau des Datenkorpus nicht bereits in anderen Vorhaben geplant ist oder durchgeführt wird.
Anlagen (LIS-Leitfaden Teil C)
Dem Antrag können bis zu drei Letters of Intent von Wissenschaftler*innen aus Deutschland beigefügt werden, aus denen hervorgeht, dass das aufzubauende Datenkorpus für die Forschung in möglichst vielfältiger Weise relevant ist. Dies kann sowohl einzelne Fachdisziplinen als auch mehrere Fachbereiche betreffen. Soll das Datenkorpus für die Verbesserung der Informationsversorgung mittels KI genutzt werden, können entsprechende Letters of Intent von Infrastruktureinrichtungen und/oder wissenschaftlichen Nutzer*innen der Zielanwendung beigelegt werden.
Es wird empfohlen, sowohl fachwissenschaftliche Personen als auch Personen aus wissenschaftlichen Infrastrukturen am Vorhaben zu beteiligen. Falls kein*e Wissenschaftler*in als Antragsteller*in auftritt, wird eine beratende Beteiligung von Wissenschaftler*innen angeraten.
Beantragbare Mittel
In dieser Ausschreibung können Sach- und Personalmittel sowie Mittel für projektspezifische Workshops gemäß dem Leitfaden für die Antragstellung von Projektanträgen im Bereich „Wissenschaftliche Literaturversorgungs- und Informationssysteme“ (LIS) (DFG-Vordruck 12.0(interner Link)) bis maximal 400 000 Euro beantragt werden. Mittel für Investitionen können nicht beantragt werden. Der Finanzrahmen der Ausschreibung beträgt bis zu 8 Millionen Euro.
Dauer
Die Laufzeit eines Projekts kann maximal 2 Jahre betragen.
Frist
Reichen Sie Ihren Antrag in englischer Sprache bitte bis spätestens 30. Juli 2025 bei der DFG ein. Zur Erfassung der antragsbezogenen Daten und zur sicheren Übermittlung von Dokumenten erfolgt die Antragstellung ausschließlich über das elan-Porta(externer Link).
Handelt es sich um Ihren ersten Antrag bei der DFG, beachten Sie, dass Sie sich vor der Antragstellung im elan-Portal registrieren müssen. Ohne Registrierung bis zum 23. Juli 2025 ist eine Antragstellung nicht möglich. Die Bestätigung der Registrierung erfolgt in der Regel bis zum darauffolgenden Arbeitstag.
Eine unverbindliche Absichtserklärung wird bis zum 28. Mai 2025 erbeten. Bitte nutzen Sie dazu das unter “Weiterführende Informationen“ verlinkte Formular.
Alle zukünftigen Projektnehmer*innen werden verpflichtend zur Teilnahme an einem gemeinsamen Auftaktworkshop eingeladen. Dieser findet im 1. Halbjahr 2026 statt und dient der Vernetzung und dem Austausch der Projekte untereinander.
Weiterführende Informationen
Eine virtuelle Informationsveranstaltun(externer Link) findet am 7. Mai 2025 von 10 bis 11.30 Uhr statt.
Bitte nutzen Sie für Ihre unverbindliche Absichtserklärung das Formular unter diese(externer Link) Link.
Begutachtungskriterien im Bereich LIS finden Sie hier: DFG-Vordruck 10.21(interner Link)
Bitte nutzen Sie zur Einreichung der Anträge das elan-Porta(externer Link) und beachten Sie die Merkblätter DFG-Vordruck 12.0(interner Link) und DFG-Vordruck 12.1(interner Link).
Ansprechpersonen in der DFG-Geschäftsstelle,
Gruppe Wissenschaftliche Literaturversorgungs- und Informationssysteme
Fachlich:
Dr. Stefanie Mewes, Tel. +49 228 885-2218, stefanie.mewes@dfg.d(externer Link)
Dr. Matthias Katerbow, Tel. +49 228 885-2358, matthias.katerbow@dfg.d(externer Link)
Formal:
Clara Grau, Tel. +49 228 885-2473, clara.grau@dfg.d(externer Link)
Datenschutz
Die Deutsche Forschungsgemeinschaft e. V. (DFG) nimmt den Schutz personenbezogener Daten und deren vertrauliche Behandlung sehr ernst. Bitte beachten Sie daher die Datenschutzhinweise der DF(interner Link). Bitte denken Sie daran, dass Sie Daten Dritter nur übermitteln sollten, wenn die dafür erforderliche datenschutzrechtliche Legitimation besteht. Bevor Sie Daten Dritter an uns weiterleiten, denken Sie bitte auch daran, die Datenschutzhinweise der DFG vorher an die betroffenen Personen weiterzuleiten. Besteht ein berechtigtes Interesse, Personen nicht vorab zu informieren (z. B. aus Gründen der Geheimhaltung, der Nominierung oder eines Wahlvorschlags), dann sollte eine Information spätestens mit der Veröffentlichung erfolgen.