Dieses Bild hat keinen alternativen Text.
iStock/ SetsukoN

Digitale Kuratierung

Die Kuratierung von digitalen Inhalten ist ein komplexer und zeitintensiver Prozess. Wissensarbeiterinnen und Wissensarbeiter versuchen dabei, Inhalte aus unterschiedlichsten Quellen zusammen zu tragen und dabei neue Wissenserkenntnisse zu gewinnen. Dabei müssen unter Zeitdruck immer mehr Inhalte in immer kürzerer Zeit für digitale Publikationen aufbereitet werden.

Das Qurator-Projekt möchte dabei unterstützen: Durch Automatisierung sollen digitale Inhalte hochwertiger, effizienter und kostengünstiger erstellt werden. Dabei kommen intelligente Methoden und Verfahren auf Grundlage generischer Sprach- und Wissenstechnologien, Maschinellem Lernen (ML) und Künstlicher Intelligenz (KI) zum Einsatz.

Prof. Dr. Adrian Paschke, Leiter des Data Analytics Centers (DANA) bei Fraunhofer FOKUS, erklärt im Interview, wie diese Technologien genau eingesetzt werden:

Herr Paschke, woran genau arbeiten Sie im Qurator-Projekt?

Unsere vorangegangenen Forschungsarbeiten in den BMBF-geförderten Projekten »Corporate Semantic Web« und »Corporate Smart Content« haben deutlich gemacht, dass der Erfolg wissensbasierter Systeme als produktives und wirtschaftliches System im Unternehmen von der Verfügbarkeit und insbesondere auch von der Wiederverwendung kuratierten, qualitativ hochwertigen Wissens abhängig ist. Daher werden im Teilvorhaben »Corporate Smart Insights« von Fraunhofer FOKUS Verfahren und Technologien erforscht, die sich auf Dienste und Workflows zur Wissensextraktion, Analyse, Kuratierung und wertschöpfenden Nutzung von Corporate Smart Insights im Unternehmenskontext, d. h. für sogenannte »Insight-driven Organisations«, konzentrieren. Fraunhofer FOKUS erforscht und entwickelt Basisinfrastrukturen und -dienste zur Erstellung, Extraktion, Analyse und Verwaltung von semantischem Wissen und zur Nutzung in digitalen Kuratierungsworkflows von Unternehmen.

Die technologische Innovation ist eine sogenannte »Insight Driven Organisation« (IDO), welche nicht nur daten-getrieben ist, sondern auch dynamisch Wissen in Form von Kenntnissen und Einsichten, den sogenannten »Corporate Smart Insights«, lernt, teilt und vielfach nutzbar macht. Eine IDO bettet semantisches Unternehmenswissen in maschinelles Lernen (Machine Learning), Schlussfolgerungen (AI Reasoning) und die aus Analysen (Analytics) von Daten und Inhalten (Smart Content) gewonnenen Einsichten (Smart Insights) direkt in die täglichen Entscheidungsprozesse (Smart Decisions) und Aktionen ein. Damit werden diese zu wiederverwendbaren explizitem Unternehmenswissen, das für KI-Unterstützung genutzt werden kann. Die digitale Kuratierung von »Corporate Smart Insights« im Sinne einer semantische Wissensmodellierung und Repräsentation im »Corporate Semantic Web« (CSW) ist hierfür eine technische Basistechnologie und dient als Grundlage für die Verwendung von Wissen in der Künstlichen Intelligenz (KI).

Im Projekt kooperieren zehn Partner. Was ist das Besondere an dieser Kooperation und warum ist sie nötig?

Ziel von QURATOR ist es, einzelne Kuratierungstätigkeiten mittels Verfahren aus der Künstlichen Intelligenz (KI) hochwertiger, effizienter und kostengünstiger zu gestalten und in praxisnahe Branchenlösungen zu überführen. Gemeinsam entwickeln die zehn Partner in dem vom Bundesministerium für Bildung und Forschung (BMBF) geförderten Forschungsprojekt QURATOR eine neuartige Technologieplattform, die Wissensarbeiter*innen und Redakteur*innen bei der Kuratierung digitaler Inhalte unterstützen soll. Alle Bündnispartner verfügen über langjährige und umfassende Kernkompetenzen in den Technologiebereichen Künstliche Intelligenz, Sprach- und Wissenstechnologien und Maschinelles Lernen, in der Konzipierung und Umsetzung von Lösungen für kuratierungsintensive Anwendungen in den Branchen Kultur/ Wissenschaft, Medien/ TV, Gesundheit/ Medizin und Industrie/ Handel ebenso wie in der Entwicklung großer, nachhaltiger Softwaresysteme. Damit kommen technologische, anwendungs- und branchen-spezifische Kernkompetenzen in einem regionalen Wachstumskern zusammen, der in der Region Berlin-Brandenburg das Thema digitaler Kuratierungstechnologien entwickelt und sowohl regional als auch international diesen Wachstumskern vernetzt, u. a. durch die jährliche Qurator-Konferenz und die Einbindung in überregionale Aktivitäten, wie z. B. die Nationale Forschungsdateninfrastruktur (NFDI) oder das European Language Grid (ELG).

Was bringt Fraunhofer FOKUS in das Projekt ein?

Im Wachstumskern verbindet das Data Analytics Center (DANA) am Fraunhofe FOKUS Data Analytics bzw. Maschinelles Lernen, Künstliche Intelligenz (KI) und semantische Wissenstechnologien, um Daten und Informationen in »Corporate Smart Insights« zu verwandeln. Durch Datenanalyse und Wissensextraktion gewonnene Einsichten und Erkenntnisse werden als neue Wissensartefakte in Unternehmenswissensgraphen (Enterprise Knowledge Graphs) semantisch kuratiert. Als wertvolles Unternehmenswissen für KI-unterstützte Entscheidungen und Aktionen können sie vielfach wiederverwendet werden.

In das Projektkonsortium eingebracht werden langjährige Expertise im Bereich semantischer Wissensrepräsentationsstandards und vertiefte Kompetenzen im Bereich der Kombination aus symbolischer und sub-symbolischer KI im Bereich semantischer Annotation, Anreicherung und Integration, semantischen Modellierung und Erlernen von Wissen und Methoden für die Validierung, Plausibilisierung und Erklärung mittels KI-Wissen. Dies sorgt für die nötige Künstliche Intelligenz bei der Auswertung und Fusion von Daten (Smart Data) und unterstützt die Nutzung der erzielten Erkenntnisse (Smart Insights) in verschiedenen Analytics- und KI-Anwendungen.

Wie kann Maschinelles Lernen und Künstliche Intelligenz bei der Wissensgewinnung helfen?

Mittels KI-Unterstützung in der digitalen Kuratierung gilt es das Unternehmenswissen zu heben und in KI-unterstützten Geschäftsanwendungen und dem Wissensmanagement zu nutzen – und zwar nicht jedes Mal von Neuem durch sehr aufwändige manuelle Analyse der »Rohdatenbasis«, sondern mit fortlaufend erlernten Kenntnissen und Einsichten. Die Vision einer Insight-driven Organisation steht für dieses Ziel.

Die im Fraunhofer FOKUS Teilprojekt bearbeiteten Fragestellungen reichen z. B. von der Wissensextraktion mittels maschinellen Lernens, Textanalyse- und Topic Mining-Methoden, über Kuratierungsdienste für semantische Wissensartefakte bis hin zur Gewinnung und Rückeinspeisung gewonnener Erkenntnisse in semantische Unternehmenswissensgraphen. Hierfür wird neben den Kuratierungsdiensten auch ein Kuratierungsworkflowansatz für deren Nutzung entwickelt. Das kuratierte KI-Wissen trägt maßgeblich zur Steigerung der funktionalen Güte, Dateneffizienz, Plausibilisierung und Absicherung von KI-gestützten Funktionen in betrieblichen Informationssystemen und Geschäftsprozessen bei.

Können Sie uns ein Beispiel für eine aktuelle Entwicklung geben, die aus dem Qurator-Projekt heraus entstanden ist?

Wissensextraktionsdienste unterstützen die maschinelle Auswertung einer Vielzahl komplexer Dokumente. Ein konkretes technologisches Beispiel ist unsere Economic-Insights-Applikation. Diese wertet unter Verwendung unserer digitalen Kuratierungsdienste die Geschäftsberichte deutscher Aktiengesellschaften vollautomatisch aus und überführt darin enthaltene Prognosen zur ökonomischen Entwicklung in einen Wissensgraphen. Dazu werden die mehrere Hundert Seiten umfassenden Dokumente analysiert, nach relevanten Aussagen gefiltert und diese Aussagen in ein maschinenlesbares Format überführt. Die so entstehende Wissensbasis ermöglicht den direkten Zugriff auf die relevanten Fakten aus einer großen Dokumentenmenge und ermöglicht dadurch eine effiziente Recherche und komplexe Auswertungen.

Ein konkretes Anwendungsbeispiel ist das Panqura-Projekt (»Eine Technologieplattform für mehr Informationstransparenz in Krisenzeiten«), welches die digitalen Kuratierungstechnologien aus Qurator in einem Anwendungskontext anwendet. Wer sich in Krisenzeiten zuverlässig informieren will, sieht sich im Netz mit einer Flut an Informationen unklarer Herkunft konfrontiert. Die gezielte Verbreitung von Fake News oder betrügerischen Hilfsangeboten erschwert diese Lage zusätzlich. Dieser Herausforderung haben sich ausgewählte Partner aus dem Qurator-Bündnis im Projekt Panqura angenommen. Auf Basis KI-basierter Kuratierungstechnologien entsteht eine Technologieplattform für mehr Informationstransparenz in Krisenzeiten.

Gerade fand die Qurator-Konferenz 2022 statt. Wie war das Interesse an digitalen Kuratierungstechnologien und welche Neuigkeiten gibt es?

Die dritte Qurator Conference bot vom 19. bis 23. September 2022 ein Forum für den Einsatz digitaler Kurationstechnologien in Anwendungsbereichen wie Medien, Journalismus, Logistik, Kulturerbe, Gesundheitswesen und Biowissenschaften, Industrie. Von besonderer Bedeutung waren Beiträge, die den angewandten Einsatz digitaler Kurationstechnologien und -tools in domänenspezifischen Anwendungsfällen demonstrieren und die traditionellen Grenzen zwischen Disziplinen wie Künstliche Intelligenz und Semantic Web, Datenanalyse und maschinelles Lernen, Informations-/ Inhalts- und Wissensmanagementsysteme, Information Retrieval, Wissensentdeckung und Computerlinguistik überbrücken. Das umfangreiche einwöchige Programm umfasste dazu unterschiedliche thematische Sessions in denen eine Vielzahl an Expertinnen und Experten zu verschiedenen technologischen Entwicklungen, Anwendungen und Werkzeugen sowie Forschungsergebnissen im Bereich der digitalen Kuratierung referierten und auf Panels diskutierten.

Die hybride Konferenz fand sowohl vor Ort am Fraunhofer FOKUS und Naturkundemuseum in Berlin, als auch online statt und traf mit über 235 angemeldeten Teilnehmerinnen und Teilnehmern auf ein breites Interesse. Die Teilnehmenden konnten dabei neueste Entwicklungen, z. B. aus dem Bereich sehr großer Sprachmodelle, und viele neue Anwendungsmöglichkeiten digitaler Kuratierungstechnologien, wie u. a. im Bereich des neuen Digital Service Acts im Medienbereich oder im multi-modalen Story Telling im Kulturbereich, kennen lernen und über den Einsatz von KI in digitalen Kuratierungsprozessen diskutieren.

Wie geht es weiter im Projekt?

Aktuell werden die entwickelten Technologien, Methoden und Dienste für die digitale Kuratierung in verschiedenen weiterführenden Projekten zusammen mit Kunden, als auch in weiterführenden Forschungsprojekten, wie u. a. Panqura und NFDI, zur Anwendung gebracht. Der entstandene Wachstumskern Qurator wird in der Region von den beteiligten Partnern als Netzwerk weitergeführt und international vernetzt, wie beispielsweise mit dem European Language Grid.

Welche Entwicklung wünschen Sie sich persönlich? Welche Technologie würde ihr Leben erleichtern?

Das Web ist mitten in einem neuen Paradigmenwechsel begriffen, von einem passiven World Wide Web, in dem Anbieter Web-Inhalte erzeugen und zum Abruf als HTML-Dokumente anbieten, hin zu einem aktiven alles durchdringenden Pragmatic Web 4.0, welches intelligente multi-modale Inhalte (smart content, smart insights) über pragmatische Internetdienste (z. B. end-user programable intelligent AI agents) mit neuartigen Nutzerschnittstellen (smart devices) und Dingen (smart things) verbindet. In Ergänzung zum rein syntaktischen Web, also die Informationsdarstellung als Web-Dokumente für Menschen, und dem semantischen Web mit seinem Fokus auf der semantischen Bedeutung von Webdaten und dem Lernen aus Daten durch KI Maschinen, steht beim sogenannten »Pragmatic Web« folgende Frage im Vordergrund: »Warum und wie nutzen Menschen und KI-Maschinen Informationen im Web interaktiv und interagieren miteinander?«

Diese Fragestellung der digitalen Interaktion gewann in der letzten Zeit, ausgelöst von der digitalen Transformation und dem rein digitalen Arbeits- und Sozialleben in der Pandemie, noch einmal an Bedeutung. Digitale Kuratierungstechnologien dienen hier als »Übersetzer« für die Schaffung eines solchen pragmatischen Interaktionsrahmens, der das kontextuelle und multi-modale Verständnis sowie auch die situativen Bedürfnisse und Verhaltensvorschriften, wie z. B. Rechte und Pflichten, in der digitalen Interaktion festlegt. Erst dieser pragmatische Rahmen ermöglicht z. B. auch eine sinnvolle Filterung und digitale Transformation der Flut an (multi-medialen) Inhalten in relevante Informationen und wiederverwendbares Wissen. Durch die Kuratierung von wiederverwendbarem, semantischem Wissen, im Sinne von z. B. aus Daten maschinell gelernten Einsichten und Erkenntnissen, wird einer KI, ähnlich wie einem Menschen, auch ein besseres Verständnis und Interpretation in der Interaktion ermöglicht. Ein Schritt in diese Richtung ist z. B. die Verbindung von großen und spezialisierten Sprachmodellen mit semantischen Wissensgraphen.


Weiterführende Links: