Content Analytics© Piotr Adamowicz - Fotolia.com

Die Erschließung und Verknüpfung von Medieninhalten aus unterschiedlichen Quellen ist bereits Bestandteil vieler multimedialer Anwendungen. Durch den Wandel der Medienwelt werden die damit verbundenen technischen Anforderungen jedoch immer komplexer. Die Forscherinnen und Forscher des Fraunhofer IAIS entwickeln eine Content-Analytics-Lösung (Audio Mining) auf Basis von Spracherkennung, um multimedialen Content zu durchdringen und für verschiedene Anwendungen nutzbar zu machen.

Automatische Inhaltsanalyse in der Cloud

So wird die Audio-Mining-Lösung des Fraunhofer IAIS zur Analyse sämtlicher Inhalte der ARD Mediathek eingesetzt, indem die Beiträge mittels eines Cloud-Services analysiert werden, um zusätzliche inhaltliche Metadaten zu liefern. Im Einzelnen wird neben einer vollständigen Transkription sämtlicher Beiträge und der Generierung von relevanten Schlüsselwörtern auch eine Sprechersegmentierung und -erkennung realisiert. Mit dem Aufsetzen der skalierbaren Audio-Mining-Lösung wurden bereits mehr als 500.000 Beiträge in einem Jahr verarbeitet. Aktuell befinden sich 183.000 Beitragsdateien (Essenzen) in der Mediathek und im laufenden Betrieb werden ca. 500 Beiträge täglich verarbeitet, um jeweils die aktuellen Mediatheksinhalte zu analysieren. Die Technik basiert auf modernen Spracherkennungsverfahren. Mit denen lassen sich über Metadaten und Titel hinaus die tatsächlichen Themen der Filmdokumente identifizieren.

Dabei werden die Beiträge über entsprechende Schnittstellen gecrawlt und auf den Servern des Fraunhofer IAIS verarbeitet. Um eine extrem hohe Skalierbarkeit zu erreichen, werden die Analyseaufträge auf bis zu mehrere hundert CPU-Einheiten verteilt, um die rechenaufwendigen Spracherkennungsprozesse zeiteffizient durchzuführen. Die Analyseergebnisse werden dann in Form von XML-Dateien wieder an die Systeme der ARD Mediathek in kurzen Zeitintervallen zurückgeliefert.

Die Spracherkennung konnte unter Verwendung neuester Technologien aus dem Bereich der Deep Neuronal Networks erheblich verbessert werden. Mit Hilfe einer in Deutschland einzigartigen akustischen Trainingsdatenbank von über 1.000 Stunden annotierten Sprachdaten konnten äußerst robuste und leistungsfähige Neuronale Netze für die akustische Modellierung trainiert werden. Der Wortschatz des Spracherkennungssystems enthält über 500.000 Worte, so dass ein umfangreiches Vokabular domänenunabhängig erkannt werden kann. Durch eine regelmäßig stattfindende Aktualisierung des Sprachmodells werden jeweils die aktuellen Begriffe und Namen erkannt.

In der Praxis: Medieninhalte mit Audio Mining veredeln

Der Einsatz des Fraunhofer Audio-Mining-Systems zur Analyse der ARD Mediatheksinhalte zeigt die Möglichkeiten für moderne Content-Analytics-Lösungen. In der Praxis können Rundfunkanstalten, Mediatheken, Videoportale und Anbieter von crossmedialen Inhalten Audio Mining nutzen, um die Inhalte für die Zuschauer und Nutzer besser zu strukturieren und durchsuchbar zu machen. Dies ist durch die Entlinearisierung von Bewegtbildinhalten von entscheidender Bedeutung: Zuschauer wollen nicht mehr pünktlich um acht Uhr vor dem Fernseher sitzen, sondern die Nachrichten lieber in der Mittags- oder Kaffeepause auf dem Smartphone schauen. Folglich liegt es an den Medienanbietern, ihre Inhalte besser auffindbar zu machen und sie interaktiv zu verbreiten. Unter dem Oberbegriff „Content Discovery“ bieten die Fraunhofer-Experten verschiedene Lösungen an. So lassen sich beispielsweise mit Hilfe der „Video Search“ in einem Archiv Video- und Audiobeiträge zu einem bestimmten Thema auffinden.

Neben einer verbesserten Durchsuchbarkeit von Archiven bietet das Audio Mining den Betreibern von Videoportalen oder Mediatheken auch die Möglichkeit, die einzelnen Inhalte aufzuwerten. Mit der Content-Veredlung ist es möglich, die Metadaten von Audios und Videos automatisch mit inhaltlichen Informationen anzureichern. Dadurch werden sie über Suchmaschinen besser und zielgerichteter gefunden.

Fraunhofer Audio-Mining-Lösung im Archiv

Die Fraunhofer Audio-Mining-Lösung ist jedoch nicht nur für Mediatheken lukrativ. Sie eignet sich ebenso für die Unterstützung in Archiven und Recherchesystemen. Die zunehmende Digitalisierung und der steigende Bedarf an effizienter Auswertung und Erschließung audiovisueller Inhalte führen zu einer wachsenden Nachfrage nach automatischen Verfahren zur Inhaltserschließung. Mittels Audio Mining lassen sich riesige Mengen an audiovisuellen Beiträgen segmentieren, transkribieren und verschlagworten. In Zeiten von Big Data spielt daher Audio Mining eine entscheidende Rolle, um unstrukturierte audiovisuelle Daten zu verarbeiten. Besonders für die Medienarchive kann daher Audio Mining eine wichtige technische Lösung darstellen, um die Inhalte wieder für redaktionelle Prozesse verfügbar zu machen. Erweiterungen der Erkennungstechnologien sind in der Entwicklung, etwa die Erkennung von visuellen Objekten, Personen oder Konzepten. Redakteur und Dokumentar sind mit Audio Mining in der Lage, in großen Medienarchiven effizient zu suchen und zu recherchieren.

Weitere Anwendungsmöglichkeiten für Audio Mining

Neben der Nutzung von Audio Mining in Mediatheks- und Archivanwendungen gibt es weitere Einsatzszenarien für die automatische Erkennung von Sprache in audiovisuellen Beiträgen. Das Thema automatische Untertitelung von Sendungen gewinnt zunehmend an Bedeutung. Immer mehr Sendungen müssen untertitelt ausgestrahlt werden. Mittels Audio Mining können die Sendungen entweder vollautomatisch oder teilautomatisch untertitelt werden.
Aber auch jenseits der Medienwelt stellt Audio Mining eine attraktive Lösung dar, um akustische Daten automatisiert zu analysieren. Mögliche Einsatzszenarien sind daher die Analyse von Callcenter-Gesprächen, Interviews und sonstigen Tonaufzeichnungen, bei denen eine Auswertung erforderlich ist.


Frauenhofer IAISMit seiner langjährigen Erfahrung in Data Science, Mustererkennung sowie Systemmodellierung und ­-analyse gehört das Fraunhofer IAIS zu den führenden Ein­richtungen für angewandte Big­-Data-­Forschung in Europa. Mit seinen rund 200 Mitarbeiterinnen und Mitarbeitern bündelt das Fraunhofer IAIS Kompetenzen und wissenschaftliche Qualifikationen aller ingenieurwissenschaftlichen Disziplinen, insbesondere der Informatik, sowie der Mathematik, Naturwissenschaften, Betriebswirtschaft, Geo- und Sozialwissenschaften mit profundem Branchenwissen.

 

X