BULB - Breaking the Unwritten Language Barrier

Während immer mehr Sprachen vom Aussterben bedroht sind und Linguisten kaum effiziente Werkzeuge zur Sprachdokumentation haben, versucht Breaking the Unwritten Language Barrier (BULB), die Dokumentation ungeschriebener Sprachen durch moderne Sprachverarbeitungstechnik zu unterstützen, insbesondere durch automatische Spracherkennung und maschinelle Übersetzung.

Das ANR/DFG Projekt basiert auf enger französisch-deutscher Kooperation zwischen Linguisten und Informatikern vom ZAS (F. Hamlaoui), dem KIT (S. Stüker) und der Universität Stuttgart (S. Zerbian) auf deutscher Seite, sowie vom LPP (M. Adda-Decker), dem LIG (L. Besacier) und dem IMMI-CNRS (G. Adda) auf französischer Seite. Die Forscher/innen und ihre Teams bringen ihre Expertise zusammen, um die Dokumentation dreier größtenteils ungeschriebenen und unterversorgten afrikanischen Sprachen der Bantufamilie in Angriff zu nehmen: Basaa (Kamerun), Myene (Gabon) und Embosi (Republik Kongo).

In der ersten Phase des Projekts werden große Sprachkorpora (mindestens 100 Stunden/Sprache) mithilfe einer dreistufigen Methode von S. Bird und M. Liberman gesammelt:

  • Stufe 1: Sammlung erhobener und natürlicher Sprache (Geschichten, Dialoge, Radio/TV Beiträge)
  • Stufe 2: Präzise Wiederholung durch eine/n Referenzsprecher/in, um akkuratere automatische phonetische Transkriptionen zu gewährleisten
  • Stufe 3: mündliche Übersetzung ein eine weitverbreitete Sprache (in diesem Fall Französisch), um den Dokumentationsprozess zu beschleunigen

Diese Phase wird von F. Hamlaoui koordiniert und betrifft hauptsächlich die linguistischen Mitarbeiter am ZAS (E.-M. Makasso, J. Engelmann, C. Ngo Sohna und H. Salfner), am LLACAN, LPP, LIG und der Universität Stuttgart.

Die Teams am LIMSI und dem KIT entwickeln sprachunabhängige Phonetikerkennungssysteme um automatisch präzise Transkriptionen zwischen Ausgangssprache (Basaa/Embosi/Myene) und Zielsprache (Französisch) zu erstellen. Im Anschluss werden die Teams am IMMI-CNRS und dem KIT Ausgangs- und Zielsprache mittels maschineller Übersetzung paaren. Diese Paare liefern wertvolle Daten für phonetische und morphologische Untersuchungen.

Zusätzlich zur Bereicherung der linguistischen Dokumentation unterstützt BULB die Erhaltung linguistischer und kultureller Vielfalt. Gemeinschaften werden mit Werkzeugen (Schrifsysteme, Wörterbücher, Grammatiken) versorgt, die den wahrgenommenen Wert ihrer ungeschriebenen Sprachen erhöhen, ihren Nutzen in einem weiteren Kontext erhöhen und somit helfen, sie vor dem Verschwinden zu bewahren.

Ein Forscher sammelt Daten in Yaoundé (Kamerun) mittels LIG-Aikuma






Förderung

Kooperatives französisch-deutsches Forschungsprojekt

Förderzeitraum

01.03.2015-28.02.2018

Koordination

Dr. Fatima Hamlaoui