Mozilla stellt Datenbank mit 18 Sprachen bereit

Das aktuelle Release umfasst über 1.300 Stunden aufgezeichneter Sprachdaten von mehr als 42.000 Mitwirkenden. [...]

Das Ziel von Common Voice liegt bei der Demokratisierung von sprachbasierten Technologien. (c) pixabay
Das Ziel von Common Voice liegt bei der Demokratisierung von sprachbasierten Technologien. (c) pixabay

Seit Juli 2017 sammelt Mozilla Sprach-Samples von freiwilligen Teilnehmern für sein Open-Source-Projekt Common Voice zum Aufbau einer frei verfügbaren Sprachdatenbank. Jetzt haben die Entwickler Common Voice um weitere Datensätze ausgebaut. Damit umfasst das Projekt nunmehr 1.361 Stunden aufgezeichneter Samples aus 18 verschiedenen Sprachen, die von mehr als 42.000 Mitwirkenden beigetragen wurden. Laut eigenen Angaben ist Common Voice damit der grösste frei verfügbare Datensatz menschlicher Stimmen.

Allein die deutschen Samples umfassen 146 Stunden an Material, das von 2249 Teilnehmern beigetragen wurde. Hier können Sie sich beteiligen. Sämtliche Sprach-Samples stehen auf der Projektwebseite zum kostenlosen Download bereit.

Das Ziel von Common Voice liegt bei der Demokratisierung von sprachbasierten Technologien. Bislang wird diese Technik vorrangig von wenigen Tech-Grosskonzernen wie Amazon, Apple, Google und Co. genutzt. Das erschwert unabhängigen Entwicklern jedoch das Arbeiten mit der Technologie, da schlichtweg die Datenbasis nicht erreichbar ist. Hier setzt Common Voice an, um innovative Lösungen wie Echtzeitübersetzer oder alternative Sprachassistenten fernab der Mainstream-Hersteller zu ermöglichen. Für eine bessere Zugänglichkeit sprachbasierter Technologien betreibt Mozilla ausserdem die freie Spracherkennungs-Engine DeepSpeech.

Bessere Webseite soll mehr Daten generieren

Um neue Freiwillige für eine Beteiligung bei Common Voice zu begeistern, hat Mozilla die Internetseite des Projekts sukzessive weiterentwickelt. Dort stellt der Firefox-Entwickler auch die Tools zur Aufzeichnung der Sprach-Samples bereit. Teilnehmer am Programm können in der aktuellen Version etwa detailliert nachvollziehen, wie sich die Aufnahme und die Validierung jeder einzelnen Sprache entwickeln. Ausserdem ist es nun möglich, ein Konto für das Projekt anzulegen, um Fortschritte und Metriken in mehreren Sprachen zu verfolgen. Im Account lassen sich auch demografische Profilinformationen hinterlegen, wodurch der freie Datensatz um wertvolle Meta-Informationen ergänzt wird.

Trotz der Vielzahl an bereits gewonnenen Daten und Erkenntnissen befinden sich sowohl Common Voice als auch DeepSpeech noch in der Entwicklungsphase. Dennoch geht Mozilla davon aus, dass die Programme in naher Zukunft in konkrete Lösungen einfliessen werden. Bereits jetzt wird etwa die DeepSpeech-Engine von den Open-Source-Sprachassistenten Mycroft und Leon genutzt. Zukünftig soll DeepSpeech aber auch in kleineren Geräten wie Smartphones und In-Car-Systemen eingesetzt werden und so Produktinnovationen innerhalb und ausserhalb von Mozilla vorantreiben.

*Stefan Bordel ist Autor bei PCTipp.


Mehr Artikel

BitkomPräsident Achim Berg
Kommentar

Zwei Jahre DS-GVO: Bitkom zieht durchwachsene Bilanz

Seit knapp zwei Jahren gilt die EU-Datenschutz-Grundverordnung. Unternehmen und Organisation haben dadurch u.a. erweiterte Informationspflichten, müssen Verarbeitungsverzeichnisse für Personendaten erstellen sowie Datenschutz schon in Produktionsprozessen berücksichtigen. Ein Kommentar von Bitkom-Präsident Achim Berg. […]

Sven Langhoff, Experte für KI und Data Science bei adesso SE
Kommentar

Unternehmen brauchen neue KI-gestützte Prognosen

Die Stabilität langfristiger Vorhersagen ist dahin, denn die Auswirkungen der weltweiten Corona-Krise haben zu einer hohen Volatilität bei der Prognose von Trends und zu einer bedrohlichen Planungsunsicherheit für Unternehmen geführt. Es ist höchste Zeit, aktiv gegenzusteuern. Ein Kommentar von KI-Experte Sven Langhoff. […]

Be the first to comment

Leave a Reply

Your email address will not be published.


*


Diese Website verwendet Akismet, um Spam zu reduzieren. Erfahren Sie mehr darüber, wie Ihre Kommentardaten verarbeitet werden .