Thorsten-Voice

Aus MARJORIE-WIKI
Wechseln zu: Navigation, Suche
Thorsten-Voice
Hochwertige und kostenlose Sprachsynthese ohne Internet-Abhängigkeit
Open Source Sprachdatensätze und TTS-Stimmen
Sprachen Deutsch
Betreiber Thorsten Müller
Online 2021
https://www.Thorsten-Voice.de/

Das Projekt Thorsten-Voice wurde im Oktober 2019 von Thorsten Müller und Dominik Kreutz gestartet. Die Motivation war die Bereitstellung einer kostenfreien, qualitativ hochwertigen, deutschen künstlichen Stimme zur Sprachsynthese (auch TTS oder text to speech genannt), die offline erzeugt werden und jeder Zielgruppe kostenfrei und ohne lizenzrechtliche Einschränkungen zur Verfügung stehen soll.

Hintergrund[Bearbeiten]

Sprechen ist die natürliche Kommunikationsform des Menschen und gewinnt zunehmend auch im Bereich der Mensch-Maschine-Interaktion an Bedeutung. So finden vokale sprachbasierte Assistenzsysteme wie Amazon Alexa oder Google Home vermehrt Anwendung im privaten und geschäftlichen Bereich. Die Sprachqualität bildet daher ein Schlüsselkriterium in der Benutzerakzeptanz. Hochwertige Stimmen stehen häufig nur als Cloud-Lösungen zur Verfügung und bringen einige negative Aspekte mit sich:

  • setzen funktionierenden Internetzugang voraus,
  • unterliegen Datenschutz- und Urheberrechtsbedenken,
  • sind lizenzrechtlich in der Nutzung eingeschränkt,
  • führen zur Abhängigkeit von einem bestimmten Anbietern,
  • sind manchmal kostenpflichtig.

Aufgrund daraus folgender Bedingungen und Möglichkeiten müssen viele Projekte auf Alternativen zurückgreifen, die ohne die genannten Einschränkungen funktionieren.

Sprecher-Statement[Bearbeiten]

Thorsten Müller (2021)

„Für mich sind alle Menschen gleich, unabhängig von Geschlecht, sexueller Orientierung, Religion, Hautfarbe oder Geokoordinaten der Geburt. Ich glaube an eine globale Welt, wo jeder überall willkommen ist und freies Wissen und Bildung kostenfrei für jeden zur Verfügung steht. Ich habe meine Stimme der Allgemeinheit gespendet, in der Hoffnung darauf, dass sie in diesem Sinne genutzt wird.“ (Thorsten Müller, 2020)[1]

Sprachdatensätze[Bearbeiten]

Sprachdatensätze bilden die Grundlage um mittels Künstlicher Intelligenz oder maschinellem Lernen künstliche Stimmen zu trainieren. Das Thorsten-Voice Projekt stellt die folgenden offenen (CC0) Sprachdatensätze zur Verfügung.

  • Thorsten-Voice Dataset 2021.02
  • Thorsten-Voice Dataset 2022.10
  • Thorsten-Voice Dataset 2021.06 Emotional
  • Thorsten-Voice Dataset 2023.09 Hessisch

Alle Thorsten-Voice Sprachdatensätze bestehen aus, auf -24dB normalisierte, Audioaufnahmen im Mono-Wave-Format mit einer Samplerate von 22.050 Hertz und einer CSV-Datei mit dem gesprochenen Text pro Audioaufnahme. Sie stehen auf dem OpenSLR Spracharchiv, sowie auf der von der Europäischen Union finanzierten, wissenschaftlichen Plattform Zenodo unter eindeutigen DOI zur Verfügung.[2]

Thorsten-Voice Dataset 2021.02[Bearbeiten]

Diese Aufnahmen, mit einer Textlänge von 2-180 Zeichen, aus dem Jahr 2020 wurden mit neutraler Sprechweise aufgezeichnet.

Anzahl Aufnahmen pro Satzlänge
Sprechgeschwindigkeit pro Satzlänge
Informationen zum Sprachdatensatz
Anzahl Aufnahmen 22.668
Aufnahmedauer > 23 Stunden
Satzlänge (min/avg/max) 2 / 52 / 180 Zeichen
Gesprochene Zeichen pro Sekunde (avg) 14

Es liegt eine relativ konstante Sprechgeschwindigkeit von 14 Zeichen pro Sekunde vor. Aufnahmen mit einer Zeichenlänge von 50 Zeichen entsprechen einer ungefähren Audiodauer von 4 Sekunden. Bei einer Satzlänge von 150 Zeichen beträgt die Länge der Aufnahme 10 Sekunden. Die durchschnittliche Satzlänge beträgt 52 Zeichen.

Thorsten-Voice Dataset 2022.10[Bearbeiten]

Der neutrale Thorsten-2022.10 Sprachdatensatz wurde im Oktober 2022 auf der Plattform Zenodo unter der DOI 10.5281/zenodo.7265581 veröffentlicht.[3]

Informationen zum Sprachdatensatz
Anzahl Aufnahmen 12.430
Aufnahmedauer > 11 Stunden
Gesprochene Zeichen pro Sekunde (avg) 17,5

Thorsten-Voice Dataset 2021.06 Emotional[Bearbeiten]

Dieser Sprachdatensatz (Veröffentlichung im Juni 2021) besteht aus 300 Sätzen, die in jeweils unterschiedlichen emotionalen Betonungen aufgenommen wurden. Die folgende Tabelle zeigt die Audiolänge der 300 Aufnahmen pro Emotion, sowie ein Audiobeispiel anhand des folgenden Beispielsatzes: „Mist, wieder nichts geschafft.“ Wie auch die neutral gesprochenen Sprachdatensätze steht dieses ohne lizenzrechtliche Einschränkungen zur Verfügung.

Audiobeispiele Originalaufnahmen (emotionaler Sprachdatensatz)
Emotion Audiobeispiel
Neutral
Angeekelt
Wütend
Erfreut
Schläfrig
Überrascht
Betrunken gesprochen

(nüchtern aufgenommen)

Flüstern

Thorsten-Voice Dataset 2023.09 Hessisch[Bearbeiten]

Alle 2.000 Aufnahmen dieses Sprachdatensatzes basieren auf hochdeutsch geschriebenen Texteingaben. Sie wurden, im Gegensatz zu den anderen Sprachdatensätzen, aber mit südhessischem Akzent ausgesprochen. Somit lassen sich KI basierte Sprachmodelle mit südhessischer Betonung trainieren. Ein entsprechendes Modell steht ebenfalls auf Huggingface bereit.[4] Der hessische Sprachdatensatz steht ebenfalls unter offener Lizenz auf Plattform Zenodo zur Verfügung.[5]

Sprachsynthese[Bearbeiten]

Das Thorsten-Voice Projekt stellt kostenfreie und ohne Internet nutzbare Sprachsynthese (TTS / Text to Speech) Möglichkeiten auf Basis der Sprachdatensätze bereit. Audiobeispiele stehen auf der Projektwebseite zur Verfügung. Weiterhin können verschiedene, auch emotionale, Thorsten-Voice Stimmen im Browser über die Plattform Huggingface direkt ausprobiert werden.

Einsatz in Wissenschaft und Forschung[Bearbeiten]

  • Die Forschungsgruppe „Systemintegration“ des Instituts für Informationssysteme der Hochschule Hof (geleitet durch Prof. Dr. René Peinl) setzt das Dataset im Bereich TTS ein.[6][7] Sie veröffentlichten mehrere wissenschaftliche Abhandlungen zur künstlichen Spracherzeugung unter Berücksichtigung des Thorsten Datasets auf arXiv.org.[8][9][10] Im Buch "KI 2021: Advances in Artificial Intelligence" (ISBN 978-3030876258), welches im September 2021 veröffentlicht wurde, wird das Dataset referenziert.[11] Eine von der Hochschule Hof veröffentlichte Forschungsarbeit zum Thema "Spracherkennung" mit dem Titel "ASR Bundestag: A Large-Scale political debate dataset in German" verwendet den Sprachdatensatz ebenfalls.[12]
  • Das Institut für Software & Systems Engineering der Universität Augsburg verwendete das Dataset im Rahmen einer wissenschaftlichen Abhandlung zum Thema von maschineller Spracherkennung deutscher Sprache.[13]
  • Der Fachbereich "Faculty of Electrical and Electronics Engineering" der Yıldız Technical Universit hat das Dataset im Rahmen einer wissenschaftlichen Abhandlung zum Thema TTS für Sprachen mit geringen Trainingsdaten verwendet. Ziel war es herauszufinden, ob fremdsprachige Trainingsdaten verwendet werden können um ein TTS-Modell für eine Sprache mit geringeren Traingsdaten zu erzeugen.[14]
  • Die Universität Stuttgart hat sich mit dem Thema Poesie im Rahmen der künstlichen Spracherzeugung beschäftigt. Diese hat, anders als alltägliche Aussprache große Besonderheiten. Das Thorsten-Voice Dataset wurde hierbei ebenfalls mit eingebunden.[15] Ebenfalls wurde das Dataset in einer weiteren Abhandlung zum Klonen einer TTS-Stimme auf Basis von Prosodie verwendet.[16] Ebenfalls von der Universität Stuttgart wurde im Oktober 2022 ein Paper mit dem Thema "Low-Resource Multilingual and Zero-Shot Multispeaker TTS" veröffentlicht. Es betrachtet die Möglichkeit eine künstliche Stimme für Sprachen mit sehr begrenzten Trainingsdaten zu erzeugen. Der Thorsten-Voice Datensatz wurde hierbei ebenfalls referenziert.[17] Im Januar 2023 veröffentlichte die Universität Stuttgart eine Abhandlung zum Erzeugen künstlicher Stimme, auf Basis eines nicht transkribierten Sprachdatensatzes mit dem Titel "Exact Prosody Cloning in Zero-Shot Multispeaker Text-to-Speech", welche den Thorsten-Voice Datensatz ebenfalls referenziert.[18]
  • Im Rahmen der, von koreanischen und amerikanischen Universitäten gemeinsam durchgeführten, wissenschaftlichen Abhandlung "Exploring the Community of Model Publishers on TensorFlow" werden verschiedene KI Modelle und offene Datensätze analysiert. Hierbei werden die beiden Thorsten-Voice Datensätze 21.02 und 21.06 betrachtet und referenziert.[19]
  • Die 2023 durch die Otto von Guericke Universität Magdeburg veröffentlichte wissenschaftliche Abhandlung mit dem Titel "CROSS-RELIABILITY BENCHMARK TEST FOR PRESERVING EMOTIONAL CONTENT IN SPEECH–SYNTHESIS RELATED DATASETS" verwendet den emotionalen Thorsten-Voice Sprachdatensatz zum Thema emotionale künstliche Stimmerzeugung.[20]
  • Die im April 2022 von der Universität Maastricht veröffentlichte Abhandlung mit dem Titel "LibriS2S: A German-English Speech-to-Speech Translation Corpus" verwendet den Thorsten-Voice Stimmdatensatz ebenfalls. Ziel der Abhandlung war die Betrachtung, ob Spracherkennung mit automatischer Übersetzung gefolgt von direkter Ausgabe in einer anderen Sprache möglich ist.[21]
  • Das 2023 von der Bonner Gesellschaft für Informatik veröffentlichte Paper "Shared listening experience for hyperaudio textbooks" bezieht sich ebenfalls auf die Thorsten-Voice Sprachdatensätze. Die Abhandlung überprüft, ob die Integration multimedialer Elemente in Lehrmaterialien zur Erhöhung von Verständnis und Engagement von Schülern führen.[22]
  • Die Abhandlung "Unit-based Speech-to-Speech Translation Without Parallel Data" beschreibt die Möglichkeit von synchroner Übersetzung von gesprochener Sprache (Englisch <-> Deutsch). Das Dokument wurde vom Department of Computer Science der University of Texas in Austin erstellt und veröffentlicht.[23]
  • Die türkische Abhandlung mit dem (übersetzten) Titel: "Ein ausgewogenes System für die Entwicklung türkischer TTS-Systeme Datensatzvorbereitung" beschreibt die Erzeugung einer künstlichen türkischen Stimme in Vergleich mit Sprachdatensätzen anderer Länder. Eines der darin referenzierten Sprachdatensätzen ist ebenfalls eines vom Thorsten-Voice Projekt. Das Dokument wurde in Kooperation der türkischen Bildungseinrichtungen Adıyaman-Universität, Technische Universität Ostim und der Gazi-Universität erstellt.[24]
  • Eine weitere wissenschaftliche Abhandlung mit dem Titel "AUDIO-VISUAL NEURAL SYNTAX ACQUISITION", die von mehreren US-Amerikanischen Forschungsinstitutionen (unter anderem dem MIT) erstellt wurde verwendet ebenfalls das künstliche Thorsten-Voice Sprachmodell. Sie beschäftigt sich mit der Möglichkeit den reinen Text beim Lernen eines KI Modells komplett rauszulassen und das Modell direkt von Sprache und dazu passendem Bildmaterial lernen zu lassen.[25]
  • Die Abhandlung "Automatic Speech Recognition in German: A Detailed Error Analysis" verwendet und referenziert den Thorsten-Voice Sprachdatensatz ebenfalls zur Überprüfung der Ergebnisse automatischer Spracherkennung der Software "Kaldi".[26]
  • Die im September 2023 veröffentlichte Abhandlung "SpeechAlign: a Framework for Speech Translation Alignment Evaluation" verwendet den Thorsten-Voice Stimmdatensatz und ein darauf trainiertes TTS-Modell im Rahmen von Speech-to-Speech Tests. Ziel ist die Erforschung von Sprache-zu-Sprache Übersetzungen von Englisch nach Deutsch und umgekehrt.[27]
  • Das 2022 im Rahmen der "44th Annual International Conference of the IEEE Engineering in Medicine & Biology Society (EMBC)" veröffentlichte Dokument "Language-Independent Sleepy Speech Detection" verwendet den emotionalen ("schläfrig") Thorsten-Voice Sprachdatensatz um Schläfrigkeit per Mikrofon zu erkennen und dadurch eventuelle Unfälle, bspw. im Straßenverkehr, zu reduzieren.[28]
  • Die wissenschaftliche Abhandlung mit dem Titel "MLAAD: The Multi-Language Audio Anti-Spoofing Dataset" verwendet das Thorsten-Voice Dataset und benennt Thorsten Müller als Co-Autoren. Sie beschäftigt sich mit der Frage wie zukünftig sprachliche Deepfakes erkannt werden können um dem Missbrauch von künstlichen Stimmen entgegenzuwirken und die Sicherheit in diesem Umfeld zu erhöhen.[29]
  • Die, im Februar 2024 durch die "University of Texas at Austin" veröffentlichte, wissenschaftliche Abhandlung mit dem Titel "Textless Low-Resource Speech-to-Speech Translation With Unit Language Models" beschäftigt sich mit der Frage von direkter Sprache zu Sprache Übersetzung von Englisch in Deutsch und umgekehrt. Das Thorsten-Voice Dataset repräsentiert den deutschsprachigen Teil der Abhandlung.[30]
  • Die Abhandlung mit dem Titel "Leveraging the Interplay Between Syntactic and Acoustic Cues for Optimizing Korean TTS Pause Formation", welche 2024 von verschiedenen koreanischen Forschungsinstitutionen geschrieben und veröffentlicht wurde verwendet das Thorsten-Voice Dataset. Ihr Fokus ist eine natürlichere Betonung und Pausierungen im Sprachfluss in anderen Sprachen abseits von Englisch.[31]
  • Die Forschung des TOYOTA TECHNOLOGICAL INSTITUTE AT CHICAGO mit dem Titel "Learning Language Structures through Grounding" verwendet das Thorsten-Voice Sprachmodell für die Erzeugung von deutschsprachigen Testdaten. Die Abhandlung beschäftigt sich mit der Frage, ob die Effizienz des menschlichen Erlernens von Sprachen sich auf Maschinen übertragen lässt.[32]
  • Die Forschung des TOYOTA TECHNOLOGICAL INSTITUTE AT CHICAGO mit dem Titel "Learning Language Structures through Grounding" verwendet das Thorsten-Voice Sprachmodell für die Erzeugung von deutschsprachigen Testdaten. Die Abhandlung beschäftigt sich mit der Frage, ob die Effizienz des menschlichen Erlernens von Sprachen sich auf Maschinen übertragen lässt.[33]
  • Im August 2024 veröffentlichte die "Virginia Commonwealth University" eine wissenschaftliche Abhandlung mit dem Titel "SER Evals: In-domain and Out-of-domain Benchmarking for Speech Emotion Recognition" unter Verwendung des Thorsten-Voice Sprachdatensatzes.[34] Ziel der wissenschaftlichen Forschungsarbeit ist die automatische Erkennung von Emotionen im Rahmen der Spracherkennung.


Weitere Verwendungsmöglichkeiten[Bearbeiten]

Weitere Verwendungsmöglichkeiten sind vorstellbar. Denkbar ist etwa die Entwicklung eines Smartphone-basierten Open-Source-Sprachgenerators für Menschen, die stumm sind oder aus anderweitigen Gründen – beispielsweise als Folge eines Unfalls – nicht sprechen können, die nach einem Hilfsmittel ergänzender Artikulation suchen.

Seit Januar 2023 ist Thorsten-Voice Bestandteil des Opensource Werkzeugkastens "NeMo" von NVIDIA im Bereich der Sprachtechnologie.[35][36]

In "Lernstick" einer mobile Lern- und Arbeitsumgebung wird die künstliche Thorsten-Voice ebenfalls als Vorlesestimme ausgeliefert und verwendet.[37][38]

In der Smarthome Anwendung Home Assistant steht die künstliche Thorsten-Voice Stimme in neutraler und emotionale Betonung in verschiedenen Qualitätsstufen als lokal lauffähige Sprachausgabe ebenfalls zur Verfügung.[39]

Youtube Kanal, Medien und Auftritte[Bearbeiten]

Seit 2021 betreibt das Projekt den Youtube-Kanal "Thorsten-Voice" und veröffentlicht dort technische Anleitungen rund um offene Sprachtechnologien.

Auf Golem.de wurde das Thorsten-Voice Projekt unter anderem in einem Artikel zum Klonen der eigenen Stimme referenziert.[40] Weiterhin verwendet der Artikel "Zum KI-Training in die Cloud gehen?" eines der Thorsten-Voice Sprachdatensätze um verschiedene GPU-Geschwindigkeitstests objektiv vergleichbar zu machen.[41]

Das zur Heise Gruppe gehörende Technikmagazin t3n Magazin veröffentlicht im Magazin Nummer 72 Interviewausschnitte von Projektgründer Thorsten Müller im Artikel "Hör mal, wer da spricht".[42] Der zugehörige t3n CatchUp Podcast ("Lebensverlängernde Maßnahmen im All") bespricht das Thorsten-Voice Projekt ebenfalls.[43]

Beim Webmontag Nummer 109 am 08.05.2023 in Frankfurt wurde Projektgründer Thorsten Müller als Referent zum Thema "Künstliche Sprachausgabe" geladen.[44] Eine Aufzeichnung der Livestream Veranstaltung ist über die entsprechende WMFRA Seite oder dem entsprechenden Youtube Kanal verfügbar.[45][46]

In einem Youtube Livestream der türkischen Tensorflow Community sprach der Projektgründer im Juni 2021 über die Möglichkeit "Technologie mit der eigenen Stimme sprechen zu lassen".[47]

Auf der, von der Hochschule Bonn-Rhein-Sieg jährlich organisierten, "Free and Open Source Software Conference (FrOSCon)" referierte Thorsten Müller am 06.08.2023 über hochqualitative und lokal lauffähige künstliche Stimmerzeugung. Eine Videoaufzeichnung ist auf den Medienseiten des Chaos Computer Club (CCC), sowie Youtube verfügbar.[48][49]

In Folge 10/23 des monatlich erscheinenden "FOCUS ON: Linux" Podcast wird die Thorsten-Voice Stimme als Co-Moderation verwendet und über die Nutzungsmöglichkeiten berichtet.[50]In der Advents-Folge vom 18. Dezember 2023 des gleichen Podcast spricht Thorsten Müller über das Projekt und seine Leidenschaft zu offenen Sprachtechnologien.[51]

In einem Podcast Themeninterview zum Thema "Audio-KI testen" wird ebenfalls das Thorsten-Voice Projekt als freie deutsche Stimme und Sprachdatensatz referenziert.[52]

Im "Besser Wissen" Podcast von Golem.de war Thorsten Müller zu Gast zum Thema Sprachsynthese und den Möglichkeiten der Stimm-Klonung.[53]

Der Golem.de Artikel "Smart Home mit Sprachsteuerung für Experimentierfreudige" von Juni 2024 verwendet im Bereich der Sprachausgabe in der Smarthome Software Home Assistant ebenfalls die Thorsten-Voice Stimme.[54]

Am 12.09.2024 spricht Thorsten Müller im Deutschlandfunk Podcast "KI verstehen" über das Thorsten-Voice Projekt und die Vorteile von Open Source im KI Umfeld.[55]

Weblinks[Bearbeiten]

Einzelnachweise[Bearbeiten]

  1. Thorsten Müller (German Neutral-TTS dataset). In: openslr.org. Abgerufen am 30. Juni 2021.
  2. Thorsten Müller (German Emotional-TTS dataset). In: openslr.org. Abgerufen am 30. Juni 2021.
  3. Thorsten Müller (ThorstenVoice-Dataset-2022.10). In: zenodo.org. Abgerufen am 31. Oktober 2022.
  4. Hessische TTS-Stimme auf Huggingface. Abgerufen am 16. Januar 2024.
  5. Hessischer Thorsten-Voice Sprachdatensatz. Abgerufen am 16. Januar 2024.
  6. iisys Audio Samples Speech Synthesis. In: narvi.sysint.iisys.de. Abgerufen am 30. Juni 2021.
  7. iisys Audio Inferencing. In: narvi.sysint.iisys.de. Abgerufen am 30. Juni 2021.
  8. René Peinl: Sprachsynthese -- State-of-the-Art in englischer und deutscher Sprache. In: arXiv:2106.06230 [cs]. 11. Juni 2021, arxiv:2106.06230 [bs].
  9. Pascal Puchtler, Johannes Wirth, René Peinl: HUI-Audio-Corpus-German: A high quality TTS dataset. In: arXiv:2106.06309 [cs, eess]. 11. Juni 2021, arxiv:2106.06309 [abs].
  10. René Peinl: Neural Speech Synthesis in German. In: centric_2021_2_30_30009. 17. Juli 2022.
  11. Stefan Edelkamp, Ralf Möller, Elmar Rueckert: KI 2021 : 44th German Conference on AI, Virtual event, September 27-October 1, 2021, Proceedings. Springer, Cham 2021, ISBN 978-3-03087626-5.
  12. ASR Bundestag: A Large-Scale political debate dataset in German. In: 2302.06008. Abgerufen am 3. Mai 2023.
  13. Wolfgang Reif: Scribosermo: Fast Speech-to-Text models for German and other Languages. In: arXiv:2110.07982 [cs]. 16. Juli 2022, arxiv:2110.07982 [bs].
  14. Engin Ergün: Is it possible to train a Turkish text-to-speech model with English data? 16. Juli 2022, doi:10.14744/rase.2022.0001.
  15. Universität Stuttgart: PoeticTTS - Controllable Poetry Reading for Literary Studies. In: arXiv:2207.05549 [cs]. 16. Juli 2022, arxiv:2207.05549 [bs].
  16. Universität Stuttgart: Prosody Cloning in Zero-Shot Multispeaker Text-to-Speech. In: arXiv:2206.12229 [cs]. 16. Juli 2022, arxiv:2206.12229 [bs].
  17. Uni Stuttgart: Low-Resource Multilingual and Zero-Shot Multispeaker TTS. In: arXiv:2210.12223 [cs]. 12. November 2022, arxiv:2210.12223 [bs].
  18. Uni Stuttgart: Exact Prosody Cloning in Zero-Shot Multispeaker Text-to-Speech. In: 10.1109/SLT54892.2023.10022433. 27. Januar 2023.
  19. https://dl.acm.org/doi/pdf/10.1145/3500868.3559477
  20. CROSS-RELIABILITY BENCHMARK TEST FOR PRESERVING EMOTIONAL CONTENT IN SPEECH–SYNTHESIS RELATED DATASETS. Abgerufen am 27. April 2023.
  21. LibriS2S: A German-English Speech-to-Speech Translation Corpus. Abgerufen am 6. Mai 2023.
  22. Shared listening experience for hyperaudio textbooks. Abgerufen am 11. September 2023.
  23. Unit-based Speech-to-Speech Translation Without Parallel Data. Abgerufen am 11. September 2023.
  24. Ein ausgewogenes System für die Entwicklung türkischer TTS-Systeme Datensatzvorbereitung. Abgerufen am 11. September 2023.
  25. Cheng-I Jeff Lai: AUDIO-VISUAL NEURAL SYNTAX ACQUISITION. In: arXiv:2310.07654 [cs]. 10. November 2023, arxiv:2310.07654 [cs].
  26. Automatic Speech Recognition in German: A Detailed Error Analysis. Abgerufen am 14. Januar 2024.
  27. SpeechAlign: a Framework for Speech Translation Alignment Evaluation. Abgerufen am 14. Januar 2024.
  28. Language-Independent Sleepy Speech Detection. Abgerufen am 14. Januar 2024.
  29. MLAAD: The Multi-Language Audio Anti-Spoofing Dataset. Abgerufen am 24. Januar 2024.
  30. Textless Low-Resource Speech-to-Speech Translation With Unit Language Models. Abgerufen am 23. Februar 2024.
  31. Leveraging the Interplay Between Syntactic and Acoustic Cues for Optimizing Korean TTS Pause Formation. Abgerufen am 14. April 2024.
  32. Learning Language Structures through Grounding. Abgerufen am 19. Juni 2024.
  33. Learning Language Structures through Grounding. Abgerufen am 19. Juni 2024.
  34. ER Evals: In-domain and Out-of-domain Benchmarking for Speech Emotion Recognition. Abgerufen am 17. August 2024.
  35. Thorsten-Voice bei NVIDIA NeMo. Abgerufen am 1. Februar 2023.
  36. NVIDIA NeMo TTS Modell mit Thorsten-Voice Datensatz. Abgerufen am 9. Februar 2023.
  37. Versionshinweise erste Lernstick-12-Version. Abgerufen am 20. Oktober 2023.
  38. Lernstick Download. Abgerufen am 22. November 2023.
  39. Videoanleitung Thorsten-Voice in Home Assistant. Abgerufen am 20. Februar 2024.
  40. Golem Artikel zum Thema TTS. Golem.de, abgerufen am 28. Mai 2023.
  41. Zum KI-Training in die Cloud gehen? Golem.de, abgerufen am 28. Mai 2023.
  42. Hör mal, wer da spricht. t3n Magazin, abgerufen am 28. Mai 2023.
  43. Lebensverlängernde Maßnahmen im All. t3n, abgerufen am 28. Mai 2023.
  44. Webmontag Frankfurt - Künstliche Stimmsynthese. WMFRA, abgerufen am 28. Mai 2023.
  45. Webmontag Frankfurt Livestream Aufzeichnung. WMFRA, abgerufen am 28. Mai 2023.
  46. Webmontag Frankfurt Livestream Aufzeichnung. WMFRA, abgerufen am 8. August 2023.
  47. Golem Artikel zum Thema TTS. Abgerufen am 28. Mai 2023.
  48. CCC Videomitschnitt FrOSCon. Abgerufen am 8. August 2023.
  49. Videomitschnitt FrOSCon auf Youtube. Abgerufen am 8. August 2023.
  50. FOCUS ON: Linux Podcast Folge GuardiansOfTheAnsibleGalaxy. Abgerufen am 28. Oktober 2023.
  51. FOCUS ON: Linux Podcast Advents-Folge Sprachsynthese. Abgerufen am 18. Dezember 2023.
  52. Podcast Software Testing: Audio-KI testen. Abgerufen am 18. Dezember 2023.
  53. Wie man seine eigene Stimme klont. Abgerufen am 27. Februar 2024.
  54. Smart Home mit Sprachsteuerung für Experimentierfreudige. Abgerufen am 17. Juni 2024.
  55. Open-Source-Modelle demokratisieren Künstliche Intelligenz. Abgerufen am 12. September 2024.
Info Sign.svg Dieser Wikipedia-Artikel wurde, gemäß GFDL, CC-by-sa mit der kompletten History importiert.