Thorsten-Voice

Aus MARJORIE-WIKI
Wechseln zu: Navigation, Suche
Thorsten-Voice
Hochwertige und kostenlose Sprachsynthese ohne Internet-Abhängigkeit
Open Source Sprachdatensätze und TTS-Stimmen
Sprachen Deutsch
Betreiber Thorsten Müller
Online 2021
https://www.Thorsten-Voice.de/

Das Projekt Thorsten-Voice wurde im Oktober 2019 von Thorsten Müller und Dominik Kreutz gestartet. Die Motivation war die Bereitstellung einer kostenfreien, qualitativ hochwertigen, deutschen künstlichen Stimme zur Sprachsynthese (auch TTS oder text to speech genannt), die offline erzeugt werden und jeder Zielgruppe kostenfrei und ohne lizenzrechtliche Einschränkungen zur Verfügung stehen soll.

Hintergrund[Bearbeiten]

Sprechen ist die natürliche Kommunikationsform des Menschen und gewinnt zunehmend auch im Bereich der Mensch-Maschine-Interaktion an Bedeutung. So finden vokale sprachbasierte Assistenzsysteme wie Amazon Alexa oder Google Home vermehrt Anwendung im privaten und geschäftlichen Bereich. Die Sprachqualität bildet daher ein Schlüsselkriterium in der Benutzerakzeptanz. Hochwertige Stimmen stehen häufig nur als Cloud-Lösungen zur Verfügung und bringen einige negative Aspekte mit sich:

  • setzen funktionierenden Internetzugang voraus,
  • unterliegen Datenschutz- und Urheberrechtsbedenken,
  • sind lizenzrechtlich in der Nutzung eingeschränkt,
  • führen zur Abhängigkeit von einem bestimmten Anbietern,
  • sind manchmal kostenpflichtig.

Aufgrund daraus folgender Bedingungen und Möglichkeiten müssen viele Projekte auf Alternativen zurückgreifen, die ohne die genannten Einschränkungen funktionieren.

Sprecher-Statement[Bearbeiten]

Thorsten Müller (2021)

„Für mich sind alle Menschen gleich, unabhängig von Geschlecht, sexueller Orientierung, Religion, Hautfarbe oder Geokoordinaten der Geburt. Ich glaube an eine globale Welt, wo jeder überall willkommen ist und freies Wissen und Bildung kostenfrei für jeden zur Verfügung steht. Ich habe meine Stimme der Allgemeinheit gespendet, in der Hoffnung darauf, dass sie in diesem Sinne genutzt wird.“ (Thorsten Müller, 2020)[1]

Sprachdatensätze[Bearbeiten]

Sprachdatensätze bilden die Grundlage um mittels Künstlicher Intelligenz oder maschinellem Lernen künstliche Stimmen zu trainieren. Das Thorsten-Voice Projekt stellt die folgenden offenen (CC0) Sprachdatensätze zur Verfügung.

  • Thorsten-Voice Dataset 2021.02
  • Thorsten-Voice Dataset 2022.10
  • Thorsten-Voice Dataset 2021.06 Emotional
  • Thorsten-Voice Dataset 2023.09 Hessisch

Alle Thorsten-Voice Sprachdatensätze bestehen aus, auf -24dB normalisierte, Audioaufnahmen im Mono-Wave-Format mit einer Samplerate von 22.050 Hertz und einer CSV-Datei mit dem gesprochenen Text pro Audioaufnahme. Sie stehen auf dem OpenSLR Spracharchiv, sowie auf der von der Europäischen Union finanzierten, wissenschaftlichen Plattform Zenodo unter eindeutigen DOI zur Verfügung.[2]

Thorsten-Voice Dataset 2021.02[Bearbeiten]

Diese Aufnahmen, mit einer Textlänge von 2-180 Zeichen, aus dem Jahr 2020 wurden mit neutraler Sprechweise aufgezeichnet.

Anzahl Aufnahmen pro Satzlänge
Sprechgeschwindigkeit pro Satzlänge
Informationen zum Sprachdatensatz
Anzahl Aufnahmen 22.668
Aufnahmedauer > 23 Stunden
Satzlänge (min/avg/max) 2 / 52 / 180 Zeichen
Gesprochene Zeichen pro Sekunde (avg) 14

Es liegt eine relativ konstante Sprechgeschwindigkeit von 14 Zeichen pro Sekunde vor. Aufnahmen mit einer Zeichenlänge von 50 Zeichen entsprechen einer ungefähren Audiodauer von 4 Sekunden. Bei einer Satzlänge von 150 Zeichen beträgt die Länge der Aufnahme 10 Sekunden. Die durchschnittliche Satzlänge beträgt 52 Zeichen.

Thorsten-Voice Dataset 2022.10[Bearbeiten]

Der neutrale Thorsten-2022.10 Sprachdatensatz wurde im Oktober 2022 auf der Plattform Zenodo unter der DOI 10.5281/zenodo.7265581 veröffentlicht.[3]

Informationen zum Sprachdatensatz
Anzahl Aufnahmen 12.430
Aufnahmedauer > 11 Stunden
Gesprochene Zeichen pro Sekunde (avg) 17,5

Thorsten-Voice Dataset 2021.06 Emotional[Bearbeiten]

Dieser Sprachdatensatz (Veröffentlichung im Juni 2021) besteht aus 300 Sätzen, die in jeweils unterschiedlichen emotionalen Betonungen aufgenommen wurden. Die folgende Tabelle zeigt die Audiolänge der 300 Aufnahmen pro Emotion, sowie ein Audiobeispiel anhand des folgenden Beispielsatzes: „Mist, wieder nichts geschafft.“ Wie auch die neutral gesprochenen Sprachdatensätze steht dieses ohne lizenzrechtliche Einschränkungen zur Verfügung.

Audiobeispiele Originalaufnahmen (emotionaler Sprachdatensatz)
Emotion Audiobeispiel
Neutral
Menü
0:00
Angeekelt
Menü
0:00
Wütend
Menü
0:00
Erfreut
Menü
0:00
Schläfrig
Menü
0:00
Überrascht
Menü
0:00
Betrunken gesprochen

(nüchtern aufgenommen)

Menü
0:00
Flüstern
Menü
0:00

Thorsten-Voice Dataset 2023.09 Hessisch[Bearbeiten]

Alle 2.000 Aufnahmen dieses Sprachdatensatzes basieren auf hochdeutsch geschriebenen Texteingaben. Sie wurden, im Gegensatz zu den anderen Sprachdatensätzen, aber mit südhessischem Akzent ausgesprochen. Somit lassen sich KI basierte Sprachmodelle mit südhessischer Betonung trainieren. Ein entsprechendes Modell steht ebenfalls auf Huggingface bereit.[4] Der hessische Sprachdatensatz steht ebenfalls unter offener Lizenz auf Plattform Zenodo zur Verfügung.[5]

Sprachsynthese[Bearbeiten]

Das Thorsten-Voice Projekt stellt kostenfreie und ohne Internet nutzbare Sprachsynthese (TTS / Text to Speech) Möglichkeiten auf Basis der Sprachdatensätze bereit. Audiobeispiele stehen auf der Projektwebseite zur Verfügung. Weiterhin können verschiedene, auch emotionale, Thorsten-Voice Stimmen im Browser über die Plattform Huggingface direkt ausprobiert werden.

Einsatz in Wissenschaft und Forschung[Bearbeiten]

Aufgrund der freigiebigen Open-Source Lizenz (CC0) werden die Thorsten-Voice Sprachdatensätze weltweit in unterschiedlichsten wissenschaftlichen Forschungsarbeiten verwenden.

Übersicht wissenschaftlicher Abhandlungen der Thorsten-Voice Sprachdatensätze
Veröffentlichungsdatum Hochschule Titel Bemerkung
11.06.2021 Hochschule Hof Sprachsynthese -- State-of-the-Art in englischer und deutscher Sprache[6][7] In diesem Artikel werden Stand von Forschung und Technik der Sprachsynthese getrennt

nach Mel-Spektrogramm-Generierung und Vocoder dargestellt. Den Abschluss bildet eine Übersicht verfügbarer Datensätze für Englisch und Deutsch

15.10.2021 Universität Augsburg (Institut für Software & Systems Engineering) Scribosermo: Fast Speech-to-Text models for German and other Languages[8] Dieses Papier stellt Speech-to-Text-Modelle für Deutsch sowie für Spanisch und Französisch mit besonderen Merkmalen vor. Sie sind klein und laufen in Echtzeit auf Mikrocontrollern wie einem RaspberryPi.
31.10.2021 Buch Springer Verlag (ISBN 978-3030876258) KI 2021: Advances in Artificial Intelligence[9]
22.04.2022 Universität Maastricht LibriS2S: A German-English Speech-to-Speech Translation Corpus[10] Aufbau von LibriS2S zur Abbildung von Sprache-zu-Sprache-Trainingskorpus zwischen Deutsch und Englisch.
05.06.2022 Yıldız Technical Universit (Faculty of Electrical and Electronics Engineering) Is it possible to train a Turkish text-to-speech model with English data?[11] Das Erstellen oder Finden von Datensätzen für Text-to-Speech-Studien (TTS) kann sowohl zeitlich als auch finanziell recht kostspielig sein. Diese Studie versucht zu untersuchen, ob englische akustische Daten zum Trainieren eines türkischen Text-to-Speech-Modells verwendet werden können, um das Datenproblem zu beseitigen.
24.06.2022 Universität Stuttgart (Institute for Natural Language Processing) Exact Prosody Cloning in Zero-Shot Multispeaker Text-to-Speech[12] Wir zeigen, dass es möglich ist, die Stimme eines Sprechers sowie die Prosodie einer gesprochenen Referenz unabhängig voneinander zu klonen, ohne dass es zu Qualitätseinbußen kommt und mit hoher Ähnlichkeit sowohl zur Originalstimme als auch zur Originalprosodie, wie unsere objektive Bewertung und Studie am Menschen zeigen.
15.07.2022 IEEE Engineering in Medicine & Biology Society (EMBC), Glasgow, Scotland, United Kingdom Language-Independent Sleepy Speech Detection[13] Wir haben zwei verschiedene Sprachen, Englisch und Deutsch, zur Erkennung schläfriger Sprache verwendet, wobei Erstere zum Trainieren/Validieren und Letztere zum Testen der Wirksamkeit von maschinellen und Deep-Learning-Modellen verwendet wurde.
17.07.2022 Hochschule Hof Neural Speech Synthesis in German[14] Diese Arbeit behandelt spezifische Herausforderungen beim Training von Text-to-Speech-Modellen für die deutsche Sprache, einschließlich der Datensatzauswahl und der Datenvorverarbeitung, und stellt den Trainingsprozess für mehrere Modelle eines End-to-End-Text-to-Speech-Systems basierend auf einer Kombination aus Tacotron 2 und Multi-Band MelGAN vor.
18.10.2022 Universität Stuttgart PoeticTTS - Controllable Poetry Reading for Literary Studies[15] Die Sprachsynthese für Gedichte ist aufgrund der spezifischen Intonationsmuster, die poetischer Sprache innewohnen, eine Herausforderung. In dieser Arbeit schlagen wir einen Ansatz vor, um Gedichte mit nahezu menschlicher Natürlichkeit zu synthetisieren.
21.10.2022 Universität Stuttgart Low-Resource Multilingual and Zero-Shot Multispeaker TTS[16] In dieser Arbeit bringen wir die Aufgaben des Zero-Shot-Stimmklonens und des mehrsprachigen ressourcenarmen TTS zusammen.
08.11.2022 University of Seoul, University of Southern California Exploring the Community of Model Publishers on TensorFlow Hub[17] Die Analyse der auf TF Hub aufgezeichneten Metadaten enthüllte die Modelle, die die KI-Modellherausgeber hochgeladen haben. Außerdem fanden wir heraus, wie die von den KI-Modellherausgebern veröffentlichten Modelle mit anderen Personen auf TF Hub geteilt wurden.
27.01.2023 Universität Stuttgart Exact Prosody Cloning in Zero-Shot Multispeaker Text-to-Speech[18] Abhandlung zum Erzeugen künstlicher Stimme, auf Basis eines nicht transkribierten Sprachdatensatzes
27.04.2023 Universität Magdeburg CROSS-RELIABILITY BENCHMARK TEST FOR PRESERVING EMOTIONAL CONTENT IN SPEECH–SYNTHESIS RELATED DATASETS[19] Die Studie untersucht drei emotionale Sprachdatensätze, die ausgewählt wurden, um eine Reihe von emotionalen Inhalten sowie verschiedene Sprachen (Englisch und Deutsch) darzustellen, und die für die Sprachsynthese entwickelt wurden.
03.05.2023 Hochschule Hof ASR Bundestag: A Large-Scale political debate dataset in German[20] Wir präsentieren ASR Bundestag, einen Datensatz für automatische Spracherkennung in Deutsch, der aus 610 Stunden ausgerichteten Audio-Transkript-Paaren für überwachtes Training sowie 1.038 Stunden unbeschrifteten Audioschnipseln für selbstüberwachtes Lernen besteht, basierend auf Roh-Audiodaten und Transkriptionen von Plenarsitzungen und Ausschusssitzungen des Deutschen Bundestages.
03.07.2023 Adıyaman-Universität, Technische Universität Ostim, Gazi-Universität Türkçe TTS Sistemlerinin Geliştirilmesi için Dengeli Bir Veri Kümesi Hazırlama[21] Dieser für Türkisch vorbereitete Datensatz wurde zuvor für Englisch und Englisch vorbereitet erfolgreiche Ergebnisse wurden mit dem Datensatz namens „The LJ Speech Dataset“ verglichen und zukünftige Studien durchgeführt.
11.09.2023 Gesellschaft für Informatik, Bonn Shared listening experience for hyperaudio textbooks[22] In diesem Artikel präsentieren wir die Entwicklung eines Hyperaudio-Players, der Lehrbuchinformationen in einem Audioformat darstellt und ein gemeinsames Wiedergabeerlebnis für Benutzergruppen bietet.
11.10.2023 MIT, TTIC, UT Austin, UC Santa Barbara, MIT-IBM Watson AI Lab Audio-Visual Neural Syntax Acquisition[23] Wir präsentieren den Audio-Visual Neural Syntax Learner (AV-NSL), der Phrasenstrukturen lernt, indem er Audios hört und

Bilder ansieht, ohne jemals Text ausgesetzt zu sein.

14.01.2024 Hochschule Hof Automatic Speech Recognition in German: A Detailed Error Analysis[24] Überprüfung der Ergebnisse automatischer Spracherkennung der Software "Kaldi".
17.01.2024 verwendet das Thorsten-Voice Dataset und benennt Thorsten Müller als Co-Autoren. MLAAD: The Multi-Language Audio Anti-Spoofing Dataset[25] Sie beschäftigt sich mit der Frage wie zukünftig sprachliche Deepfakes erkannt werden können um dem Missbrauch von künstlichen Stimmen entgegenzuwirken und die Sicherheit in diesem Umfeld zu erhöhen.
20.02.2024 University of Texas at Austin Textless Low-Resource Speech-to-Speech Translation With Unit Language Models[26] Wir präsentieren ein neues Framework für das Training textloser Sprachübersetzungssysteme mit geringen Ressourcen (S2ST), die nur Dutzende von Stunden paralleler Sprachdaten benötigen.
14.04.2024 POSTECH, Republic of Korea Leveraging the Interplay Between Syntactic and Acoustic Cues for Optimizing Korean TTS Pause Formation[27] Ihr Fokus ist eine natürlichere Betonung und Pausierungen im Sprachfluss in anderen Sprachen abseits von Englisch (besonders Koreanisch).
25.04.2024 Universitat Politècnica de Catalunya, Barcelona, Spanien SpeechAlign: a Framework for Speech Translation Alignment Evaluation[28] Ziel ist die Erforschung von Sprache-zu-Sprache Übersetzungen von Englisch nach Deutsch und umgekehrt.
19.06.2024 TOYOTA TECHNOLOGICAL INSTITUTE AT CHICAGO Learning Language Structures through Grounding[29] Motiviert durch das menschliche Sprachenlernen betrachten wir in dieser Dissertation eine Familie von maschinellen Lernaufgaben, die darauf abzielen, Sprachstrukturen durch Erdung zu lernen.
14.08.2024 Virginia Commonwealth University SER Evals: In-domain and Out-of-domain Benchmarking for Speech Emotion Recognition[30] Ziel der wissenschaftlichen Forschungsarbeit ist die automatische Erkennung von Emotionen im Rahmen der Spracherkennung.
06.10.2024 University of Bucharest A Cross-Lingual Meta-Learning Method Based on Domain Adaptation for Speech Emotion Recognition[31] Unsere Arbeit untersucht die Leistung des Modells bei begrenzten Daten, insbesondere bei der Sprachemotionserkennung.
29.11.2024 Virginia Commonwealth University BENCHMARKING AND ENHANCING GENERALIZATION IN MULTILINGUAL SPEECH EMOTION RECOGNITION[32] Die maschinelle Erkennung von menschlichen Emotionen ist wesentlich für die zukünftige Mensch<->Maschine Interaktion.

Weitere Verwendungsmöglichkeiten[Bearbeiten]

Weitere Verwendungsmöglichkeiten sind vorstellbar. Denkbar ist etwa die Entwicklung eines Smartphone-basierten Open-Source-Sprachgenerators für Menschen, die stumm sind oder aus anderweitigen Gründen – beispielsweise als Folge eines Unfalls – nicht sprechen können, die nach einem Hilfsmittel ergänzender Artikulation suchen.

Seit Januar 2023 ist Thorsten-Voice Bestandteil des Opensource Werkzeugkastens "NeMo" von NVIDIA im Bereich der Sprachtechnologie.[33][34]

In "Lernstick" einer mobile Lern- und Arbeitsumgebung wird die künstliche Thorsten-Voice ebenfalls als Vorlesestimme ausgeliefert und verwendet.[35][36]

In der Smarthome Anwendung Home Assistant steht die künstliche Thorsten-Voice Stimme in neutraler und emotionale Betonung in verschiedenen Qualitätsstufen als lokal lauffähige Sprachausgabe ebenfalls zur Verfügung.[37]

Youtube Kanal, Medien und Auftritte[Bearbeiten]

Seit 2021 betreibt das Projekt den Youtube-Kanal "Thorsten-Voice" und veröffentlicht dort technische Anleitungen rund um offene Sprachtechnologien.

  • In einem Youtube Livestream der türkischen Tensorflow Community sprach der Projektgründer im Juni 2021 über die Möglichkeit "Technologie mit der eigenen Stimme sprechen zu lassen".[38]

Print- und Onlinemedien[Bearbeiten]

  • Das zur Heise Gruppe gehörende Technikmagazin t3n Magazin veröffentlicht im Magazin Nummer 72 Interviewausschnitte von Projektgründer Thorsten Müller im Artikel "Hör mal, wer da spricht".[39] Der zugehörige t3n CatchUp Podcast ("Lebensverlängernde Maßnahmen im All") bespricht das Thorsten-Voice Projekt ebenfalls.[40]
  • Auf Golem.de wurde das Thorsten-Voice Projekt unter anderem in einem Artikel zum Klonen der eigenen Stimme referenziert.[41] Weiterhin verwendet der Artikel "Zum KI-Training in die Cloud gehen?" eines der Thorsten-Voice Sprachdatensätze um verschiedene GPU-Geschwindigkeitstests objektiv vergleichbar zu machen.[42]
  • Der Golem.de Artikel "Smart Home mit Sprachsteuerung für Experimentierfreudige" von Juni 2024 verwendet im Bereich der Sprachausgabe in der Smarthome Software Home Assistant ebenfalls die Thorsten-Voice Stimme.[43]
  • Im Linux User Magazin wird auf die emotionalen Sprachmöglichkeiten mit Thorsten-Voice eingegangen.[47][48]
  • Ausgabe 03/2025 des Raspberry Pi Geek Magazins widmet dem Thorsten-Voice Projekt eine Titelgeschichte.[49]
  • A 21.03.2025 berichtet Netzpolitik.org über Thorsten Müller und sein Thorsten-Voice Projekt. Dabei werden auch die Risiken aufgegriffen, welche eine Open-Source Stimmenspende mit sich bringen kann.[50]

Konferenzen[Bearbeiten]

  • Beim Webmontag Nummer 109 am 08.05.2023 in Frankfurt wurde Projektgründer Thorsten Müller als Referent zum Thema "Künstliche Sprachausgabe" geladen.[51] Eine Aufzeichnung der Livestream Veranstaltung ist über die entsprechende WMFRA Seite oder dem entsprechenden Youtube Kanal verfügbar.[52][53]
  • Auf der, von der Hochschule Bonn-Rhein-Sieg jährlich organisierten, "Free and Open Source Software Conference (FrOSCon)" referierte Thorsten Müller am 06.08.2023 über hochqualitative und lokal lauffähige künstliche Stimmerzeugung. Eine Videoaufzeichnung ist auf den Medienseiten des Chaos Computer Club (CCC), sowie Youtube verfügbar.[54][55]

Podcasts[Bearbeiten]

  • Im Podcast "Science goes Podcast" vom 02. Oktober 2024 wird das Thorsten-Voice Projekt für kurze Zitate verwendet und als Open Source TTS Stimme referenziert.[56]
  • In Folge 10/23 des monatlich erscheinenden "FOCUS ON: Linux" Podcast wird die Thorsten-Voice Stimme als Co-Moderation verwendet und über die Nutzungsmöglichkeiten berichtet.[57]In der Advents-Folge vom 18. Dezember 2023 des gleichen Podcast spricht Thorsten Müller über das Projekt und seine Leidenschaft zu offenen Sprachtechnologien.[58]
  • Im "Besser Wissen" Podcast von Golem.de war Thorsten Müller zu Gast zum Thema Sprachsynthese und den Möglichkeiten der Stimm-Klonung.[59]
  • In einem Podcast Themeninterview zum Thema "Audio-KI testen" wird ebenfalls das Thorsten-Voice Projekt als freie deutsche Stimme und Sprachdatensatz referenziert.[60]
  • Am 12.09.2024 spricht Thorsten Müller im Deutschlandfunk Podcast "KI verstehen" über das Thorsten-Voice Projekt und die Vorteile von Open Source im KI Umfeld.[61]


Weblinks[Bearbeiten]

Einzelnachweise[Bearbeiten]

  1. Hochspringen Thorsten Müller (German Neutral-TTS dataset). In: openslr.org. Abgerufen am 30. Juni 2021.
  2. Hochspringen Thorsten Müller (German Emotional-TTS dataset). In: openslr.org. Abgerufen am 30. Juni 2021.
  3. Hochspringen Thorsten Müller (ThorstenVoice-Dataset-2022.10). In: zenodo.org. Abgerufen am 31. Oktober 2022.
  4. Hochspringen Hessische TTS-Stimme auf Huggingface. Abgerufen am 16. Januar 2024.
  5. Hochspringen Hessischer Thorsten-Voice Sprachdatensatz. Abgerufen am 16. Januar 2024.
  6. Hochspringen René Peinl: Sprachsynthese -- State-of-the-Art in englischer und deutscher Sprache. In: arXiv:2106.06230 [cs]. 11. Juni 2021, arxiv:2106.06230 [bs].
  7. Hochspringen Pascal Puchtler, Johannes Wirth, René Peinl: HUI-Audio-Corpus-German: A high quality TTS dataset. In: arXiv:2106.06309 [cs, eess]. 11. Juni 2021, arxiv:2106.06309 [abs].
  8. Hochspringen Wolfgang Reif: Scribosermo: Fast Speech-to-Text models for German and other Languages. In: arXiv:2110.07982 [cs]. 16. Juli 2022, arxiv:2110.07982 [bs].
  9. Hochspringen Stefan Edelkamp, Ralf Möller, Elmar Rueckert: KI 2021 : 44th German Conference on AI, Virtual event, September 27-October 1, 2021, Proceedings. Springer, Cham 2021, ISBN 978-3-03087626-5.
  10. Hochspringen LibriS2S: A German-English Speech-to-Speech Translation Corpus. Abgerufen am 6. Mai 2023.
  11. Hochspringen Engin Ergün: Is it possible to train a Turkish text-to-speech model with English data? 16. Juli 2022, doi:10.14744/rase.2022.0001.
  12. Hochspringen Universität Stuttgart: Exact Prosody Cloning in Zero-Shot Multispeaker Text-to-Speech. In: arXiv:2206.12229 [cs]. 16. Juli 2022, arxiv:2206.12229 [bs].
  13. Hochspringen Language-Independent Sleepy Speech Detection. Abgerufen am 14. Januar 2024.
  14. Hochspringen René Peinl: Neural Speech Synthesis in German. In: centric_2021_2_30_30009. 17. Juli 2022.
  15. Hochspringen Universität Stuttgart: PoeticTTS - Controllable Poetry Reading for Literary Studies. In: arXiv:2207.05549 [cs]. 16. Juli 2022, arxiv:2207.05549 [bs].
  16. Hochspringen Uni Stuttgart: Low-Resource Multilingual and Zero-Shot Multispeaker TTS. In: arXiv:2210.12223 [cs]. 12. November 2022, arxiv:2210.12223 [bs].
  17. Hochspringen https://dl.acm.org/doi/pdf/10.1145/3500868.3559477
  18. Hochspringen Uni Stuttgart: Exact Prosody Cloning in Zero-Shot Multispeaker Text-to-Speech. In: 10.1109/SLT54892.2023.10022433. 27. Januar 2023.
  19. Hochspringen CROSS-RELIABILITY BENCHMARK TEST FOR PRESERVING EMOTIONAL CONTENT IN SPEECH–SYNTHESIS RELATED DATASETS. Abgerufen am 27. April 2023.
  20. Hochspringen ASR Bundestag: A Large-Scale political debate dataset in German. In: 2302.06008. Abgerufen am 3. Mai 2023.
  21. Hochspringen Ein ausgewogenes System für die Entwicklung türkischer TTS-Systeme Datensatzvorbereitung. Abgerufen am 11. September 2023.
  22. Hochspringen Shared listening experience for hyperaudio textbooks. Abgerufen am 11. September 2023.
  23. Hochspringen Cheng-I Jeff Lai: AUDIO-VISUAL NEURAL SYNTAX ACQUISITION. In: arXiv:2310.07654 [cs]. 10. November 2023, arxiv:2310.07654 [cs].
  24. Hochspringen Automatic Speech Recognition in German: A Detailed Error Analysis. Abgerufen am 14. Januar 2024.
  25. Hochspringen MLAAD: The Multi-Language Audio Anti-Spoofing Dataset. Abgerufen am 24. Januar 2024.
  26. Hochspringen Textless Low-Resource Speech-to-Speech Translation With Unit Language Models. Abgerufen am 23. Februar 2024.
  27. Hochspringen Leveraging the Interplay Between Syntactic and Acoustic Cues for Optimizing Korean TTS Pause Formation. Abgerufen am 14. April 2024.
  28. Hochspringen SpeechAlign: a Framework for Speech Translation Alignment Evaluation. Abgerufen am 14. Januar 2024.
  29. Hochspringen Learning Language Structures through Grounding. Abgerufen am 19. Juni 2024.
  30. Hochspringen ER Evals: In-domain and Out-of-domain Benchmarking for Speech Emotion Recognition. Abgerufen am 17. August 2024.
  31. Hochspringen A Cross-Lingual Meta-Learning Method Based on Domain Adaptation for Speech Emotion Recognition. Abgerufen am 11. Oktober 2024.
  32. Hochspringen BENCHMARKING AND ENHANCING GENERALIZATION IN MULTILINGUAL SPEECH EMOTION RECOGNITION. Abgerufen am 29. November 2024.
  33. Hochspringen Thorsten-Voice bei NVIDIA NeMo. Abgerufen am 1. Februar 2023.
  34. Hochspringen NVIDIA NeMo TTS Modell mit Thorsten-Voice Datensatz. Abgerufen am 9. Februar 2023.
  35. Hochspringen Versionshinweise erste Lernstick-12-Version. Abgerufen am 20. Oktober 2023.
  36. Hochspringen Lernstick Download. Abgerufen am 22. November 2023.
  37. Hochspringen Videoanleitung Thorsten-Voice in Home Assistant. Abgerufen am 20. Februar 2024.
  38. Hochspringen Golem Artikel zum Thema TTS. Abgerufen am 28. Mai 2023.
  39. Hochspringen Hör mal, wer da spricht. t3n Magazin, abgerufen am 28. Mai 2023.
  40. Hochspringen Lebensverlängernde Maßnahmen im All. t3n, abgerufen am 28. Mai 2023.
  41. Hochspringen Golem Artikel zum Thema TTS. Golem.de, abgerufen am 28. Mai 2023.
  42. Hochspringen Zum KI-Training in die Cloud gehen? Golem.de, abgerufen am 28. Mai 2023.
  43. Hochspringen Smart Home mit Sprachsteuerung für Experimentierfreudige. Abgerufen am 17. Juni 2024.
  44. Hochspringen FR: Seine Stimme gehört jetzt allen. fr.de, abgerufen am 20. Januar 2025.
  45. Hochspringen WZ: Seine Stimme gehört jetzt allen. wetterauer-zeitung.de, abgerufen am 20. Januar 2025.
  46. Hochspringen FNP: Seine Stimme gehört jetzt allen. fnp.de, abgerufen am 20. Januar 2025.
  47. Hochspringen Thorsten-Voice im Linux Magazin. fnp.de, abgerufen am 22. Januar 2025.
  48. Hochspringen Thorsten-Voice im Linux Magazin. fnp.de, abgerufen am 22. Januar 2025.
  49. Hochspringen Perfektes Text-to-Speech mit emotionalem Unterton mit Thorsten-Voice. Raspberry Pi Geek, abgerufen am 22. Januar 2025.
  50. Hochspringen Dieser Mann hat seine Stimme verschenkt. Netzpolitik.org, 21. März 2025, abgerufen am 21. März 2025.
  51. Hochspringen Webmontag Frankfurt - Künstliche Stimmsynthese. WMFRA, abgerufen am 28. Mai 2023.
  52. Hochspringen Webmontag Frankfurt Livestream Aufzeichnung. WMFRA, abgerufen am 28. Mai 2023.
  53. Hochspringen Webmontag Frankfurt Livestream Aufzeichnung. WMFRA, abgerufen am 8. August 2023.
  54. Hochspringen CCC Videomitschnitt FrOSCon. Abgerufen am 8. August 2023.
  55. Hochspringen Videomitschnitt FrOSCon auf Youtube. Abgerufen am 8. August 2023.
  56. Hochspringen KI-Tools für Wissenschaftspodcasts. Abgerufen am 2. Oktober 2024.
  57. Hochspringen FOCUS ON: Linux Podcast Folge GuardiansOfTheAnsibleGalaxy. Abgerufen am 28. Oktober 2023.
  58. Hochspringen FOCUS ON: Linux Podcast Advents-Folge Sprachsynthese. Abgerufen am 18. Dezember 2023.
  59. Hochspringen Wie man seine eigene Stimme klont. Abgerufen am 27. Februar 2024.
  60. Hochspringen Podcast Software Testing: Audio-KI testen. Abgerufen am 18. Dezember 2023.
  61. Hochspringen Open-Source-Modelle demokratisieren Künstliche Intelligenz. Abgerufen am 12. September 2024.
Info Sign.svg Dieser Wikipedia-Artikel wurde, gemäß GFDL, CC-by-sa mit der kompletten History importiert.