Thorsten-Voice
Thorsten-Voice | |
---|---|
Hochwertige und kostenlose Sprachsynthese ohne Internet-Abhängigkeit | |
Open Source Sprachdatensätze und TTS-Stimmen | |
Sprachen | Deutsch |
Betreiber | Thorsten Müller |
Online | 2021 |
https://www.Thorsten-Voice.de/ |
Das Projekt Thorsten-Voice wurde im Oktober 2019 von Thorsten Müller und Dominik Kreutz gestartet. Die Motivation war die Bereitstellung einer kostenfreien, qualitativ hochwertigen, deutschen künstlichen Stimme zur Sprachsynthese (auch TTS oder text to speech genannt), die offline erzeugt werden und jeder Zielgruppe kostenfrei und ohne lizenzrechtliche Einschränkungen zur Verfügung stehen soll.
Inhaltsverzeichnis
[Verbergen]Hintergrund[Bearbeiten]
Sprechen ist die natürliche Kommunikationsform des Menschen und gewinnt zunehmend auch im Bereich der Mensch-Maschine-Interaktion an Bedeutung. So finden vokale sprachbasierte Assistenzsysteme wie Amazon Alexa oder Google Home vermehrt Anwendung im privaten und geschäftlichen Bereich. Die Sprachqualität bildet daher ein Schlüsselkriterium in der Benutzerakzeptanz. Hochwertige Stimmen stehen häufig nur als Cloud-Lösungen zur Verfügung und bringen einige negative Aspekte mit sich:
- setzen funktionierenden Internetzugang voraus,
- unterliegen Datenschutz- und Urheberrechtsbedenken,
- sind lizenzrechtlich in der Nutzung eingeschränkt,
- führen zur Abhängigkeit von einem bestimmten Anbietern,
- sind manchmal kostenpflichtig.
Aufgrund daraus folgender Bedingungen und Möglichkeiten müssen viele Projekte auf Alternativen zurückgreifen, die ohne die genannten Einschränkungen funktionieren.
Sprecher-Statement[Bearbeiten]
„Für mich sind alle Menschen gleich, unabhängig von Geschlecht, sexueller Orientierung, Religion, Hautfarbe oder Geokoordinaten der Geburt. Ich glaube an eine globale Welt, wo jeder überall willkommen ist und freies Wissen und Bildung kostenfrei für jeden zur Verfügung steht. Ich habe meine Stimme der Allgemeinheit gespendet, in der Hoffnung darauf, dass sie in diesem Sinne genutzt wird.“ (Thorsten Müller, 2020)[1]
Sprachdatensätze[Bearbeiten]
Sprachdatensätze bilden die Grundlage um mittels Künstlicher Intelligenz oder maschinellem Lernen künstliche Stimmen zu trainieren. Das Thorsten-Voice Projekt stellt die folgenden offenen (CC0) Sprachdatensätze zur Verfügung.
- Thorsten-Voice Dataset 2021.02
- Thorsten-Voice Dataset 2022.10
- Thorsten-Voice Dataset 2021.06 Emotional
- Thorsten-Voice Dataset 2023.09 Hessisch
Alle Thorsten-Voice Sprachdatensätze bestehen aus, auf -24dB normalisierte, Audioaufnahmen im Mono-Wave-Format mit einer Samplerate von 22.050 Hertz und einer CSV-Datei mit dem gesprochenen Text pro Audioaufnahme. Sie stehen auf dem OpenSLR Spracharchiv, sowie auf der von der Europäischen Union finanzierten, wissenschaftlichen Plattform Zenodo unter eindeutigen DOI zur Verfügung.[2]
Thorsten-Voice Dataset 2021.02[Bearbeiten]
Diese Aufnahmen, mit einer Textlänge von 2-180 Zeichen, aus dem Jahr 2020 wurden mit neutraler Sprechweise aufgezeichnet.
Anzahl Aufnahmen | 22.668 |
---|---|
Aufnahmedauer | > 23 Stunden |
Satzlänge (min/avg/max) | 2 / 52 / 180 Zeichen |
Gesprochene Zeichen pro Sekunde (avg) | 14 |
Es liegt eine relativ konstante Sprechgeschwindigkeit von 14 Zeichen pro Sekunde vor. Aufnahmen mit einer Zeichenlänge von 50 Zeichen entsprechen einer ungefähren Audiodauer von 4 Sekunden. Bei einer Satzlänge von 150 Zeichen beträgt die Länge der Aufnahme 10 Sekunden. Die durchschnittliche Satzlänge beträgt 52 Zeichen.
Thorsten-Voice Dataset 2022.10[Bearbeiten]
Der neutrale Thorsten-2022.10 Sprachdatensatz wurde im Oktober 2022 auf der Plattform Zenodo unter der DOI 10.5281/zenodo.7265581 veröffentlicht.[3]
Anzahl Aufnahmen | 12.430 |
---|---|
Aufnahmedauer | > 11 Stunden |
Gesprochene Zeichen pro Sekunde (avg) | 17,5 |
Thorsten-Voice Dataset 2021.06 Emotional[Bearbeiten]
Dieser Sprachdatensatz (Veröffentlichung im Juni 2021) besteht aus 300 Sätzen, die in jeweils unterschiedlichen emotionalen Betonungen aufgenommen wurden. Die folgende Tabelle zeigt die Audiolänge der 300 Aufnahmen pro Emotion, sowie ein Audiobeispiel anhand des folgenden Beispielsatzes: „Mist, wieder nichts geschafft.“ Wie auch die neutral gesprochenen Sprachdatensätze steht dieses ohne lizenzrechtliche Einschränkungen zur Verfügung.
Emotion | Audiobeispiel |
---|---|
Neutral | ![]() |
Angeekelt | ![]() |
Wütend | ![]() |
Erfreut | ![]() |
Schläfrig | ![]() |
Überrascht | ![]() |
Betrunken gesprochen
(nüchtern aufgenommen) |
![]() |
Flüstern | ![]() |
Thorsten-Voice Dataset 2023.09 Hessisch[Bearbeiten]
Alle 2.000 Aufnahmen dieses Sprachdatensatzes basieren auf hochdeutsch geschriebenen Texteingaben. Sie wurden, im Gegensatz zu den anderen Sprachdatensätzen, aber mit südhessischem Akzent ausgesprochen. Somit lassen sich KI basierte Sprachmodelle mit südhessischer Betonung trainieren. Ein entsprechendes Modell steht ebenfalls auf Huggingface bereit.[4] Der hessische Sprachdatensatz steht ebenfalls unter offener Lizenz auf Plattform Zenodo zur Verfügung.[5]
Sprachsynthese[Bearbeiten]
Das Thorsten-Voice Projekt stellt kostenfreie und ohne Internet nutzbare Sprachsynthese (TTS / Text to Speech) Möglichkeiten auf Basis der Sprachdatensätze bereit. Audiobeispiele stehen auf der Projektwebseite zur Verfügung. Weiterhin können verschiedene, auch emotionale, Thorsten-Voice Stimmen im Browser über die Plattform Huggingface direkt ausprobiert werden.
Einsatz in Wissenschaft und Forschung[Bearbeiten]
Aufgrund der freigiebigen Open-Source Lizenz (CC0) werden die Thorsten-Voice Sprachdatensätze weltweit in unterschiedlichsten wissenschaftlichen Forschungsarbeiten verwenden.
Veröffentlichungsdatum | Hochschule | Titel | Bemerkung |
---|---|---|---|
11.06.2021 | Hochschule Hof | Sprachsynthese -- State-of-the-Art in englischer und deutscher Sprache[6][7] | In diesem Artikel werden Stand von Forschung und Technik der Sprachsynthese getrennt
nach Mel-Spektrogramm-Generierung und Vocoder dargestellt. Den Abschluss bildet eine Übersicht verfügbarer Datensätze für Englisch und Deutsch |
15.10.2021 | Universität Augsburg (Institut für Software & Systems Engineering) | Scribosermo: Fast Speech-to-Text models for German and other Languages[8] | Dieses Papier stellt Speech-to-Text-Modelle für Deutsch sowie für Spanisch und Französisch mit besonderen Merkmalen vor. Sie sind klein und laufen in Echtzeit auf Mikrocontrollern wie einem RaspberryPi. |
31.10.2021 | Buch Springer Verlag (ISBN 978-3030876258) | KI 2021: Advances in Artificial Intelligence[9] | |
22.04.2022 | Universität Maastricht | LibriS2S: A German-English Speech-to-Speech Translation Corpus[10] | Aufbau von LibriS2S zur Abbildung von Sprache-zu-Sprache-Trainingskorpus zwischen Deutsch und Englisch. |
05.06.2022 | Yıldız Technical Universit (Faculty of Electrical and Electronics Engineering) | Is it possible to train a Turkish text-to-speech model with English data?[11] | Das Erstellen oder Finden von Datensätzen für Text-to-Speech-Studien (TTS) kann sowohl zeitlich als auch finanziell recht kostspielig sein. Diese Studie versucht zu untersuchen, ob englische akustische Daten zum Trainieren eines türkischen Text-to-Speech-Modells verwendet werden können, um das Datenproblem zu beseitigen. |
24.06.2022 | Universität Stuttgart (Institute for Natural Language Processing) | Exact Prosody Cloning in Zero-Shot Multispeaker Text-to-Speech[12] | Wir zeigen, dass es möglich ist, die Stimme eines Sprechers sowie die Prosodie einer gesprochenen Referenz unabhängig voneinander zu klonen, ohne dass es zu Qualitätseinbußen kommt und mit hoher Ähnlichkeit sowohl zur Originalstimme als auch zur Originalprosodie, wie unsere objektive Bewertung und Studie am Menschen zeigen. |
15.07.2022 | IEEE Engineering in Medicine & Biology Society (EMBC), Glasgow, Scotland, United Kingdom | Language-Independent Sleepy Speech Detection[13] | Wir haben zwei verschiedene Sprachen, Englisch und Deutsch, zur Erkennung schläfriger Sprache verwendet, wobei Erstere zum Trainieren/Validieren und Letztere zum Testen der Wirksamkeit von maschinellen und Deep-Learning-Modellen verwendet wurde. |
17.07.2022 | Hochschule Hof | Neural Speech Synthesis in German[14] | Diese Arbeit behandelt spezifische Herausforderungen beim Training von Text-to-Speech-Modellen für die deutsche Sprache, einschließlich der Datensatzauswahl und der Datenvorverarbeitung, und stellt den Trainingsprozess für mehrere Modelle eines End-to-End-Text-to-Speech-Systems basierend auf einer Kombination aus Tacotron 2 und Multi-Band MelGAN vor. |
18.10.2022 | Universität Stuttgart | PoeticTTS - Controllable Poetry Reading for Literary Studies[15] | Die Sprachsynthese für Gedichte ist aufgrund der spezifischen Intonationsmuster, die poetischer Sprache innewohnen, eine Herausforderung. In dieser Arbeit schlagen wir einen Ansatz vor, um Gedichte mit nahezu menschlicher Natürlichkeit zu synthetisieren. |
21.10.2022 | Universität Stuttgart | Low-Resource Multilingual and Zero-Shot Multispeaker TTS[16] | In dieser Arbeit bringen wir die Aufgaben des Zero-Shot-Stimmklonens und des mehrsprachigen ressourcenarmen TTS zusammen. |
08.11.2022 | University of Seoul, University of Southern California | Exploring the Community of Model Publishers on TensorFlow Hub[17] | Die Analyse der auf TF Hub aufgezeichneten Metadaten enthüllte die Modelle, die die KI-Modellherausgeber hochgeladen haben. Außerdem fanden wir heraus, wie die von den KI-Modellherausgebern veröffentlichten Modelle mit anderen Personen auf TF Hub geteilt wurden. |
27.01.2023 | Universität Stuttgart | Exact Prosody Cloning in Zero-Shot Multispeaker Text-to-Speech[18] | Abhandlung zum Erzeugen künstlicher Stimme, auf Basis eines nicht transkribierten Sprachdatensatzes |
27.04.2023 | Universität Magdeburg | CROSS-RELIABILITY BENCHMARK TEST FOR PRESERVING EMOTIONAL CONTENT IN SPEECH–SYNTHESIS RELATED DATASETS[19] | Die Studie untersucht drei emotionale Sprachdatensätze, die ausgewählt wurden, um eine Reihe von emotionalen Inhalten sowie verschiedene Sprachen (Englisch und Deutsch) darzustellen, und die für die Sprachsynthese entwickelt wurden. |
03.05.2023 | Hochschule Hof | ASR Bundestag: A Large-Scale political debate dataset in German[20] | Wir präsentieren ASR Bundestag, einen Datensatz für automatische Spracherkennung in Deutsch, der aus 610 Stunden ausgerichteten Audio-Transkript-Paaren für überwachtes Training sowie 1.038 Stunden unbeschrifteten Audioschnipseln für selbstüberwachtes Lernen besteht, basierend auf Roh-Audiodaten und Transkriptionen von Plenarsitzungen und Ausschusssitzungen des Deutschen Bundestages. |
03.07.2023 | Adıyaman-Universität, Technische Universität Ostim, Gazi-Universität | Türkçe TTS Sistemlerinin Geliştirilmesi için Dengeli Bir Veri Kümesi Hazırlama[21] | Dieser für Türkisch vorbereitete Datensatz wurde zuvor für Englisch und Englisch vorbereitet erfolgreiche Ergebnisse wurden mit dem Datensatz namens „The LJ Speech Dataset“ verglichen und zukünftige Studien durchgeführt. |
11.09.2023 | Gesellschaft für Informatik, Bonn | Shared listening experience for hyperaudio textbooks[22] | In diesem Artikel präsentieren wir die Entwicklung eines Hyperaudio-Players, der Lehrbuchinformationen in einem Audioformat darstellt und ein gemeinsames Wiedergabeerlebnis für Benutzergruppen bietet. |
11.10.2023 | MIT, TTIC, UT Austin, UC Santa Barbara, MIT-IBM Watson AI Lab | Audio-Visual Neural Syntax Acquisition[23] | Wir präsentieren den Audio-Visual Neural Syntax Learner (AV-NSL), der Phrasenstrukturen lernt, indem er Audios hört und
Bilder ansieht, ohne jemals Text ausgesetzt zu sein. |
14.01.2024 | Hochschule Hof | Automatic Speech Recognition in German: A Detailed Error Analysis[24] | Überprüfung der Ergebnisse automatischer Spracherkennung der Software "Kaldi". |
17.01.2024 | verwendet das Thorsten-Voice Dataset und benennt Thorsten Müller als Co-Autoren. | MLAAD: The Multi-Language Audio Anti-Spoofing Dataset[25] | Sie beschäftigt sich mit der Frage wie zukünftig sprachliche Deepfakes erkannt werden können um dem Missbrauch von künstlichen Stimmen entgegenzuwirken und die Sicherheit in diesem Umfeld zu erhöhen. |
20.02.2024 | University of Texas at Austin | Textless Low-Resource Speech-to-Speech Translation With Unit Language Models[26] | Wir präsentieren ein neues Framework für das Training textloser Sprachübersetzungssysteme mit geringen Ressourcen (S2ST), die nur Dutzende von Stunden paralleler Sprachdaten benötigen. |
14.04.2024 | POSTECH, Republic of Korea | Leveraging the Interplay Between Syntactic and Acoustic Cues for Optimizing Korean TTS Pause Formation[27] | Ihr Fokus ist eine natürlichere Betonung und Pausierungen im Sprachfluss in anderen Sprachen abseits von Englisch (besonders Koreanisch). |
25.04.2024 | Universitat Politècnica de Catalunya, Barcelona, Spanien | SpeechAlign: a Framework for Speech Translation Alignment Evaluation[28] | Ziel ist die Erforschung von Sprache-zu-Sprache Übersetzungen von Englisch nach Deutsch und umgekehrt. |
19.06.2024 | TOYOTA TECHNOLOGICAL INSTITUTE AT CHICAGO | Learning Language Structures through Grounding[29] | Motiviert durch das menschliche Sprachenlernen betrachten wir in dieser Dissertation eine Familie von maschinellen Lernaufgaben, die darauf abzielen, Sprachstrukturen durch Erdung zu lernen. |
14.08.2024 | Virginia Commonwealth University | SER Evals: In-domain and Out-of-domain Benchmarking for Speech Emotion Recognition[30] | Ziel der wissenschaftlichen Forschungsarbeit ist die automatische Erkennung von Emotionen im Rahmen der Spracherkennung. |
06.10.2024 | University of Bucharest | A Cross-Lingual Meta-Learning Method Based on Domain Adaptation for Speech Emotion Recognition[31] | Unsere Arbeit untersucht die Leistung des Modells bei begrenzten Daten, insbesondere bei der Sprachemotionserkennung. |
29.11.2024 | Virginia Commonwealth University | BENCHMARKING AND ENHANCING GENERALIZATION IN MULTILINGUAL SPEECH EMOTION RECOGNITION[32] | Die maschinelle Erkennung von menschlichen Emotionen ist wesentlich für die zukünftige Mensch<->Maschine Interaktion. |
Weitere Verwendungsmöglichkeiten[Bearbeiten]
Weitere Verwendungsmöglichkeiten sind vorstellbar. Denkbar ist etwa die Entwicklung eines Smartphone-basierten Open-Source-Sprachgenerators für Menschen, die stumm sind oder aus anderweitigen Gründen – beispielsweise als Folge eines Unfalls – nicht sprechen können, die nach einem Hilfsmittel ergänzender Artikulation suchen.
Seit Januar 2023 ist Thorsten-Voice Bestandteil des Opensource Werkzeugkastens "NeMo" von NVIDIA im Bereich der Sprachtechnologie.[33][34]
In "Lernstick" einer mobile Lern- und Arbeitsumgebung wird die künstliche Thorsten-Voice ebenfalls als Vorlesestimme ausgeliefert und verwendet.[35][36]
In der Smarthome Anwendung Home Assistant steht die künstliche Thorsten-Voice Stimme in neutraler und emotionale Betonung in verschiedenen Qualitätsstufen als lokal lauffähige Sprachausgabe ebenfalls zur Verfügung.[37]
Youtube Kanal, Medien und Auftritte[Bearbeiten]
Seit 2021 betreibt das Projekt den Youtube-Kanal "Thorsten-Voice" und veröffentlicht dort technische Anleitungen rund um offene Sprachtechnologien.
- In einem Youtube Livestream der türkischen Tensorflow Community sprach der Projektgründer im Juni 2021 über die Möglichkeit "Technologie mit der eigenen Stimme sprechen zu lassen".[38]
Print- und Onlinemedien[Bearbeiten]
- Das zur Heise Gruppe gehörende Technikmagazin t3n Magazin veröffentlicht im Magazin Nummer 72 Interviewausschnitte von Projektgründer Thorsten Müller im Artikel "Hör mal, wer da spricht".[39] Der zugehörige t3n CatchUp Podcast ("Lebensverlängernde Maßnahmen im All") bespricht das Thorsten-Voice Projekt ebenfalls.[40]
- Auf Golem.de wurde das Thorsten-Voice Projekt unter anderem in einem Artikel zum Klonen der eigenen Stimme referenziert.[41] Weiterhin verwendet der Artikel "Zum KI-Training in die Cloud gehen?" eines der Thorsten-Voice Sprachdatensätze um verschiedene GPU-Geschwindigkeitstests objektiv vergleichbar zu machen.[42]
- Der Golem.de Artikel "Smart Home mit Sprachsteuerung für Experimentierfreudige" von Juni 2024 verwendet im Bereich der Sprachausgabe in der Smarthome Software Home Assistant ebenfalls die Thorsten-Voice Stimme.[43]
- Ein Zeitungsartikel zum Thorsten-Voice Projekt mit Interviewauszügen des Projektgründer mit dem Titel "Seine Stimme gehört jetzt allen" wurde am 20.01.2025 in der Frankfurter Rundschau, der Wetterauer-Zeitung, sowie der Frankfurter Neuen Presse veröffentlicht.[44][45][46]
- Im Linux User Magazin wird auf die emotionalen Sprachmöglichkeiten mit Thorsten-Voice eingegangen.[47][48]
- Ausgabe 03/2025 des Raspberry Pi Geek Magazins widmet dem Thorsten-Voice Projekt eine Titelgeschichte.[49]
- A 21.03.2025 berichtet Netzpolitik.org über Thorsten Müller und sein Thorsten-Voice Projekt. Dabei werden auch die Risiken aufgegriffen, welche eine Open-Source Stimmenspende mit sich bringen kann.[50]
Konferenzen[Bearbeiten]
- Beim Webmontag Nummer 109 am 08.05.2023 in Frankfurt wurde Projektgründer Thorsten Müller als Referent zum Thema "Künstliche Sprachausgabe" geladen.[51] Eine Aufzeichnung der Livestream Veranstaltung ist über die entsprechende WMFRA Seite oder dem entsprechenden Youtube Kanal verfügbar.[52][53]
- Auf der, von der Hochschule Bonn-Rhein-Sieg jährlich organisierten, "Free and Open Source Software Conference (FrOSCon)" referierte Thorsten Müller am 06.08.2023 über hochqualitative und lokal lauffähige künstliche Stimmerzeugung. Eine Videoaufzeichnung ist auf den Medienseiten des Chaos Computer Club (CCC), sowie Youtube verfügbar.[54][55]
Podcasts[Bearbeiten]
- Im Podcast "Science goes Podcast" vom 02. Oktober 2024 wird das Thorsten-Voice Projekt für kurze Zitate verwendet und als Open Source TTS Stimme referenziert.[56]
- In Folge 10/23 des monatlich erscheinenden "FOCUS ON: Linux" Podcast wird die Thorsten-Voice Stimme als Co-Moderation verwendet und über die Nutzungsmöglichkeiten berichtet.[57]In der Advents-Folge vom 18. Dezember 2023 des gleichen Podcast spricht Thorsten Müller über das Projekt und seine Leidenschaft zu offenen Sprachtechnologien.[58]
- Im "Besser Wissen" Podcast von Golem.de war Thorsten Müller zu Gast zum Thema Sprachsynthese und den Möglichkeiten der Stimm-Klonung.[59]
- In einem Podcast Themeninterview zum Thema "Audio-KI testen" wird ebenfalls das Thorsten-Voice Projekt als freie deutsche Stimme und Sprachdatensatz referenziert.[60]
- Am 12.09.2024 spricht Thorsten Müller im Deutschlandfunk Podcast "KI verstehen" über das Thorsten-Voice Projekt und die Vorteile von Open Source im KI Umfeld.[61]
Weblinks[Bearbeiten]
- Webseite des Projektes
- Thorsten-Voice auf GitHub
- Youtube Kanal Thorsten-Voice
- Thorsten Müller: Why i’ve chosen to donate my (german) voice for mankind. In: medium.com. 11. August 2020 (englisch).
- Thorsten-Voice im Ubuntuusers Wiki
- Thorsten-Voice Live Demo auf Huggingface
Einzelnachweise[Bearbeiten]
- Hochspringen ↑ Thorsten Müller (German Neutral-TTS dataset). In: openslr.org. Abgerufen am 30. Juni 2021.
- Hochspringen ↑ Thorsten Müller (German Emotional-TTS dataset). In: openslr.org. Abgerufen am 30. Juni 2021.
- Hochspringen ↑ Thorsten Müller (ThorstenVoice-Dataset-2022.10). In: zenodo.org. Abgerufen am 31. Oktober 2022.
- Hochspringen ↑ Hessische TTS-Stimme auf Huggingface. Abgerufen am 16. Januar 2024.
- Hochspringen ↑ Hessischer Thorsten-Voice Sprachdatensatz. Abgerufen am 16. Januar 2024.
- Hochspringen ↑ René Peinl: Sprachsynthese -- State-of-the-Art in englischer und deutscher Sprache. In: arXiv:2106.06230 [cs]. 11. Juni 2021, arxiv:2106.06230 [bs].
- Hochspringen ↑ Pascal Puchtler, Johannes Wirth, René Peinl: HUI-Audio-Corpus-German: A high quality TTS dataset. In: arXiv:2106.06309 [cs, eess]. 11. Juni 2021, arxiv:2106.06309 [abs].
- Hochspringen ↑ Wolfgang Reif: Scribosermo: Fast Speech-to-Text models for German and other Languages. In: arXiv:2110.07982 [cs]. 16. Juli 2022, arxiv:2110.07982 [bs].
- Hochspringen ↑ Stefan Edelkamp, Ralf Möller, Elmar Rueckert: KI 2021 : 44th German Conference on AI, Virtual event, September 27-October 1, 2021, Proceedings. Springer, Cham 2021, ISBN 978-3-03087626-5.
- Hochspringen ↑ LibriS2S: A German-English Speech-to-Speech Translation Corpus. Abgerufen am 6. Mai 2023.
- Hochspringen ↑ Engin Ergün: Is it possible to train a Turkish text-to-speech model with English data? 16. Juli 2022, doi:10.14744/rase.2022.0001.
- Hochspringen ↑ Universität Stuttgart: Exact Prosody Cloning in Zero-Shot Multispeaker Text-to-Speech. In: arXiv:2206.12229 [cs]. 16. Juli 2022, arxiv:2206.12229 [bs].
- Hochspringen ↑ Language-Independent Sleepy Speech Detection. Abgerufen am 14. Januar 2024.
- Hochspringen ↑ René Peinl: Neural Speech Synthesis in German. In: centric_2021_2_30_30009. 17. Juli 2022.
- Hochspringen ↑ Universität Stuttgart: PoeticTTS - Controllable Poetry Reading for Literary Studies. In: arXiv:2207.05549 [cs]. 16. Juli 2022, arxiv:2207.05549 [bs].
- Hochspringen ↑ Uni Stuttgart: Low-Resource Multilingual and Zero-Shot Multispeaker TTS. In: arXiv:2210.12223 [cs]. 12. November 2022, arxiv:2210.12223 [bs].
- Hochspringen ↑ https://dl.acm.org/doi/pdf/10.1145/3500868.3559477
- Hochspringen ↑ Uni Stuttgart: Exact Prosody Cloning in Zero-Shot Multispeaker Text-to-Speech. In: 10.1109/SLT54892.2023.10022433. 27. Januar 2023.
- Hochspringen ↑ CROSS-RELIABILITY BENCHMARK TEST FOR PRESERVING EMOTIONAL CONTENT IN SPEECH–SYNTHESIS RELATED DATASETS. Abgerufen am 27. April 2023.
- Hochspringen ↑ ASR Bundestag: A Large-Scale political debate dataset in German. In: 2302.06008. Abgerufen am 3. Mai 2023.
- Hochspringen ↑ Ein ausgewogenes System für die Entwicklung türkischer TTS-Systeme Datensatzvorbereitung. Abgerufen am 11. September 2023.
- Hochspringen ↑ Shared listening experience for hyperaudio textbooks. Abgerufen am 11. September 2023.
- Hochspringen ↑ Cheng-I Jeff Lai: AUDIO-VISUAL NEURAL SYNTAX ACQUISITION. In: arXiv:2310.07654 [cs]. 10. November 2023, arxiv:2310.07654 [cs].
- Hochspringen ↑ Automatic Speech Recognition in German: A Detailed Error Analysis. Abgerufen am 14. Januar 2024.
- Hochspringen ↑ MLAAD: The Multi-Language Audio Anti-Spoofing Dataset. Abgerufen am 24. Januar 2024.
- Hochspringen ↑ Textless Low-Resource Speech-to-Speech Translation With Unit Language Models. Abgerufen am 23. Februar 2024.
- Hochspringen ↑ Leveraging the Interplay Between Syntactic and Acoustic Cues for Optimizing Korean TTS Pause Formation. Abgerufen am 14. April 2024.
- Hochspringen ↑ SpeechAlign: a Framework for Speech Translation Alignment Evaluation. Abgerufen am 14. Januar 2024.
- Hochspringen ↑ Learning Language Structures through Grounding. Abgerufen am 19. Juni 2024.
- Hochspringen ↑ ER Evals: In-domain and Out-of-domain Benchmarking for Speech Emotion Recognition. Abgerufen am 17. August 2024.
- Hochspringen ↑ A Cross-Lingual Meta-Learning Method Based on Domain Adaptation for Speech Emotion Recognition. Abgerufen am 11. Oktober 2024.
- Hochspringen ↑ BENCHMARKING AND ENHANCING GENERALIZATION IN MULTILINGUAL SPEECH EMOTION RECOGNITION. Abgerufen am 29. November 2024.
- Hochspringen ↑ Thorsten-Voice bei NVIDIA NeMo. Abgerufen am 1. Februar 2023.
- Hochspringen ↑ NVIDIA NeMo TTS Modell mit Thorsten-Voice Datensatz. Abgerufen am 9. Februar 2023.
- Hochspringen ↑ Versionshinweise erste Lernstick-12-Version. Abgerufen am 20. Oktober 2023.
- Hochspringen ↑ Lernstick Download. Abgerufen am 22. November 2023.
- Hochspringen ↑ Videoanleitung Thorsten-Voice in Home Assistant. Abgerufen am 20. Februar 2024.
- Hochspringen ↑ Golem Artikel zum Thema TTS. Abgerufen am 28. Mai 2023.
- Hochspringen ↑ Hör mal, wer da spricht. t3n Magazin, abgerufen am 28. Mai 2023.
- Hochspringen ↑ Lebensverlängernde Maßnahmen im All. t3n, abgerufen am 28. Mai 2023.
- Hochspringen ↑ Golem Artikel zum Thema TTS. Golem.de, abgerufen am 28. Mai 2023.
- Hochspringen ↑ Zum KI-Training in die Cloud gehen? Golem.de, abgerufen am 28. Mai 2023.
- Hochspringen ↑ Smart Home mit Sprachsteuerung für Experimentierfreudige. Abgerufen am 17. Juni 2024.
- Hochspringen ↑ FR: Seine Stimme gehört jetzt allen. fr.de, abgerufen am 20. Januar 2025.
- Hochspringen ↑ WZ: Seine Stimme gehört jetzt allen. wetterauer-zeitung.de, abgerufen am 20. Januar 2025.
- Hochspringen ↑ FNP: Seine Stimme gehört jetzt allen. fnp.de, abgerufen am 20. Januar 2025.
- Hochspringen ↑ Thorsten-Voice im Linux Magazin. fnp.de, abgerufen am 22. Januar 2025.
- Hochspringen ↑ Thorsten-Voice im Linux Magazin. fnp.de, abgerufen am 22. Januar 2025.
- Hochspringen ↑ Perfektes Text-to-Speech mit emotionalem Unterton mit Thorsten-Voice. Raspberry Pi Geek, abgerufen am 22. Januar 2025.
- Hochspringen ↑ Dieser Mann hat seine Stimme verschenkt. Netzpolitik.org, 21. März 2025, abgerufen am 21. März 2025.
- Hochspringen ↑ Webmontag Frankfurt - Künstliche Stimmsynthese. WMFRA, abgerufen am 28. Mai 2023.
- Hochspringen ↑ Webmontag Frankfurt Livestream Aufzeichnung. WMFRA, abgerufen am 28. Mai 2023.
- Hochspringen ↑ Webmontag Frankfurt Livestream Aufzeichnung. WMFRA, abgerufen am 8. August 2023.
- Hochspringen ↑ CCC Videomitschnitt FrOSCon. Abgerufen am 8. August 2023.
- Hochspringen ↑ Videomitschnitt FrOSCon auf Youtube. Abgerufen am 8. August 2023.
- Hochspringen ↑ KI-Tools für Wissenschaftspodcasts. Abgerufen am 2. Oktober 2024.
- Hochspringen ↑ FOCUS ON: Linux Podcast Folge GuardiansOfTheAnsibleGalaxy. Abgerufen am 28. Oktober 2023.
- Hochspringen ↑ FOCUS ON: Linux Podcast Advents-Folge Sprachsynthese. Abgerufen am 18. Dezember 2023.
- Hochspringen ↑ Wie man seine eigene Stimme klont. Abgerufen am 27. Februar 2024.
- Hochspringen ↑ Podcast Software Testing: Audio-KI testen. Abgerufen am 18. Dezember 2023.
- Hochspringen ↑ Open-Source-Modelle demokratisieren Künstliche Intelligenz. Abgerufen am 12. September 2024.