freiberuflicher Netwickler mit WaveNet/Polly KnowHow gesucht!

Deutschland, Bayern, München | Freie Mitarbeit 
|
Kategorie(n): Medien
Jetzt bewerben

Projektbeschreibung

Beschreibung

Für meinen Kunden aus der Medienwelt bin ich auf der Suche nach einem freiberuflichen Entwickler mit WaveNet oder Polly KnowHow um eine Software zu entwicklen, die künstliche Stimmen abspielen lassen kann, ohne dass Sie künstlich klingen.

Zielsetzung:

Ziel dieser Unterlagen ist es eine Übersicht und Entscheidungsgrundlage für die das Text-to-Speech /

Sprachsynthese Projekt im Medienproduktions-Bereich zu schaffen:

* Status quo Technologie
* Wettbewerbsanalyse
* Potentielle Kooperationspartner
* Einsatzbereich konkretisieren

Herausforderungen Sprachsynthese im Medienbereich

1 Simple Text-to-speech (bad quality)
2 Navigation Systems, Public transport systems
3 Text-to-speech (good quality)
4 Concatenative speech synthesis (Wörter bzw. Diphone aneinanderreihen)
5 Duolingo language app, etc.
6 Natural sounding voice
7 Formant speech synthesis (frequency generator) or signal modeling
8 Podcast, etc.
9 Holy grail: Natural sounding voice correlating to facial expression
10 cloud- based & AI-based signal modeling with deep neural networks (DNN)
11 Huge datasets necessary to learn from in multiple iterations
12 matching facial expression / lip synced (time stamps) of
13 actors / cartoon / game characters
14 Step I: 1 language (e.g. ENG to GER)
15 Step II: multiple languages

Technologie - state of the art (Signal Modellierung)

* Beispiel: Google’s DeepMind verwendet Tensorflow für Tacotron-2 (WaveNet)
* Gets better and better using AI-based learning (LSTM)
* LSTM = long short term memory; artificial recurrent neural network (RNN) architecture

Sollten Sie Interesse am Projekt haben, freue ich mich auf Ihre Nachricht!

Jetzt bewerben
Bitte loggen Sie sich ein oder registrieren Sie sich, um sich auf das Projekt zu bewerben.
Neu bei projektwerk?