Depuis plusieurs années, je rêvais d’un gadget capable de traduire la parole et imiter la voix originale à la sortie. Branché sur une TV, un tel gadget pourrait traduire l’audio de votre série préférée en la langue que vous désirez, en temps réel et en gardant les voix originales.

Une solution permettant de minimiser les modifications audio a été trouvée la l’équipe de Google Translate. En effet, son traducteur audio peut maintenir la voix et la tonalité aussi proches que possible de celles du locuteur d’origine.

Comment ça fonctionne?
L’entrée audio est directement convertie par le traducteur AI de Google en sortie audio, sans autre étape intermédiaire.

Model d’architecture de Translatotron

Traditionnellement, les systèmes de traduction convertissent l’audio en texte, le texte est ensuite traduit et enfin, l’audio est resynthétisé. Au milieu, la voix originale est perdue et une nouvelle, distinctement différente, est utilisée à la place.

Pour ce faire, Google a créé un nouveau système appelé « Translatotron », un système de traduction parole à parole de bout en bout . Translatotron comprend trois étapes:

  1. Les spectrogrammes audio de la langue d’entrée à la langue de sortie sont formés pour se mapper.
  2. Ces spectrogrammes sont convertis en une onde audio.
  3. La voix du locuteur d’origine est superposée sur la sortie finale.

Quelle différence cela fera-t-il?
C’est un signe positif pour toutes les questions liées à la traduction audio, non seulement parce qu’elle crée des traductions plus nuancées, mais aussi parce qu’elle réduit les risques d’erreurs. Enfin, comme il y a moins d’étapes dans le processus de traduction, il y a moins de chances que des erreurs se produisent.

Vous pouvez écouter des samples ici.