Projecto de clonación Text to Speech del Neng de Castefa.

Índice

Introducción
Desafíos en la Clonación de la Voz del Neng de Castefa
Tecnologías de Síntesis de Voz Utilizadas
Dataset y Especificaciones de Entrenamiento
Experimentos y Resultados
Conclusiones
Referencias

Introducción

El objetivo de este documento es examinar en detalle los desafíos y complejidades involucrados en el intento de clonar la distintiva voz del Neng de Castefa utilizando tecnologías de síntesis de voz (TTS). A lo largo de este documento, exploraremos las dificultades inherentes en la reproducción de su estilo vocal único y las técnicas utilizadas para abordar este desafío.

Desafíos en la Clonación de la Voz del Neng de Castefa

Singularidad Vocal

Se discutirá cómo la voz del Neng de Castefa posee características únicas, como su tono, ritmo y entonación específicos, que lo distinguen de otras voces.

Expresión y Emoción

Exploraremos cómo Neng de Castefa infunde sus expresiones y emociones en su habla, lo que agrega una capa adicional de dificultad para replicar su estilo de manera auténtica.

Aspectos Lingüísticos

Se abordarán los matices lingüísticos y jergas particulares utilizadas por Neng de Castefa, lo que presenta desafíos en la generación de habla que captura adecuadamente su estilo característico.

Tecnologías de Síntesis de Voz Utilizadas

Tacotron 2

Se examinará cómo la técnica de síntesis de voz Tacotron 2 ha sido empleada en el intento de replicar la voz del Neng de Castefa, destacando sus éxitos y limitaciones.

Piper

Se discutirán los enfoques y resultados obtenidos utilizando la herramienta Piper para recrear la voz única del Neng de Castefa, señalando sus ventajas y desafíos.

Dataset y Especificaciones de Entrenamiento

Dataset original (Antiguo)

El dataset utilizado para este proyecto consta de 78 audios, cada uno con una duración de 10 a 14 segundos. En total, el dataset representa aproximadamente 14 minutos y 39 segundos de contenido de audio. La selección de un dataset relativamente pequeño se debió a la dificultad de encontrar audios adecuados. La mayoría del material de audio obtenido estaba obsoleto o presentaba problemas de saturación. El formato de los audios son en .wav, 16 bits, mono, 22050 hz.

Dataset nuevo (Beta temporal)

Este nuevo dataset se trata de una beta. ¿Por qué beta? Quiero probar si con estos datos de audio va bien por el momento su modelo. Este nuevo dataset contiene tan solo 12:46 minutos de audio, 72 archivos del mismo formato que los anteriores mencionados y fue usado un divisor de música y vocales más eficiente. La calidad se ve más alta, veamos si cumple las espectativas en Tacotron 2. (No lo usaré en Piper hasta tener el dataset completo.)

Entrenamiento Tacotron 2. (Dataset original antiguo)

En el entrenamiento inicial utilizando el modelo Tacotron, se configuró un batch size de 2 y se utilizó un modelo de voz base masculina en castellano. Sin embargo, este entrenamiento resultó ser problemático, ya que las gráficas de progreso no mostraron mejoras significativas en la generación de voz.
Aquí podemos observar una gráfica durante su entrenamiento. Intenta hacer la diagonal, pero no lo logra.

Gráfica falliada de entrenamiento en Tacotron 2

Entrenamiento Tacotron 2. (Dataset nuevo beta)

El entrenamiento ha ido muy mal. Estuvo 2 horas y media entrenando y para empezar, comentaré los parámetros. Batch size de 2, learning rate de 3e-4, ha llegado a 45 epochs y se utilizó un modelo de voz base masculina en castellano. De ahí en adelante ha comenzado a sobreentrenarse y volverse loco. Las gráficas no son tan diferentes al entrenamiento del modelo del dataset antiguo.

Conclusiones: la pronunciación es el verdadero problema. No es que diga muchas veces "neng" y "tío", el problema es lo tan rápido que habla que a veces le da por balbucear y Tacotron no le entiende bien. Yo, admito, no entendí a veces cosas que dijo y lo saqué de los audios para el dataset.
Novedades: el audio sacado en el epoch 45 ha logrado decir algunas palabras. En la sección de Experimentos y resultados pondré como suena el modelo, eso sí, serán balbuceos sin sentido. Más bien parece una ametralladora disparando.
Notas: probaré a usar un learning rate de 1e-4, a ver si es capaz de meterse en profundidad a entender mejor la voz del Neng.

Adjunto gráfica del epoch 45 de este entrenamiento. Se ve algo mejor que la del entrenamiento con el dataset antiguo.

Gráfica falliada de entrenamiento en Tacotron 2 con dataset nuevo beta.

Entrenamiento Piper

En contraste, el entrenamiento utilizando la herramienta Piper tuvo un rendimiento más satisfactorio. El modelo fue entrenado durante 10,000 pasos, y aunque no alcanzó la perfección, los resultados fueron decentes y representaron un avance significativo en comparación con el entrenamiento anterior.

Experimentos y Resultados

En esta sección, se describirán los experimentos realizados para clonar la voz del Neng de Castefa utilizando las tecnologías mencionadas anteriormente. Se presentarán ejemplos de los resultados generados y se analizará la similitud con la voz original.

Ahora, se motrarán los resultados y acto seguido explicaré los problemas que obtenga por estos TTS. Usaré tanto frases cortas como largas.
A futuro probaré con más TTS para ver sus resultados.

TTS usado	¿Qué pasa Neng? Soy el Neng de Castefa y esto es una prueba de audio.	¡Eh, peña de GitHub! Aquí llega el Neng de Castefa para montar el tinglao y probar mi TTS. ¡Vamos allá, Nengs!	¡A darle caña, tigre! ¡Esto es puro Neng en acción! ¡Pá pum, Neng!	¿Qué pasa, Neng? Aquí dándole con todo, ¡a tope de power, peñita!
Tacotron 2 (Dataset original antiguo)
Tacotron 2 (Dataset nuevo beta)
Piper

Problemas

Como podemos escuchar, el modelo Tacotron 2 está completamente destrozado. Algunas de las suposiciones son:

Mala calidad de audio: El audio usado es antiguo, principalmente sacado de grabaciones subidas a YouTube en calidad baja. Por no hablar de que el divisor de audio, acapella y música, no era el mejor.
Repeticiones: Neng repite muchas veces "Neng" y otras jergas suyas. Esto puede causar a Tacotron algún problema.
Gritos y vocalización: Neng grita mucho, cuando grita, menos suele vocalizar. A veces cuando habla, es tan rápido que puede también ser un problema.

En cuanto a Piper, logró su misión, hacer que hable. Aún así, no es totalmente bueno y los problemas que le veo son:

No es el TTS correcto: Piper no está preparado para hacer modelos gritones como tal, ya que trata de neutralizar el habla y crea un grito y habla normal extraño. El Neng, en especial, no lo alinea bien a sus gritos y por eso esos recortes de voz.
Las exclamaciones le hacen sonar cortado: Cuando coloco exclamación, se nota que se sube tanto el tono y el sonido que crea recortes en la voz.

Conclusiones

A lo largo de este documento, hemos explorado las múltiples dificultades que surgen al intentar clonar la voz del Neng de Castefa. Su singular estilo vocal, la expresión emocional y los aspectos lingüísticos presentan desafíos significativos en la síntesis de voz. Aunque las tecnología Piper ha brindado resultados prometedores, queda claro que replicar auténticamente la voz del Neng de Castefa sigue siendo un desafío complejo. Estoy pensando hacer un entrenamiento nuevo a futuro con un dataset mejorado en ambos TTS de nuevo, tanto como en otros TTS.