Blog

Voice Engine, el motor de voz de OpenAI que permite copiar la voz de otra persona

OpenAI ha desarrollado una herramienta de clonación de voz llamada Voice Engine, que permite a los usuarios crear una voz sintética basada en una muestra de 15 segundos de la voz de otra persona. 

Esta herramienta se encuentra actualmente en fase de previsualización y aún no está disponible para el público. La empresa se está tomando este tiempo para asegurarse de que la tecnología se despliega de forma responsable, teniendo en cuenta los riesgos potenciales y estableciendo salvaguardias. 

Voice Engine es una ampliación de la API de conversión de texto en voz de OpenAI y lleva unos dos años en desarrollo.

El modelo generativo de inteligencia artificial de Voice Engine se ha utilizado en otros productos de OpenAI, como las funciones de voz y «lectura en voz alta» de ChatGPT y las voces predefinidas de la API de conversión de texto en voz. El modelo se entrenó con una mezcla de datos bajo licencia y de dominio público, aunque OpenAI no ha revelado detalles concretos sobre los datos de entrenamiento. Estos datos de entrenamiento son cruciales para el desarrollo del modelo, pero también plantean cuestiones sobre los derechos de propiedad intelectual y el uso justo.

Voice Engine utiliza una combinación de un proceso de difusión y un transformador para generar voz a partir de una pequeña muestra de audio y un texto. El modelo no retiene los datos de audio después de generar el habla, lo que ayuda a proteger la privacidad del usuario. OpenAI afirma que su método ofrece un habla de mayor calidad que otros productos de clonación de voz del mercado.

Una de las principales características de un motor de voz es su capacidad para generar un habla realista sin necesidad de ajustar los datos del usuario. Esto se consigue mediante la combinación de un proceso de difusión y un transformador, que permite al modelo analizar simultáneamente los datos de voz y texto para generar una voz acorde. Aunque esta tecnología no es nueva, OpenAI afirma que su método ofrece un habla de mayor calidad que otros productos de clonación de voz del mercado.

En cuanto al precio, Voice Engine cuesta 15 dólares por cada millón de caracteres, lo que equivale a unas 162.500 palabras o unas 18 horas de audio. Este precio es competitivo en comparación con otros proveedores, pero Voice Engine no ofrece tantas opciones de personalización como otros productos. 

La mercantilización del trabajo de voz que herramientas como Voice Engine podrían traer consigo puede repercutir en los actores de doblaje, cuyos salarios oscilan entre los 12 y los 79 dólares por hora. De momento, Voice Engine no ofrece controles para ajustar el tono, la entonación o la cadencia, aunque cualquier expresividad en la muestra de voz de 15 segundos se trasladará a las siguientes generaciones.

El desarrollo de la tecnología de clonación de voces plantea problemas éticos, sobre todo en lo que se refiere al impacto en los actores de doblaje. 

La herramienta de OpenAI tiene el potencial de reducir el coste del trabajo de voz, eliminando potencialmente el trabajo de voz de nivel básico en favor del habla generada por IA. 

Aunque algunas empresas están estudiando formas de proteger los derechos de los actores de doblaje, como la creación de mercados de voces sintéticas, OpenAI aún no ha puesto en marcha medidas de este tipo.

A pesar de estos problemas, OpenAI está tomando medidas para evitar el uso indebido de Voice Engine. Actualmente, la herramienta sólo está disponible para un pequeño grupo de desarrolladores, y los clones creados con Voice Engine llevan una marca de agua para rastrear su origen. 

OpenAI también está trabajando con su red de equipos rojos para identificar y mitigar los posibles riesgos asociados a la tecnología. Aunque el motor de voz de OpenAI representa un avance significativo en la tecnología de IA, su aplicación requiere una cuidadosa consideración de las implicaciones éticas y sociales.

Artículos destacados

From offline to online.

Comparte tus ideas con nosotros