Gracias a la IA, Nvidia te hará escuchar sonidos nunca antes escuchados
Written by rasco on November 26, 2024
Un equipo de investigadores de inteligencia artificial generativa de Nvidia ha creado una verdadera navaja suiza de audio, que permite a los usuarios controlar la salida de audio simplemente usando un comando de texto.
Si bien algunos modelos de IA pueden componer una canción o modificar una voz, ninguno tiene la destreza de este nuevo modelo.
Llamado Fugatto (abreviatura de FTransformador de audio generativo fundamental Opus 1)genera o transforma cualquier mezcla de música, voces y sonidos descritos mediante comandos de texto utilizando cualquier combinación de textos y archivos de audio.
¡Imagínese una trompeta maullando!
Por ejemplo, puede crear una muestra de música a partir de texto, eliminar o agregar instrumentos a una canción existente, cambiar el énfasis o la emoción de una voz e incluso permitir que las personas produzcan sonidos que nunca antes habían escuchado.
Nvidia dice que su nuevo editor de música con inteligencia artificial puede crear “sonidos nunca antes escuchados”, como el maullido de una trompeta. La herramienta, llamada Fugatto, es capaz de generar música, sonidos y voz a partir de entradas de texto y audio con las que nunca ha sido entrenada.
O un saxofón que grita, ladra, luego música electrónica con perros ladrando
Como se muestra en el vídeo siguiente, esto permite a Fugatto componer canciones basándose en indicaciones completamente caprichosas, como “Crea un saxofón que aúlla, ladra y luego música electrónica con perros ladrando” (2 min 38 s).
Incluso puede transformar el sonido de la voz de una persona, cambiando su acento o dándole un tono diferente, como enojado o tranquilo. También es posible editar música, ya que Fugatto puede aislar las voces de una canción, agregar instrumentos e incluso cambiar una melodía reemplazando un piano con un cantante de ópera.
Ya existen otras herramientas de audio de IA, pero no pueden crear sonidos completamente nuevos y únicos, como se muestra en esta tabla comparativa en un documento publicado por Nvidia.
Para crear fugatolos investigadores de Nvidia tuvieron que reunir un conjunto de datos que contenía millones de muestras de audio. Luego crearon instrucciones “que ampliaron significativamente la gama de tareas que el modelo podía realizar, al tiempo que lograron un rendimiento más preciso y permitieron nuevas tareas sin requerir datos adicionales”.
Nvidia no dice cuándo (o si) la herramienta estará ampliamente disponible.
Descarga nuestra APP BEONERADIO
Google Play | Apple Store
www.be1radio.com
Instagram: @be1radio