IA GENERATIVA EN EL SONIDO.

RESUMEN.

En este trabajo hemos hablado de la inteligencia artificial, de la inteligencia artificial generativa, de la inteligencia artificial generativa en el audio y de los desafíos éticos y sociales, así como lo que pasará en un futuro.

En el caso de la inteligencia artificial, la hemos definido, comentado su historia, hemos nombrado los terrenos que abarca, así como los tipos de IA que existen y las escuelas de pensamiento en las que se puede dividir.

En el apartado de la inteligencia artificial generativa, también la hemos definido, mencionado sus beneficios y ventajas y comentado las relaciones que tiene con las personas y las empresas, así como algunas de las mejores plataformas de la inteligencia artificial generativa.

En este trabajo, nos hemos centrado en la inteligencia artificial generativa en el audio. Hemos explicado las diferentes aplicaciones y plataformas útiles para generar el sonido, música, generar voz a través de texto y generar texto, al igual que hemos mencionado las mejores herramientas para utilizar en el ámbito del audio.

DESARROLLO DEL CONTENIDO.

LA INTELIGENCIA ARTIFICIAL.

La inteligencia artificial es una unión de portes eruditos mostrados en los sistemas informativos en un ámbito científico, de progreso y de aplicación, por lo que no es un programa, como otros que existen. También se podría considerar como una fusión de algoritmos con la intención de crear máquinas que igualen la inteligencia de los seres humanos para desarrollar ciertas tareas.

La IA apareció tras finalizar la Segunda Guerra Mundial con la prueba de Turing. Esta atraviesa muchos terrenos en un aspecto general como: el aprendizaje y la percepción y también en un aspecto científico como: el reconocimiento de voz, el juego de ajedrez, la escritura de la poesía y el diagnóstico de enfermedades, entre otros. La mejora y la aplicación de la IA ha proporcionado el desarrollo de otros espacios como: la robótica y la ética en las máquinas.

Por otra parte, la inteligencia artificial se puede fragmentar en dos partes: la IA débil y la IA general. Por un lado, la IA débil desarrolla tareas específicas, mientras que, por otro lado, la IA general, sobrepasa las capacidades humanas.

La inteligencia artificial es cada vez más conocida y utilizada hoy en día en diversos terrenos como: la salud, las asistencias virtuales como Alexa o Siri, los sistemas de reconocimiento como YouTube y AlphaZero, también en los chabots y en el manejo de vehículos como el Tesla Autopilot, entre otros. A medida que la IA se desarrolla y evoluciona, esta construye otras herramientas como Sivium, una plataforma con la capacidad para que una persona pueda acceder a todas las ofertas de trabajo sin necesidad de enviar su currículo a cada empresa.

Hay diversos tipos de la IA, entre ellos está: la IA generativa, la IA fuerte, la IA explicable, la IA amigable, la IA multimodal y la IA cuántica, pero en este caso nos centraremos en la IA generativa en el audio. La IA generativa es un sistema con la capacidad de generar texto, audio, vídeo e imágenes. Algunos ejemplos de este tipo son ChatGPT, Bard, el Stable Diffusion y el Dall-e, entre otros.

En segundo lugar, está la IA fuerte, este ejemplo de IA puede igualar y sobrepasar la inteligencia del ser humano promedio. Por otra parte, está la inteligencia artificial explicable, son estrategias con las que los humanos son competentes de entender las decisiones y pronósticos ejecutadas por la IA.

Siguiendo con la inteligencia artificial, se encuentra la IA amigable, es un tipo de IA que tiene un resultado positivo en los humanos. Esta inteligencia artificial elige a los agentes más seguros y útiles.

En quinto lugar, está la multimodal, puede procesar e introducir datos como: texto e imágenes, para así tener una visión más completa sobre un tema. Por último, se encuentra la IA cuántica, esta monta algoritmos cuánticos para progresar las labores de computación en la inteligencia artificial, añadiendo otros campos.

La inteligencia artificial también se puede dividir en dos escuelas de pensamiento: la convencional y la computacional. La escuela de pensamiento convencional, también se conoce como simbólica-deductiva. Se fundamenta en el análisis formal y estadístico de las actitudes humanas abarcando diferentes problemas: el razonamiento, los sistemas expertos, las redes bayesianas, la inteligencia artificial basada en los comportamientos y el Smart Process Management.

Mientras que, por otra parte, la escuela de pensamiento computacional, también conocida como subsimbólica-inductiva, involucra progreso o aprendizaje interactivo. Esta escuela tiene un doble objetivo, el objetivo científico y el objetivo tecnológico. La finalidad del objetivo científico es comprender los principios que posibilitan el comportamiento inteligente, mientras que la finalidad del objetivo tecnológico es especificar los métodos para diseñar sistemas inteligentes.

LA INTELIGENCIA ARTIFICIAL GENERATIVA.

La IA generativa es un tipo de inteligencia artificial. Es un tipo de sistema con la capacidad de generar texto, imágenes, audio o vídeo, al igual que puede aportar contenido que no existía antes. Este tipo de inteligencia artificial puede estudiar millones de líneas de datos del ADN y crear nuevas proteínas desde el principio. Entre otros ejemplos, están ChatGPT, Bard, el Stable Diffusion y el Dall-e. En la IA generativa hay aplicaciones como los asistentes virtuales.

Los beneficios y ventajas de la inteligencia artificial generativa son: una mayor productividad, una eficiencia mejorada, una mayor creatividad y puede entender datos complejos mucho más rápido que los humanos.

Si nos centramos en las relaciones de la IA con las personas y las empresas. Por una parte, está la relación que tiene la IA generativa con las empresas, esta relación permite a las personas que están al mando de la estrategia de cadenas examinar los respectivos registros de los inventarios de las empresas. Por otro lado, aparece la relación de las personas y la inteligencia artificial generativa. En este caso, la población utiliza la IA para realizar trabajos de investigación, crear arte y resolver preguntas.

LA IA GENERATIVA EN EL AUDIO.

Hasta hace no muchos años, era necesario disponer de equipos especializados y de estudios técnicos avanzados, limitando así su acceso a profesionales. Debido a su evolución, hoy en día, se puede experimentar creando y manipulando el audio.

Las mejores herramientas de la IA generativa son: IA Moises, IA Suno y Elevenlabs. La herramienta Moises, sirve para aumentar la creatividad de las personas a través de la música y la tecnología, facilitando la separación de pistas de audio y también permite aislar los instrumentos y vocales de las canciones.

Por otra parte, está la herramienta Suno. Esta herramienta permite convertir ideas y notas en música con direcciones de texto. Suno muestra que la tecnología puede servir para más cosas que ver vídeos o películas. Sirve para aumentar la creatividad humana facilitando la creatividad sin interrupciones. Por último, la ElevenLabs se utiliza para la clonación de voces realistas y producir una conversación a través de texto, por lo que esta herramienta puede manipular el audio.

También está la inteligencia artificial que genera sonido. Esta IA es otro campo más, que al igual que otros campos, utiliza algoritmos para añadir contenido nuevo. Existe también una IA que genera voz humana, esta inteligencia artificial puede realizar discursos y conversaciones simulando ser personas reales. Se pueden usar en asistentes de voz inteligentes y locutores de audio, entre otros. Algunos ejemplos de aplicaciones para generar voz humana son: ElevenLabs, MyVocal.AI, Genny, PlayHT, Heartheweb, Kits AI, Metaboice, Lovo, Voxx y Applio.

Continuando con los efectos de sonido, hay diferentes técnicas utilizando la IA generativa para manejar el sonido. Estas técnicas son: síntesis de formas de onda, inversión de los espectrogramas, transferencias de estilo de audio, el aumento de audio, la interpolación de audio y las herramientas síntesis de audio.

Las síntesis de onda son señales de audio sin procesar, se pueden utilizar redes neuronales profundas como: WaveNet, WaveGlow y WaveRNN. Estas redes neuronales profundas se usan para hacer hablas humanas realistas, sonidos de animales o ruidos ambientales. En segundo lugar, está la inversión del espectrograma. Esta herramienta se utiliza para convertir un espectrograma, es decir, una representación audiovisual del sonido, utilizando redes neuronales profundas como: Tacotron, MeiGAN o HiFi-GAN. Esta herramienta se puede utilizar para generar voces de canto, instrumentos o efectos de sonido realistas a partir de imágenes.

Por otra parte, están las transferencias de estilo de audio. En este caso, utiliza características de un sonido para transmitirlas a otro. Se usan redes neuronales profundas como: U-Net, CycleGAN y StarGAN, generando efectos de sonido reales que coinciden con el estado de ánimo o el género.

Siguiendo con las herramientas, aparece el aumento de audio. Esta herramienta modifica los sonidos existentes para crear nuevas variaciones. En este caso se utilizan redes neuronales profundas como: SpecAugment, Mixup y CutMix. Estas redes se utilizan para realizar efectos de sonido realistas, pero más diversos y robustos que las redes de inversión de espectrograma.

En quinto lugar, está la interpolación de audio, esta herramienta construye sonidos nuevos entre dos o más sonidos. Se usan redes neuronales profundas como: VAE, GAN y Flow, para realizar efectos de sonido más dinámicos y expresivos, más similar a las emociones humanas.

Por último, aparece las herramientas de síntesis de audio. Para esta herramienta existen diferentes ejemplos: Jukebox, sirve para generar música y voz con diferentes estilos, géneros y letras; NSynth, crea nuevos sonidos a partir de los que ya existen; Lyrebird, sirve para generar habla con cualquier voz, acento o emoción; Foley, se utiliza para generar efectos de sonido desde imágenes o vídeos y, por último, el Euphony realiza efectos de sonidos par juegos, animaciones o realidad virtual.

Siguiendo con la IA generativa, existen también aplicaciones para crear música. Esta IA puede realizar música nueva y original, como fue el caso de la canción “Sal que te paso a buscar (IA)” del cantante Bad Bunny, fue una canción que un usuario creó desde cero utilizando solo inteligencia artificial. Este suceso hizo que el cantante se sintiese ofendido porque esa canción obtuvo mucha más popularidad que muchas otras canciones de sus álbumes.

También se puede personalizar la música, crear efectos de sonidos realistas y automatizar la edición de audio. Algunos programas y aplicaciones para realizar estas tareas son: IA Suno, Loudly, MusicGen, Musico, Riffusion, Mubert, Beatopia, Stable Audio, IA Cassett, Songr, Voicemod, Musicfy, Beatoven, Sonauto, Udio y AYVA.

Por otra parte, para la traducción de voz existe Synclabs, Pipio, Targum y Lingosync. Hay algunas aplicaciones y programas específicos para cantantes como: Vocs, ACE Studio, Replay y Audimee. Por último, para separar pistas de Audio está LALAL.AI y para crear partituras está Lamucal.

Para generar voz a través de texto, hay diferentes herramientas: Murf.AI, Speechify, Lovo.AI, Synthesis, Listnr, Play.HT, Woord y Voicers, entre otras. Las siguientes plataformas de IA que vamos a mencionar, son las ocho mejores que existen actualmente.

Murf.AI es uno de los generadores más conocidos y populares de la IA. Esta herramienta es favorable para desarrolladores de productos, educadores y empresarios que permite convertir texto en voz. Tiene un asistente de gramática, al igual que una biblioteca con más de 115 voces únicas en 15 idiomas diferentes, entre otras funciones. Por otra parte, Speechify, sirve para coger texto de cualquier tipo de formato y convertirlo en voz natural. Puede identificar más de 15 idiomas diferentes y tiene más de 30 voces para elegir, al igual que también ajusta la velocidad de lectura.

Continuando con los generadores de texto, están Lovo.AI y Synthesis. Lovo.AI es una de las plataformas de IA de voz más complejas y fáciles de usar. Esta herramienta sirve para producir voces que son similares a la voz humana. Con esta plataforma, puedes hacer que el texto sean voces y añadirlas a un vídeo, también tiene un editor de pronunciación y control de tono. Esta te da la opción de elegir entre 500 voces, 20 emociones y 150 idiomas.

Lovo.AI es una de las plataformas recomendadas para los creadores de contenido. Por otro lado, Synthesis es la plataforma de IA más recomendada para un uso comercial en el ámbito de generar texto. Esta herramienta se considera uno de los generadores de voz de IA más populares y potentes. Con ella puedes hacer vídeos con IA y también construir avatares que podrían pasar como humanos. Synthesis es una buena aplicación para realizar vídeos explicativos y tutoriales de productos, entre otros temas.

Por otra parte, están Listnr y Play.HT. La plataforma Listnr, transforma el texto a voz en diferentes formatos. Esta permite hacer audios personalizados que pueden integrarse en blogs. La herramienta Listnr es muy útil para hacer podcasts, entre otras cosas. Play.HT puede hacer audios utilizando la tecnología de las síntesis de voz de Google, Amazon y Microsoft, entre otros. Esta herramienta convierte el texto en voz natural humanizándola con diferentes estilos de voz y pronunciaciones.

Las dos últimas plataformas de IA de las ocho mejores que existen son Woord y Voicera. Por una parte, Woord es como una extensión de Chrome que mediante dos opciones puedes crear voz. Esta herramienta sirve para hacer tus blogs o páginas web en un lenguaje hablado y de manera rápida y sencilla. Tiene muchas opciones de voces a elegir y puedes controlar la velocidad, el volumen y la entonación de la voz. Por otra perte, Voicera te da la opción de convertir las voces en off y aumentar la participación. Su objetivo es crear voces en off para blogs y páginas web.

AudioCraft es una herramienta creada por Meta Platforms, más conocida como Meta, una empresa de tecnología que dirige aplicaciones como WhatsApp, Facebook e Instagram. La plataforma AudioCraft ha sido creada para generar audio y música a partir de texto. Esta herramienta abarca tres modelos de lenguaje: EnCode, AudioGen y MusicGen. Puede crear audio de alta calidad y tiene la habilidad de comprensión que permite a las personas trabajar sobre la misma base de código.

DESAFÍOS ÉTICOS Y SOCIALES.

En todo ámbito, se debe tener en cuenta los desafíos éticos y sociales o los valores que se deberían tener cuando realizamos ciertos trabajos, pero en este caso nos centraremos en el ámbito de comunicación audiovisual relacionado con la IA, en el cual, aparecen locutores, actores de voz, músicos y técnicos de sonido. Las nuevas tecnologías brindan nuevas posibilidades en cuanto a la creación de contenido personalizado, las experiencias auditivas inmersivas y el acceso a educación digital más interactiva.

Desde la perspectiva ética encontramos la clonación de voz generación de música mediante la IA, entre ellos, sus riesgos, como, por ejemplo, la suplantación de identidad. Es necesario proteger los datos del autor, así como su privacidad, estableciendo marcos legales y éticos.

Cuando se trabaja con la IA, hay que tener una gran transparencia y un diálogo abierto entre la tecnología, los usuarios y los regulares. Para ello, hay que enseñar a profesionales como ayudarse de las herramientas que disponen enriqueciendo así su trabajo. En este caso, en vez de incrementar o intentar superar la innovación tecnológica, equilibrarla con la protección y el respeto por los valores humano y profesionales.

Pero en todos los casos hay ciertos peligros, en este concreto cabe la posibilidad que haya un crecimiento en la desinformación o que se empiece a generar contenido falso y manipulado. Esto se puede empezar a ver en ciertos vídeos de Tik Tok, alumnos estadounidenses, se graban utilizando la IA a su favor para que el profesor no haga algún examen que tenía previsto.

Esto también puede pasar en el ámbito del deporte contra jugadores de equipos profesionales para que les expulsen o sean castigados con algún tipo de sanción que les impida jugar algún partido o alguna competición. Como también puede ocurrir en al ámbito política o en cualquier otro ámbito, produciendo así que dejen de confiar en la información que comunican los medios de comunicación.

Por otra parte, están los conflictos éticos. Estos son el filtrado de contenido y censura utilizando la IA para observar y controlar la información que aparece en las redes sociales, blogs y comunidades. Los algoritmos que se utilizan en este caso impiden la libertad de expresión y la variedad de opciones.

En el tema de la libertad de elección aparecen las burbujas de filtro y la personalización extrema en las plataformas digitales. Las burbujas de filtro nos muestran cómo estamos casi todo el tiempo expuesto a fotos y vídeos que muestran nuestras gusto y opiniones.

Esto se puede ver en la aplicación de Instagram o Tik Tok, cuando una persona le da me gusta a un post o un vídeo, inmediatamente le empieza a salir todo el rato contenido sobre el mismo tema y en cada foto o vídeo, se puede ver quien sigue a ese perfil o quien le ha dado me gusta. Por otra parte, la personalización extrema, limita la libertad de elección.

Otro caso de conflictos éticos y sociales es la manipulación. En este ámbito la IA se puede utilizar de manera errónea, ya que se puede utilizar para la manipulación emocional porque la inteligencia artificial entiende cada vez mejor las emociones de las personas, debido a que ha habido un gran avance en la tecnología. Por otro lado, la brecha digital se podría aumentar debido a la implementación de la IA. En este caso puede haber una falta de accesibilidad.

Por último, entre los desafíos éticos y sociales, está la supervisión y calidad de los datos para evitar sesgos. La mayor preocupación que hay sobre los sesgos es que pueden contener los resultados de los procesos para los que se ha optimizado. Aunque para que los sesgos no se creen, es necesario que los sistemas estén listos para resolver cualquier problema que pueda haber; al igual que también es necesario que haya transparencia y poder explicar el antes y después del problema.

CONCLUSIÓN.

Para finalizar, la inteligencia artificial es una mezcla de algoritmos con la intención de crear máquinas que igualen la inteligencia de los humanos y desarrollar diferentes tareas. Para ello hay diferentes tipos de IA que abarca distintos terrenos. Dependiendo del tipo y del terreno, realizas unas tareas u otras.

Por otra parte, la inteligencia artificial generativa, es un tipo de IA que puede generar imágenes, vídeo y audio, ya sea a través de texto, entre otras opciones. Para cada trabajo que se quiera realizar, se necesita diferentes aplicaciones y plataformas, por ello hemos mencionado algunas de las mejores plataformas de IA generativa.

Por otro lado, la inteligencia artificial generativa en el audio es un ámbito de la IA generativa como lo es también el vídeo y la imagen. Dependiendo de la tarea que quieras realizar, ya sea crear voz a través de texto o crear música, entre otras opciones, se necesita una plataforma u otra para ello.

Por último, en la actualidad se está dando un gran uso a la inteligencia artificial y estamos empezando a depender un poco de ella en algunos ámbitos. Hay noticias en las que muestran el miedo que algunas personas tienen respecto a este tema porque consideran que la inteligencia artificial y las máquinas van a acabar con los humanos dentro de unos años.

REFERENCIAS Y BIBLIOGRAFÍA.

¿Cuáles son algunas técnicas para utilizar la IA generativa para crear efectos de sonido realistas? (2 de marzo de 2024). Obtenido de Linkedin: https://es.linkedin.com/advice/0/what-some-techniques-using-generative-ai-vxiac?lang=es

¿Qué es la IA generativa y cómo funciona? (s.f.). Obtenido de Adobe: https://www.adobe.com/es/products/firefly/discover/how-generative-aiwork.html#:~:text=La%20IA%20generativa%20se%20enfoca,se%20corresponda%20con%20ese%20aporte

Audio y Música con IA. (s.f.). Obtenido de Best-IA: https://best-ia.es/aplicaciones-ia/audio-y-musica/

Campos, E. (s.f.). Desafíos éticos de la Inteligencia Artificial en comunicación. Obtenido de Estadio de Comunicación: https://www.estudiodecomunicacion.com/2024/01/31/desafios-eticos-de-la-inteligencia-artificial-en-comunicacion/

Fernández, Y. (27 de septiembre de 2023). Stable Audio: qué es y cómo usarlo para crear música gratis mediante inteligencia artificial. Obtenido de Xataka: https://www.xataka.com/basics/stable-audio-que-como-usarlo-para-crear-musica-mediante-inteligencia-artificial

Fernández, Y. (19 de enero de 2024). Suno AI: qué es y cómo usarlo para crear una canción con música, letra y voz usando inteligencia artificial. Obtenido de Xataka: https://www.xataka.com/basics/suno-ai-que-como-usarlo-para-crear-cancion-musica-letra-voz-usando-inteligencia-artificial#:~:text=Suno%20AI%20es%20un%20sistema,a%20partir%20de%20esa%20descripci%C3%B3n

Meta lanza la IA generativa AudioCraft, diseñada para generar audio y música a partir de texto. (2 de agosto de 2023). Obtenido de Europa Press: https://www.europapress.es/portaltic/sector/noticia-meta-lanza-ia-generativa-audiocraft-disenada-generar-audio-musica-partir-texto-20230802170122.html

Ramírez, L. (12 de abril de 2023). Las 8 mejores herramientas para generar voz con IA. Obtenido de IEBS: https://www.iebschool.com/blog/herramientas-para-generar-voz-con-ia-tecnologia/

SUENA A IA: LA REVOLUCIÓN DEL AUDIO YA ESTÁ AQUÍ. (26 de marzo de 2024). Obtenido de Arco Comunicación : https://arcocomunicacion.com/suena-a-ia-la-revolucion-del-audio/

Ventura, P. (s.f.). Retos éticos de la Inteligencia Artificial en los medios de comunicación. Obtenido de El Periscopio: https://mip.umh.es/blog/2022/02/08/retos-eticos-de-la-inteligencia-artificial-en-los-medios-de-comunicacion/

Buscar este blog

Tecnologías de los Medios Audiovisuales

Caso Práctico II. IA GENERATIVA EN EL SONIDO.

IA GENERATIVA EN EL SONIDO.

Comentarios

Publicar un comentario

Entradas populares de este blog

Caso práctico I. LOPD.

Caso Práctico III. APLICACIONES DE LA RA, RV, RM.

Caso práctico I. EQUIPAMIENTO.