Saltar al contenido

La tecnología de mejora de la inteligencia artificial de Google supera a los modelos anteriores | Noticias

13 de octubre de 2021

Ejemplos de superresolución de imágenes mediante refinamiento iterativo.

A la izquierda, imágenes originales de 64×64; a la derecha, las mismas imágenes aumentadas a una resolución de 1.024 x 1.204 mediante Super-Resolución mediante Refinamientos repetidos (SR3).

Crédito: Blog de IA de Google

Hasta ahora, si deseaba utilizar una foto que solo existía a baja resolución, no tenía más remedio que aguantar la baja calidad de imagen. Todos sabemos que las funciones de «ampliar y mejorar» que se ven en las películas durante décadas han sido meramente ciencia ficción. Eso podría cambiar pronto, gracias a los recientes avances en inteligencia artificial (IA) de Google.

En julio, el equipo de Google Brain de la compañía publicó los resultados de la investigación sobre diferentes técnicas para la «superresolución de imágenes» o el uso de modelos de aprendizaje automático impulsados ​​por inteligencia artificial para convertir imágenes de baja resolución en imágenes de alta resolución.

Utilizando dos nuevas técnicas, la súper resolución a través de refinamientos repetidos (SR3) y los modelos de difusión en cascada (CDM), el equipo de Google Brain ha creado imágenes de alta resolución a partir de imágenes de baja resolución con un nivel de calidad que supera a los métodos anteriores utilizados para realizar esta tarea. .

El proceso se llama «ampliación» y los dos nuevos modelos de Google trabajan juntos para tomar retratos borrosos y hacerlos fotorrealistas.

SR3 es un «modelo de difusión» que convierte imágenes de baja resolución en imágenes de alta resolución. Los modelos de difusión agregan progresivamente ruido gaussiano, o ruido aleatorio, a un conjunto de datos hasta que es 100% ruido. Luego, se capacita a una red neuronal para realizar ingeniería inversa de las adiciones de ruido para convertir una imagen de baja resolución en una imagen de alta resolución. CDM es un modelo de difusión «condicional de clase» que se utiliza para generar una cascada de la misma imagen a resoluciones cada vez más altas.

Recomendado:  La inteligencia artificial puede monitorear los lugares de trabajo en busca de infracciones de seguridad. Los expertos dicen que las leyes de privacidad están rezagadas

Juntos, los dos modelos se pueden apilar para lograr tareas de «superresolución», como tomar una imagen de una resolución de 64×64 a una resolución de 1.024×1.024.

Las técnicas producen mejores resultados que el método anterior de modelos considerados de vanguardia para tareas de superresolución: redes generativas adversarias (GAN). Los GAN se denominan «adversarios» porque se basan en dos modelos que trabajan uno contra el otro: uno que genera ejemplos (el generador) y otro que intenta clasificar los ejemplos (el discriminador). Los dos modelos compiten y, al hacerlo, capacitan a la red. Hasta hace poco, las GAN se utilizaban para tareas de superresolución, así como para la transformación y generación de imágenes.

Es probable que los modelos de difusión de Google los sustituyan, gracias a sus ventajas.

El entrenamiento contradictorio utilizado por las GAN genera problemas, dice Minguk Kang, investigador de reconocimiento de imágenes en la Escuela de Graduados de Inteligencia Artificial de la Universidad de Ciencia y Tecnología Pohang de Corea del Sur.

«El entrenamiento entre el generador y el discriminador en las GAN se rompe fácilmente debido a la naturaleza del aprendizaje adversario, donde el generador y el discriminador tienen que engañarse mutuamente, lo que se denomina colapso de modo», dice Kang. Las GAN también sufren de caída de modo, en la que las imágenes contienen una falta de diversidad.

«Los modelos de difusión, sin embargo, pueden generar imágenes diversas y de alta calidad de manera muy eficiente», dice Kang.

Hay una serie de aplicaciones importantes para el aumento de escala de súper resolución como la de Google, dice Grigorios Chrysos, investigador de visión por computadora en la Ecole Polytechnique Federale de Lausanne de Suiza.

Recomendado:  El nuevo diseño es apilable y reconfigurable, para intercambiar y construir sobre sensores existentes y procesadores de redes neuronales -- ScienceDaily

Se puede utilizar el aumento de escala de súper resolución para convertir fotos más antiguas en imágenes de alta calidad. Puede eliminar el desenfoque o mejorar las fotos y los videos que se tomaron de manera imperfecta. Incluso se puede utilizar en aplicaciones biomédicas, como imágenes médicas, para aumentar la resolución de imágenes importantes. También tiene implicaciones para el mundo físico: si la ampliación funciona lo suficientemente bien, ¿es necesario invertir en sensores o cámaras más costosos?

«Creo que solo hemos arañado la superficie con aplicaciones fuera del campo tradicional del aprendizaje automático», dice Chrysos.

Los modelos de difusión de Google permanecen, en el momento de la redacción, sin aplicar en aplicaciones comerciales. La compañía tampoco ha compartido planes por los cuales los usuarios de sus productos puedan terminar teniendo acceso a la tecnología.

Eso puede deberse a que la tecnología aún tiene limitaciones.

«Una limitación significativa de los modelos propuestos es que necesitan recursos sustanciales para entrenarlos, y sigue siendo incierto si se pueden obtener los mismos resultados con menos recursos computacionales», dice Chrysos.

Las necesidades de recursos de estos modelos también los hacen lentos, dice Kang. Algunos modelos de difusión pueden tardar mucho más que las GAN en generar imágenes de alta resolución; piense en horas en lugar de minutos.

«Aunque los resultados sintetizados son prometedores, creo que es esencial resolver la velocidad de implementación en aplicaciones del mundo real», dice.

Quedan problemas sin resolver con los modelos de generación de imágenes en general, incluido el de Google. No se ha realizado un estudio adecuado sobre cómo los modelos de generación y reconocimiento de imágenes pueden resistir el sesgo implícito y explícito, o corregir vulnerabilidades en torno a datos no aleatorios que sesgan los resultados.

Recomendado:  Avances y desafíos recientes en la protección de la propiedad intelectual creada con inteligencia artificial | Saúl Ewing LLP

«Las preguntas que nos hacemos como comunidad de investigación deberían extenderse más allá de la calidad fotorrealista», dice Chrysos. «Deberíamos preguntarnos si estos métodos están listos para la producción, teniendo en cuenta su solidez al ruido, garantías de equidad y explicabilidad».

Parece que, si bien Google ha avanzado significativamente en el campo, la mejora de la escala de fotos con IA aún tiene un largo camino por recorrer.

Logan Kugler es un escritor de tecnología independiente con sede en Tampa, FL, EE. UU. Ha escrito para más de 60 publicaciones importantes.


entradas no encontradas