La visión humana es algo extraordinario. La capacidad de observar el mundo circundante (luz, formas y movimiento) nos permite realizar una notable variedad de tareas. Sin embargo, imbuir estas cualidades en las máquinas es poco menos que abrumador.
Sin embargo, una tecnología emergente llamada Vision AI tiene el desafío en la mira. Aprovecha los avances en el poder de procesamiento y la inteligencia artificial (IA) para comprender los eventos visuales a un nivel más profundo.
«Los datos de imagen y video no están estructurados por naturaleza. Este enfoque toma el contenido no estructurado y lo convierte en datos estructurados y procesables», explica Vinod Valloppillil, líder del equipo de administración de productos en Google para Cloud Language and Vision AI.
Hoy en día, Vision AI se utiliza para detectar defectos de fabricación, evaluar los daños causados por desastres naturales e incluso detectar cuando alguien lleva un arma. Pronto, probablemente discernirá la salud de los árboles en un bosque y detectará células cancerosas en una biopsia.
Ojo en la IA
Así como las computadoras personales y, más tarde, la Web digitalizaron el papel y transformaron la forma en que los humanos procesan palabras y números, Vision AI está cambiando la forma en que las computadoras procesan imágenes y videos. Desliza el dial «más allá del simple reconocimiento de objetos», dice Chhandomay Mandal, director de marketing de soluciones de Dell Technologies y una autoridad en Vision AI.
Las primeras generaciones de herramientas de reconocimiento de imágenes simplemente identificaban objetos; Vision AI tiene como objetivo igualar o superar las capacidades humanas. «Todo lo que desee contar, registrar, analizar o almacenar se puede obtener enseñando a Vision AI a buscarlo», dijo Issac Roth, socio del fondo de capital de riesgo Shasta Ventures, en un 2020. VentureBeat artículo.
El objetivo de Vision AI es expandir la identificación y el análisis de imágenes más allá de un solo objeto en una foto o video, digamos un gato o un río. Realiza un seguimiento de un objeto en movimiento, analiza el fondo en busca de cambios y variaciones sutiles e intenta comprender el contexto y la situación basándose en múltiples eventos en la imagen. «Vision AI identifica mejor qué datos son importantes en función de una aplicación», dice Mandal.
Como resultado, Vision AI tiene valor en numerosos campos, incluida la fabricación industrial, la producción de energía, la medicina, el entretenimiento y las máquinas autónomas.
Por ejemplo, la Sociedad Zoológica de Londres, una organización centrada en la protección de la biodiversidad, ha aprovechado Vision AI para identificar especies específicas en miles de imágenes. El proceso se lleva a cabo en días en lugar de meses, y el sistema puede detectar detalles que anteriormente eludían a los investigadores.
Fox Sports ha recurrido a la tecnología para registrar y descubrir automáticamente activos de video de millones de clips de video que residen en la nube. Esto hace posible buscar a través de criterios específicos, desde camisetas de los jugadores y pases de touchdown de Peyton Manning hasta un tipo específico de lesión o celebración en el campo.
Una vista de la visión
El desarrollo de algoritmos de próxima generación que aprovechen el poder de Vision AI está en el centro de los esfuerzos de hoy. «Estos sistemas deben poder identificar objetos y actividades a través de un espectro mucho más amplio de posibilidades», dice Mandel.
También hay un elemento adicional de incorporar la psicología y la percepción humanas, dice Valloppillil. «Tienes que entender qué es relevante y qué es interesante y combinar eso con lo que la computadora es capaz de hacer. Está bien que una computadora identifique ‘pasto’ o ‘una persona corriendo’ en una foto, pero es mucho más valioso para los humanos por una computadora para reconocer que la imagen es «un mariscal de campo lanzando un pase de touchdown». Para hacer esto último, el sistema necesita comprender el contexto y las condiciones que tienen lugar «.
Por lo general, los científicos de datos capacitan a los sistemas Vision AI para capturar tantos datos relevantes como sea posible de un conjunto de eventos o escenarios. Pueden utilizar varios algoritmos para generar respuestas a las diversas entradas; luego, ejecutan los datos a través de sistemas de aprendizaje profundo. Después de un extenso análisis estadístico y un ajuste fino de las redes neuronales, es posible comenzar a utilizar un modelo Vision AI.
Por supuesto, es una tarea complicada, pero la tecnología llevará la visión artificial a un plano mucho más sofisticado, dice Valloppillil. Por ejemplo, podría ayudar a un dron o vehículo autónomo a reconocer un evento que podría ir en contra de su programación típica. «El sistema Vision puede reconocer una señal de alto, pero un modelo de orden superior puede tener una razón para ignorar una señal de alto, o para que un dron evite aterrizar en un lugar en particular porque algo anda mal», dice.
Vision AI también podría introducir funciones sofisticadas para navegadores web y dispositivos móviles, particularmente porque aplicaciones como YouTube, Facebook, Instagram, TikTok y Snapchat generan volúmenes cada vez más grandes de contenido de imágenes no estructuradas.
Finalmente, la tecnología podría introducir técnicas de detección completamente nuevas. Esto incluye la capacidad de medir la temperatura y otras condiciones ambientales en función de la luz reflejada o la transmisión de datos desde sensores cuánticos.
Por ahora, el mayor desafío es desarrollar modelos de entrenamiento más avanzados y construir marcos que permitan que Vision AI se use más ampliamente. Mandal dice: «Acabamos de arañar la superficie de lo que la IA es capaz de hacer. A medida que los recursos aumenten y los algoritmos evolucionen, los sistemas Vision AI podrán realizar análisis más avanzados y útiles».
Samuel Greengard es un autor y periodista que vive en West Linn, Oregón, EE. UU.
entradas no encontradas