Los puntos de referencia han influido en la inteligencia artificial (IA) para definir objetivos de investigación y permitir a los investigadores realizar un seguimiento del progreso hacia esos objetivos.
Un componente importante de la inteligencia es la percepción, el proceso de experimentar el mundo a través de los sentidos. Se está volviendo más crucial en campos como la robótica, los autos sin conductor, los asistentes personales y las imágenes médicas, que desarrollan agentes con una comprensión perceptiva del mundo a nivel humano.
Perceiver, Flamingo y BEiT-3 son algunos ejemplos de modelos multimodales que buscan ser modelos de percepción más inclusivos. Pero debido a que no se disponía de un punto de referencia designado, sus evaluaciones se basaron en varios conjuntos de datos especializados. Estos puntos de referencia incluyen Kinetics para el reconocimiento de acciones de video, un conjunto de audio para la clasificación de eventos de audio, MOT para el seguimiento de objetos y VQA para responder preguntas sobre imágenes.
Muchos otros puntos de referencia relacionados con la percepción también se están utilizando actualmente en la investigación de IA. Si bien estos puntos de referencia han permitido avances increíbles en el diseño y desarrollo de arquitecturas de modelos de IA y metodologías de capacitación, cada uno se enfoca exclusivamente en un pequeño subconjunto de percepción: las tareas visuales de preguntas y respuestas generalmente se enfocan en la comprensión de la escena semántica de alto nivel. Las tareas de seguimiento de objetos suelen capturar la apariencia de nivel inferior de los objetos individuales, como el color o la textura. Los puntos de referencia de imagen no incluyen aspectos temporales. Y solo una pequeña cantidad de puntos de referencia brindan tareas en las modalidades visuales y auditivas.
Una nueva investigación de DeepMind produjo una colección de películas de eventos del mundo real que se construyeron y etiquetaron específicamente de acuerdo con seis tipos diferentes de tareas para abordar muchos de estos problemas. Están:
- Seguimiento de artículo: Se dibuja un cuadro alrededor de un objeto al comienzo de la película y se requiere que el modelo devuelva una pista completa a lo largo de la película.
- Localización de acciones temporales: El modelo debe categorizar y localizar un conjunto predeterminado de acciones en el tiempo.
- Localización de sonido temporal: El modelo debe localizar y categorizar una serie de sonidos en el tiempo.
- Vídeo de preguntas y respuestas de opción múltiple consta de preguntas de texto relativas al vídeo, cada una de las cuales tiene tres posibles respuestas.
- Respondiendo preguntas textuales sobre el video. el uso de un modelo que debe devolver una o más pistas de objetos se conoce como video pregunta-respuesta fundamentada.
Para crear un conjunto de datos equilibrado, los investigadores utilizaron conjuntos de datos como CATER y CLEVRER y crearon 37 guiones de video con varias permutaciones. Los videos presentan juegos sencillos o tareas cotidianas, lo que les permite especificar las tareas que requieren el conocimiento de la semántica, la comprensión de la física, el razonamiento temporal o la memoria y las capacidades de abstracción.
Los desarrolladores de modelos pueden usar el pequeño conjunto de ajustes finos (20 %) en la prueba de percepción para explicar la naturaleza de las tareas a los modelos. Los datos restantes (80 %) comprenden una división de prueba retenida donde el rendimiento solo se puede evaluar a través de nuestro servidor de evaluación y una división de validación pública.
Los investigadores prueban su trabajo a lo largo de las seis tareas informáticas y los resultados de la evaluación son exhaustivos en numerosos aspectos. Para un estudio más completo, también mapearon preguntas en diferentes tipos de situaciones representadas en los videos y diferentes tipos de razonamiento necesarios para responder las preguntas de las actividades visuales de preguntas y respuestas.
Al crear el punto de referencia, fue crucial asegurarse de que los participantes y las escenas en los videos fueran diversos. Para lograr esto, eligieron voluntarios de varias naciones que representaban a varios grupos raciales y étnicos y géneros para tener una representación variada en cada tipo de guión de video.
La prueba de percepción tiene como objetivo estimular y dirigir la investigación futura en modelos de percepción amplios. En el futuro, esperan trabajar con la comunidad de investigación multimodal para agregar más medidas, tareas, anotaciones o incluso idiomas al punto de referencia.
This Article is written as a research summary article by Marktechpost Staff based on the research paper ‘Perception Test: A Diagnostic Benchmark for Multimodal Models‘. All Credit For This Research Goes To Researchers on This Project. Check out the paper, github link and reference article.
Please Don’t Forget To Join Our ML Subreddit
Tanushree Shenwai es pasante de consultoría en MarktechPost. Actualmente está cursando su B.Tech en el Instituto Indio de Tecnología (IIT), Bhubaneswar. Es una entusiasta de la ciencia de datos y tiene un gran interés en el ámbito de aplicación de la inteligencia artificial en varios campos. Le apasiona explorar los nuevos avances en tecnologías y su aplicación en la vida real.