La visión por computadora ha aumentado su impacto en la investigación de inteligencia artificial, según el Informe del índice de IA de 2022 de la Universidad de Stanford. De hecho, el informe destaca un mayor interés en las «subtareas de visión por computadora, como la segmentación de imágenes médicas y la identificación de rostros enmascarados». Pero este cambio de enfoque puede significar un movimiento hacia aplicaciones más prácticas, algo que la industria verá más este año.
A medida que la intersección de la IA con las disciplinas de la informática y la ingeniería sigue aumentando, también lo hacen las complicaciones que rodean su implementación y uso. En la Conferencia sobre Visión por Computador y Reconocimiento de Patrones (CVPR) 2022, esta causa y efecto dio paso a tres motivaciones clave para la investigación y el desarrollo tecnológico que continuarán a lo largo de 2023:
1. Integración de consideraciones cognitivas
En CVPR 2022, Josh Tennebaum, profesor del Departamento de Ciencias Cerebrales y Cognitivas del MIT, discutió las formas en que el cerebro humano procesa la información y cómo esa experiencia se extiende más allá de las entradas y evaluaciones de datos.
“Desde el punto de vista cognitivo humano, la inteligencia es mucho más [than function approximation and pattern recognition]. En particular, se trata de modelar el mundo; y me refiero a modelar el mundo, no solo los datos”, comentó Tennebaum. «Hay un sentido en el que ver la ‘manera humana’ es básicamente dar sentido al mundo en todas estas formas en que las personas lo hacen, desde la luz que entra en nuestros ojos o nuestras cámaras».
Explorar este tren de pensamiento significa que la intersección de la IA, la informática, el procesamiento del lenguaje, el análisis auditivo y gran parte de la neurociencia será fundamental para introducir una IA más precisa e inteligente.
“Solo hemos tocado el comienzo de la IA integradora”, dijo el orador de CVPR 2022 Xuedong Huang, miembro técnico y director de tecnología de Azure AI. “El desafío para esta comunidad es cuál es la próxima GUI [graphical user interface] ¿momento? Cuando Steve Jobs de Apple llevó a su gente a Xerox PARC, todos vieron el valor de la GUI. Ese movimiento cambió por completo la industria. Diría que la IA integradora, a través de la API, puede prepararse para el próximo momento de la GUI”.
2. Resolviendo para una IA confiable
Según el Informe del Índice de IA de 2022, a medida que los grandes conjuntos de datos continúan produciendo nuevos puntos de referencia técnicos, también introducen un mayor nivel de sesgo. De hecho, el informe señala que «un modelo de 280 mil millones de parámetros desarrollado en 2021 muestra un aumento del 29 % en la toxicidad provocada en comparación con un modelo de 117 millones de parámetros considerado el más avanzado en 2018». A medida que se emplean nuevos modelos y surgen nuevas aplicaciones de datos, el potencial de sesgo aumenta con él. Sin embargo, varios grupos están desarrollando métodos de reducción de sesgos, que eventualmente podrían reducir cualquier daño potencial.
La IA es frágil. Los ataques adversarios reducirán el rendimiento de los sistemas de IA. Muchos grupos están trabajando en modelar ataques de adversarios y defenderlos también. Otra preocupación importante es la diferencia de distribución entre los datos de entrenamiento y de prueba. Por ejemplo, las técnicas de IA en el cuidado de la salud deben abordar los cambios de dominio en los datos médicos adquiridos en diferentes hospitales o laboratorios de patología. Muchos grupos de investigación de todo el mundo están trabajando en métodos que mitiguen el cambio de dominio entre datos de entrenamiento y de prueba.
3. Explorar las implicaciones éticas y sociales
Si bien la exploración de la confianza en los algoritmos de IA ofrece un conjunto de consideraciones, los límites éticos de cómo se aplica esta tecnología tienen un enfoque igual de fuerte. Este problema es algo con lo que la comunidad lidia, y el Índice de IA de 2022 lo ha resumido como «el aumento de la ética de la IA en todas partes».
Para la comunidad de visión por computadora, eso puede significar cambios en la forma en que aborda la investigación relacionada con la IA y los datos detrás de ella. Hay una tendencia a pasar de datos reales a datos sintéticos si funcionan, si son efectivos. Las cámaras solo pueden capturar lo que ha sucedido; mientras que la síntesis puede producir cualquier cosa que imagines o le indiques a la IA que haga. Por lo tanto, hay más variedad en los datos sintéticos y las preocupaciones sobre la privacidad son menores.
Aunque los avances tecnológicos continúan, los desafíos informáticos son cada vez más complejos y cada vez más interdisciplinarios. A medida que aumenta el énfasis en la IA en la informática y la ingeniería, la misión será elevar la experiencia de la IA para imitar a la humana de una manera ética y confiable.
“A menudo mostramos que hemos mejorado el estado del arte de una manera estadísticamente significativa y, a menudo, notable, y luego sugerimos que está haciendo lo que hacen los humanos, pero eso es realmente peligroso”, concluyó Tennebaum. “Todos debemos tener cuidado de distinguir entre, ‘Oh, dimos un pequeño paso hacia algo similar a los humanos, a nivel humano’, y estamos realmente allí”.
Si bien la tecnología aún no se ha puesto al día con las decisiones humanas, la atención dedicada a la integración cognitiva, la IA confiable y la IA libre de sesgos garantizarán que la comunidad llegue allí y lo haga bien.