Aspectos destacados de investigación
Perspectiva técnica: evaluar métricas muestreadas es un desafío
Por Fabio Vandín
Comunicaciones de la ACM, julio de 2022, vol. 65 No. 7, Página 74
10.1145/3535334
Comentarios
Los algoritmos de recomendación de elementos clasifican los elementos de un catálogo desde los más relevantes hasta los menos relevantes para un contexto determinado (por ejemplo, consulta) proporcionado en la entrada. Dichos algoritmos son un componente clave de nuestras interacciones diarias con los sistemas digitales, y su difusión en la sociedad solo aumentará en el futuro previsible.
Dada la difusión de los sistemas de recomendación, su comparación es un esfuerzo crucial. Los algoritmos de recomendación de artículos se suelen comparar utilizando alguna métrica (por ejemplo, la precisión media) que depende de la posición de los artículos verdaderamente relevantes en el ranking, que produce el algoritmo, de todos los artículos de un catálogo.
La evaluación experimental y la comparación de algoritmos está lejos de ser fácil. Una de las razones es que hay varias elecciones que hacer, como las instancias de entrada para la evaluación: ¿cuántas de ellas se deben considerar? ¿Cuáles? Si bien, idealmente, a uno le gustaría elegir entradas que sean representativas de las instancias en las que se ejecutarán los algoritmos cuando se implementen, hay varios otros factores que juegan un papel en tales elecciones, como los recursos disponibles (por ejemplo, tiempo y memoria) . El impacto de la elección de las entradas es claro para todos los investigadores y profesionales que han tratado de comparar algoritmos y herramientas.
El siguiente artículo expone otro aspecto crucial para la evaluación de algoritmos y herramientas: el impacto de usar métricas muestreadas en lugar de métricas calculadas exactamente. Los catálogos clasificados por los sistemas de recomendación de artículos suelen ser muy grandes, con tamaños que van desde decenas de miles hasta millones, según la aplicación. Por esta razón, la evaluación de los algoritmos de recomendación de artículos es extremadamente laboriosa. Un método utilizado recientemente para acelerar la evaluación consiste en utilizar métricas muestreadas, que son métricas obtenidas de la clasificación de los elementos relevantes frente a un pequeño conjunto de elementos irrelevantes muestreados del catálogo.
El siguiente artículo expone un aspecto crucial para la evaluación de algoritmos y herramientas: el impacto de usar métricas muestreadas en lugar de métricas calculadas exactamente.
Los autores estudian el uso de métricas muestreadas en la evaluación de algoritmos de recomendación de ítems. Uno de los principales resultados del artículo es que las métricas muestreadas conducen a conclusiones que son inconsistentes con sus contrapartes exactas, lo que significa que un algoritmo A, que es inferior al algoritmo B cuando se usa una métrica exacta, parece superior con la métrica muestreada. Aún más sorprendente, el documento muestra que, para las métricas de uso común, el orden relativo de tres recomendadores del mundo real cambia al aumentar el tamaño de la muestra, con conclusiones opuestas extraídas con diferentes tamaños de muestra.
Una posible explicación del comportamiento inconsistente de las métricas muestreadas podría ser la variación de dichas métricas, debido al muestreo. Sin embargo, el documento muestra que, para los algoritmos de recomendación de ítems, este no es el caso. De hecho, las métricas muestreadas tienen una variación muy baja y su inconsistencia se debe a un sesgo inherente en su estimación de las métricas exactas. Esto descarta un enfoque de uso común para obtener resultados estables del muestreo, a saber, repetir el procedimiento de estimación varias veces. Además, el documento muestra que se necesitan muestras relativamente grandes para obtener resultados consistentes de las métricas muestreadas. De hecho, el documento muestra que cuando 1/3rd de todo el catálogo se utiliza como muestra, las métricas muestreadas son consistentes con las métricas exactas. Desafortunadamente, en este caso, la velocidad del muestreo es limitada.
¿Cuál es la fuente de la inconsistencia y el sesgo en las métricas muestreadas? Como muestran los autores, se derivan de un hecho simple: al utilizar una muestra de elementos irrelevantes, el rango de un elemento relevante es una subestimación de su rango exacto, obtenido cuando se consideran todos los elementos irrelevantes. Dado que el error en la estimación se puede cuantificar, luego se puede corregir, y otro resultado principal del documento muestra que incluso una simple corrección puede resolver la mayoría de los errores de las métricas muestreadas no corregidas. Por lo tanto, si bien, como sugieren los autores, los enfoques basados en el muestreo deben evitarse en las evaluaciones siempre que sea posible, aún pueden emplearse mediante el uso de una corrección diseñada adecuadamente.
Una de las conclusiones más importantes del documento es clara: cuando se utiliza el muestreo para estimar una cantidad, es fundamental comprender y analizar el impacto del procedimiento de muestreo. Este es un mensaje más general de lo que puede parecer a primera vista. En varias aplicaciones, rara vez se puede suponer que los datos disponibles representan todo el sistema, la población o el proceso bajo estudio y, por lo general, los datos son solo una muestra del sistema/población/proceso. Comprender el impacto de los procedimientos de muestreo en los resultados de los algoritmos y cómo tenerlos en cuenta adecuadamente en el cálculo es de suma importancia para obtener respuestas confiables y sólidas a partir de los datos.
Volver arriba
Autor
fabio vandín es profesor en el Departamento de Ingeniería de la Información de la Universidad de Padua, Italia.
Volver arriba
Copyright propiedad del autor.
Solicitar permiso para (re) publicar del propietario/autor
La Biblioteca digital es una publicación de la Association for Computing Machinery. Derechos de autor © 2022 ACM, Inc.
entradas no encontradas