En la película «Moneyball», un joven graduado en economía y un entrenador de las Grandes Ligas de Béisbol con problemas de liquidez presentan una nueva forma de evaluar el valor de los jugadores de béisbol. Su idea innovadora de calcular los datos estadísticos y los salarios de los jugadores permitió a los Atléticos de Oakland reclutar talentos de calidad que otros equipos pasaban por alto, revitalizando completamente al equipo sin exceder el presupuesto.
Una nueva investigación en el Colegio de Ciencias y Tecnología de la Información de Penn State podría tener un impacto similar en el deporte. El equipo ha desarrollado un modelo de aprendizaje automático que podría medir mejor el rendimiento a corto y largo plazo de los jugadores y equipos de béisbol, en comparación con los métodos de análisis estadístico existentes para el deporte. Basándose en los avances recientes en el procesamiento del lenguaje natural y la visión por computadora, su enfoque cambiaría por completo y podría mejorar la forma en que se mide el estado de un juego y el impacto de un jugador en el juego.
Según Connor Heaton, candidato a doctorado en la Facultad de IST, la familia de métodos existente, conocida como sabermetría, se basa en la cantidad de veces que un jugador o equipo logra un evento discreto, como conectar un doble o un jonrón. Sin embargo, no considera el contexto que rodea a cada acción.
«Piense en un escenario en el que un jugador registró un sencillo en su última aparición en el plato», dijo Heaton. «Pudo haberle pegado a un driblador por la línea de la tercera base, haber hecho avanzar a un corredor de primera a segunda y vencer el tiro a primera, o haber pegado una pelota a lo profundo del jardín izquierdo y llegar cómodamente a la primera base, pero no tenía la velocidad para empujar». un doble. Describir ambas situaciones como resultado de ‘una sola’ es exacto, pero no cuenta toda la historia».
En cambio, el modelo de Heaton aprende el significado de los eventos del juego en función del impacto que tienen en el juego y el contexto en el que ocurren, luego genera representaciones numéricas de cómo los jugadores impactan el juego al verlo como una secuencia de eventos.
«A menudo hablamos del béisbol en términos de ‘este jugador tuvo dos sencillos y un doble ayer’ o ‘fue uno de cuatro'», dijo Heaton. «Muchas de las formas en que hablamos sobre el juego simplemente resumen los eventos con una estadística de resumen. Nuestro trabajo está tratando de tomar una imagen más holística del juego y obtener una descripción computacional más matizada de cómo los jugadores impactan el juego. .»
En el método novedoso de Heaton, aprovecha las técnicas de modelado secuencial utilizadas en el procesamiento del lenguaje natural para ayudar a las computadoras a aprender la función o el significado de diferentes palabras. Aplicó ese enfoque para enseñar a su modelo el papel o el significado de diferentes eventos en un juego de béisbol, por ejemplo, cuando un bateador conecta un sencillo. Luego, modeló el juego como una secuencia de eventos para ofrecer una nueva visión de las estadísticas existentes.
«El impacto de este trabajo es el marco que se propone para lo que me gusta llamar ‘interrogar el juego'», dijo Heaton. «Lo estamos viendo como una secuencia en todo este andamiaje computacional para modelar un juego».
El resultado del modelo puede describir efectivamente la influencia de un jugador en el juego a corto plazo, o su forma. Mostrados como vectores de 64 elementos, obtenidos al adaptar el trabajo de la visión por computadora, estas incrustaciones de formularios capturan la influencia de un jugador en el juego y pueden usarse de manera efectiva para describir su impacto a corto plazo, como el lapso de 15 apariciones en el plato, o promediados juntos para analizar períodos de tiempo más largos, como en el transcurso de la carrera del jugador. Además, cuando se combina con la sabermetría tradicional, las incrustaciones de formularios pueden predecir el ganador de un juego con más del 59 % de precisión.
Heaton describió cómo las incrustaciones creadas tanto por su método como por el método de sabermetría tradicional trazan los mismos datos. Cuando se ven a lo largo del tiempo, las representaciones basadas en sabermetría del impacto del jugador pueden ser un tanto esporádicas, cambiando significativamente de un juego a otro. El método de Heaton ayuda a «suavizar» la forma en que se describe a los jugadores a lo largo del tiempo, al mismo tiempo que permite fluctuaciones en el rendimiento de los jugadores.
«Ambas incrustaciones pueden ayudar a diferenciar a los buenos jugadores de los malos», dijo Heaton. «Pero el nuestro proporciona muchos más matices sobre la forma exacta en que los buenos jugadores impactan el juego».
Para entrenar su modelo, los investigadores utilizaron datos recopilados previamente de sistemas instalados en los estadios de las grandes ligas que rastrean información detallada sobre cada lanzamiento lanzado, como la posición de los jugadores en el campo, la ocupación de la base y la velocidad y rotación del lanzamiento. Se centraron en dos tipos de datos: datos paso a paso, para analizar información como el tipo de paso y el ángulo de lanzamiento; y datos de temporada por temporada, para investigar información específica de la posición, como bases por bolas y hits por entrada lanzada para lanzadores y porcentaje de embase más slugging para bateadores.
Cada lanzamiento en el conjunto de datos recopilado tiene tres características de identificación: el juego en el que tuvo lugar, el número de turno al bate dentro del juego y el número de lanzamiento dentro del turno al bate. Mediante el uso de estas tres piezas de información, los investigadores pudieron reconstruir completamente la secuencia de eventos que constituyen un juego de la MLB.
Luego, los investigadores identificaron 325 posibles cambios en el juego que podrían ocurrir cuando se lanza un lanzamiento, como cambios en el conteo de pelotas y en la ocupación de las bases. Combinaron esta información con los datos existentes de lanzamiento por lanzamiento que describen el lanzamiento lanzado y la acción del turno al bate, luego ingresaron los registros de los jugadores de sabermetrics para poder describir qué sucedió, cómo sucedió y quién estuvo involucrado en cada jugada.
El trabajo combina el enfoque de investigación de Heaton del procesamiento del lenguaje natural con su interés en el análisis estadístico histórico del béisbol.
«Existe todo este ecosistema construido en torno al modelado del lenguaje y la secuencia de palabras», dijo Heaton. «Parece que había potencial para que se adoptara para modelar secuencias de otras cosas; para generalizarlo un poco. Empecé a pensar en análisis deportivos y parecía que se podía hacer mucho para mejorar tanto nuestro comprensión del juego y cómo se modela computacionalmente el juego».
Los investigadores esperan que su trabajo sirva como un sólido punto de partida hacia una nueva forma de describir cómo los atletas en el béisbol y otros deportes impactan el curso del juego.
«Este trabajo tiene el potencial de hacer avanzar significativamente el estado del arte en sabermetría», dijo Prasenjit Mitra, profesor de ciencias y tecnología de la información y coautor del artículo. «Hasta donde sabemos, el nuestro es el primero en capturar y representar un estado matizado del juego y utilizar esta información como contexto para evaluar los eventos individuales que cuentan las estadísticas tradicionales, por ejemplo, mediante la creación automática de un modelo. que entiende los momentos clave y los eventos cruciales».
Heaton y Mitra presentaron su artículo, «Using Machine Learning to Describe How Players Impact the Game in the MLB», fue uno de los siete finalistas en la competencia Research Paper 2022 en la MIT Sloan Sports Analytics Conference a principios de este mes.
Puede encontrar más información sobre la competencia, así como enlaces al documento y su código abierto y datos en: https://www.sloansportsconference.com/research-paper-competition