Por Laura Hervert Escobar
Artículo de divulgación

El deporte es una actividad física que el ser humano realiza principalmente con fines recreativos y/o para mejorar la condición física. A lo largo de la historia de la humanidad, el deporte ha tenido una gran influencia en la cultura y la construcción de una identidad nacional. Además, tiene un impacto positivo en el desarrollo de un país en temas como la educación, la economía y la salud pública.

Dada la atención que tienen ciertas disciplinas deportivas en la sociedad, el deporte se ha convertido en uno de los grandes negocios del mundo y ha demostrado ser una parte importante en el crecimiento económico. De la totalidad de los deportes que existen, muchos expertos coinciden en que el futbol soccer es el más popular del mundo, ya que detona un gran movimiento de dinero en apuestas, patrocinios, asistencia a fiestas, venta de camisetas, accesorios, etcétera. Es por ello que se ha despertado un gran interés en construir modelos predictivos y estadísticos.

Además, la gran cantidad de información disponible tales como resultados de partidos, inversiones realizadas, características de los jugadores, etcétera, permiten encontrar mecanismos que proporcionan ventajas competitivas.

La construcción del modelo predictivo tiene sus bases en el aprendizaje automático (Machine Learning)

La propuesta
Existen diversos factores que tienen un impacto en el resultado de un juego de soccer, tales como la moral y las destrezas del equipo y/o jugador, la estrategia de entrenamiento y el equipamiento. Todo esto hace que la predicción del resultado de un juego sea compleja, aún para los expertos en el área.

También genera interesantes preguntas de investigación cuando se desea obtener un modelo general de predicción que pueda aplicarse a cualquier juego de soccer. Por ejemplo: ¿Qué impacto tienen las reglas de cada liga en el resultado? ¿Es igual predecir un juego de liga regular, un juego de torneo de liga o un torneo de carácter internacional? ¿Qué tan posible es lograr una buena predicción conociendo solamente los resultados de juegos anteriores?

Para responder a estas preguntas, se propuso realizar la predicción de resultados de juegos de soccer de 52 ligas alrededor del mundo utilizando alrededor de 200 mil resultados de juegos previos de partidos de liga regular (no incluye torneos de ligas). El mismo modelo de predicción se utilizaría para predecir la fase de grupos de la Copa Mundial de Soccer organizada por la FIFA.

La construcción del modelo tiene sus bases en el aprendizaje automático, también conocido como Machine Learning. Esta disciplina del campo de la Inteligencia Artificial crea sistemas que aprenden automáticamente. Aprender en este contexto significa identificar patrones complejos en millones de datos. A través de la identificación de patrones, es posible construir modelos de predicción o clasificación.

En esta propuesta utilizamos un modelo apoyado en dos ejes, el primero es un modelo bayesiano basado en el rankeo que tiene cada equipo y lo segundo se basa en la historia compartida por los equipos en disputa.

El Machine learning identifica patrones complejos en millones de datos y permite construir modelos de predicción

El rankeo
El rankeo de los equipos se realiza cuando la temporada ha sido completada. Para ello se utiliza el método de rankeo de FIFA combinado el total de goles anotados y recibidos durante toda la temporada.

Cuando un equipo nuevo se incorpora a la liga, puede pagar el precio de adaptación. La forma elegida para equilibrar el puntaje es tomar en cuenta la historia de puntos que traen los equipos veteranos. De tal forma que el puntaje de un equipo veterano se compone 20% de su puntaje anterior y 80% de su puntaje actual.

El modelo
El modelo bayesiano utiliza la posición en el rankeo de cada equipo en disputa para obtener una probabilidad de éxito o fracaso. Posteriormente, con la utilización de variables aleatorias generadas con una distribución triangular, se obtiene una medida de ajuste para recalcular la probabilidad para ganar o perder. Cuando la diferencia de probabilidades en los equipos es menor del 10%, se declara un empate en el resultado.

La predicción también toma en cuenta la historia que comparten los equipos en disputa. En el análisis de los datos históricos se detectó que, en algunas ligas, los equipos que se enfrentan constantemente desarrollan patrones de resultado que son independientes de la posición en la que se encuentren rankeados.

De esta manera, el modelo completo considera este patrón de comportamiento en conjunto con el rankeo del equipo para determinar una probabilidad de ganar, perder o empatar un encuentro.

Para probar el modelo se utilizó
una base de datos con resultados
de 200 mil juegos

El pronóstico
Para realizar el pronóstico para liga regular se utilizó una base de datos con aproximadamente 200 mil resultados de juegos de soccer provenientes de 52 ligas alrededor del mundo. La base de datos contiene información de temporada, liga, fecha del encuentro, equipo de casa, equipo visitante y resultado del partido. Se realizó la predicción de la jornada a realizarse para cada liga posterior a la última fecha registrada en la base de datos.

Para realizar el pronóstico para la Copa del Mundo se utilizó la lista de puntaje de la FIFA de cada equipo calificado en el Mundial, así como la información de equipos por grupo y fecha de los encuentros. El pronóstico se realizó para la fase de eliminación de grupos, en la cual se juegan tres rondas de partidos entre los miembros de cada equipo. Los dos equipos con mejor puntaje en cada grupo califican para la siguiente fase.

Los resultados
Para medir la efectividad de la predicción se utilizó Ranked Probability Score (RPS). Esta medida penaliza los pronósticos más severamente cuando sus probabilidades están más lejos del resultado real. El valor obtenido con esta medida está dentro del rango de 0-1. Siendo el cero el valor más deseado.

Otra medida utilizada es la exactitud absoluta del pronóstico. Con esta medida, se verifica el porcentaje de acierto que se tuvo en la predicción.

La siguiente gráfica muestra el resultado de predicción por ligas. El promedio de RPS obtenido es de 0.2620 mientras que la exactitud es del 46%. Estos resultados son competitivos comparados con el estado del arte. La gráfica muestra el resultado promedio por liga obtenido. El tamaño del círculo indica la cantidad de predicciones realizadas. Como se puede observar, la mayoría de los resultados tienden a estar en la parte superior izquierda de la gráfica, lo cual indica mayor exactitud y poco error de predicción.

El resultado del Mundial se muestra en la siguiente gráfica, las barras indican el promedio de exactitud obtenido en las predicciones de los partidos en las tres rondas de juegos por grupo, el resultado promedio es de 0.48. La línea naranja indica el RPS obtenido para la predicción de los partidos, obteniendo un promedio de 0.276, finalmente la línea azul indica la exactitud de los equipos que son seleccionados para la fase 2, obteniendo un promedio de 0.68.

En conclusión
La principal motivación en este trabajo es la oportunidad de probar modelos de pronóstico en un tema tan popular como es el futbol soccer. A pesar de la falta de conocimiento sobre el futbol en general, pudimos entender primero el desafío y luego desarrollar un modelo de predicción que es fácil de implementar.

Cada liga está impulsada por diferentes motivaciones que influyen en el resultado de un juego, esto puede dificultar el reconocimiento de patrones cuando se conoce sólo el resultado de los partidos previos, sin embargo, el modelo permite reconocer patrones útiles para la predicción.

En este desarrollo, se invirtió la mayor parte del tiempo en definir la mejor manera de clasificar y acomodar los datos, así como de programar los procedimientos, tratando de hacerlos lo más eficientes posible.

La metodología propuesta es simplemente una instancia de un marco más general, aplicado al futbol. Aunque, en principio, el marco se puede adaptar a una amplia gama de dominios deportivos, no se puede usar en dominios que tienen datos insuficientes.

Otro enfoque para explorar en el futuro es un sistema basado en el conocimiento. Esto generalmente requiere conocimiento de una calidad relativamente buena, mientras que la mayoría de los sistemas de aprendizaje automático necesitan una gran cantidad de datos para obtener buenas predicciones.

Es importante entender que cada liga de futbol se comporta de acuerdo con un entorno particular. Por lo tanto, un mejor modelo de predicción debe incluir características particulares del juego del partido, como la importancia del juego. Esto podría ayudar a mejorar la exactitud de predicción.

El trabajo futuro en esta área incluye el desarrollo de un modelo que intenta predecir el puntaje del partido, junto con más técnicas avanzadas y el uso de diferentes parámetros para evaluar la calidad del resultado.

—————————-

La autora
Laura Hervert Escobar es ingeniera industrial por el Instituto Politécnico Nacional. Tiene un Doctorado en Systems and Engineering Management, en Texas Tech University y un Doctorado en Ciencias de la Ingeniería por el Tecnológico de Monterrey, en donde actualmente trabaja como investigadora posdoctoral. Su investigación incluye el desarrollo, el análisis y la implementación de técnicas metaheurísticas para resolver problemas combinatorios complejos de la vida real con varios objetivos.

laura.hervert@itesm.mx

¿Quieres saber más?
Bayesian Based Approach Learning for Outcome Prediction of Soccer Matches

 

DEJA UN COMENTARIO

Por favor agrega un comentario!
Favor de ingresar tu nombre