Steilvorlage der Statistik – Fußball ist Kopfsache

14.06.2018 von CA Redaktion | Information Management

Vom 14. Juni bis zum 15. Juli 2018 findet in Russland die Fußball-Weltmeisterschaft statt. Und wir wissen jetzt schon, welche Nation das Turnier gewinnen wird.

Unsere Prognose ist selbstverständlich mathematisch-statistisch fundiert und basiert auf einer intensiven Analyse von geeigneten historischen Daten mit modernsten Machine Learning-Verfahren. Die wertvollen Ausgangsdaten haben wir von Kaggle, der bei den Data Scientisten höchst beliebten Plattform für die Predictive Analytics, wo die Teilnehmer um die beste Vorhersage in den verschiedensten Bereichen, zum Teil mit Preisgeldern von internationalen Unternehmen besetzt, konkurrieren. Darin enthalten: Annähernd 40.000 internationale Fußballergebnisse der Jahre 1872 bis 2017, angefangen vom World Cup über den Baltic Cup bis hin zu regulären Freundschaftsspielen. Nicht enthalten sind die Olympischen Spiele sowie Matches, in denen mindestens eines der Teams das B-Team der Nation, U-23 oder ein Ligaauswahl-Team war.

Um es gleich vorwegzunehmen: Brasilien wird Weltmeister!

Aber fangen wir von vorne an. Vor der schönen Ernte in Form einer stichhaltigen Prognose befasst sich der notorisch neugierige Data Scientist anhand der ihm vorliegenden Daten mit vielerlei Fragen, um die Spreu vom Weizen zu trennen, die relevante von der irrelevanten Information herauszuschälen und sogenannte Ausreißer im Datenset sanft, aber bestimmt zu entfernen. Und das alles mit einer gehörigen Portion Fachwissen, im Fachjargon auch Domain Know-how genannt.

  • Wie definieren sich überhaupt die relevanten Datensätze?
  • Muss ich Freundschaftspiele mitbetrachten oder gehören diese ausgeschlossen?
  • Verwende ich die ganze Historie oder beschränke ich mich auf die letzten Jahre?
  • Ist der Heimvorteil tatsächlich ein stark beeinflussender Faktor, wie man ihm gerne nachsagt oder nicht?

Und dann: Welches ist meine Zielgröße, die ich vorhersagen will, wenn ich bedenke,

  • dass die Anzahl Tore wohl von der Stärke der jeweiligen gegnerischen Mannschaft abhängt und nur bedingt über die Qualität der Mannschaft aussagt.
  • dass die Anzahl verschiedener Paarungen bei „nur“ 40.000 Spielergebnissen vermutlich sehr begrenzt ist.
  • dass die Tordifferenz dafür aber zusätzlich eine Aussage über die relative Spielstärke der Mannschaften trifft

Habe ich mich schlussendlich auf die Tordifferenz festgelegt, stellen sich die nächsten drängenden Fragen, die stichhaltig beantwortet werden wollen – zum Beispiel: Wir haben es mit Wahrscheinlichkeiten zu tun – wo beginnt ein Unentschieden, wenn doch der exakte Wert 0 gar so selten vorkommt …

Nach all diesen minutiösen und zum Teil durchaus auch kreativen Gedankengängen und entsprechenden Vorbereitungen des Datensets, deren Stichhaltigkeit und Daseinsberechtigung freilich durch passende, bestechend schöne, vor allem aber plausible und überzeugende grafische Visualisierung belegt werden muss, steht der Data Scientist unverzüglich vor den nächsten Entscheidungen:

  • Welches Machine Learning-Modell wähle ich?
  • Wähle ich ein „klassisches“ Machine Learning-Modell oder wende ich die innovative Wunderwaffe Deep Learning an?
  • Welche Einstellungen und Parameter setze ich, um das Ergebnis sukzessive zu optimieren?
  • Woran erkenne ich, dass ein Modell optimal für die Beantwortung der Fragestellung passt?

Sind am Ende des Tages all die offenen Fragen beantwortet, das beste Modell gefunden, trainiert und für valide befunden, kommen wir zur Königsdisziplin – dem Anwenden des Modells auf die bereits bekannten Gruppenpaarungen der Fußball-WM und Durchspielen aller Paarungen nach den dedizierten FIFA-Regeln. So werden Weltmeister “gemacht”!

Wen wundert’s angesichts dieser spannenden und faszinierenden Schrittfolgen, dass dem Data Scientist der Ruf „Sexiest Job of the 21th Century“ vorauseilt.

Alle die hier am schönen Beispiel der Fußball-WM beschriebenen Schritte – zusammen mit den geeigneten spannenden statistischen und Machine Learning-Verfahren – lernen Sie ausführlich und intensiv in unserem Seminar Predictive und Advanced Analytics kennen, das die Controller Akademie gemeinsam mit der QUNIS GmbH durchführt.

Und vergessen Sie nicht: Brasilien wird Weltmeister! 😊

Autor: Ilona Tag, Head of Unit Big Data & Advanced Analytics, QUNIS GmbH und Jens Ropers

Beitrag teilen