Der Matthäus-Effekt - warum in der Bundesliga das Geburtsdatum zählt

In der Bibel heißt es in Matthäus 25:29:

Denn wer da hat, dem wird gegeben, dass er die Fülle habe; wer aber nicht hat, dem wird auch das genommen, was er hat.

Kurz gesagt: Reiche werden reicher und Arme werden ärmer. Das ist jetzt keine sonderlich neue Erkenntnis, wirft aber die Frage auf, was das mit Sport zu tun hat. Die Antwort liefert uns Malcolm Gladwell in seinem empfehlenswerten Buch Outliers. Darin beschreibt er sehr detailliert, wie in einigen Sportarten das Geburtsdatum drastischen Einfluss auf die Entwicklung junger Nachwuchstalente nehmen kann.

Der einfache Grund für diesen Effekt sind Deadlines. So ist es üblich, zum 1. Januar oder 1. Juli festzulegen, welche Kinder und Jugendliche gut genug für Förderprogramme sind; üblicherweise beginnt dieser Auswahlprozess schon im Grundschulalter.

Nehmen wir an, die Deadline sei am 1. Januar 2014 gewesen und die Auswahl entscheidet darüber, welche 2004 geborenen Kinder eine priviligierte Förderung bekommen sollen. Betrachten wir zwei Kinder: Niklas, geboren am 15. Januar 2004 und Jonas, geboren am 3. November 2004. Beide sind also am 1. Januar 2014 neun Jahre alt.

Aber hier kommt genau das Problem zum Tragen. Niklas ist am 1. Januar nur 2 Wochen von seinem 10. Geburtstag entfernt, während der 9. Geburtstag von Jonas nur knapp 2 Monate zurückliegt. Niklas ist Jonas in seiner körperlichen Entwicklung also ganze 10 Monate (oder fast ein Jahr) voraus. Und es ist offensichtlich, was 10 Monate in der Entwicklung eines Kindes ausmachen. Jonas muss sich also gegen Mitspieler durchsetzen, die einen erheblichen Wachstumsvorsprung ihm gegenüber haben. Denn Scouts werden nicht fragen, wann die Kinder geboren sind, sondern rein nach Talent und körperlicher Statur gehen.

Gladwell erklärt den Matthews effect anhand kanadischer Eishockey-Ligen. Stellt sich also die Frage, wie es für andere Sportligen, in dem Fall dieses Blogposts die NFL und die Fussball-Bundesliga, aussieht.

Die Datenbeschaffung für die NFL dürfte regelmäßigen Lesern bekannt vorkommen: Pro-Football-Reference ist die 1. Anlaufstelle, wenn es um solche Sachen geht. Für die Bundesliga ist das schon etwas schwieriger, ich habe die Daten schließlich von weltfussball.de bezogen.

Die Vorgehensweise der Auswertung ist denkbar einfach:

  1. den Monat aus dem Geburtsdatum extrahieren
  2. Spieler pro Geburtsmonat zählen
  3. für bessere Vergleichbarkeit normieren

Sehen wir uns erst einmal die nackten (unnormierten) Zahlen an:

Monat Bundesliga NFL
175158
250132
359147
446107
548152
639146
737150
848125
937156
1038112
1134138
1239142

Auffällig ist natürlich die unterschiedliche Anzahl an Spielern pro Liga, 550 in der Bundesliga und 1665 in der NFL. Bei der Interpretation ist also Vorsicht angesagt. Aber es fällt eben auch auf, dass die Zahlen für die NFL im Gegensatz zur Bundesliga ziemlich konstant sind:

Auch wenn der Koeffizient der Trendlinie ganz leicht negativ ist, kann man sagen: die Zahl der Spieler über die Geburtsmonate ist gleichverteilt.

Schauen wir uns die Bundesliga an:

Was sich in den Zahlen schon angedeutet hat, wird nun überdeutlich: es gibt deutlich mehr am Jahresanfang geborene Spieler als am Jahresende Geborene. Es gibt fast doppelt so viele Spieler, die im Januar geboren wurden als im Juni.

Die NFL leidet also im Gegensatz zur Bundesliga nicht an der Selektion durch den Matthäus-Effekt, man könnte auch sagen, die Nachwuchsförderung ist fairer als im Fussball.

Doch so einfach ist die Interpretation nicht. Die Anzahl der Spieler ist wie oben erwähnt nicht sonderlich hoch. Daher wäre es schwierig, die Auswertung auf Länderebene durchzuführen. Daher ist es durchaus möglich, dass einzelne Nachwuchssysteme nicht unter dem Matthäus-Effekt leiden.

Ich bin mir nicht ganz sicher, wie genau der Effekt im Football verhindert wird, da es sowohl für Colleges als auch High Schools Deadlines für die Einschreibung gibt und man daher eine Selektion erwarten würde. Meine These ist daher, dass die Selektion in frühen Jahren nicht von Deadlines abhängt, während später - wenn es Deadlines gibt - die Unterschiede in der körperlichen Entwicklung nicht mehr so gravierend sind.

Zum Schluß noch die Anmerkung, dass der Matthäus-Effekt eigentlich ein viel generelleres Problem beschreibt, nämlich nicht nur den der beeinflußten Auswahl, sondern dass Erfolg zu noch mehr Erfolg - oder eben Reichtum zu noch mehr Reichtum - führt. So werden erfolgreiche Autoren öfter zitiert als unbekannte; Schüler mit mehr Vorwissen kommen in der Schule schneller zurecht und können schneller neues Wissen anhäufen und dadurch ihren Mitschülern immer weiter "enteilen". Stichwort: bildungsferne Schichten.

Dieser Artikel behandelt daher einen zugegebenermaßen unwichtigen Aspekt dieses Effekts. Es ist zwar nicht fair, wenn sportlich talentierte Kinder nur aufgrund ihres Geburtsdatums nicht entsprechend gefördert werden. Aber wesentlich entscheidender ist, dass niemand aufgrund seines familiären Hintergrundes benachteiligt werden sollte.

Tagged ,

Meta Big Board 2014, Ausgabe 1

Es sind noch einige Wochen, bis der NFL Draft 2014 stattfindet. Dennoch kommen wir langsam in die heiße Phase der Evaluierung. Letztes Jahr habe ich schonmal die einzelnen Big Boards der Experten genommen und daraus ein gemitteltes Meta Big Board erstellt. Das habe ich auch jetzt wieder für die aktuelle Draft-Klasse gemacht und plane in den nächsten Wochen auch Updates, sobald neue Big Boards veröffentlicht werden.

Ein Problem bei dieser Erstellung ist die Datengrundlage: Welcher Experte verdient diesen Namen wirklich und wer schummelt sich mit Pseudo-Wissen durch? Ich bin zugegebenermaßen kein Draft-Kenner, wie beispielsweise die Jungs von DerDraft.de. Dennoch habe ich mir vier Big Boards rausgesucht, die auch grob alle großen Medien widerspiegeln sollen (außer ESPN, sorry aber das Geld spare ich mir lieber). Über Meinungen, Anregungen und Vorschläge bin ich sehr dankbar! Für diese Runde habe ich folgende vier Big Boards herausgesucht:

Nachdem man nach einiger Handarbeit alle vier Boards als schön saubere Tabelle hat, kann man mit der Mittelung schon fast anfangen. Es bleibt nur eine Frage: Was machen mit Spielern, die nicht in jedem Big Board auftauchen? Antwort: Schmeiß alle Spieler raus, die in mehr als einem Big Board fehlen. Insgesamt werden 47 Spieler in den Big Boards erwähnt, doch lediglich 24 werden dabei auch übereinstimmend von mindestens drei Autoren genannt.

Das Ergebnis sieht nun wie folgt aus und dürfte an der Spitze niemanden überraschen:

Player Rank Position College
1.Jadeveon Clowney1.25DESouth Carolina
2.Sammy Watkins2.75WRClemson
3.Greg Robinson4.0OTAuburn
4.Jake Matthews5.0OTTexas A&M
5.Teddy Bridgewater5.25QBLouisville
6.Khalil Mack6.0OLBBuffalo
7.Anthony Barr7.0OLBUCLA
8.Mike Evans10.25WRTexas A&M
9.Johnny Manziel10.5QBTexas A&M
10.Taylor Lewan10.75OTMichigan
11.Eric Ebron11.0TENorth Carolina
12.Justin Gilbert11.25CBOklahoma State
13.Blake Bortles13.75QBCentral Florida
14.C.J. Mosley16.0OLBAlabama
15.Ha Ha Clinton-Dix16.25SAlabama
16.Marqise Lee16.67WRUSC
17.Aaron Donald17.25DTPittsburgh
18.Calvin Pryor18.33SLouisville
19.Darqueze Dennard19.5CBMichigan State
20.Ryan Shazier19.67OLBOhio State
21.Zack Martin22.0OTNotre Dame
21.Timmy Jernigan22.0DTFlorida State
23.Ra'Shede Hageman26.0 DTMinnesota
24.Jace Amaro26.67TETexas Tech
Das 1. Meta Big Board 2014

Wenn man den Mittelwert über alle Boards erstellt, verliert man leider die Information über die Unterschiede der Bewertung für die einzelnen Spieler. Während Jadeveon Clowney dreimal Platz 1 und einmal Platz 2 belegt, sind die Einschätzungen für Darqueze Dennard die Plätze 24, 8, 21 und 25. Diese Unterschiede lassen sich einfach mit der Standardabweichung in Zahlen ausdrücken. Die folgende Tabelle zeigt die Standardabweichung für alle 24 gelisteten Spieler, aufsteigend von der kleinsten bis zur größten Differenz:

Player Standardabweichung
Jadeveon Clowney0.500000
Sammy Watkins0.500000
Calvin Pryor1.154701
Jake Matthews1.414214
Ha Ha Clinton-Dix1.500000
Greg Robinson1.632993
Anthony Barr1.632993
Khalil Mack2.943920
Ra'Shede Hageman3.000000
Marqise Lee3.055050
Taylor Lewan3.095696
Johnny Manziel3.109126
Justin Gilbert3.201562
Mike Evans3.304038
Aaron Donald3.304038
C.J. Mosley3.605551
Eric Ebron4.163332
Blake Bortles5.057997
Teddy Bridgewater5.439056
Zack Martin5.567764
Jace Amaro7.637626
Darqueze Dennard7.852813
Ryan Shazier8.962886
Timmy Jernigan9.539392

Ich hoffe das Meta Big Board ist für den einen oder anderen hilfreich, um seinen eigenen Mock Draft zu planen oder vielleicht ist es auch einfach nur informativ. In jedem Fall plane ich noch mindestens ein weiteres Meta Big Board, sobald der Draft näher rückt.

Tagged , ,

Quarterbacks 2013 - In die Schublade gesteckt

Es ist bereits eine Weile her, seitdem ich über die Time of Possession geschrieben habe. Seitdem war es bis auf einen Gastbeitrag für Sideline Reporter mal wieder ziemlich ruhig. Doch jedes Warten hat irgendwann eine Ende und so gibt es jetzt endlich mal wieder einen neuen Beitrag.

Der Super Bowl ist vorbei. Bis zur Free Agency und zum Draft vergeht noch etwas Zeit. Was also in der Zwischenzeit machen? Wie wäre es mit einer Runde des allseits beliebten: Welcher Quarterback ist Elite und wer ist einfach nur doof. Doch in diesem Blog verlasse ich mich wie immer nicht auf Pundits, sondern vielmehr auf statistische und mathematische Methoden und Modelle.

Wer die folgende mathematische (aber einfach nachzuvollziehende) Ausführung überspringen will, kommt hier direkt zu den Ergebnissen.

Die Mathematik hinter der Kategorisierung

Es gibt unzählige Möglichkeiten, um Dinge zu kategorisieren bzw. zu klassifizieren, um es korrekt auszudrücken. Generell unterscheidet man aber zwei Arten: supervised und unsupervised classification; also überwachtes und nicht-überwachtes Klassifizieren.

Überwacht heißt in diesem Zusammenhang, dass man eine sogenannte Trainingsmenge hat, bei der man das Ergebnis bereits kennt und das Modell anhand dieser bekannten Daten lernen lässt. Beispielsweise könnte man ein paar Zahlen auf ein Blatt Papier malen und ein Modell trainieren, das anhand dessen zukünftige Zahlen eigenständig erkennen kann.

Nicht-überwachte Klassifizierung kann man immer dann nutzen, wenn man keine vorher bekannten Ergebnisse hat. Man hat also eine Reihe an Messwerten bzw. Beobachtungen, weiß aber nicht, wie die korrekte Einteilung ist. Genau dieses Problem haben wir bei der Einordnung von Quarterbacks: wir kennen zwar die jeweiligen Statistiken aller Spieler, aber wir haben keine Kategorien und erst recht keine Einteilung in diese, die in irgendeiner Weise objektiv wäre.

Die einfachste Methode, die es bei der nicht-überwachten Klassifizierung hat, ist das sogenannte k-means clustering.

k-means clustering

Der Ausdruck k-means bezieht sich auf die Anzahl der Cluster (bzw. Kategorien) k und die Tatsache, dass man in seinen Daten nach genau k Mittelwerten (means) sucht.

Um das Verfahren zu erläutern, ist es am einfachsten, dass man sich eine 2-dimensionale Ebene vorstellt, durch die die Daten dargestellt werden; beispielsweise die Körpergröße und das Gewicht. Auf dieser Ebene findet man nun alle möglichen Kombinationen von Größe und Gewicht. Nun sagen wir einfach, es gibt 2 Cluster (also k=2). Dazu setzen wir willkürlich 2 Punkte in die Ebene und ermitteln für jeden einzelnen Messwert, ob er näher zu Cluster 1 oder Cluster 2 liegt. Anschließend verschieben wir den Mittelpunkt des Clusters in das Zentrum der zum Cluster gehörenden Messpunkte. Wieder schaut man, welcher Cluster für jeden einzelnen Messpunkt am nächsten ist und wiederholt diese Prozedur, bis sich nicht mehr wesentlich etwas ändert.

Man hat also folgenden Ablauf (Lloyd-Algorithmus):

  1. Cluster-Mittelpunkte willkürlich verteilen
  2. Jedem Messpunkt dem nächstliegenden Cluster zuweisen (assignment step, Zuordnung)
  3. Cluster-Mittelpunkt in das Zentrum der zugehörigen Messwerte verschieben (update step, Aktualisierung)

Die Schritte 2 und 3 wiederholt man, bis zur Konvergenz.

Anmerkung: Im praktischen Einsatz verwendet man klügere Anfangsbedingungen und ausgefeiltere Methoden, um eine möglichst schnelle, rechenarme Konvergenz zu erreichen.

Die Datenlage

Um die Statistiken von Spielern zu bekommen, gibt es weiterhin keinen besseren Ort als Pro Football Reference. Dort gibt eine hervorragende Übersicht über alle Passing-Leistungen des vergangenen Jahres.

Natürlich braucht man nicht alle Statistiken, um einen Quarterback zu kategorisieren, zumal viele auch redundant wären. Ich habe daher folgende 5 Statistiken ausgewählt:

  • Completion Percentage
  • Touchdown Percentage
  • Interception Percentage
  • Sack Percentage
  • Net Yards per Attempt (NY/A)

Ich bevorzuge es, wenn möglich, immer mit relativen Werten (sprich Prozenten) zu rechnen, da somit der Einfluss von besonders vielen/wenigen Versuchen reduziert wird und in ein entsprechendes Verhältnis zur Anzahl der Passversuche gesetzt wird.

In NY/A wird die Passerleistung gewissermaßen mit den Sacks bereinigt: man reduziert die Yards durch Passing um die Sack-Yards (Net Yards) und rechnet die Anzahl der Pässe mit der Anzahl an Sacks zusammen, anschließend dividiert man beide durcheinander. Man sieht also, dass die letzten beiden Metriken nicht komplett unabhängig voneinander sind; jedoch ist NY/A nicht allzu sehr von den Sacks beeinflusst, so dass es gerechtfertigt scheint, die Sacks als extra Variable in die Berechnung einfließen zu lassen.

Nur Spieler, die mehr als 100 Passversuche hatten, wurden betrachtet; damit wurden also Quarterbacks, die nur 2-3 Series gespielt haben sowie Trickspieler, wie WR, die mal einen Pass werfen, ausgeschlossen.

Bevor wir in die Kategorisierung gehen, lohnt es sich anzusehen, wie die Verteilung der Datenpunkte zwischen den einzelnen Metriken ist:

Auf der Diagonalen sieht man die sogenannte Kernel Density Estimation (KDE), vereinfacht gesagt ist das die Verteilung der Werte für die jeweilige Größe. In den anderen Feldern sieht man für jede Kombination die Auftragung aller Metrik-Pärchen gegeneinander.

Einige Plots sehen sehr zufällig aus, beispielsweise Int% - Sk%, wogegen man bei einigen anderen schon mit bloßen Auge gewisse "Kategorien" erahnen kann, z.B. bei Cmp% - NY/A.

Die Berechnung

Um das eigentlich Klassifizieren durchzuführen, braucht man eigentlich nur noch recht wenig machen. Tools wie die Programmiersprache Python nehmen einem den Großteil der Arbeit ab, in dem man auf hervorragende Pakete zur Datenverarbeitung und -Analyse zurückgreifen kann.

Exemplarisch im Folgenden der Code, um auf den heruntergeladenen (und gefilterten) Daten eine Clusterung durchzuführen:

import pandas as pd
from sklearn.cluster import KMeans
df = pd.read_csv("qb2013.csv")
cluster = KMeans(n_clusters=4)
cluster.fit(df)

Man lädt zwei zusätzliche Module, einmal Pandas für die Datenanalyse und KMeans fürs Clustering. Danach liest man in der 3. Zeile die Daten ein, initialisiert den K-Means-Algorithmus in der folgenden Zeile und zum Abschluss wendet man den Algorithmus auf die eingelesenen Daten an... easy as pie!

Wie man in Zeile 3 sehen kann, haben wir n_clusters auf 4 gesetzt, d.h. wir wollen die Quarterbacks in 4 Cluster einteilen. Die folgende Tabelle zeigt die Mittelwerte der Metriken für jede der resultierenden Kategorien:

Gruppe Cmp% TD% Int% Sack% NY/A
167.276.341.575.607.42
261.644.572.805.556.29
360.233.892.668.715.73
454.993.303.546.495.94

Es lässt sich streiten, ob es sinnvoll ist, vier Kategorien zu nehmen oder doch lieber 5 oder nur 3. Aber genau das ist das Problem bei k-means und nicht-überwachtem Klassifizieren im Allgemeinen: man muss raten und handelt sich damit immer etwas Subjektivität ein. Ein Anzeichen, warum vier Cluster nicht allzu schlecht sind, ist die Interpretierbarkeit:

Der 1. Cluster enthält offensichtlich die Überflieger: hohe Completion Percentage, hohe NY/A, viele Touchdowns und wenige Interceptions. Cluster 4 beinhaltet Quarterbacks mit deutlich schlechterer Completion Percentage und einer viel höheren Fehlerquote und deutlich weniger Raumgewinn pro Versuch.

Die Cluster 2 und 3 unterscheiden sich zwar nicht in der Completion Percentage, aber in der relativen Anzahl an Touchdowns und Sacks eben schon, auch die NY/A sind bei Gruppe 2 deutlich höher, diese QB's erzielen fast einen halben Yard mehr pro Versuch.

Doch kommen wir nun endlich zu den Ergebnissen.

Die Ergebnisse

Gruppe 1: Die Elite

Diese Gruppe beinhaltet die statistisch allerbesten Quarterbacks der Saison 2013. Der Cluster-Algorithmus hat 7 Spieler in diese Kategorie einsortiert.

Name Team Cmp % TD % Int % Sack % Net Yards/Attempt
Aaron RodgersGNB66.65.92.16.87.78
Nick FolesPHI64.08.50.68.17.88
Josh McCownCHI66.55.80.44.77.63
Philip RiversSDG69.55.92.05.27.54
Drew BreesNOR68.66.01.85.47.16
Matt RyanATL67.44.02.66.36.07
Peyton ManningDEN68.38.31.52.77.91

Es überrascht wenig, dass die unstrittig besten Quarterbacks in dieser Kategorie landen: Peyton Manning, Aaron Rodgers, Drew Brees und Philip Rivers.

Überraschender sind schon Nick Foles und Josh McCown. Beide haben gut gespielt, vor allem Foles auch über viele Spiele, aber beide profitieren auch von einer extrem geringen Interception-Quote von weniger als einer Interception in 100 Versuchen, die auf lange Sicht so nicht haltbar ist. Aber man muss beiden zugute halten, dass sie in den anderen Metriken nicht hinter dem Rest der Gruppe zurückliegen und teils auch da Spitzenwerte erreichen.

Während Foles und McCown Ausreißer in einer einzelnen Metrik sind, muss man sagen, dass Matt Ryan ein ganz typischer Outlier (statistischer Ausreißer) ist. Er hat eine gute Completion Percentage, aber das war es auch schon. In keiner Kategorie außer der Sackquote kann er auch nur ansatzweise mit dem Rest mithalten. Doch solche Ausreißer gehören leider bei solchen Analysen dazu und sind eine bekannte Schwachstelle der meisten (simplen) Clustering-Algorithmen. Ryan würde mit seiner Leistung eher zur 2. Garde gehören.

Gruppe 2: Die 2. Garde

Die 2. Garde besteht aus Quarterbacks, die jeden Fan zufriedenstellen sollten, aber die niemandem zu permantenten Begeisterungsstürmen verleiten. Sie sind in allen Kategorien signifikant schwächer als die "Elite-Gruppe", auch wenn ihre Leistungen für sich betrachtet immer noch gut sind.

Name Team Cmp % TD % Int % Sack % Net Yards/Attempt
Matt CasselMIN60.24.33.55.96.38
Ryan FitzpatrickTEN62.04.03.45.76.32
Jay CutlerCHI63.15.43.45.16.66
Matt SchaubHOU61.22.83.95.55.67
Carson PalmerARI63.34.23.86.76.5
Tom BradyNWE60.54.01.86.06.12
Andy DaltonCIN61.95.63.44.76.69
Ben RoethlisbergerPIT64.24.82.46.76.36
Sam BradfordSTL60.75.31.55.45.74
Tony RomoDAL63.95.81.96.16.24
Andrew LuckIND60.24.01.65.35.97
Matthew StaffordDET58.54.63.03.56.82

Die meisten der 12 Namen sind nicht sonderlich überraschend. Klar, Quarterbacks wie Tom Brady verbindet man instinktiv mit dem Begriff Elite, schaut man sich seine Metriken aber an, sieht man, dass statistisch eben schon noch einiges dafür fehlt, um mit Drew Brees oder gar Peyton Manning im gleichen Satz genannt zu werden (zumindest 2013).

Mir fällt in dieser Gruppe kein Quarterback auf, dem ich das Label "2. Garde" entziehen oder den ich als krassen Ausreißen betrachten würde. Jeder einzelne dieser Quarterbacks ist in der Lage NFL-Spiele zu gewinnen und alle haben es auch bereits unter Beweis gestellt.

Gruppe 3: Die zaudernden Checkdown-Captains?

Oh, was für ein Name! Aber wenn ich auf die Zahlen schaue, fällt mir einfach kein besserer Name ein. Wenige Fehler, aber vor allem wenige Touchdowns und wenige Yards pro Versuch. Und das ganze begleitet von einer beachtlich hohen Sackquote (ja, die Sackquote beeinflusst die NY/A).

Name Team Cmp % TD % Int % Sack % Net Yards/Attempt
Russell WilsonSEA63.16.42.29.86.84
EJ ManuelBUF58.83.62.98.45.43
Kellen ClemensSTL58.73.32.98.05.84
Colin KaepernickSFO58.45.01.98.66.52
Mike GlennonTAM59.44.62.28.85.03
Christian PonderMIN63.62.93.810.25.75
Robert Griffin IIIWAS60.13.52.67.75.93
Cam NewtonCAR61.75.12.78.35.9
Chad HenneJAX60.62.62.87.05.54
Matt Flynn3TM62.04.02.510.75.61
Alex SmithKAN60.64.51.47.15.67
Terrelle PryorOAK57.42.64.010.25.26
Thaddeus LewisBUF59.22.51.910.35.67
Ryan TannehillMIA60.44.12.99.05.44
Joe FlaccoBAL59.03.13.67.35.42
Jake LockerTEN60.74.42.28.05.78

Sieht man sich die Namen auf der Liste ein, dann weiß man, warum ich ein Fragezeichen hinter die Gruppenbezeichnung gesetzt habe. Es sind eben vor allem die mobilen Quarterbacks, die in diese Gruppe fallen.

Das erklärt auch zu einem guten Teil die hohe Sackquote, da mobile Quarterbacks im Allgemeinen nicht die Geduldigsten in der Pocket sind und dadurch eben oft im Backfield zu Fall gebracht werden. Vor allem Russell Wilson würde wohl mit einer niedrigeren Sackquote in die 2. oder sogar die 1. Gruppe aufrücken.

Da diese Quarterbacks eine teilweise komplett andere (durch die Metriken nicht gut abgedeckte) Spielweise haben, ist es eigentlich etwas ungerecht sie in eine 3. Gruppe zu stecken, vielmehr sind sie eine Art Gruppe 2b.

Gruppe 4: Die Fehlerteufel

Im Gegensatz zur 3. Gruppe werden die Fehlerteufel ihrem Namen vollkommen gerecht. Diese Spieler bringen nicht viele Pässe an den Mann, finden kaum die Endzone und werfen zu viele Interceptions. Noch dazu ist die Ausbeute ihrer Pässe auch yardmäßig nicht gut.

Name Team Cmp % TD % Int % Sack % Net Yards/Attempt
Case KeenumHOU54.23.62.47.05.73
Matt McGloinOAK55.93.83.82.86.88
Michael VickPHI54.63.52.19.67.15
Jason CampbellCLE56.83.52.54.85.74
Kirk CousinsWAS52.32.64.53.15.14
Geno SmithNYJ55.82.74.78.85.62
Eli ManningNYG57.53.34.96.65.99
Brandon WeedenCLE52.83.43.49.25.28

Keine Überraschungen in dieser Gruppe: Jeder der die NFL verfolgt hat, weiß, dass jeder dieser Spieler es verdient hat in der Schlussgruppe zu landen.

Fazit

Football ist ein sehr komplexer Sport und es ist nie leicht oder vollkommen richtig, wenn man mit wenigen Zahlen versucht Spieler in eine Schublade zu stecken. Zumal der angewendete Algorithmus ebenfalls sehr einfach ist (sowohl von der Benutzung als auch der inneren Funktionsweise).

K-Means-Clustering neigt darüber hinaus zur Nichtinterpretierbarkeit. Doch wenn man nur wenige Datenpunkte in wenige Kategorien einsortiert (wie in diesem Fall) ist das ein umgehbares Problem; auch wenn Gruppe 3 gewisse Tücken in der Interpretation aufweist.

Insgesamt finde ich, dass diese Einteilung der Quarterbacks durchaus die subjektiv wahrgenommenen Leistungen widerspiegelt, jedoch ohne Wert auf vergangene Erfolge zu legen, was bei Experten eigentlich immer ein Problem ist.

P.S.

Wer sich die Auswertung genauer ansehen möchte, findet die Analyse hier.

(In der roten Einblendung ganz oben sollte man auf den "here"-Text klicken, um die Tabellen richtig dargestellt zu sehen.)

Update: Link zur Auswertung korrigiert.

Tagged ,

Time of Possession: irrelevant oder nützlich?

Jeder wird schonmal die farblichen Einblendungen bei Fox oder NBC gesehen haben, in denen drastische Unterschiede beim Ballbesitz, der Time of Possession, angezeigt werden. Jüngst so geschehen beim Spiel Dallas Cowboys gegen New York Giants im Sunday Night Football, in dem die Giants zur Halbzeit nicht mal 9 Minuten Ballbesitz hatten, die Cowboys logischerweise aber über 21 Minuten. Dennoch war das Spiel mit 13-10 noch recht eng. Am Spielende hatten die Cowboys über 37 Minuten den Ball und gewannen mit 5 Punkten Vorsprung.

Doch ist es wirklich so, dass ein Team viel Ballbesitz braucht, um ein Spiel zu gewinnen oder ist es wieder einmal nur eine dieser Pundit-Weisheiten?

Time of Possession und Punktdifferenz

Um zu sehen, wie groß der Einfluss der Time of Possession auf das Spielergebnis ist, ist es am einfachsten eine Korrelation zwischen Ballbesitz des Heimteams und Punktedifferenz aus Sicht des Heimteams zu bilden. Dafür habe ich ein wundervolles Python-Modul namens nflgame bemüht, dass alle möglichen Team- und Spielerstatistiken sowie Play-by-Play-Daten einfach abrufbar macht.

Betrachtet man den Zeitraum von 2009 bis 2012, also insgesamt 1024 Regular Season Games, dann ergibt sich ein Korrelationskoeffizient von 0.46. Das ist kein sensationell guter Wert, aber immerhin besteht ein gewisser Zusammenhang zwischen Time of Possession und Punktdifferenz am Spielende. Dies zeigt auch eine Unterteilung in einzelne Saisons:

Jahr Korrelation
2009 0.48
2010 0.51
2011 0.40
2012 0.43

Der Zusammenhang zwischen Ballbesitz und Punktdifferenz ist relativ stabil auf einem nicht allzu hohem Level. Schaut man sich das ganze graphisch an, wird es ebenfalls klar, dass es einen gewissen Zusammenhang zwischen Ballbesitz und Punktdifferenz gibt:

Man sieht deutlich, dass ein Team mit größerem Ballbesitz am Ende in der Regel auch mit einem größeren Vorsprung gewinnen wird. Aber man erkennt eben auch, dass es eine ziemliche Streuung gibt: ein Team mit 35 Minuten Ballbesitz (2100 Sekunden) kann sowohl mit 25 Punkten Rückstand verlieren als auch mit 60 Punkten Vorsprung gewinnen.

Punkte pro Drive zu Länge des Drives

Eine andere Möglichkeit, um die Wichtigkeit der Time of Possession einschätzen zu können, ist es die Länge eines Drives mit den Punkten pro Drive zu vergleichen. Das ist insofern verschieden von der vorherigen Betrachtung als das sich die erstere Analyse auf das Endergebnis des Spiels bezogen hat, diese Auswertung allerdings lediglich die Effizienz pro Drive bewertet. Die dazu benötigten Daten gibt es beispielsweise auf Football Outsiders.

Offense

Für die Offense ist der Korrelationskoeffizient zwischen Points per Drive und Time of Possession per Drive 0.54. (Ich habe hier nur die Saison 2012 betrachtet, daher sollte man diesen Wert mit Vorsicht genießen, siehe auch unten.) Auch hier gilt also wieder: je länger ein Team den Ball hat, umso mehr Punkte macht es auch.

Auch hier hilft eine Graphik, um den Zusammenhang deutlicher zu machen:

Wie schon bei der ersten Graphik gilt auch hier: viel Rauschen. Lässt man die extremsten Werte auf der linken und rechten Seite weg, so hat man eine schöne "Wolke", also das Gegenteil einer Linie, die man bei hoher Korrelation erwarten würde. Das heißt konkret: egal, wie lange ein Drive dauert, die Punktausbeute ist fast unabhängig davon. Lediglich die niedrigen und höchsten Werte sorgen für eine gewisse Korrelation.

Defense

Für die Defense ergibt sich eine etwas geringere Korrelation als für die Offense, der Korrelationskoeffizient ist hier 0.49. Zwar gilt auch hier der erwartete Zusammenhang kürzerer Drive gleich weniger Punkte, aber auch hier ist es so, dass mit größerer Time of Possession die Aussagekraft gänzlich verschwindet. Die folgende Graphik macht das besonders deutlich:

Fazit

Man kann nicht abstreiten, dass es einen gewissen Zusammenhang zwischen Ballbesitz und Erfolg gibt; der gesunde Menschenverstand lässt das auch schon vermuten.

Allerdings ist es wie gesehen bei weitem nicht zwingend, viel Ballbesitz zu haben, um zu gewinnen. Auch das ist bei etwas genauerem Überlegen nicht sonderlich verwunderlich. Teams wie die New Orleans Saints finden sich mit der Länge ihrer Drives im hinteren Mittelfeld, sind aber dennoch durch ihre explosive (Pass-)Offense extrem gefährlich. Es gibt viele Teams in der NFL, die nicht lange brauchen, um Punkte aufs Scoreboard zu bringen. Genauso gibt es natürlich auch viele Teams, die das Feld schnell wieder räumen müssen, ohne zu punkten.

Diese Ähnlichkeit in der Dauer der Drives bei einer komplett unterschiedlichen Punktausbeute ist der Grund dafür, warum man der Time of Possession keinen allzu großen Wert zumessen sollte. Es scheint eher so zu sein, dass erfolgreiche Teams größeren Ballbesitz haben, als das Teams mit großem Ballbesitz mehr Erfolg haben. Korrelation und Kausalität sind zwei Dinge, die man dringend auseinanderhalten muss. Doch da es sehr schwer ist Kausalitäten nachzuweisen, begnüge ich mich hier mit der Erkenntnis, das die Time of Possession nicht sonderlich aussagekräftig ist.

Tagged

Meine Strategie in der GFWTC

Am Mittwoch ging es endlich mit der German Football Writers Teambuilding Challenge (auf Twitter @GFWTC) los. Das ist ein Projekt von 10 deutschen Football-Bloggern und -Twitter-Usern, bei dem es darum geht in einem Draft sein Wunschteam zusammenzubauen. Dabei kann man aus allen aktiven NFL-Spielern wählen, die keine Rookies mehr sind. Jeder Teilnehmer wählt 24 Spieler, die möglichst gut in sein System passen.

Ich hatte nun das Glück, die Veranstaltung mit dem ersten Pick zu eröffnen. Der erste Pick ist hierbei allerdings Fluch und Segen zugleich: da im Snake Draft gezogen wird, war mein zweiter Pick erst an 20. Stelle, sozusagen musste ich eine Runde aussetzen (auch wenn ich dann natürlich nach Pick 20 auch direkt wieder Pick 21 hatte).

Auch wenn ich keine Erfahrungswerte hatte, war mir klar, dass bis ich zum 2. Mal dran war, bereits die besten Quarterbacks weg sein würden. Nun ist es keine Überraschung, dass ich dem Quarterback den absolut höchsten Stellenwert einräume und mich somit auch schnell auf einen QB als 1st overall pick festgelegt habe.

Nur, wer sollte es werden?

Der erste Pick

In der engeren Auswahl waren Peyton Manning, Aaron Rodgers, Andrew Luck, Robert Griffin III und Colin Kaepernick.

Manning habe ich ausgeschlossen, da er mir für ein Wunschteam einfach zu alt ist. Mein Traumteam soll auch in 3-4 Jahren noch in der Zusammenstellung erfolgsfähig sein, soweit man dass aus heutiger Sicht abschätzen kann. Das war auch der Grund, warum RGIII nicht in die ganz enge Auswahl kam: seine Knieverletzung ist schlimm und in seinem Spielsystem ist es fraglich, ob er eine neuerliche Verletzung vermeiden kann.

Blieben also noch Luck, Rodgers und Kaepernick. Ich entschied mich für Colin Kaepernick. Warum? Weil er meines Erachtens das größte Potenzial von allen drei Spielern hat und eine seltene Mischung aus Kraft, Speed, Wurfgenauigkeit und Spielintelligenz besitzt.

Das gleiche gilt auch für die anderen zwei, aber Luck hat dank eines recht talentfreien Colts-Kaders noch viel zu beweisen und Rodgers passte nicht so gut wie Kaep zu meiner anvisierten Offensivstrategie, die der von Flo übrigens sehr ähnlich ist.

Ich habe es im letzten HardCount-Podcast, in dem ich freundlicherweise als Gast eingeladen war, bereits gesagt: ich liebe aggressive Teams, sowohl offensiv als auch defensiv. Und derzeit geht dabei nichts über die Read-Option. Mein Wunsch-QB muss also klug sein und sich schnell entscheiden können, schnell auf den Beinen sein und auch die klassischen Quarterback-Techniken beherrschen.

Man kann natürlich sagen, dass Pick 1 für Kaepernick etwas zu hoch war. Und ironischerweise wäre er in der Tat vielleicht nicht mein erster Pick gewesen, wenn ich an Position 8-10 gewählt hätte, denn dann wäre das Bild, was die anderen Spieler vorhaben klarer gewesen und die Zeit zwischen meinen ersten beiden Picks wäre recht kurz gewesen. Eventuell hätte ich drauf spekuliert, dass er auch an Platz 12 noch zu haben ist, wenn er an 9 noch auf dem Board war.

Die Runden 2 und 3

Nach dem Kaepernick-Pick begann dann für mich das lange Warten. 18 Picks musste ich zusehen, ohne selbst eingreifen zu können. Mein Plan war es einen exzellenten D-Liner oder Outside Linebacker zu draften. Ganz oben auf meinem Board standen J.J. Watt, Von Miller, Geno Atkins und Jason Pierre-Paul. Watt und Miller waren sehr schnell vom Board (#4 und #6), Atkins hat es immerhin bis #14 geschafft.

In der Zwischenzeit hatte ich mich bereits auf meinen Pick an #21 festgelegt: Hakeem Nicks von den New York Giants sollte es werden und ich war sehr zuversichtlich, dass er noch zu haben sein würde.

Also war ich voller Hoffnung, dass ich zwei Giants an #20/21 nehmen kann. Doch dann kam korsakoff und machte mit Pick #19 meine so schön überlegte Defensiv-Strategie zunichte als er mir JPP wortwörtlich vor der Nase wegschnappte.

Statt über mögliche Defense-Strategien zu philosophieren, ging ich strikt nach meinem Big Board und nahm den best (defensive) player available: Clay Matthews, OLB von den Green Bay Packers.

Mein eigentlicher Plan einer 4-3 Defense mit starker D-Line war damit zunichte, ich hab mich mit dem Pick ziemlich auf eine 3-4 Defense festgelegt. Doch wer sich die besten Defenses der NFL derzeit ansieht, der sieht, dass es nicht mehr strikt um 4-3 oder 3-4 geht, sondern immer mehr Mischformen auftauchen, die je nach Spielsituation das eine oder das andere sind.

Das Fazit

Die ersten 3 Runden brachten mir also Colin Kaepernick, Clay Matthews und Hakeem Nicks. Und ich muss sagen, ich bin zufrieden mit den Picks.

Mit Kaepernick habe ich den Eckpfeiler meiner Offense, die mir jegliche Variabilität lässt. Kaepernick hat bewiesen, dass er nicht immer seine Füße braucht, um einer Defense gehörigen Schaden zuzufügen. Soll heißen: wenn ich in den weiteren Runden Spieler für die Read-Option bekomme, optimal. Wenn ich Abstriche machen muss, nicht so schlimm. Kaep ist flexibel genug, um dass auch zu beherrschen.

Mit Hakeem Nicks hat er genau den Wide Receiver, der Go-To Guy und Security Blanket in einem ist. Er ist einer diesen kompletten Wide Receiver, die sowohl auf kurzen, mittleren als auch tiefen Routes sehr effizient sind und dabei extrem fangstark sind. Ohne einen solchen Spielertyp ist ein Colin Kaepernick nur halb so viel wert (letzte Saison hatte Michael Crabtree diesen Part übernommen).

Auch wenn Clay Matthews nicht mein Wunschspieler war, bin ich doch zufrieden mit ihm. Als Eckpfeiler der Defense bietet er den unwiderstehlichen Pass Rush, den jede aggressive Defense so dringend benötigt. Es ist kaum möglich, Matthews ein ganzes Spiel über im Schach zu halten. Jeder Quarterback der gegen Matthews spielt wird ein wachsames Auge darauf haben, wo er sich bei jedem einzelnen Spielzug befindet.

Ich habe dank der ersten 3 Runden ein starkes Fundament, das nun in den weiteren Runden durch passende Spieler ergänzt werden muss.

Bisher bin ich mit dem Verlauf der GFWTC sehr zufrieden. Nicht nur wegen meiner Picks, sondern weil es Spaß macht, zu sehen wie die anderen Teilnehmer den Wettbewerb angehen und teils sehr ähnliche, teils aber auch deutlich verschiedene Spielsysteme bauen.

Ich freue mich auf die weiteren Picks und werde an dieser Stelle immer wieder meine Picks und die dahinterstehende Philosophie erläutern.

Tagged , , ,