Honkbal, hockey en de stelling van Pythagoras

Wil je nieuwe artikelen automatisch in je mailbox krijgen? Klik op de knop “Volg” rechts onder in je scherm. Zie je de knop niet, dan helpt helemaal naar boven scrollen.

Een beroemde formule uit het honkbal, de zogenaamde verwachting van Pythagoras, kun je gebruiken om te berekenen hoeveel procent van de wedstrijden een team naar verwachting wint. Dit percentage kun je gebruiken om te kijken of een team pech of geluk heeft gehad in de competitie. De formule is in aangepaste vorm ook te gebruiken voor andere sporten, bijvoorbeeld voor de Nederlandse Hockeycompetitie. Welke teams hadden op basis van deze formule pech en geluk?

De verwachting van Pythagoras

In 1980 heeft Bill James, een statisticus en schrijver over honkbal, een formule bedacht om te schatten hoeveel procent van de wedstrijden een honkbalteam per seizoen wint. De formule kijkt naar het aantal runs dat een team in totaal heeft gescoord, en het aantal runs dat ze tegen hebben gehad in alle wedstrijden. Het winstpercentage is volgens hem als volgt te berekenen:

formule1

Stel bijvoorbeeld dat een team in een seizoen 250 runs heeft gescoord, en 150 runs tegen kreeg. Ze zouden op basis van de formule

formule7

van de wedstrijden moeten hebben gewonnen. Hebben ze er meer gewonnen, dan hadden ze geluk, hebben ze er minder gewonnen, dan hadden ze pech volgens James. In de film Moneyball wordt deze formule ook gebruikt om met weinig geld toch een zo goed mogelijk honkbalteam neer te zetten.

moneyball

De formule heet “de verwachting van Pythagoras”, omdat hij om te schrijven is in de vorm van de beroemde stelling van Pythagoras:

pythagoras

De algemenere formule voor meer sporten

Gemiddeld genomen bleek de formule het winstpercentage van goede teams wat te overschatten en het winstpercentage van slechte teams wat te onderschatten. Daarom is er een algemenere formule opgesteld, waarbij het kwadraat is vervangen door een willekeurige macht γ. Voor honkbal wordt nu γ =1,83 gebruikt in plaats van 2. Hoe lager γ wordt, hoe meer het winstpercentage richting de 50% wordt getrokken.

formule2

Deze formule is ook op andere sporten toegepast, bijvoorbeeld op hockey en basketbal. Bij honkbal gebruik je de runs in een wedstrijd, bij basketbal en hockey kijk je naar het aantal doelpunten voor en tegen. Tot nu toe werd γ per sport puur op basis van data geschat. Onlangs hebben Edward Kaplan en Candler Rich uitgezocht waarom de exponent per sport verschilt. Ze kijken naar het gemiddelde aantal punten dat in een wedstrijd wordt gescoord, maar ook naar het gemiddelde verschil waarmee een wedstrijd wordt gewonnen. Zo scoort bij basketbal een team gemiddeld rond de 100 punten per wedstrijd. De uitslag is zelden 100-50, maar vaker 105-95. Als je gemiddeld tien procent meer punten scoort dan dat je tegen krijgt zal je dus veel wedstrijden winnen. Dat is heel anders bij bijvoorbeeld hockey. Bij hockey scoort een team gemiddeld tussen de 2,5 en 3 doelpunten. De winnende ploeg wint vaak met een of twee doelpunten verschil. Als je bij hockey gemiddeld tien procent meer scoort dan je tegenstander zal je dus minder vaak winnen dan bij basketbal. De exponent bij basketbal is daarom een stuk hoger dan bij hockey. Voor basketbal vinden Kaplan en Rich waardes rond de 13, bij hockey rond de 2.

Een probleem van deze formule is dat je er vanuit gaat dat een team wint of verliest, gelijk spel is niet mogelijk. Dit kun je oplossen door gelijk spel mee te tellen als een halve winst voor beide ploegen. Per sport verschilt de exponent γ. Je kunt de exponent schatten via de volgende benadering:

formule3

In deze benadering kijk je naar het gemiddeld aantal punten per team per wedstrijd, en naar het puntensaldo per team. Elk team heeft een puntensaldo, het gemiddeld aantal punten voor min het gemiddeld aantal punten tegen per wedstrijd. Als het puntensaldo stijgt, stijgt het winstpercentage. In een grafiek kun je voor alle teams het puntensaldo afzetten tegen het winstpercentage. Uit de helling van de lijn door die punten kun je de exponent γ bepalen. De exponent γ is gelijk aan de helling vermenigvuldigd met vier maal het gemiddelde punten per team per wedstrijd. Wil je weten waarom je deze benadering kunt gebruiken, kijk dan hier.

We passen deze methode toe op de uitslagen van de Nederlandse hockeycompetitie van de heren in 2016-2017. In die competitie deden 12 teams mee die allemaal een uit- en een thuiswedstrijd tegen elkaar hebben gespeeld. In totaal zijn er 132 wedstrijden gespeeld. Na de poulefase gaan de beste vier teams door naar de play-offs. We kijken hier alleen naar de poulefase. Voor elke ploeg kun je uitrekenen hoeveel procent van de wedstrijden ze hebben gewonnen (waarbij gelijk spel als een halve winst meetelt), en wat hun gemiddelde doelsaldo was. Zo scoorde Bloemendaal gemiddeld 2,3 doelpunten meer per wedstrijd dan de tegenstander, en won 77% van de wedstrijden. Hurley scoorde juist twee doelpunten minder en won slechts 23% van de wedstrijden. Als we dit voor alle twaalf de teams tegen elkaar afzetten krijgen we de volgende grafiek:

hockey

De helling van de lijn door de punten is 0,1306. Als het puntensaldo met één stijgt, stijgt het winstpercentage gemiddeld met 13%. In de competitie scoorden de teams gemiddeld 2,59 doelpunten per wedstrijd. De exponent γ is daarom ongeveer γ≈4*2,59*0,13=1,35. Een duidelijk stuk lager dan de waardes rond de twee die Kaplan en Rich vinden voor hockey.

In de tabel hieronder is voor de 12 clubs te zien wat hun verwachte winstpercentage en hun daadwerkelijke winstpercentage is. Volgens dit model heeft Amsterdam bijvoorbeeld geluk gehad. Ze hebben 79 punten gescoord en 45 punten tegen gehad. Volgens het model hadden ze

formule8

van de wedstrijden moeten winnen. In werkelijkheid hebben ze 77% van de wedstrijden gewonnen. Ze zijn als tweede geëindigd, maar hadden vierde moeten worden. Den Bosch heeft pech gehad, en had eigenlijk stuivertje moeten wisselen met Oranje Zwart. Maar dit had niks uitgemaakt voor de vier teams die doorgingen naar de play-offs.

hockeytabel

Vergelijking tussen teams

De verwachting van Pythagoras zegt iets over het verwachte winstpercentage in een competitie als geheel. Het is ook interessant om op wedstrijdniveau te kijken wat de kans is dat een bepaalde club wint van een andere club. Hier wordt normaliter een ander model voor gebruikt, het Bradley-Terry model, maar dit model is te koppelen aan de verwachting van Pythagoras. In het Bradley-Terry model heeft elk team i een sterkte θ_i . De kans dat team i wint van team j is als volgt te berekenen:

formule4

Dit model kun je schatten met statistische software, en op die manier krijg je de sterkte per ploeg. Het Bradley-Terry model kun je bijvoorbeeld gebruiken om ELO-ratings te berekenen. Maar de structuur van deze formule lijkt ook heel erg op die van de formule van de verwachting van Pythagoras. Christopher Long en Toby Kingsman laten in hun blogs zien dat deze twee modellen als volgt aan elkaar te koppelen zijn:

formule9.jpg

Je kunt de sterkte van een team dus heel eenvoudig bepalen, en krijgt de kans dat een team van een ander team wint cadeau! De kans dat Bloemendaal wint van Kampong is dan bijvoorbeeld

formule5

.

Het blijven kansen, in de play-offs versloeg Kampong Bloemendaal in de halve finale en werd uiteindelijk landskampioen.

Bronnen:

Dayaratna, K. D., & Miller, S. J. (2012). First Order Approximations of the Pythagorean Won-Loss Formula for Predicting MLB Teams’ Winning Percentages. arXiv preprint arXiv:1205.4750.

Kaplan, E. H., & Rich, C. (2017). Decomposing Pythagoras. Journal of Quantitative Analysis in Sports, 13(4), 141-149.

http://angrystatistician.blogspot.nl/2016/06/a-simple-estimate-for-pythagorean.html

https://tobykingsman.wordpress.com/2016/06/04/redefined-bradley-terry-models/

https://www.flashscore.nl/hockey/nederland/hoofdklasse-2016-2017/

https://en.wikipedia.org/wiki/Pythagorean_expectation

textvak