roterende banner

woensdag 30 mei 2018

De Keizeraanpassing. Top of Flop?

Kees heeft eens een lezing gegeven over het Keizersysteem. Zijn conclusie was dat de ranglijsten die Keizer oplevert het meest geschikt zijn voor een competitie waarbij niet iedereen evenveel rondes meedoet. Elk denkbaar systeem heeft duidelijke nadelen, zei Kees, maar Keizer heeft veruit de minste nadelen. Keizer wordt daarom door bijna alle clubs gebruikt. Het werkt zo’n beetje als vlogt.

Iedereen krijgt ‘keizerpunten’ waarop de ranglijst wordt gesorteerd. Per ronde kun je nieuwe keizerpunten verdienen, en wel volgens de volgende verdeling:

Winst      = je krijgt de 1x de waarde van je tegenstander erbij;
Remise     = 1/2x de waarde van je tegenstander;
Verlies    = 0 punten, ongeacht je tegenstander;
Extern     = 2/3x je eigen waarde (en dit is onafhankelijk van
                                               je externe score);
Niet komen = 1/3x je eigen waarde.
 
Er zijn nog wat corrigerende factoren, neem bijvoorbeeld het ‘doorkeizeren’ aan het einde van de competitie. Maar bovenstaande vijf scoringsregels zijn de basis van het systeem, en die zijn in de praktijk uitentreure getest.

Zo gebruikten wij het dus ook, totdat er iets geks gebeurde. Vorig jaar heeft het bestuur een wijziging van de berekening voorgesteld in de ALV. De waarde voor ‘Niet komen’ zou moeten worden veranderd van 1/3 naar 1/5. De gedachte erachter, of eigenlijk de wens, is dat meer komen beloond wordt en minder komen gestraft. Tenminste, dat denk ik, ik weet het niet precies.

Ik vond het maar een vreemde wijziging. Waarom zou er een aanpassing nodig zijn voor een systeem waarvan het bewezen is dat het optimaal presteert? En waarom zo een grote verandering, van 1/3 naar 1/5. Want áls er dan al gefinetuned zou moeten worden, waarom zou aanpassen met een klein stapje, van 1/3 naar bijv. 0,3 of 1/4 niet beter zijn?

Principieel leek me het voorstel verkeerd. Maar omdat discussies hierover tijdens een ledenvergadering altijd heel ingewikkeld en oeverloos kunnen worden, en je je aannames nooit hard kunt maken, dacht ik: laten we het gewoon maar eens proberen. De meeste leden dachten zoiets, neem ik aan, want het voorstel werd aangenomen. Maar ik dacht ook erbij: wel ff opletten wat het effect gaat zijn.

We hebben nu twee competitiehelften gespeeld met de nieuwe formule. Dat is een mooi praktijkexperiment. Maar hoe kun je nou ondubbelzinnig checken of de effecten positief of negatief zijn geweest? De nederlands/australische Peter Nitschke bijvoorbeeld, is overtuigend kampioen geworden door beide helften te winnen. Daar valt niks op af te dingen, en ook niets uit af te leiden.

Er moet iets zijn waarmee je de plaats van alle leden op elke willekeurige ranglijst en plek daarop kunt voorzien van een soort van betrouwbaarheidsfactor. Na even nadenken kwam ik op de ‘scheefheidsindex’

Je moet de Keizeruitkomsten vergelijken met iets anders, dat ook een betrouwbare maat voor iemands prestatie is. Die maat is gelukkig al aanwezig in de lijst zelf, namelijk je TPR. TPR is niet geschikt om een winnaar van een competitie aan te wijzen, maar het is wel een ideale maat om iemands relatieve kracht gemeten over een (variabel) aantal partijen weer te geven.

Met behulp van Excel is het gemakkelijk de lijsten naast elkaar te zetten en per persoon het verschil te scoren.

Ik heb het als volgt aangepakt: Ik nam de lijst en nummerde eerst op Keizer en daarna op TPR-volgorde. Dan neem ik het verschil (zonder + of – teken) van De keizerplaats en de TPR-plaats. En voila, je hebt iemands ‘scheefheidsindex’. Een paar voorbeeldjes van de meest recente ranglijst:
               Keizerplaats TPR-plaats Scheefheidsindex 
Peter Nitschke 1            1          0
Kees Bakker    2            2          0
Bas Jonkers    4            7          3
Niek Verweij   7            5          2
Als je het gemiddelde van alle scheefheidsindexen neemt heb je de scheefheidsindex van die hele competitieronde. (Ik haalde wel eerst degenen die 3 of minder partijen hebben gespeeld eruit, want die doen niet serieus mee in de competitie) Hoe groter de index, hoe slechter de gebruikte methode om de ranglijst vast te stellen. Hier een overzichtje van de afgelopen zes competitiehelften:
                    scheefheidsindex
2015/16   1e helft  2,34
          2e helft  1,7
2016/17   1e helft  2,33
          2e helft  2,5
2017/18   1e helft  3,37
          2e helft  3,24
(Hier staan mijn excels met de complete berekeningen)

Het is duidelijk dat de nieuwe methode een ongewenst effect heeft. Mensen komen op een verkeerde plek op de ranglijst terecht; gemiddeld zit elk lid in 2017/18 één plaats meer verkeerd dan in de voorgaande jaren.

Het komt natuurlijk vooral doordat extern spelen relatief veel meer waard geworden is. Maar ook doordat de verhouding van de punten voor ‘winnen’ en ‘remise’ t.o.v. ‘niet komen’ uit balans is.

Mijn conclusie is dat de cijfers laten zien dat de voorgestelde verandering een negatief effect heeft gehad. Een flop dus. Het was een interessant experiment, en het heeft aangetoond dat we komend seizoen weer met de originele Keizerpunten aan de slag moeten. Weer stemmen in de komende ALV?

Niek

11 opmerkingen:

  1. Met een scheefheidsfactor van 9 ga ik nu gebogen door het leven. Hier moet inderdaad paal en perk aan worden gesteld, Niek, want dit is meer dan een heer verdragen kan. Jildo.

    BeantwoordenVerwijderen
  2. dank je wel Niek! wat een uitgebreide analyse en een heldere uitkomst. er is echter nog een reden de huidige methode te verdedigen: leden die vaker komen, zorgen voor meer gezelligheid op de club en worden daarvoor een met een plaatsje hoger op de ranglijst beloond. (ik zal de complottheorie met de baropbrengsten en de vegetarische loempia’s hier nog maar even niet noemen....)

    BeantwoordenVerwijderen
    Reacties
    1. Maar de leden komen hierdoor niet vaker! Dat is ook eenvoudig te controleren. De leden komen net zo vaak als anders, alleen staan ze op een plek op de ranglijst die minder goed klopt met wat je zou verwachten.

      Verwijderen
  3. Voor we tot een (voorbarige) conclusie komen lijkt het me logischer om even appels met appels te vergelijken i.p.v. appels met peren.
    Het doel van de maatregel van vorig jaar was om de eindstand zuiverder te krijgen mbt mensen die niet of nauwelijks op de club kwamen. (Dit heb ik je vorig jaar ook persoonlijk naar je gemaild maar kennelijk is dat niet aangekomen) Als je naar de top 20 van dit seizoen kijkt zie je alleen maar mensen die op zijn minst vijf keer hebben gespeeld.

    Ik vind dat persoonlijk een vooruitgang ten op zichte van vorig jaar en ik zie vooralsnog dan ook geen reden om van een flop te spreken.

    BeantwoordenVerwijderen
  4. Ik ben het met Peter en Kees eens. Een TPR over slechts enkele partijen zegt heel weinig, in geval van 0% of 100% zelfs helemaal niets. De "scheefheidsfactor" treedt vooral op bij mensen die weinig komen en dat lijkt me juist de bedoeling. Vaak komen (en zeker extern spelen) moet beloont worden.
    Mischa de Rue

    BeantwoordenVerwijderen
  5. Beloond met een D natuurlijk, ben nog niet helemaal wakker, Mischa.

    BeantwoordenVerwijderen
  6. Je kunt ook gewoon tellen wie het vaakst komt en het langst blijft en die tot kampioen kronen. De play-off wordt dan een soort paalzitten, maar dan in de keuken met een krat bier (of pot thee) en de frituur.

    BeantwoordenVerwijderen
  7. Je hebt toch ook gewoon het bestand (of de bestanden) waarin alle uitslagen van alle ronden zijn ingegeven en de uiteindelijke keizerstand uitkomt.
    Om de effecten van de 1/5 waardering te begrijpen zou ik een nieuwe keizercompetitie met de 1/3 aanmaken en gewoon alle uitslagen opnieuw invullen. Natuurlijk zou je per ronde andere paringen krijgen, maar dat moet je dan maar even accepteren (en dus per ronde de indeling forceren en niet door de computer laten maken)...

    TPR zegt idd niet veel als het niet veel ronden zijn.

    BeantwoordenVerwijderen
    Reacties
    1. Dat bedoelde ik inderdaad met appels met peren vergelijken Stefan. Ik wilde vanavond even de factoren aanpassen bij afgelopen seizoen en kijken wat er dan zou uitkomen. Ik heb namelijk het vermoeden dat die scheefheidsindex ook met 1/3 vrij hoog was geweest.

      Verwijderen
    2. Dus vandaag het bovenstaande toegepast en ja de scheefheidsindex is 0,82 groter geworden bij 1/5 ipv 1/3.
      Dit effect lijkt mij mee te vallen. Wel zie ik dit jaar wel een hele schone ranglijst met bij de top 20 alleen maar spelers die 5 of meer gespeeld hebben.

      TPR is een middel om te zien hoe sterk iemand gespeeld heeft maaar blijft m.i. toch altijd een beetje onbetrouwbaar. Als we bijv Niek en Bas eruit pakken. Niek heeft wel een hogere tpr maar de gemiddelde tegenstand die hij heeft gehad is weer beduidend lager. Tja er is nog nooit iemand wereldkampioen geworden op basis van TPR dus laten wij dan maar alsjeblieft geen clubkampioen op basis van TPR aanwijzen. Deze scheefheidsindex is leuk maar zie ik nu niet echt als een maatstaf om onze aanpassing te beoordelen.
      Inderdaad wordt uit den treure met 0,333 gespeeld maar dat is bij de meeste clubs meer gewoonte dan dat het een feit is dat dit de beste methode is. Ga maar eens googlen op internet en je ziet diverse expirementen met de waarde van afwezigheid.

      Wij als bestuur gaan in ieder geval geen nieuw voorstel indienen omdat het ons prima bevallen is.

      Verwijderen
  8. Dankjewel Niek, ik heb je Excel-bestanden gezien en nu snap ik het. Ik voelde het hele vorige seizoen al dat er iets niet goed zat in mijn rug en wat blijkt? Mijn scheefheidsindex was in beide seizoenshelften een van de hoogste, in de eerste 7 en in de tweede 6. Raadsel eindelijk opgelost!

    BeantwoordenVerwijderen