Dag 1 in detail
De resultaten die in deze paragraaf worden getoond zijn gebaseerd op de data uit de periode 15 oktober 2016 tot en
met 14 oktober 2020. We splitsen deze dataset in data uit het koude halfjaar (KS=15 oktober t/m 14 april) en het
warme halfjaar(WS). We verifiëren de verwachtingen van het weerbureau Weeronline(WOL) en van het KNMI voor de locatie Utrecht
tegen de waarnemingen uit De Bilt. Overeenkomstige verwachtingen voor Eindhoven worden geverifieerd tegen waarnemingen uit Eindhoven.
We gebruiken bij deze verificatie alleen die dagen waarvoor de beide verwachtingen beschikbaar zijn.
We zullen eerst enkele diagnostische grafieken tonen die de gebruiker gevoel kunnen geven voor de karakteristieken van de verwachtingen. We zullen daarbij zowel voor de verwachtingen als de waarnemingen uitgaan van de afwijking van de dagnormaal (zie elders op deze site) We duiden daarbij de waarneming aan met dWng en de verwachtingen met dWOL respectievelijk dKNMI. We doen dat om de jaarlijkse gang die bij die grootheden (waarneming en verwachting) aanwezig is eruit te halen. We kunnen dan beter beoordelen of het om extreme waarnemingen en/of verwachtingen en de verificatie heeft dan alleen betrekking op de 'weer' component en niet op de jaarlijkse gang.
We zullen eerst enkele diagnostische grafieken tonen die de gebruiker gevoel kunnen geven voor de karakteristieken van de verwachtingen. We zullen daarbij zowel voor de verwachtingen als de waarnemingen uitgaan van de afwijking van de dagnormaal (zie elders op deze site) We duiden daarbij de waarneming aan met dWng en de verwachtingen met dWOL respectievelijk dKNMI. We doen dat om de jaarlijkse gang die bij die grootheden (waarneming en verwachting) aanwezig is eruit te halen. We kunnen dan beter beoordelen of het om extreme waarnemingen en/of verwachtingen en de verificatie heeft dan alleen betrekking op de 'weer' component en niet op de jaarlijkse gang.
SCATTERPLOTS van OPGETREDEN versus VERWACHT
Een heel bekende methode om een eerste indruk te krijgen van de kwaliteit van een verwachting is
gebaseerd op het scatterdiagram. In zo'n diagram zetten we op de x-as de verwachting uit, dWOL of dKNMI, en op de y-as
wordt de waarneming dWng uitgezet. Op het kruispunt zetten we een marker (bijvoorbeeld een + of *). We krijgen dan
een wolk van punten die als de verwachting zeer goed is bijna een rechte lijn volgen. Als de verwachting minder goed is
krijg je een wolk van punten. In de diagrammen hieronder zijn zowel de verwachtingen van Weeronline als van het KNMI uitgezet
op de x-as. Op de y-as staat de waarneming uitgezet. We krijgen dan twee puntenwolken omdat bij iedere waarneming twee
verwachtingen beschikbaar zijn.
Klikken op het onderschrift toont de figuur in een nieuw groter venster.
Klikken op EH, toont de overeenkomstige figuur voor Eindhoven.
Zoals we zien clusteren de verwachtingen van beide providers rond de diagonaal die
de perfecte verwachting representeerd. Wel zien we dat het KNMI vaak wat verder van de diagonaal ligt.
De verwachtingen van het KNMI zijn dus vaker iets slechter dan die van Weeronline.
KANSVERDELINGEN van VERWACHTINGEN en WAARNEMINGEN
Een belangrijk aspect voor de kwaliteit van de verwachtingen is de klimatologische verdeling van verwachtingen. Bij voorkeur
moet de kansverdeling van de verwachtingen lijken op de kansverdeling van de waarnemingen. Met
behulp van de 'Density tool' uit het statistisch pakket R hebben we kansdichtheidsfunties gemaakt voor zowel de
waarnemingen (dWng) als de verwachtingen dWOL en dKNMI. Deze kansfuncties zijn weergeven in onderstaande figuren.
Normaal is een QQ-plot opgebouwd met markers. Omdat we hier twee plots door elkaar hebben is gekozen voor lijnstukjes tussen opeenvolgende plots.
In bovenstaande figuren zien we duidelijk dat in het koude seizoen bij het KNMI en bij Weeronline de verwachtingen onder normaal bij gegeven onderschrijdingskans iets te hoog zijn. Verwachtingen boven de normaal zijn bij gegeven onderschrijdingskans juist iets lager. De overgang bij de normaal is vrij abrupt.
Zoals we zien is er nogal wat verschil tussen kansverdelingen. Met name de verdeling van de waarnemingen wijkt soms
sterk af van de verdeling van de verwachtingen. Dat is met name bij De Bilt het geval. In Eindhoven stemmen
de verdelingen beter overeen.
Een andere manier van kansverdelingen vergelijken maakt gebruik van de
quantle-quantile plot.
Voor deze plot ordenen zowel dWng als
dWOL en dKNMI onafhankelijk van elkaar naar grootte. Vervolgens worden de dWOL, dKNMI geplot tegen de dWng
van dezelfde rang. Idealiter liggen, bij gelijke kansverdelingen, alle plots op een rechte lijn van rechtsonder naar linksboven.
Normaal is een QQ-plot opgebouwd met markers. Omdat we hier twee plots door elkaar hebben is gekozen voor lijnstukjes tussen opeenvolgende plots.
In ieder geval liggen de plots in bovenstaande figuren niet op de mooie rechte lijn die we zouden willen hebben.
De afwijkingen van de rechte lijn zijn echter moeilijk te zien. Ook de verschillen tussen de verwachtingen onderling
zijn moeilijk detecteerbaar.In de figuren hieronder zijn de plots
gekanteld door van de verwachtingen de ,in rang, overeenkomstige waarneming af te trekken.
In bovenstaande figuren zien we duidelijk dat in het koude seizoen bij het KNMI en bij Weeronline de verwachtingen onder normaal bij gegeven onderschrijdingskans iets te hoog zijn. Verwachtingen boven de normaal zijn bij gegeven onderschrijdingskans juist iets lager. De overgang bij de normaal is vrij abrupt.
KANSVERDELING van de FOUTEN
In de volgende figuren tonen we Qnorm-plots van de fouten in de verwachtingen. In dergelijke plots worden de geordende berekende fouten in de verwachting geplot tegen de bij die rang horende kwantielwaarde
uit de normale (Gauss) verdeling. Als de verdeling van de fouten lijkt op de normale verdeling dan dan liggen de plots op een rechte lijn
die wordt bepaald door de spreiding van de fouten. De bias maakt dan dat de rechte lijn niet door de oorsprong gaat.
We zien in deze figuren dat met name in de range van de kleine fouten de verdeling van de fouten aardig past bij de
normale verdeling. De gestippelde lijnen in deze figuren zijn berekend op basis van berekende bias en streiding van
de fouten in de verwachtingen.
FOUT versus VERWACHTING
In deze paragraaf willen nagaan of er een relatie is tussen dWOL(dKNMI) en de BIAS en
de SPREIDING van de fout in de verwachtingen. We presenteren daarvoor een scatterdiagram van
eWOL versus dWOL en van eKNMI verusu dKNMI.
VERIFICATIE RESULTATEN
Zoals we in deze plaatjes zien is er duidelijke samenhang tussen dWOL(dKNMI) en eWOL(eKNMI). De regressielijnen geven aan dat er
een lichte trend is in de Bias maar de verschillen zijn te klein om van praktisch nut te zijn. Of de spreiding van de fouten eventueel afhangt
valt uit deze figuren niet op te maken. Wel zou je eventueel kunnen concluderen dat dicht bij de normaal de hoogste spreiding optreedt. Dat kan echter
het gevolg zijn van het feit dat de meeste verwachtingen in de buurt van de normaal liggen. We hebben daarom op basis van deze gegevens een
soort van samenvatting gemaakt. We hebben daartoe de range van verwachtingen, naar grote, opgedeeld in 7 vakken die ieder ongeveer 100
verwachtingen bevatten. Binnen die vakken hebben we de spreiding en bias van de bijbehorende fouuten berekend. De resultaten hebben
we vastgelegd onderstaande figuren. De spreding behorend bij een vak is in die figuren geplot tegen de gemiddelde verwachting in zo'n vak.
Het kijkt er op dat in het koude seizoen de spreiding van de fout licht toneemt naarmate de verwachting verder onde de normaal is.
In het warme seizoen neemt de bias bij lage verwachtingen toe.
VERIFICATIE RESULTATEN
Tot slot worden in onderstaande tabellen de gebruikelijke cijfermatige verificatie resultaten gepresenteerd voor
zowel De Bilt als Eindhoven en gesplitst naar data uit het koude seizoen en uit het warme seizoen. De meeste omschrijvingen in
die tabellen zijn bekend. Bij de omschrijvingen 'Te laag' respectievelijk 'Te hoog' wordt het relatieve aantal verwachtingen die meer
dan 3,5 graden fout zijn, gegeven.
Verificatie cijfers voor De Bilt.
Koude seizoen (724 dagen) | Warme Seizoen (723 dagen | |||
WOL | KNMI | WOL | KNMI | |
Bias | 0,105 | -0,155 | 0,332 | 0,23 |
Spreiding | 1,38 | 1,59 | 1,29 | 1,53 |
MAE | 1,07 | 1,23 | 1,07 | 1,23 |
TRF(%) | 86,3% | 84,0% | 88,7% | 82,0% |
Te laag | 0,83% | 1,80% | 0,28% | 0,83% |
Te hoog | 0,69% | 2,35% | 0,41% | 1,52% |
Verificatie cijfers voor Eindhoven.
Koude seizoen (714 dagen) | Warme Seizoen (723 dagen) | |||
WOL | KNMI | WOL | KNMI | |
Bias | 0,117 | -0,085 | 0,319 | 0,532 |
Spreiding | 1,39 | 1,66 | 1,32 | 1,72 |
MAE | 1,09 | 1,27 | 1,07 | 1,41 |
TRF(%) | 86,3% | 79,9% | 86,9% | 75,5% |
Te laag | 0,70% | 1,40% | 0,55% | 0,69% |
Te hoog | 0,70% | 2,24% | 0,28% | 4,43% |