Het is van belang dat arbeidsongeschiktheidsbeoordelingen gebeuren met grote intrabeoordelaarsbetrouwbaarheid of consistentie. In dit onderzoek wordt gemeten in welke mate hiervan sprake is bij het invullen van de functionele mogelijkhedenlijst (FML) bij een claimbeoordeling door de (verzekerings)arts.
Drie schriftelijke casus werden aan 30 (verzekerings)artsen voorgelegd, waarna hun gevraagd werd een FML van elke casus in te vullen. Drie maanden later werden dezelfde casus nogmaals beoordeeld. De consistentie en de invloed van factoren die van invloed waren op de consistentie werden gemeten.
De gemiddelde consistentie bij het scoren van FML-items bij drie schriftelijke casus was goed tot uitstekend. Bij univariate analyse lieten ervaren artsen en artsen van het mannelijk geslacht een lagere consistentie zien in hun oordeel. Specifieke FML-items, waaronder items met potentieel grote consequenties voor de uitkering, werden niet consistent gescoord. Geadviseerd wordt om deze FML-items aan te passen of de artsen beter te scholen bij het invullen ervan.
Inleiding
In het Medisch Arbeidsongeschiktheidscriterium (MAOC)1 staat dat een verzekeringsgeneeskundige beoordeling bij het Uitvoeringsinstituut Werknemersverzekeringen (UWV) objectief moet gebeuren. Van objectiviteit is sprake als er wordt voldaan aan drie voorwaarden. Eén van de voorwaarden is toetsbaarheid: de bevindingen van de arts moeten worden vastgelegd. Een tweede voorwaarde is dat de feiten een logisch samenhangend geheel vormen van relevante stoornissen, beperkingen en handicaps. Een derde voorwaarde is de reproduceerbaarheid: het moet aannemelijk zijn dat gekwalificeerde beroepsgenoten tot dezelfde feiten en vaststelling kunnen komen. Naar reproduceerbaarheid, ook wel interbeoordelaarsbetrouwbaarheid, is relatief veel onderzoek gedaan.2
Voor een betrouwbaar oordeel is niet alleen interbeoordelaarsbetrouwbaarheid van belang, maar ook intrabeoordelaarsbetrouwbaarheid. Hierbij wordt gekeken naar de overeenkomsten tussen verschillende beoordelingen door dezelfde beoordelaar. Met andere woorden; hoe consistent is een oordeel? Een arbeidsongeschiktheidsbeoordeling is voor een cliënt van groot belang. Het is belangrijk dat de verzekeringsarts een betrouwbaar, consistent oordeel geeft.
In 2001 is onderzoek verricht naar de inter- en intrabeoordelaarsbetrouwbaarheid van arbeidsongeschiktheidsbeoordelingen.3 De consistentie op de FML-items was gemiddeld 80%, met uitschieters van 52 tot 100%. Daarnaast is er in 2017 een systematische review2 gepubliceerd en in 2011 een onderzoek verricht4 naar de interbeoordelaarsbetrouwbaarheid. Er is echter sinds de invoering van de functionele mogelijkhedenlijst (FML) in 2002 en de Wet werk en inkomen naar arbeidsvermogen (WIA) in 2005 geen onderzoek gedaan naar de consistentie van de beoordelaars bij het invullen van de FML.
In dit onderzoek willen we die leemte opvullen. De vraagstelling in dit onderzoek is:
Methode
In oktober 2017 kregen 30 (verzekerings)artsen drie schriftelijke casus (kader 1, pag. 33) te beoordelen. Ze legden hun beoordeling vast in de FML. Drie maanden later kregen ze dezelfde casus weer voorgelegd met de vraag hun oordeel nogmaals vast te leggen in de FML. De verschillen tussen het eerste en tweede oordeel op de FML-items werd gemeten.
De (verzekerings)artsen
In totaal 30 ANIOS, AIOS en verzekeringsartsen van één UWV-kantoor werden geworven tijdens een vakinhoudelijk overleg of via individuele benadering. Het doel van het onderzoek werd aanvankelijk niet uitgelegd. Er was een respons van 100%. Alle artsen vulden na drie maanden de FML weer in, op één na, omdat deze niet langer in dienst was. Ditmaal waren zij voorafgaand aan het invullen wel op de hoogte van het doel van het onderzoek.
De artsen vulden, naast de FML, een vragenlijst in met daarin de ervaring van de arts met het invullen van de FML (gemeten in maanden of jaren), leeftijd, functie, hoofdwet waarin ze werkzaam waren en geslacht. Tevens konden ze commentaar geven op de casus.
De drie casus
Een groep van acht artsen in opleiding tot verzekeringsarts maakten in het kader van een training Belastbaarheidsgericht beoordelingsgesprek (BGB) aan de hand van daadwerkelijke spreekuren een verslag van de anamnese en hun onderzoek. De opdracht was een zo volledig mogelijk rapport te maken van een anamnese volgens de BGB-methode. Uit deze acht verslagen werden drie rapporten geselecteerd welke zo volledig mogelijk waren en diverse ziektebeelden bevatten. De rapporten werden geanonimiseerd volgens de anonimiseer richtlijnen.6 Tevens werd het oordeel van de auteur uit het oorspronkelijke rapport verwijderd om suggesties uit te sluiten. In kader 1 worden de drie casus beschreven.
Kader 1. De drie casus die aan de artsen werden voorgelegd
Casus A.
Een 62-jarige toiletjuffrouw voor 15 uur per week, die voor een Eerstejaars Ziektewet-beoordeling (EZWb) werd gezien. Ze is bekend met sarcoïdose en status na parathyreoïdectomie. Haar voornaamste klachten zijn moeheid en pijn aan de gewrichten van handen, vingers en enkels.
Casus B.
Een 42-jarige salesmedewerker buitendienst voor 35 uur per week, met PDD-NOS en COPD (laatste zonder belemmeringen). Hij werd eveneens gezien in het kader van een EZWb. Hij ervaart meerdere belemmeringen op het psychisch vlak.
Casus C.
Een 54-jarige cliënte met multipele CVA’s en depressieve klachten. Zij was laatstelijk werkzaam als medewerker schuldhulpverlening 24 uur per week. Cliënte ervaart voornamelijk belemmeringen aan de linkerzijde van het lichaam, energetische belemmeringen en belemmeringen ten aanzien van het persoonlijk- en sociaal functioneren. Het betreft een beoordeling in het kader van de WIA.
Data-analyse
De score op de FML-items van de twee ingevulde FML’en werden met elkaar vergeleken. Niet gelijke scores werden als afwijkend gescoord. Er was niet overal sprake van een binaire antwoordmogelijkheid, omdat ook de mogelijkheid bestond om verruimende of beperkende toelichtingen te geven. Omdat er hierdoor ook niet altijd te zeggen was of een antwoord wel of niet gelijk was aan het eerdere, heeft overleg met een onafhankelijke arbeidsdeskundige en verzekeringsarts plaatsgevonden. Bij dit overleg werd beoordeeld of het andere antwoord wel of niet invloed zou hebben op het vinden van passende functies bij de claimbeoordeling. Indien dit wel het geval was, werd dit antwoord als afwijkend gescoord. Als er feitelijk hetzelfde werd gezegd alleen met andere woorden, werd dit als gelijk gescoord.
Per FML zijn er 94 items, onderverdeeld in de rubrieken persoonlijk functioneren (18 items), sociaal functioneren (17 items), fysieke omgevingseisen (13 items), dynamisch handelen (31 items), statische houdingen (11 items) en duurbelastbaarheid (4 items). Van iedere casus werd per arts het percentage niet-afwijkende antwoorden gemeten, ook wel de mate van consistentie genoemd. Van alle casus werden gemiddelden berekend en uiterste scores bekeken. Voor de univariate logistische regressieanalyse en de Chi-kwadraat toets werd Excel gebruikt. Voor een multivariate analyse was het aantal artsen te gering.
In eerdere onderzoeken van Spanjer en Landig wordt beschreven dat gesproken kan worden van een uitstekende score als er sprake is van een mate van overeenstemming boven de 80% en van een redelijke tot goede score bij een overeenstemming van 61-80%.3,5
Resultaten
Van één arts werden de metingen niet meegenomen, omdat deze bij één van de casus ‘geen benutbare mogelijkheden’ had ingevuld waardoor de FML-items niet werden gescoord. Hierdoor was geen juist gemiddelde voor alle drie de casus te berekenen. Er bleven 28 (verzekerings-)artsen over. Tabel 1 toont de karakteristieken van de onderzoekspopulatie en het effect van ervaring, leeftijd, geslacht, functie en hoofdwet op de gemiddelde consistentie van de drie casus.
Tabel 1 Karakteristieken van de onderzoekspopulatie en effect van ervaring, leeftijd, geslacht, functie en hoofdwet op consistentie casus A, B en C tezamen
* significantie bij p ≤ 0,05. Op basis van univariate logistische regressieanalyse. BI= betrouwbaarheidsinterval. De referentie categorie is per variabele de eerst genoemde categorie.
Variabele
|
Categorie
|
Totale groep
n=28 (%)
|
Mate van consistentie (%)
|
P-waarde*
(95% BI)
|
Ervaring
|
< 10 jaar
≥10 jaar
|
15 (54)
13 (46)
|
87.7
84.8
|
0.005
(-4.77; -0.93)
|
Leeftijd
|
≤44 jaar
≥45 jaar
|
15 (54)
13 (46)
|
87.7
84.8
|
0.003
(-4.85; -1.06)
|
Geslacht
|
Man
Vrouw
|
12 (43)
16 (57)
|
84.9
87.4
|
0.017
(0.49; 4.52)
|
Functie
|
VA
A(N)IOS
|
16 (57)
12 (43)
|
85.4
87.7
|
0.034
(0.19; 4.32)
|
Hoofdwet
|
Ziektewet
WIA/Wajong
|
13 (46)
15 (54)
|
86.6
86.1
|
0.643
(-2.74; 1.73)
|
De uitkomsten van de univariate logistische regressieanalyse laten zien dat oudere, mannelijke of meer ervaren artsen significant minder consistent scoorden dan jongere, vrouwelijke of minder ervaren artsen. Wat betreft de wetgeving waarin de artsen werkzaam waren, werden geen significante verschillen gevonden qua consistentie.
Tabel 2 toont de gemiddelde consistentie van de belangrijkste FML-items per casus.
Tabel 2 Gemiddelde consistentie op de FML-items per casus (%). Als er sprake is van een consistentie van 100% dan staat niks aangegeven
FML-items
|
Sarcoïdose
|
PDD-NOS
|
CVA’s
|
|
% gelijk
|
% gelijk
|
% gelijk
|
concentreren
|
|
92.9
|
71.4
|
verdelen van de aandacht
|
|
92.9
|
64.3
|
herinneren
|
|
|
71.4
|
volledig structuur
|
|
89.3
|
|
vaste bekende werkwijzen
|
|
67.8
|
75.0
|
rechtstreeks toezicht
|
|
85.7
|
96.4
|
geen afleiding
|
|
57.1
|
64.3
|
deadlines
|
89.7
|
71.4
|
85.7
|
emotionele problemen anderen
|
|
53.6
|
75.0
|
conflicten
|
|
64.3
|
53.6
|
samenwerken
|
|
75.0
|
64.3
|
klantcontact
|
|
64.3
|
60.7
|
niet solitair
|
96.6
|
53.6
|
71.4
|
leiding geven
|
|
82.1
|
75.0
|
stof, rook, damp
|
89.7
|
57.1
|
|
trillingsbelasting
|
58.6
|
|
71.4
|
knijp/grijpkracht
|
57.1
|
|
60.7
|
fijn-hand/vinger motoriek
|
82.1
|
|
96.4
|
repetitieve hand/vinger gebruik
|
64.3
|
|
82.1
|
werken met toetsenbord
|
67.9
|
|
78.6
|
schroefbewegingen
|
35.7
|
|
57.1
|
reiken
|
96.4
|
|
89.3
|
frequent reiken
|
64.3
|
96.4
|
46.4
|
buigen
|
96.4
|
|
57.1
|
frequent buigen
|
64.3
|
92.9
|
25.0
|
tillen/dragen
|
60.7
|
85.7
|
25.0
|
lopen
|
53.6
|
96.4
|
46.4
|
traplopen
|
50.0
|
96.4
|
57.1
|
knielen/hurken
|
92.9
|
|
82.1
|
zitten
|
92.9
|
|
|
staan
|
67.9
|
|
46.4
|
geknield/gehurkt actief zijn
|
57.1
|
96.4
|
82.1
|
gebogen/getordeerd actief zijn
|
75.0
|
|
71.4
|
boven schouderhoogte
|
82.1
|
|
57.1
|
uren per werkdag
|
46.4
|
92.8
|
67.8
|
uren per week
|
46.4
|
92.8
|
67.8
|
In de casus met PDD-NOS worden op de minste rubrieken beperkingen aangegeven, voornamelijk in het persoonlijk- en sociaal functioneren. Enkele beperkingen werden toegekend in de duurbelasting of het arbeidspatroon. Driemaal werd een beperking op de duurbelasting toegekend, met een spreiding tussen de 30 tot 40 uur. Eénmaal was er sprake van een consistente toegekende beperking.
Bij de casus van de cliënte met sarcoïdose werden voornamelijk beperkingen toegekend ten aanzien van de fysieke omgevingseisen, de statische houdingen, het dynamisch handelen en de duurbelasting. Een enkele beperking werd toegekend in het persoonlijk functioneren. In 26 van de 28 beoordelingen werd een urenbeperking toegekend, van twee uur per dag tot 40 uur per week. Hierbij werden 10 van de 26 toegekende urenbeperkingen consistent gescoord.
Bij de casus van de cliënte met de multipele CVA’s waren de beperkingen over alle rubrieken verspreid. 27 van de 28 artsen kenden urenbeperkingen toe, van 10 tot 30 uur per week. Hierbij was dit in 18 van de 27 gevallen consistent.
Bij de sarcoïdose casus werd de laagste consistentie behaald op de items schroefbewegingen van hand en arm (35.7%) en uren per dag en week (46.4%). Bij 48 items (ruim 51%) werd een consistentie van 100% behaald. 45 van deze items werden bij geen van de artsen als beperkt gescoord.
Overall werd bij de PDD-NOS-casus de laagste consistentie behaald ten aanzien van beperkingen op de items emotionele problemen van anderen hanteren (53.6%), geen solitaire functie (53.6%) en bij geen afleiding van activiteiten van anderen (57.1%). Bij 45 items (bijna 48%) werd geen beperking aangegeven, dit was in 100% consistent.
Bij de casus van de cliënte met de multipele CVA’s werd de laagste consistente behaald ten aanzien van de items frequent buigen en tillen/dragen (beide 25.0%). Op rubriek 1 van de FML werden ook items gescoord: verdelen van de aandacht (consistentie 64.3%) en concentratie en herinneren (consistentie 71.4%). Daarnaast uren van de dag en week (consistentie 67.8%). Bij 32 items (ruim 34%) werd geen beperking gegeven, dit was 100% consistent.
Verder is er gekeken naar de gemiddelde consistentie (%) in een casus, per arts. Deze waarden liepen uiteen van 66.0% tot 96.8%. De laagste consistentie werd behaald bij de casus van de cliënte met de multipele CVA’s, zowel per arts (66.0%), als gemiddeld voor alle artsen (80.5%).
De casus waarbij de minste beperkingen werden toegekend (PDD-NOS), liet de hoogste consistentie zien, namelijk tot 96.8% op individueel niveau en 91.8% als gemiddelde voor alle artsen.
Er is sprake van een uitstekende consistentie op 71 van de 84 beoordelingen en een redelijk tot goede consistentie op 13 van de 84 beoordelingen.
Diverse (verzekerings)artsen gaven aan zelf meer medische gegevens uit te vragen dan nu bekend was in de rapporten en omdat ze de cliënt niet zelf hadden gezien, vonden ze het lastiger om een oordeel te vormen over de belastbaarheid.
Discussie
De gemiddelde consistentie van de drie beoordelingen door de 28 artsen bij score op de FML-items is 86.3%. Er kan worden gezegd dat er sprake is van een uitstekende consistentie bij bijna 85% van de beoordelingen en een redelijk tot goede consistentie bij ruim 15% van de beoordelingen. Bij univariate analyse scoorden ervaren, mannelijke, oudere artsen of geregistreerde artsen significant minder consistent dan minder ervaren, vrouwelijke, jongere of nog niet geregistreerde verzekeringsartsen.
Items die laag scoorden op consistentie zijn onder andere schroefbewegingen van de hand/arm (35.7%), frequent buigen (25.0%), tillen/dragen (25.0%), maar ook de uren per week of dag (46.4% bij de casus van sarcoïdose). Items die hoog scoorden waren die van deadlines (wel in wisselende mate per casus), concentreren en zitten. Handvingergebruik werd wisselend per casus gescoord, van 57.1% tot 96.4%.
De gemiddelde consistentie over alle FML-items was weliswaar goed, maar hier wordt een te rooskleurig beeld geschetst. Zo scoorden artsen bij cliënten met psychische klachten op alle somatische FML-items 100% consistentie, omdat alleen de psychische FML-items relevant zijn. Uit dit onderzoek blijkt echter dat er op specifieke FML-items een lage consistentie is. Deze lage consistentie kan te maken hebben met de verzekeringsarts die wellicht de ene dag anders oordeelt dan de andere dag, met het feit dat het oordeel over een bepaald ziektebeeld complex is of met het instrument; de FML. De FML wordt als instrument bij alle EZWb en WIA-beoordelingen gebruikt, beoordelingen die grote consequenties kunnen hebben voor cliënten. Het is daarom belangrijk dat het een betrouwbaar instrument is die consistent wordt ingevuld. Voor zover bekend is er geen systematisch onderzoek geweest naar de FML, de bevindingen bij dit onderzoek pleiten daar wel voor. Wellicht kunnen de items zo worden aangepast dat ze uitnodigen tot een meer consistente score van een oordeel.
Niet elk FML-item is van even groot belang voor de functieduiding door de arbeidsdeskundige. Er zijn items die een minder groot gevolg hebben op de functieduiding, zoals uiting van eigen gevoelens, beschermende middelen en allergie.7 Er zijn echter ook FML-items die een grote invloed hebben op de arbeidsongeschiktheidsuitkering zoals concentreren van de aandacht, verdelen van de aandacht, herinneren, handelingstempo in het dagelijks leven, hand- en/of vingergebruik of beperkingen op de duurbelasting. Gegevens uit dit onderzoek tonen aan dat ook deze belangrijke items niet altijd consistent worden gescoord. Zeker deze items behoeven daarom nader onderzoek. Meer consistentie kan worden verkregen door bijvoorbeeld aanpassing van de definitie van specifieke items of scholing van artsen.
Een mogelijke verklaring voor een lagere consistentie bij ervaren artsen is de veelal langere periode tussen aanleren, scholing en de huidige praktijk. De jongere collega’s grijpen waarschijnlijk nog vaker terug op de naslagwerken om te kunnen onderbouwen waarom zij wel of geen beperking toekennen. Bij de ervaren collega’s wordt dat minder, waardoor zij mogelijk minder vasthouden aan de standaarden, wat ertoe kan leiden dat de consistentie lager is.
Zwakke en sterke punten
Het onderzoek betrof een beperkt aantal artsen van één UWV-kantoor en kan daarom niet geheel representatief gezien worden voor de praktijk. Door het beperkt aantal artsen was een multivariate analyse niet mogelijk en werd alleen een univariate analyse van de variabelen verricht. Het is mogelijk dat beschreven verschillen tussen groepen bij een multivariate analyse niet significant aanwezig zijn. Harde uitspraken kunnen dan ook alleen gedaan worden als deze resultaten worden bevestigd in een grotere groep artsen met een multivariate analyse.
Een andere beperking was het feit dat slechts drie casus werden beoordeeld. Wel is geprobeerd een breed beeld te verkrijgen door een diversiteit in soort van klachten te kiezen, namelijk lichamelijk, psychisch en gemengde beelden. Verder zou het feit dat werd beoordeeld op basis van een schriftelijke casus en geen fysiek spreekuur of video kunnen leiden tot minder consistentie in het oordeel over de belastbaarheid, omdat je dan het beeld bij de casus mist. Het kan echter ook leiden tot een hogere consistentie, omdat het oordeel op precies dezelfde informatie werd gebaseerd.
Sterk punt is het feit dat er tot nu toe nauwelijks onderzoek is verricht naar de consistentie bij het beoordelen van de functionele mogelijkheden van een cliënt.
Conclusie
De gemiddelde consistentie bij het scoren van FML-items bij drie schriftelijke casus was op zich goed. Echter, specifieke FML-items, waaronder items met potentieel grote consequenties voor de uitkering, werden niet consistent gescoord. Geadviseerd wordt om deze FML-items aan te passen of de artsen beter te scholen bij het invullen ervan. Bij univariate analyse lieten ervaren artsen en artsen van het mannelijk geslacht een lagere consistentie zien in hun oordeel.
Verklaring belangenconflicten
Er is geen sprake van belangenverstrengeling.
Aandachtspunten
-
Ruim 85% van de beoordelingen heeft een uitstekende consistentie. Echter, specifieke FML-items, waaronder items met potentieel grote consequenties voor de uitkering, werden niet consistent gescoord.
-
Geadviseerd wordt om FML-items die laag scoren in de consistentie aan te passen of de artsen beter te scholen bij het invullen ervan.
-
Er zijn aanwijzingen dat jongere, vrouwelijke of minder ervaren artsen consistenter beoordelen.
Summary
Disability evaluations should be carried out with high intra-rater reliability or consistency. The aim of this study is to investigate the consistency of the physicians in terms of the scores given on the work-limitation items from the Functional Ability List (FAL).
Three written cases were submitted to 30 physicians. They were asked to score the work-limitation items from the FAL for each case. The same cases were reassessed three months later. The consistency and influence of factors that affected consistency were measured.
The average consistency in scoring FAL-items in three written cases was good to excellent. Univariate analysis showed that more experienced doctors and male doctors showed a lower consistency in their judgement. Specific FAL-items, including items with potentially major consequences for the disability benefits, were not consistently scored. Adjustment of these FAL-items or training of the professionals is advised.
Literatuur
1.
Ministerie van Sociale Zaken en Werkgelegenheid. Schattingsbesluit arbeidsongeschiktheidswetten. Den Haag, 2000.
2.
Barth J, Boer WEL de, Busse JW, Hoving JL, Kedzia S, Couban R, Fischer K, Allmen DY von, Spanjer J, Kunz R. Inter-rater agreement in evaluation of disability: systematic review of reproducibility studies. BMJ 2017; 14: 356.
3.
Spanjer J. De inter- en intra-beoordelaarsbetrouwbaarheid van WAO-beoordelingen. Tijdschrift voor Bedrijfs- en Verzekeringsgeneeskunde 2001; 8: 234-241.
4.
Schellart AJ, Mulders H, Steenbeek R, Anema JR, Kroneman H, Besseling J. Inter-doctor variations in the assessment of functional incapacities by insurance physicians. BMC Public Health. 2011 Nov 14; 11: 864.
5.
Landis JR, Koch GG. The measurements of observer agreement for categorical data. Biometrics 1977; 33: 159-174.
7.
Nederbragt EA. Mondelinge communicatie, juli 2018.