Handleiding Werkgerelateerde Persoonlijkheid Vragenlijst Adaptief

Introductie

De Werkgerelateerde Persoonlijkheid Vragenlijst Adaptief, afgekort WPV Adaptief, is een persoonlijkheidsvragenlijst die voor het werkveld van Human Resource Management (HRM) is ontwikkeld door Ixly B.V. De WPV Adaptief is de adaptieve variant van de Werkgerelateerde Persoonlijkheidsvragenlijst (WPV), die in 2012 overwegend positief beoordeeld is door de COTAN. De WPV Adaptief rapporteert op vijf factoren, die op hun beurt weer in 25 factoren zijn onderverdeeld. De WPV Adaptief kan zowel in advies- als in selectiesituaties ingezet worden.

De WPV Adaptief is een multidimensionale adaptieve persoonlijkheidsvragenlijst. Om de complexe materie begrijpelijk te maken beginnen we met een korte introductie over ééndimensionale itemresponstheorie met twee mogelijke antwoorden (0/1 of “goed”/”fout”). Vervolgens breiden we de discussie uit naar ééndimensionale itemresponstheorie voor Likert-schalen met 5 opties (zoals bij de WPV Adaptief), om vervolgens de overstap te maken naar multidimensionale itemresponstheorie (MIRT) en adaptief testen op basis van MIRT.

WPV Adaptief V1: Betrouwbaarheid en validiteit

Bij de ongewogen kalibratiesteekproef (N = 9242; zie pagina 12) is de eerste versie van de WPV Adaptief gesimuleerd, waarbij de adaptieve test ingericht werd met de specificaties zoals hiervoor beschreven: de startwaarden van de theta’s werden op 0 gezet, itemselectie op basis van D-optimaliteit, een stopcriterium van SEM < .44, gecombineerd met een limiet van maximaal 6 items per schaal. Op basis van deze simulatie kan de nauwkeurigheid en de validiteit van de adaptief afgenomen vragenlijst vergeleken worden met de volledige, lineaire vragenlijst.

Uitgangspunten bij de testconstructie

1.1. Voordelen adaptief testen

Adaptief testen heeft een aantal voordelen ten opzichte van klassieke, lineaire tests. De kandidaat krijgt items te zien op basis van eerder gegeven antwoorden. Hiermee vermijden we dat een kandidaat items te zien krijgt die voor hem of haar irrelevant zijn. Door het gebruik van een adaptieve test zijn we dus in staat om in veel kortere tijd een zeer betrouwbare meting van de vermogens van de kandidaat te bereiken, omdat er geen ‘nutteloze’ items bevraagd worden (Hambleton, Swaminathan, & Rogers, 1991; Weiss & Kingsbury, 1984). Dit werkt kostenbesparend in het geval de kandidaat de test op locatie maakt. Ook vragen we op deze manier minder tijd van de kandidaat. Bovendien zorgt dit ervoor dat er nauwkeuriger gemeten kan worden (Hambleton et al., 1991; Weiss & Kingsbury, 1984).

Bij cognitieve tests wordt aangenomen dat dit alles leidt tot een verhoogde motivatie bij het maken van de test ten opzichte van klassieke, niet adaptieve tests (Linacre, 2000; Mead & Drasgow, 1993; Sands & Waters, 1997; Weiss & Betz, 1973). Mensen met een lager niveau raken minder gedemotiveerd of afgeschrikt door te moeilijke items, terwijl mensen met een hoger niveau niet verveeld worden of onoplettend door te makkelijke items gaan (Wise, 2014). Echter, andere onderzoeken suggereren dat adaptief testen gepaard kan gaan met demotivatie bij testnemers, bijvoorbeeld omdat ze tussendoor geen makkelijkere items krijgen (om weer even ‘op adem te komen’/bevestigd te worden in hun kunnen) en geen vragen kunnen overslaan (Frey, Hartig, & Moosbrugger, 2009; Hausler & Sommer, 2008; Ortner, Weisskopf, & Koch, 2013; Tonidandel, Quiñones, & Adams, 2002). Het is echter niet aannemelijk dat dit negatieve effect van adaptief testen ook geldt voor persoonlijkheidsvragenlijsten zoals de WPV Adaptief; hier spreken we immers niet van ‘makkelijke’ of ‘moeilijke’ items.

Verder is bekend bij cognitieve tests dat wanneer het adaptieve karakter van de test wordt uitgelegd in de instructies, dit een belangrijke positieve invloed heeft op de motivatie in en prestaties op adaptieve tests (Wise, 2014). Daarom is ervoor gekozen de adaptieve procedure (weliswaar op simpele wijze) uit te leggen in de instructies van de WPV Adaptief.

1.2. Eéndimensionale itemresponstheorie

1.2.1. Het 2PL model

Bij de WPV Adaptief maken we gebruik van itemresponstheorie (IRT, zie bijvoorbeeld Hambleton, Swaminathan, & Rogers, 1991, en Embretson & Reise, 2000). Het doel van IRT is om de latente (dus niet geobserveerde) score, θ of ‘theta’, van iemand op een bepaald construct (bijvoorbeeld intelligentie of een persoonlijkheidstrek) te meten. Het is belangrijk om te noemen dat IRT-modellen draaien om kans. Gegeven bepaalde karakteristieken van items (bijvoorbeeld de moeilijkheidsgraad en de mate van discriminatie van het item), hoe groot is de kans dan dat iemand deze goed of fout beantwoordt? Het grote voordeel van IRT is dat de kenmerken van personen en items op dezelfde schaal kunnen worden weergegeven, waardoor we uitspraken over deze kansen kunnen doen.

Een voorbeeld van een veel gebruikt IRT-model in het cognitieve domein is het Two-Parameter Logistic (2PL) Model. We bespreken dit model hier omdat het model dat we gebruiken bij de WPV Adaptief, het Graded Response Model (Samejima, 1969), de uitbreiding van het 2PL model is voor Likert-schalen. In de discussie hieronder gaan we eerst nog uit van twee mogelijke antwoorden, namelijk goed (1) en fout (0). De kans op een goed antwoord, x = 1, op een bepaald item, gegeven iemands θ komt in het 2PL-model overeen met:

apt-for-1.1

(1.1)

Het subscript j geeft aan dat het om een karakteristiek van een persoon gaat. In de vergelijking is b_ide moeilijkheid van een item i, en a_ide discriminatie parameter. De specifieke betekenis van a_ien b_iworden in de volgende secties verder uiteengezet.

Het is belangrijk om hier op te merken dat de waarden van b_ien a_iin de praktijk altijd bekend zijn: deze itemkenmerken worden geschat (“gekalibreerd” in IRT termen) op basis van onderzoek, wat ook bij de WPV Adaptief gebeurd is (zie sectie 1.4). Dit betekent dat we voor verschillende waarden van θ kunnen bepalen hoe groot de kans is dat een item goed beantwoord wordt. Wanneer we verschillende waarden voor θ invullen kunnen we de itemresponsfunctie plotten (zie Figuur 1.1), waarin de ‘kans op een goed antwoord’ afgezet wordt tegen θ.

Figuur 1.1. Itemresponsfunctie 2PL-model.

apt-fig-1.1

1.2.2. Het schatten van theta

Deze kansen vormen de basis van de berekening van θ. Gegeven dat er in een test k aantal items zijn, is de likelihood functie van een bepaald responspatroon (bijvoorbeeld ‘goed, fout, goed’, of ‘1,0,1’) gelijk aan:

apt-for-1.2

(1.2)

Hierbij is Q de kans op een fout antwoord, oftewel 1 – Q. De likelihood van het responspatroon ‘goed, fout, goed’, of ‘1,0,1’, is dus P_item1 x Q_item2 x P_item3.

Op basis van deze likelihood wordt θ geschat: om de waarde van θ te vinden, wordt deze likelihood L gemaximaliseerd (oftewel, gekeken bij welke theta de top van deze functie ligt). Er zijn verschillende manieren om de maximale waarde van de likelihood functie te vinden. In de WPV Adaptief berekenen we θ’s door middel van de maximum a posteriori methode (MAP). Dit is een Bayesiaanse methode, wat betekent dat we ervan uitgaan dat een persoon (dus θ) getrokken is uit een populatie (bij ééndimensionale IRT is dit de populatie met een standaardnormale verdeling met gemiddelde 0 en standaarddeviatie van 1). Deze standaardnormale verdeling wordt de prior genoemd, en hiermee wordt de likelihood functie gewogen. Dit betekent dat L gewogen wordt met de kans dat we de geschatte θ vinden. Het gaat te ver om hier in detail uit te leggen hoe dit werkt, maar uiteindelijk is het maximum van de nieuwe gewogen likelihood functie (de posterior verdeling) de geschatte θ. De standaarddeviatie van deze posterior verdeling geeft de spreiding aan die rondom de geschatte θ verwacht mag worden: hoe kleiner deze spreiding, hoe nauwkeuriger de meting. Deze waarde wordt de standard error of measurement (SEM) of standaardfout genoemd. Deze SEM-waarde is belangrijk bij adaptieve tests en vragenlijsten, omdat deze SEM gebruikt wordt als het stopcriterium van de test (zie sectie 1.4.4). Voor meer informatie over de schatting van θ verwijzen we de geïnteresseerde lezer door naar De Ayala (2013).

De schatting van θ is gebaseerd op de gegeven antwoorden van een persoon. Bij adaptief testen wordt na ieder gegeven antwoord de θ opnieuw berekend met de tot dan toe gegeven antwoorden. De nauwkeurigheid waarmee θ geschat is, wordt aangegeven door de SEM. Als de θ nauwkeurig genoeg geschat is, met andere woorden als de SEM laag genoeg is, stopt de test (zie sectie 1.4.4).

1.2.3. Het Graded Response Model

In de discussie hiervoor hebben we ons beperkt tot ééndimensionale IRT (dus waar één latente trek θ gemeten wordt) en binaire data (dus goed/fout of 0/1). De WPV Adaptief hanteert een vijf-punts Likert-schaal uiteenlopend van Helemaal oneens tot en met Helemaal eens. Voor data verkregen via Likertschalen zijn er meerdere IRT-modellen ontwikkeld. Eén van de meest gebruikte modellen voor dit type data is het Graded Response Model (GRM; Samejima, 1969), een model dat ontwikkeld is voor geordende responsen, wat antwoorden op Likert-schalen feitelijk zijn.

Het GRM is een uitbreiding van het 2PL model zoals weergegeven in formule 1.1. Bij het GRM heeft elk item één a-parameter (discriminatie), en meerdere locatieparameters (b), waarbij het aantal locatieparameters gelijk staat aan het aantal antwoordcategorieën minus één (dus bij een vijf-punts-schaal zijn er vier locatieparameters). Het GRM is een cumulatief model, dat wil zeggen dat op basis van de itemparameters in eerste instantie de kans geschat wordt dat iemand in een bepaalde categorie of hoger scoort. Dus, de kans op een bepaalde antwoordcategorie of hoger op een bepaald item, gegeven iemands θ, komt in het GRM-model overeen met:

apt-for-1.3

(1.3)

Gezien het feit dat alle kansen logischerwijs op moeten tellen tot 1, kan de kans op een bepaalde gegeven antwoordcategorie als volgt berekend worden.

p_k = P_k* – P_k*+1,

(1.4)

Waarbij Pk* gelijk is aan P*x_j uit formule 1.3. De kleine letter p geeft aan dat het om de kans gaat op een bepaald antwoord, terwijl de hoofdletter P aangeeft dat het om een cumulatieve kans gaat. Dus, bij een vijf-punts-schaal is de kans op een respons op eerste antwoordcategorie:

apt-for-1.5

(1.5)

De kans op de tweede antwoordcategorie wordt als volgt berekend:

apt-for-1.6

(1.6)

De kansen op de derde en vierde antwoordcategorie worden op een gelijksoortige wijze berekend. De kans op de laatste antwoordcategorie is simpelweg de laatste cumulatieve kans:

apt-for-1.7

(1.7)

Net als bij het 2PL model is er bij het GRM een itemresponsfunctie, bij het GRM een categorieresponsfunctie genoemd, te plotten voor ieder item. Twee voorbeelden van items van de Competitie-schaal van de WPVN zijn weergegeven in Figuur 1.2.

Figuur 1.2. Itemresponsfunctie GRM.

apt-fig-1.2.1

apt-fig-1.2.2

Het schatten van de theta is bij het GRM niet anders dan bij het 2PL model; op basis van de gegeven antwoorden wordt de likelihood bepaald en bijvoorbeeld door middel van de MAP methode naar het maximum van de likelihood functie gekeken om de theta te vinden waarbij het gevonden antwoordpatroon het meest waarschijnlijk is.

1.3. Muldimensionale itemresponstheorie

In het voorgaande hebben we ons beperkt tot ééndimensionale IRT, dus waarbij er steeds slechts één latente trek werd geschat. Bij de WPV Adaptief maken we gebruik van multidimensionele IRT (MIRT), waarbij het doel is om niet één maar meerdere latente trekken tegelijkertijd te schatten.

1.3.1. Between-item versus within-item modellen

Er is een groot scala aan IRT-modellen die geschikt zijn voor multidimensionale adaptieve tests. Een eerste keuze die echter gemaakt dient te worden is of er uitgegaan wordt van between-item multidimensionaliteit of within-item dimensionaliteit (Figuur 1.3.).

Figuur 1.3. Schematische weergave within-item en between-item dimensionaliteit.

apt-fig-1.3

Between-item multidimensionaliteit Within-item multidimensionaliteit

(gebaseerd op Wang & Chen, 2004)

Bij between–item multidimensionale modellen wordt aangenomen dat elk item slechts een indicator is van één latente trek (dus slechts op één trek laadt); multidimensionaliteit wordt gemodelleerd door de correlaties tussen de latente trekken (de dubbelzijdige pijlen aan de linkerkant van het figuur). Belangrijk om hierbij te onthouden is dat bij between-item multidimensionaliteit het antwoord op een vraag slechts afhankelijk is van één latente trek.

Bij within–item multidimensionaliteit kan een item één latente trek of meerdere latente trekken meten: in Figuur 1.3. hierboven zien we bijvoorbeeld dat item 6 een indicator is van Facet 2 en Facet 3. Binnen het domein van intelligentie kan dit bijvoorbeeld een item zijn dat zowel leesvaardigheid als rekenvaardigheid meet. Het ene model is niet per se beter dan het andere; het gaat erom van welk theoretisch model men uitgaat. De keuze tussen beide modellen kennen we overigens uit de (confirmatieve) factoranalyse: between-item multidimensionaliteit reflecteert modellen met een simple structure, terwijl within–item multidimensionale modellen overeenkomen met complexe modellen die kruisladingen toestaan.

In termen van itemresponse theorie betekent between–item dimensionaliteit dat slechts één discriminatieparameter > 0 is, terwijl alle overige discriminatieparameters per definitie 0 zijn (en dus niet geschat worden). Dus, in het linker paneel van bovenstaande figuur heeft Item 1 drie discriminatieparameters, bijvoorbeeld met een waarde 1.5 voor Facet 1, en twee discriminatieparameters voor Facet 2 en Facet 3. Ter illustratie zijn hieronder mogelijke waarden voor discriminatieparameters weergegeven voor een between–item multidimensionaal model.

Tabel 1.1. Parameters van hypothetische items bij een between-item model met drie factoren
	a1	a2	a3
Item 1	1.5	0	0
Item 2	1	0	0
Item 3	1.2	0	0
Item 4	0	1	0
Item 5	0	1.3	0
Item 6	0	1.1	0
Item 7	0	0	1
Item 8	0	0	1
Item 9	0	0	1.5

Voor de WPV Adaptief hebben wij gekozen voor between–item multidimensionaliteit. Voor een deel was dit een pragmatische en praktische keuze: een between–item multidimensionaal model is eenvoudig, intuïtief, en sluit aan bij de traditie van factoranalyse om zoveel mogelijk uit te gaan van simple structures waarbij een item slechts één indicator is van een latente trek. Bovendien is een between–item model consistent met hoe de items ooit ontwikkeld zijn, namelijk om zo goed mogelijk één latente trek te meten. Ook voor de uiteindelijke eindgebruiker is een between–item model eenvoudiger uit te leggen dan een within-item model. Hier komt bij dat gezien het grote aantal items van de originele WPV Normatief (die als itembank dient), er enorm veel mogelijke kruisladingen zijn. Het is niet eenvoudig aan te tonen dat de ene kruislading wel in het model thuishoort, en een ander niet; bovendien loopt men bij kruisladingen het risico dat er gekapitaliseerd wordt op kans, en dat deze niet generaliseren naar verschillende steekproeven (Hopwood & Donnellan, 2010). Het between–item model heeft, omdat elke respons slechts afhankelijk is van één trek, het bijkomend voordeel dat bepaalde analyses (bijv. voor differential item functioning, zie Hoofdstuk 3.3) uitgevoerd kunnen worden – zonder al te veel verlies van statistische power – alsof de data ééndimensionaal is. Dit alles in ogenschouw nemend hebben wij gekozen voor het between–item model.

1.3.2. Het schatten van theta bij multidimensionele IRT

Conceptueel is het schatten op basis van MIRT niet zo heel anders dan bij IRT. Dit is zeker het geval bij between-item modellen, omdat het antwoord op een vraag nog steeds slechts afhangt van één latente trek, net als bij ééndimensionale IRT. Bij ééndimensionale IRT gaven we aan dat bij methoden als MAP ervan uitgegaan wordt dat een persoon (dus θ) getrokken is uit een populatie met een normale verdeling met een gemiddelde van 0 en een standaardafwijking van 1. Bij de MAP methode bij MIRT gaan we ervanuit dat een persoon (in dit geval dus meerdere theta’s tegelijk) getrokken is uit een multivariate normale verdeling met gemiddelden gelijk aan µ, en (co)variantiematrix Φ. In de praktijk wordt deze prior, dus de gemiddelden µ en (co)variantiematrix Φ op basis van een zeer grote steekproef geschat in de kalibratiefase van de testontwikkeling (zie sectie 1.4.1). Een duidelijk verschil tussen het schatten van theta(‘s) bij IRT en MIRT is dus de gehanteerde prior die informatie toevoegt aan de likelihood.

Een ander verschil is dat er bij IRT sprake is van één likelihood functie, bij MIRT zijn er evenveel functies als te schatten theta’s (in het geval van de WPV Adaptief zijn dit er 25). De schatting van de theta’s met behulp van de MAP-methode werkt overigens wel hetzelfde bij MIRT als bij IRT: op basis van een gegeven antwoordpatroon wordt nu gezocht naar theta’s waarbij de verschillende likelihood functies, gewogen met de prior, allemaal tegelijkertijd maximaal zijn. Bij IRT kan het vinden van het maximum van theta nog numeriek opgelost worden, bij MIRT moet dit echter via een iteratief proces gebeuren; op basis van verschillende iteraties wordt naar de theta’s gezocht waar de verschillende likelihood functies maximaal zijn. Er zijn verschillende algoritmes ontwikkeld om dit soort optimalisatie problemen op te lossen; bij de WPV Adaptief gebruiken we het Broyden–Fletcher–Goldfarb–Shanno (BFGS) algoritme.

Een volledige discussie van MIRT zou hier te veel ruimte kosten, maar de geïnteresseerde lezer verwijzen we door naar Reckase (2009). Belangrijk om hier nog te benoemen is het grote voordeel van MIRT: de relaties tussen latente trekken onderling worden benut om tot een nauwkeurigere schatting van de theta’s te komen (door middel van de prior zoals hiervoor besproken), en bij de itemselectie in de adaptieve test (zie sectie 1.4.3.).

1.4. Ontwikkeling van de WPV Adaptief

Een adaptieve test, zo ook de WPV Adaptief, bestaat uit een aantal vaste onderdelen:

Itempool met bekende itemparameters (sectie 1.4.1.)
Itemselectie (sectie 1.4.3.)
Startregel (het is gebruikelijk om bij adaptieve testen uit te gaan van een gemiddelde score, dus θ = 0. Deze regel hanteren we ook bij de WPV Adaptief.)
Stopregel (sectie 1.4.4.)

De methode van de θ-schatting is feitelijk ook een onderdeel van een adaptieve test, maar deze is in de voorgaande sectie al besproken (de multidimensionale variant van de MAP-methode). In dit hoofdstuk wordt de ontwikkeling van en de gemaakte keuzes voor elk onderdeel van de eerste versie van de WPV Adaptief kort beschreven.

1.4.1. Itempool

1.4.1.1. Eerste kalibratie

Iedere adaptieve test of vragenlijst begint met een itempool, dus een verzameling vragen die getoond kunnen worden aan de kandidaat. Bij de WPV Adaptief vormden de items van de reguliere WPV-N de itempool; hier moesten echter wel nog de itemparameters voor berekend worden. Hiervoor is een kalibratieonderzoek uitgevoerd, wat hieronder besproken wordt. In deze kalibratie werd er tevens onderzoek gedaan naar de juistheid van de gekozen modellen, en naar alternatieve mogelijkheden. De resultaten van deze onderzoeken worden hieronder ook besproken.

De WPV wordt ingezet in zowel advies- als selectiesituaties. Bij de ontwikkeling van de WPV Adaptief was dan ook het doel dat deze bruikbaar zou zijn voor beide testsituaties. In eerste instantie is begonnen met de ontwikkeling van de WPV Adaptief voor adviesdoeleinden, waarna later (zie sectie 3.3) gekeken is of de WPV Adaptief ook inzetbaar zou zijn in selectiesituaties. De onderzoeken tot en met sectie 3.1. zijn dus allen gebaseerd op data verkregen in adviessituaties.

Voor de eerste kalibratie en onderzoeken voor de keuze van het IRT-model zijn de behaalde scores van kandidaten die de WPV Normatief hadden ingevuld, opgehaald uit de Ixly database. Het ging hier om kandidaten die de WPV Normatief daadwerkelijk in adviessituaties hadden ingevuld; de kalibratie en onderzoeken zijn dus gebaseerd op personen die de vragenlijst gemaakt hebben onder dezelfde condities als waar de vragenlijst uiteindelijk voor dient. In totaal hadden we van 9242 personen gegevens over het geslacht, leeftijd en opleidingsniveau tot onze beschikking. Deze informatie is weergegeven in Tabel 1.2.

Tabel 1.2. Verdeling opleidingsniveaus in de ongewogen kalibratiesteekproef.
	Freq.	%	Freq.	%	Categorie
Lagere school/basisonderwijs	81	0.9			1
MAVO	143	1.5			1
VBO	45	0.5			1
VMBO globaal	318	3.4			1
VMBO: basisberoepsgerichte leerweg (BB)	32	0.3			1
VMBO: Gemengde leerweg (GL)	9	0.1			1
VMBO: kaderberoepsgerichte leerweg (KB)	25	0.3			1
VMBO: Theoretische leerweg (TL)	48	0.5			1
VMBO Totaal			432	4.7
HAVO	397	4.3			2
VWO	217	2.3			2
MBO globaal	2035	22.0			2
MBO 1: Assistent beroepsbeoefenaar	10	0.1			2
MBO 2: Medewerker	90	1.0			2
MBO 3: Zelfstandig medewerker	125	1.4			2
MBO 4: Middenkaderfunctionaris	316	3.4			2
MBO Totaal			2576	27.9
HBO globaal	2789	30.2			3
HBO: Oude stijl	298	3.2			3
HBO: Bachelor	393	4.3			3
HBO: Master	56	0.6			3
HBO Totaal			3536	38.3
WO globaal	1412	15.3			3
WO: Bachelor	41	0.4			3
WO: Master	244	2.6			3
WO: Doctorandus	102	1.1			3
WO: Doctor	16	0.2			3
WO Totaal			1815	19.6
Totaal	9242	100.0

Tijdens de periode van dataverzameling is een aantal keer de bevraging van de achtergrondkenmerken veranderd; zo werd eerst bijvoorbeeld meer algemeen naar de categorieën VMBO, MBO, HBO en WO gevraagd, terwijl dit later fijnmaziger werd bevraagd met specifiekere opleidingsniveaus (bijv. MBO 1). Vandaar dat deze meer algemene groepen (‘globaal’ in Tabel 1.2.) en specifiekere groepen zijn weergegeven in Tabel 1.2.

Uiteindelijk zijn deze groepen gecombineerd in drie categorieën die zo goed mogelijk de categorieën van het CBS weerspiegelen. Deze categorieën zijn weergegeven in de uiterst rechtse kolom. De verdeling wat betreft opleidingsniveaus wat betreft deze drie categorieën is weergegeven in Tabel 1.3.

Tabel 1.3. Verdeling opleidingsniveaus (CBS) ongewogen kalibratiesteekproef
	Freq.	%
Laag	701	7.6
Midden	3190	34.5
Hoog	5351	57.9
Totaal	9242	100.0

De verdeling wat betreft geslacht en leeftijd in de ongewogen kalibratiestreekproef is weergegeven in Tabel 1.4.

Tabel 1.4. Verdeling geslacht en leeftijd ongewogen kalibratiesteekproef
	Freq.	%
Geslacht
Man	4673	50.6
Vrouw	4569	49.4

Leeftijd
< 25	752	8.1
25 – 35	2136	23.1
35 – 45	2500	27.1
45 – 55	2533	27.4
> 55	1321	14.3

De representativiteit van deze steekproef wat betreft geslacht, leeftijd en opleidingsniveau is vergeleken met de verdeling van deze drie achtergrondkenmerken in de Nederlandse beroepsbevolking in 2017 volgens de gegevens van het CBS. Uit de Chi²-toetsen bleek dat er een klein verschil in verdeling wat betreft geslacht was (χ²(1) = 19.61, p < .001, Cramer’s V = .05), een klein tot gemiddeld verschil wat betreft leeftijd (χ²(4) = 703.25, p < .001, Cramer’s V = .14) en een gemiddeld tot groot verschil wat betreft opleidingsniveau (χ²(2) = 2124.65, p < .001, Cramer’s V = .34). Er bevonden zich in onze steekproef relatief minder jongeren, en meer mensen van middelbare leeftijd (35 – 45 jaar). In onze steekproef bevonden zich relatief veel hoger opgeleiden en minder laag opgeleiden.

1.4.1.2. Gewogen steekproef

Om te corrigeren voor de verschillen tussen onze steekproef en de Nederlandse beroepsbevolking is een wegingsprocedure uitgevoerd. Allereerst zijn er 2 (geslacht) x 5 (leeftijd) x 3 (opleiding) = 30 strata gecreëerd waarna uit deze strata willekeurig een aantal personen werd getrokken met als doel (1) de verdeling wat betreft achtergrondkenmerken van het CBS zoveel mogelijk te benaderen en (2) de uiteindelijke steekproefgrootte op 3000 personen uit te laten komen. Deze grootte hielden we aan omdat we bepaald hadden dat bij een N van 3000 de balans optimaal was tussen een zo groot mogelijke steekproef en een zo klein mogelijke afwijking van de CBS verdelingen wat betreft geslacht, leeftijd en opleiding. Na weging was er geen verschil in verdeling wat betreft geslacht tussen de gewogen steekproef en het CBS (χ²(1) = .01, p = .91). Er waren slechts kleine tot gemiddelde verschillen voor leeftijd (χ²(4) = 41.89, p < .001, Cramer’s V = .06) en opleiding (χ²(2) = 30.82, p < .001, Cramer’s V = .07). De verdeling wat betreft geslacht, leeftijd en opleidingsniveau in de gewogen Adviesnormgroep is weergegeven in Tabel 1.5.

Tabel 1.5. Verdeling geslacht, opleidingsniveau en leeftijd gewogen normgroep – Advies.
	Freq.	%
Geslacht
Man	1589	53.0
Vrouw	1411	47.0

Opleiding
Laag	508	16.9
Midden	1345	44.8
Hoog	1147	38.2

Leeftijd
< 25	360	12.0
25 – 35	667	22.2
35 – 45	639	21.3
45 – 55	774	25.8
> 55	560	18.7

Helaas is er in de itemresponstheorie literatuur – en zeker in de literatuur over multidimensionale IRT – geen eenduidige richtlijn wat betreft de minimale steekproefgrootte voor een accurate schatting van de itemparameters (de kalibratie). Uit recent onderzoek dat specifiek op dit onderwerp focuste, is gebleken dat een steekgroep van N = 1000 een nauwkeurige schatting van itemparameters opleverde, en dat grotere steekproeven niet tot betere schattingen leidden; echter, dit onderzoek ging uit van slechts drie gecorreleerde trekken (Jiang, Wang & Weiss, 2016). In de WPV Adaptief hanteren we maar liefst 25 gecorreleerde schalen; het is dus lastig de resultaten van dit onderzoek naar onze situatie te generaliseren. Door een steekproefgrootte van N = 3000 te hanteren weten we in ieder geval dat we ruim boven de bovengrens van N = 1000 uit dit artikel zitten.

1.4.1.3. Standaardfouten van itemparameters bij verschillende kalibratiesteekproeven

Om de invloed van de grootte van de kalibratiesteekproef te onderzoeken hebben we gekeken naar de grootte van de standaardfouten van de geschatte itemparameters in beide kalibraties; hoe kleiner de standaardfout, hoe nauwkeuriger de schatting van de itemparameter. De gemiddelde itemparameters en standaardfouten zijn weergegeven in Tabel 1.6.


Tabel 1.6. Gemiddelde waarden itemparameters en standaardfouten voor gewogen en ongewogen steekproef.
	a		d1		d2		d3		d4
	M	M_SE	M	M_SE	M	M_SE	M	M_SE	M	M_SE
N = 3000	1.71	.05	5.84	.19	3.38	.09	1.13	.06	-2.37	.07
N = 9242	1.73	.03	5.94	.11	3.41	.05	1.19	.03	-2.41	.04

Uit Tabel 1.6. blijkt dat standaardfouten van de parameters een stuk kleiner zijn bij de grote, totale steekproef. In absolute zin is het verschil bij de eerste drempelwaarde (d1) het grootst, maar bij de derde drempelwaarde (d3) zien we dat de standaardfout bij de totale steekproef maar liefst de helft is van die bij de gewogen steekproef. Overigens valt op dat de gemiddelde waarden van de parameters zelf weinig verschillen tussen de steekproeven.

Uit bovenstaande analyse van de gemiddelde standaardfouten blijkt al dat bij de totale steekproef de itemparameters nauwkeuriger geschat worden dan bij de gewogen steekproef. Dit wordt nog duidelijker wanneer we kijken naar de maximale standaardfouten: voor de a-parameter was dit .05 (totaal) vs. .09 (gewogen), voor d1 .34 vs. 1.01, voor d2 .23 vs. .38, voor d3 .10 vs. .16 en voor d4 .10 vs. .17. Met name voor de d1 waarde is het verschil zeer groot; op basis van deze analyses hebben we besloten de eerste kalibratie te doen op de totale steekproef.

De invloed hiervan op de theta-schattingen hebben we bekeken door voor beide kalibraties de geschatte theta’s te vergelijken. In Tabel 1.7. zijn deze gemiddelde verschillen tussen de theta’s op basis van beide kalibraties weergegeven.

Tabel 1.7. Verschillen in theta-scores op basis van kalibratie op gewogen en ongewogen steekproeven.
	Min.	Max.	M	SD
Competitie	-.11	.30	.09	.02
Dominantie	-.14	.21	.12	.02
Status	-.05	.15	.06	.02
Zelfvertoon	-.19	.19	.08	.02
Contactbehoefte	-.09	.17	-.01	.02
Sociaal Ontspannen	-.08	.13	.01	.02
Zelfonthulling	-.07	.20	.03	.01
Vertrouwen	-.07	.23	.08	.02
Hartelijkheid	-.16	.11	.00	.03
Zorgzaamheid	-.20	.10	-.06	.03
Energie	-.13	.20	.02	.04
Zelfontwikkeling	-.10	.25	.10	.03
Volharding	-.16	.20	-.01	.03
Vernieuwing	-.12	.30	.07	.04
Originaliteit	-.03	.16	.05	.02
Onafhankelijkheid	-.06	.30	.13	.04
Ordelijkheid	-.23	.10	-.09	.03
Nauwkeurigheid	-.25	.12	-.09	.03
Regelmaat	-.19	.39	-.11	.02
Conformisme	-.21	.03	-.12	.02
Weloverwogen	-.12	.20	.00	.03
Zelfvertrouwen	-.19	.16	.01	.03
Positivisme	-.08	.15	.06	.02
Frustratietolerantie	-.25	.15	-.02	.02
Incasseringsvermogen	-.14	.14	-.03	.02
Gemiddelde			.01

Uit Tabel 1.7. blijkt dat de theta-waarden geschat op basis van de gehele steekproef en de gewogen steekproef nauwelijks van elkaar verschilden. Het gemiddelde verschil was .01, en het maximaal gevonden verschil was .30. Dus, de keuze om de itemparameterschattingen op basis van de ongewogen steekproef te nemen in verband met de grotere nauwkeurigheid (kleinere standaardfouten), heeft uiteindelijk weinig invloed gehad op de geschatte theta’s.

1.4.2. Keuze van modellen

1.4.2.1. Het itemrespons model: GPCM vs GRM

Er zijn verschillende IRT-modellen ontwikkeld voor Likert-achtige vragenlijsten, waarbij het GRM en het Generalized Partial Credit Model (GPCM; Muraki, 1992) de meest gehanteerde zijn. Het ene model is niet per definitie beter dan het andere, de twee modellen verschillen voornamelijk in de assumpties waar ze op gebaseerd zijn. Om te onderzoeken welk model in ons geval het beste zou zijn, zijn beide modellen toegepast op de WPV-N data, waarna de fit van de modellen en de nauwkeurigheid van de theta-schattingen op basis van beide modellen vergeleken zijn.

In Tabel 1.8. zijn de fitwaarden en betrouwbaarheden (gemiddeld over de 25 schalen) voor de modellen op basis van het GRM en GPCM weergegeven.

Tabel 1.8. Model fitwaarden en betrouwbaarheid GPCM en GRM.
	CFI	TLI	RMSEA	Gem. EB
GPCM	.834	.831	.072	.91
GRM	.867	.864	.065	.93

Hoewel de fitwaarden niet heel sterk van elkaar verschilden, zien we dat de waarden voor het GRM net wat beter waren dan voor het GPCM. Bovendien was de empirische betrouwbaarheid bij het GRM ook wat hoger: voor elke schaal gold dat de betrouwbaarheden allemaal .01 tot .03 hoger waren in het GRM. Ook zagen we dat de discriminatieparameters hoger waren in het GRM, wat aanduidt dat het GRM over het algemeen meer informatie levert dan het GPCM, wat de nauwkeurigheid van de metingen ten goede zal komen. Op basis van deze analyses werd duidelijk dat het GRM beter presteerde dan het GPCM; daarom hebben we voor de WPV Adaptief voor het GRM gekozen.

1.4.2.2. Keuze voor het factormodel

Naast de keuze tussen verschillende IRT-modellen, kan er, wanneer er eenmaal voor een variant gekozen is, natuurlijk voor verschillende factormodellen gekozen worden. In ons geval hebben we daarom twee modellen met elkaar vergeleken: een model waarbij de 25 schalen geschat werden samen met de correlaties tussen deze schalen, en een model met een zogenaamde two–tier structuur (Figuur 1.4.). In dit laatste model worden de 25 schalen geschat, evenals de hogere orde factoren Invloed, Sociabiliteit, Gedrevenheid, Structuur en Stabiliteit, en de correlaties tussen deze vijf factoren. In Tabel 1.9. zijn de fitwaarden van deze modellen weergegeven.

Figuur 1.4. Schematische weergave two-tier model voor twee van de vijf factoren.

apt-fig-1.4

Noot. Rechthoeken zijn items, ellipsen zijn latente trekken.

Uit Tabel 1.9. blijkt dat het model met 25 gecorreleerde schalen een betere fit geeft dan het two-tier model: het verschil in χ² waarden is significant, en de AIC en BIC waarden zijn lager (lagere waarden indiceren een betere fit). Op basis van deze analyses hebben we gekozen voor een model met 25 gecorreleerde schalen.

Tabel 1.9. Model fitwaarden van two-tier en oblique modellen.
	AIC	AICc	SABIC	BIC	logLik	Δχ²	Δdf	p
Two-tier	2017019	2021186	2021732	2027025	-1006843.4
Oblique	1868529	1872811	1873281	1878619	-932584.3	148518.2	14	0

1.4.2.3. Lokale onafhankelijkheid: analyse van residuen

Eén van de assumpties van IRT is lokale onafhankelijkheid; dit houdt in dat iedere samenhang tussen twee items volledig verklaard moet kunnen worden door de latente trek(ken) die deze items meten. Dus, de kans op een respons op een item (wat construct X meet) zou niet gerelateerd moeten zijn aan de kans op een respons op een ander item (van construct X) voor respondenten met dezelfde theta. In statistische termen betekent dit dat de itemresiduen ongecorreleerd zouden moeten zijn. Of dit het geval is hebben wij onderzocht bij de WPV Adaptief door voor elke itemcombinatie (in totaal 300) de residuen te berekenen (met behulp van de residuals functie in het mirt pakket (Chalmers, 2012) voor R; R Core Team, 2017). Deze residuen zijn gestandaardiseerd, en vervolgens te interpreteren als Cramer’s V-waarden met 4 vrijheidsgraden (het aantal antwoordcategorieën – 1). Deze waarden zijn vervolgens te kwalificeren als klein, gemiddeld en groot aan de hand van richtlijnen van Cohen (1988). In Tabel 1.10. is de indeling van de residuen in deze categorieën weergegeven.

Tabel 1.10. Cramer’s V waarden van residuen.
	<. 05	.05 – .15	.15 – .25	> .25
	klein	klein – gemiddeld	gemiddeld – groot	groot
Aantal items	0%	65%	34%	2%

De residuen zijn over het algemeen voldoende; de meeste bevinden zich in de categorie klein – gemiddeld. Analyses van de itemparen die hoge waarden lieten zien, toonden aan dat deze hoge waarden te verwachten waren. Zo werd de maximale waarde (.35) gevonden voor een item van Positivisme (“Voelt zich vaak moedeloos”) en Energie (“Heeft weinig energie”). Moedeloosheid en het hebben van weinig energie zullen vaak synoniem zijn, en zullen dus een hoge mate van overlap laten zien, wat niet helemaal ‘weg verklaard’ kan worden door de schalen Energie en Positivisme en hun correlatie.

Een ander voorbeeld is “Neemt in een groep beslissingen” (Dominantie) en “Stelt zich in gezelschap afwachtend op” (Sociaal ontspannen), met een residu van .26. In dit laatste voorbeeld zorgen de woorden ‘groep’ en ‘gezelschap’ waarschijnlijk voor de residuele correlatie tussen de items; de overeenkomst tussen deze woorden zal ervoor zorgen dat de items meer samenhangen dan verwacht. Het is algemeen bekend dat de bewoordingen in persoonlijkheidsvragenlijsten vaak voor residuele correlaties kunnen zorgen (Hopwood & Donnellan, 2010). Voor een deel is dit dus inherent aan de manier waarop persoonlijkheid via zelfrapportage vragenlijsten gemeten wordt.

Gebaseerd op onze analyses van de residuen en bovenstaande beschreven bevindingen, is geconcludeerd dat de items voldoende mate van lokale onafhankelijkheid laten zien. Alle items zijn daarom in de itempool behouden voor de eerste versie van de WPV Adaptief.

1.4.3. Itemselectie

Na elk gegeven antwoord moet het beste nieuwe item gezocht worden. Het beste item is bij ééndimensionale adaptief tests meestal het item dat de meeste informatie geeft op het interim theta-niveau. De discriminatie-parameter, a, van een item bepaalt hierbij hoe discriminerend, dus hoe informatief een item, is: hoe hoger de discriminatie-waarde, hoe meer informatie een item in principe levert. Echter, de hoeveelheid informatie die een item levert, is afhankelijk van de positie op de theta-schaal (dus hoog iemand scoort op een bepaalde trek). Dit komt naar voren in onderstaande Figuur 1.5., waar de iteminformatiefuncties zijn weergegeven van dezelfde twee items als in Figuur 1.2.:

Figuur 1.5. Iteminformatiefuncties van twee GRM-items van de schaal Competitie.

apt-fig-1.5

Duidelijk is dat het ene item (de groene lijn) over de gehele linie genomen meer informatie levert dan het andere (de rode lijn); de a-parameter van het rode item is dus hoger dan die van het groene item. Bij de meeste waarden op Competitie zou het groene item dus het beste item zijn om te selecteren in de adaptieve test. Echter, we zien dat bij een zeer hoge mate van Competitie (bijvoorbeeld bij een score van 4) het rode item meer informatie levert dan het rode, en dus voor personen met die score juist het beste item zou zijn. Dit basisprincipe, het tonen van het item dat voor de gegeven theta de meeste informatie oplevert, vormt de basis van de itemselectie bij de WPV Adaptief.

Het bovenstaande is echter van toepassing bij ééndimensionale tests. Bij multidimensionale tests is de uitkomst van de iteminformatiefunctie niet één waarde, maar een matrix (in ons geval een 25×25 matrix), en afhankelijk van alle 25 theta’s tegelijk. Bovendien wordt in het Bayesiaanse multidimensionale model dat wij hanteren (Segall, 1996) aan de informatiematrix ook nog de prior informatie toegevoegd, door deze prior bij de informatiematrix op te tellen. Deze prior is de inverse van de correlatiematrix tussen de schalen van de test of vragenlijst. De informatiewaarde van een item wordt vervolgens bepaald door de determinant (vandaar de naam D-optimaliteit van deze methode) van de uiteindelijke opgetelde matrix te nemen. Dit levert voor ieder item één getal op, waarbij een hogere waarde meer informatie betekent; in de WPV Adaptief wordt het item met de hoogste waarde getoond.

Net als bij ééndimensionale adaptieve tests zijn er verschillende itemselectie methoden te onderscheiden bij multidimensionale adaptieve tests. Bij de WPV Adaptief hebben we zoals gezegd gekozen voor de D-optimaliteit methode. Deze keuze is deels gebaseerd op eerdere bevindingen bij andere multidimensionale tests uit de literatuur; de D-optimaliteit methode levert een nauwkeurige schatting van de theta’s op met relatief weinig items (Mulder & Van der Linden, 2009; Yao, 2012). Daarbij bleek uit eerste simulaties dat deze methode ook bij de WPV Adaptief nauwkeurige schattingen opleverde.

Aangezien de WPV Adaptief in totaal 25 schalen meet, moet er in het itemselectie-algoritme voor gezorgd worden dat alle schalen aan bod komen. Gebaseerd op de literatuur (Yao, 2012) is er daarom een weging in het algoritme opgenomen, waarbij items van schalen waar nog weinig informatie over is (dus die nog een hoge SEM hebben) een grotere weging krijgen en dus een grotere kans hebben om getoond te worden.

1.4.4. Stopcriterium

De meest gebruikte stopregel in adaptieve tests is stoppen wanneer de mate van precisie (uitgedrukt in de SEM-waarde van de geschatte latente trek) een bepaalde drempelwaarde bereikt heeft. De test stopt dan wanneer SEM < x is, waarbij x een van te voren bepaald criterium, dus mate van precisie, is. We hebben bij de WPV Adaptief in eerste instantie gekozen voor een waarde van 0.44, wat theoretisch overeenkomt met een betrouwbaarheid van ongeveer .80 (1-0.194 = 0.80; Thissen, 2000). Voor tests die gebruikt worden bij belangrijke beslissingen – zoals personeelsselectie waar de WPV Adaptief mede voor ontwikkeld is – is dit voldoende op schaalniveau (> .80; Cotan, 2009). Een lagere SEM (dus hogere mate van betrouwbaarheid) is ook overwogen, echter, we zagen in simulatiestudies dat met een stopcriterium van .44 de betrouwbaarheden van de schalen hoger (dus de SEM’s lager) uitvielen dan gedacht (zie sectie 2.2). Dit komt door het multidimensionale karakter van de vragenlijst: door middel van onderlinge correlaties geeft een item van de schaal Contactbehoefte bijvoorbeeld ook informatie over de schaal Zelfonthulling. Hierdoor zal wanneer een item van Contactbehoefte getoond wordt ook de SEM van Zelfonthulling naar beneden gaan.

In eerste simulaties viel op dat sommige personen erg veel items nodig hadden, terwijl hun metingen in absolute zin niet nauwkeuriger werden door de extra aangeboden items. Bij de WPV Adaptief streven we naar een zo nauwkeurig mogelijke vragenlijst, maar ook naar een zo kort mogelijke afnametijd om de beleving van de kandidaat te optimaliseren. In de literatuur zijn verschillende oplossingen voorgedragen voor dit probleem; een simpele methode is bijvoorbeeld de adaptieve test te stoppen na een vast aantal items. Een andere, meer complexe methode, is te kijken naar de reductie in SEM, en te stoppen met het aanbieden van items van een bepaalde trek wanneer de reductie in SEM te klein is (Yao, 2013). In simulatiestudies zijn verschillende oplossingen voor dit probleem onderzocht bij de WPV Adaptief. Uiteindelijk bleken bovenstaande twee oplossingen niet gewenst, omdat er of teveel aan nauwkeurigheid ingeboet werd, of omdat het algoritme te complex werd voor afname in de praktijk. Uit de studies bleek dat een maximum van 6 items per latente trek de optimale balans van nauwkeurigheid en afnametijd gaf. Uiteindelijk is er dus voor gekozen om de adaptieve test te stoppen wanneer de SEM < 0.44 is voor alle schalen, of te stoppen wanneer voor iedere schaal al 6 items aangeboden zijn. Gezien de WPV Adaptief 25 schalen meet betekent dit in de praktijk dat het maximale aantal items (25 x 6 =) 150 is.

2.1. Validiteit

In Tabel 1.11 zijn de correlaties weergegeven van de theta’s uit de adaptieve test en die van de volledige versie van de test, gescoord met MIRT (kolom 2). Ook zijn de correlaties tussen de adaptief verkregen theta’s en de schaalscores (dus berekend volgens klassieke testtheorie) van de volledig afgenomen WPV-N weergegeven (kolom 3). Ter vergelijking zijn in de laatste kolom de correlaties weergegeven tussen de klassiek gescoorde volledige WPV-N en de volledige WPV-N gescoord door middel van MIRT.

Tabel 1.11. Correlaties schalen en factoren WPV-A V1, volledige WPV-N gescoord met MIRT en volledige WPV-N klassiek gescoord.
	Adap vs Full MIRT	Adap vs Full CTT	Full MIRT vs Full CTT
Invloed	0.98	0.96	0.99
Competitie	0.97	0.92	0.97
Dominantie	0.97	0.93	0.98
Status	0.96	0.91	0.98
Zelfvertoon	0.98	0.95	0.99
Sociabiliteit	0.99	0.96	0.99
Contactbehoefte	0.98	0.93	0.98
Sociaal ontspannen	0.97	0.94	0.98
Zelfonthulling	0.97	0.93	0.99
Vertrouwen	0.97	0.94	0.98
Hartelijkheid	0.97	0.91	0.97
Zorgzaamheid	0.95	0.93	0.98
Gedrevenheid	0.99	0.96	0.98
Energie	0.97	0.91	0.96
Zelfontwikkeling	0.98	0.90	0.95
Volharding	0.97	0.91	0.96
Vernieuwing	0.98	0.94	0.97
Originaliteit	0.97	0.94	0.98
Onafhankelijkheid	0.97	0.91	0.97
Structuur	0.98	0.96	0.98
Ordelijkheid	0.97	0.92	0.97
Nauwkeurigheid	0.96	0.91	0.97
Regelmaat	0.96	0.93	0.99
Conformisme	0.97	0.93	0.98
Weloverwogen	0.97	0.95	0.98
Stabiliteit	0.98	0.96	0.99
Zelfvertrouwen	0.97	0.92	0.98
Positivisme	0.96	0.92	0.97
Frustratietolerantie	0.97	0.90	0.97
Incasseringsvermogen	0.96	0.93	0.99
Gemiddelde schalen	0.97	0.92	0.98
Gemiddelde factoren	0.98	0.96	0.98

Opvallend in Tabel 1.11. is dat alle correlaties zeer hoog zijn (> .90). De theta-scores op basis van de adaptieve test zijn vrijwel hetzelfde als de theta-scores verkregen op basis van de volledige test (gemiddelde correlatie van .97 voor de schalen en .98 voor de factoren). De rangordering van personen is nagenoeg hetzelfde, zelfs in vergelijking met de volledige WPVN, maar dan klassiek gescoord door middel van somscores van de schalen (gemiddelde correlatie van .92 voor de schalen en .96 voor de factoren). Dit is opvallend, omdat er in de adaptieve test gemiddeld slechts 92 items nodig waren om de theta’s te berekenen, vergeleken met 276 items van de volledige WPV-N (zie sectie 2.3). Dit is een reductie van testtijd van maar liefst twee derde, terwijl dit dus op de meting van de theta’s weinig invloed heeft gehad. Interessant is om tot slot op te merken dat de twee scoremethoden (klassieke testtheorie vs. MIRT) bij de volledige WPV-N nagenoeg dezelfde theta’s opleveren (laatste kolom).

Correlaties zeggen iets over de relatieve verhoudingen tussen variabelen, maar niet over absolute verschillen tussen de scores. Daarom hebben we in Tabel 1.12 de gemiddelde verschillen en de root mean square error (RMSE) weergegeven.

Tabel 1.12. Verschillen in scores schalen en factoren adaptieve en volledige WPV-N gescoord met MIRT.
	Adap vs Full MIRT
	Bias	RMSE
Invloed	0.00	0.18
Competitie	0.00	0.27
Dominantie	0.00	0.30
Status	0.00	0.30
Zelfvertoon	0.00	0.26
Sociabiliteit	0.01	0.15
Contactbehoefte	0.00	0.26
Sociaal ontspannen	-0.01	0.29
Zelfonthulling	-0.01	0.29
Vertrouwen	-0.01	0.27
Hartelijkheid	-0.01	0.30
Zorgzaamheid	0.00	0.36
Gedrevenheid	0.01	0.15
Energie	0.00	0.31
Zelfontwikkeling	0.00	0.24
Volharding	-0.01	0.29
Vernieuwing	0.00	0.22
Originaliteit	-0.01	0.29
Onafhankelijkheid	-0.01	0.25
Structuur	0.00	0.16
Ordelijkheid	-0.01	0.28
Nauwkeurigheid	0.00	0.31
Regelmaat	0.00	0.33
Conformisme	0.00	0.27
Weloverwogen	0.00	0.28
Stabiliteit	0.01	0.19
Zelfvertrouwen	-0.01	0.31
Positivisme	0.00	0.32
Frustratietolerantie	-0.01	0.30
Incasseringsvermogen	0.00	0.31
Gemiddelde schalen	0.00	0.29
Gemiddelde factoren	0.01	0.17

Uit zowel de gemiddelde verschillen als de RMSE-waarden blijkt dat de verschillen tussen de volledige WPV-N en de adaptieve versie te verwaarlozen zijn. Dit betekent dat een persoon ongeveer dezelfde score zal behalen, ongeacht welke versie van de test ingevuld is.

2.2. Betrouwbaarheid

De resultaten zoals weergegeven in Tabel 1.11. en 1.12. geven al een indicatie dat met de adaptieve test de scores van de volledige lineaire test goed benaderd kunnen worden. Dit zegt iets over de validiteit van de metingen, maar nog niet direct iets over de betrouwbaarheid: dus hoe nauwkeurig de metingen precies gedaan worden met de adaptieve vragenlijst. Om hier uitspraken over te doen zijn de betrouwbaarheden van de adaptieve en volledige vragenlijst weergegeven: bij de adaptieve test en de volledige vragenlijst gescoord met MIRT zijn dit de empirische betrouwbaarheden (Du Toit, 2003) en bij de klassiek gescoorde vragenlijst zijn dit Cronbach’s alfa waarden voor de schalen, en Cronbach’s alfa (op basis van de schalen) en generaliseerbaarheden voor de factoren.

Tabel 1.13. Betrouwbaarheden adaptieve WPV-N, volledige WPV-N gescoord met MIRT en volledige WPV-N klassiek gescoord.
	Adap	Full	CTT
Invloed	0.95	0.97	.80 / .96
Competitie	0.87	0.93	0.89
Dominantie	0.89	0.94	0.92
Status	0.87	0.93	0.91
Zelfvertoon	0.88	0.93	0.91
Sociabiliteit	0.96	0.98	.82 / .96
Contactbehoefte	0.88	0.92	0.89
Sociaal ontspannen	0.89	0.94	0.92
Zelfonthulling	0.87	0.93	0.91
Vertrouwen	0.86	0.92	0.90
Hartelijkheid	0.88	0.93	0.90
Zorgzaamheid	0.86	0.95	0.94
Gedrevenheid	0.96	0.98	.79 / .96
Energie	0.89	0.93	0.89
Zelfontwikkeling	0.87	0.90	0.84
Volharding	0.86	0.91	0.89
Vernieuwing	0.89	0.91	0.89
Originaliteit	0.88	0.94	0.94
Onafhankelijkheid	0.84	0.88	0.85
Structuur	0.94	0.97	.70 / .94
Ordelijkheid	0.86	0.91	0.89
Nauwkeurigheid	0.87	0.93	0.91
Regelmaat	0.87	0.94	0.92
Conformisme	0.86	0.92	0.90
Weloverwogen	0.85	0.92	0.90
Stabiliteit	0.96	0.98	.84 / .96
Zelfvertrouwen	0.90	0.95	0.93
Positivisme	0.88	0.93	0.92
Frustratietolerantie	0.88	0.94	0.91
Incasseringsvermogen	0.88	0.93	0.91
M schalen	0.87	0.93	0.90
M factoren	0.95	0.97	.79 / .96

De conclusies op basis van Tabel 1.11. gelden ook voor Tabel 1.13.: hoewel de adaptieve vragenlijst iets aan betrouwbaarheid inlevert, is dit in vergelijking met de volledige versies bijna te verwaarlozen. Zeker als er rekening wordt gehouden met de zeer korte afnametijd, in vergelijking met de volledige test. Dit betekent dat met de adaptieve versie net zo nauwkeurig gemeten kan worden als met de volledige versie van de WPV-N.

2.3. Kenmerken WPV Adaptief V1

Na de simulatie zijn ook een aantal kenmerken van de WPV Adaptief onderzocht. Deze worden hieronder besproken.

2.3.1. Hoeveelheid items en afnametijd

Bij de simulatie waren er gemiddeld 92 items (SD = 11.0) nodig om tot een nauwkeurige schatting van de 25 schalen te komen, met een minimum van 64 en een maximum van 147. Vergeleken met de WPV-N is dit een reductie van 47% tot 77%, met een gemiddelde reductie van 67%. Qua afnametijd betekent dit dat de WPV Adaptief ongeveer 10 tot 25 minuten zal duren, vergeleken met 30 tot 40 minuten bij de WPV-N.

Ook bleek dat bij iedere persoon elke schaal minimaal met twee items bevraagd werd. Over alle gesimuleerde personen heen bleek dat er voor de schaal Competitie gemiddeld slechts 2 items per afname nodig waren, terwijl voor Onafhankelijkheid, Conformisme, Weloverwogen, en Positivisme er gemiddeld 5 items bevraagd werden.

2.3.2. Itemgebruik

Hoewel itembekendheid bij persoonlijkheidsvragenlijsten minder problematisch is dan bij intelligentietests, is het wel informatief om te kijken naar het gebruik van de items uit de itembank. Als er slechts een klein deel van de items gebruikt zou worden, dan zou dit kunnen betekenen dat er te weinig informatieve items in de itembank staan.

Uit analyses bleek dat er een goede spreiding is qua items die getoond worden in de WPV Adaptief. In de simulatie waren er 12 items (4% van de itembank) die niet gebruikt werden, en 6 items (2%) die aan iedere kandidaat getoond werden. Deze verdeling wat betreft gebruik van de itembank is weergegeven in Figuur 1.6.

Figuur 1.6. Itemgebruik itembank WPV Adaptief.

apt-fig-1.6

Verreweg de meeste items (45%) bevinden zich in de categorie van 1-10% getoond. Ongeveer 14% van de items bleek bij 91-99% van de kandidaten getoond te worden.

3. Normen Adaptieve Persoonlijkheidsvragenlijst

3.1. Eerste Adviesnormgroep

Bij de gewogen steekproef (zie pagina 13) is de eerste versie van de WPV Adaptief gesimuleerd, waarbij de adaptieve test ingericht werd met de specificaties zoals hiervoor beschreven: de startwaarden van de theta’s werden op 0 gezet, itemselectie op basis van D-optimaliteit, een stopcriterium van SEM < .44, gecombineerd met een limiet van maximaal 6 items per schaal.

Nadat iedere persoon in de gewogen steekproef de WPV Adaptief had doorlopen, zijn de theta-scores genormeerd met de continue fit-methode (zie Van der Woud, 2008). Voor een uitgebreide uitleg over hoe van ruwe scores gekomen wordt tot stenscores verwijzen we naar de handleiding van de WPV Compact (Ixly, 2012, p. 50-55). De kenmerken van de ruwe scores en de stenscores (weergegeven in de rapportage van de WPV Adaptief) zijn beschreven in Tabel 1.14.

Tabel 1.14. Kenmerken van de ruwe scores en stenscores Adaptieve WPVN, normgroep (N = 3000).
	Ruwe scores						Latente (sten)scores
	Min.	Max.	M	SD	S	P	Min.	Max.	M	SD	S	P
Competitie	-3.99	3.85	0.01	1.12	0.11	0.15	.15	10.59	5.50	1.87	-.01	-.12
Dominantie	-4.25	4.48	0.01	1.27	-0.08	0.04	-.30	11.58	5.50	1.89	.01	-.03
Status	-3.76	3.88	0.00	1.16	-0.07	0.09	.34	11.32	5.50	1.87	.01	-.12
Zelfvertoon	-3.90	4.78	0.04	1.21	-0.11	0.30^*	.69	10.98	5.50	1.88	.02	-.15
Contactbehoefte	-4.58	3.61	0.00	1.20	-0.14^**	0.33^*	.62	10.35	5.50	1.87	-.02	-.18
Sociaal Ontspannen	-4.96	4.08	-0.01	1.26	-0.09	0.08	.34	10.92	5.50	1.88	.00	-.15
Zelfonthulling	-3.92	3.72	0.01	1.13	-0.12^*	0.17	.36	10.81	5.50	1.86	.02	-.11
Vertrouwen	-4.44	3.72	0.01	1.12	-0.17^**	0.22	.71	11.14	5.50	1.86	.02	-.07
Hartelijkheid	-4.40	4.02	0.00	1.23	0.07	-0.01	.00	10.35	5.50	1.88	-.02	-.14
Zorgzaamheid	-4.69	3.70	0.00	1.16	0.15^**	0.02	.40	9.58	5.50	1.86	-.08	-.12
Energie	-4.48	4.69	-0.03	1.27	0.03	0.10	.18	10.41	5.50	1.88	-.02	-.16
Zelfontwikkeling	-4.36	4.20	-0.04	1.17	0.02	-0.13	-.40	10.33	5.50	1.86	-.05	-.08
Volharding	-4.08	3.78	-0.07	1.15	0.05	-0.03	1.07	11.26	5.50	1.86	.02	.11
Vernieuwing	-4.80	4.24	-0.02	1.26	-0.11	0.23	.33	10.76	5.50	1.88	-.01	-.15
Originaliteit	-3.91	3.09	-0.02	1.18	0.02	-0.26^*	-.51	10.16	5.50	1.88	-.02	-.16
Onafhankelijkheid	-3.72	3.65	-0.01	1.03	0.27^**	0.09	1.03	11.42	5.50	1.83	.00	.12
Ordelijkheid	-3.83	2.89	-0.07	1.10	-0.05	-0.10	-.20	10.14	5.50	1.85	-.03	-.18
Nauwkeurigheid	-4.10	3.06	-0.06	1.10	-0.04	-0.03	.22	9.86	5.50	1.86	-.04	-.22
Regelmaat	-4.07	3.82	-0.02	1.13	0.11	0.09	.18	10.33	5.50	1.87	-.01	-.14
Conformisme	-3.91	3.24	-0.03	1.12	0.05	0.19	.78	11.54	5.50	1.85	.03	-.10
Weloverwogen	-4.27	3.30	-0.04	1.07	-0.04	0.40^*	.84	10.08	5.50	1.85	-.02	-.17
Zelfvertrouwen	-4.41	4.15	-0.01	1.24	-0.22^**	0.19	.67	11.66	5.50	1.89	.04	-.09
Positivisme	-4.95	3.95	-0.02	1.22	-0.14^**	0.23^*	.45	11.47	5.50	1.87	.01	-.10
Frustratietolerantie	-4.35	3.32	0.00	1.17	-0.15^**	0.13	.30	11.26	5.50	1.87	.01	-.12
Incasseringsvermogen	-4.63	3.87	0.01	1.19	-0.16^**	0.42^*	.64	10.57	5.50	1.87	.02	-.13
Noot. * > 2.58, ** > 3, S = Scheefheid, P = Platheid

Met een asterisk (*) is aangegeven wanneer de Z-score (verkregen door de waardes door hun standaardfout te delen) van de scheefheid en kurtosis (platheid) de grens ± 2.58 overstijgt. Deze drempelwaarde wordt vaak gehanteerd als indicatie dat een verdeling van de theoretische normale verdeling afwijkt. Er zijn 9 schalen waarbij de ruwe scores een wat schevere verdeling dan verwacht laten zien, en 6 schalen waar de verdelingen een wat hogere piek laten zien dan verwacht. Echter, de vuistregel van ||Z||>2.58 wordt door sommigen als erg streng gekwalificeerd, en zij hanteren daarom liberalere regels waarbij absolute waarden van scheefheid > 3 en kurtosis > 8 (of zelf >10) gelden als een indicatie voor een afwijking van de normale verdeling (Kline, 2005). Gebaseerd op deze regels (zie Tabel 1.14.) kunnen we over het algemeen concluderen dat de ruwe scores van WPV Adaptief redelijk normaal verdeeld zijn in de normgroep.

3.2. Onderzoek naar differential item functioning (DIF) tussen Advies- en Selectiegroep

De WPV wordt ingezet in zowel advies- als selectiesituaties. Bij de ontwikkeling van de WPV Adaptief was dan ook het doel dat deze bruikbaar zou zijn voor beide testsituaties. Ten behoeve hiervan zijn twee belangrijke stappen ondernomen: eerst is onderzocht of de items hetzelfde functioneren wanneer kandidaten de vragenlijst in advies- of in selectiesituaties maken, om vervolgens een representatieve selectienormgroep te creëren. De onderzoeken die hiervoor gedaan zijn worden hieronder besproken.

Allereerst zijn de gegevens en scores opgehaald van kandidaten die de WPV-N daadwerkelijk in selectiesituaties hadden ingevuld. In totaal hadden we van 9110 personen gegevens over het geslacht, leeftijd en opleidingsniveau. De informatie wat betreft opleidingsniveau is weergegeven in Tabel 1.15.

Tabel 1.15. Verdeling opleidingsniveaus in ongewogen kalibratiesteekproef – Selectie.
	Freq.	%	Freq.	%	Categorie
Lagere school/basisonderwijs	8	0.1			1
VMBO globaal	90	1.0			1
VMBO: basisberoepsgerichte leerweg (BB)	12	0.1			1
VMBO: Gemengde leerweg (GL)	5	0.1			1
VMBO: kaderberoepsgerichte leerweg (KB)	8	0.1			1
VMBO: Theoretische leerweg (TL)	32	0.4			1
VMBO Totaal			147	1.6
HAVO	191	2.1			2
VWO	121	1.3			2
MBO globaal	1327	14.6			2
MBO 1: Assistent beroepsbeoefenaar	7	0.1			2
MBO 2: Medewerker	36	0.4			2
MBO 3: Zelfstandig medewerker	85	0.9			2
MBO 4: Middenkaderfunctionaris	394	4.3			2
MBO Totaal			1849	20.3
HBO globaal	3103	34.1			3
HBO: Oude stijl	266	2.9			3
HBO: Bachelor	694	7.6			3
HBO: Master	50	0.5			3
HBO Totaal			4113	45.1
WO globaal	1954	21.4			3
WO: Bachelor	85	0.9			3
WO: Master	477	5.2			3
WO: Doctorandus	145	1.6			3
WO: Doctor	20	0.2			3
WO Totaal			2681	29.4
Totaal	9110	100

Uiteindelijk zijn deze groepen net als bij de Adviesgroep gecombineerd in drie categorieën die zo goed mogelijk de categorieën van het CBS weerspiegelen. Deze categorieën zijn weergegeven in de uiterst rechtse kolom. De verdeling wat betreft opleidingsniveaus wat betreft deze drie categorieën is weergegeven in Tabel 1.16.

Tabel 1.16. Verdeling opleidingsniveaus (CBS) ongewogen kalibratiesteekproef – Selectie.
	Freq.	%
Laag	155	1.7
Midden	2161	23.7
Hoog	6794	74.6
Totaal	9110	100

De verdeling wat betreft geslacht en leeftijd in de ongewogen Selectiesteekproef is weergegeven in Tabel 1.17.

Tabel 1.17. Verdeling geslacht en leeftijd ongewogen kalibratiesteekproef – Selectie.
	Freq.	%
Geslacht
Man	4847	53.2
Vrouw	4263	46.8

Leeftijd
< 25	1160	12.7
25 – 35	3009	33.0
35 – 45	2265	24.9
45 – 55	2034	22.3
> 55	642	7.0

De representativiteit van deze steekproef wat betreft geslacht, leeftijd en opleidingsniveau is vergeleken met de verdeling van deze drie achtergrondkenmerken in de Nederlandse beroepsbevolking in 2017 volgens de gegevens van het CBS. Uit de Chi²-toetsen bleek dat er geen verschil in verdeling wat betreft geslacht was (χ²(1) = 0.43, p = .51), een gemiddeld tot groot verschil wat betreft leeftijd (χ²(4) = 1385.92, p < .001, Cramer’s V = .20) en een groot verschil wat betreft opleidingsniveau (χ²(2) = 6056.91, p < .001, Cramer’s V = .58). Er bevonden zich in onze steekproef relatief meer jongere mensen (25 – 35 jaar), en minder mensen met een hogere leeftijd (35 – 45 jaar). In onze steekproef bevonden zich relatief veel hoger opgeleiden en minder middelbaar en lager opgeleiden.

Wanneer scores van kandidaten verkregen worden via vragenlijsten is het belangrijk dat de vragenlijsten rechtvaardig (fair) zijn: rechtvaardig betekent dat geen onterechte vertekening (bias) ontstaat bij individuele uitkomsten en dat alleen reële verschillen tussen individuen zichtbaar worden in relatie tot de beroepspopulatie. Eén mogelijke veroorzaker van bias is de testsituatie waarin de kandidaat de vragenlijst maakt; het is bekend dat sollicitanten vaak wat sociaal wenselijker antwoorden om zo hun kans op de baan te vergroten. Hoewel we weten dat dit leidt tot (gemiddelde) verschillen tussen scores verkregen in selectiesituaties en andere situaties (bijv. onderzoek of adviessituaties; zie Birkeland, Manson, Kisamore, Brannick, & Smith, 2006), is niet geheel duidelijk in de literatuur wat het effect van de testsituatie op itembias is (zie bijv. O’Brien & LaHuis, 2011; Robie, Zickar, & Schmit, 2001; Stark, Chernyshenko, Chan, Lee, & Drasgow, 2001; Stark, Chernyshenko, & Drasgow, 2004).

Itembias houdt in dat personen uit de ene groep (bijvoorbeeld sollicitanten) op een andere manier reageren op een item of een item anders interpreteren dan een andere groep (bijvoorbeeld personen die een vragenlijst maken voor loopbaanontwikkeling). Om dit te onderzoeken hebben we een aantal DIF (differential item functioning, zie bijvoorbeeld Zumbo, 1999) analyses uitgevoerd: deze analyses toetsen de hypothese dat de scores op items tussen twee personen uit verschillende groepen niet significant van elkaar verschillen, wanneer de (latente) score op het construct dat dit item meet constant gehouden wordt. Met andere woorden, twee personen uit verschillende groepen (bijvoorbeeld een sollicitant en een loopbaan kandidaat) met dezelfde ‘ware’ mate van Contactbehoefte moeten dezelfde kans hebben op een bepaald gegeven antwoord (bijvoorbeeld ‘helemaal eens’).

3.2.1. DIF op basis van DFIT

De eerste methode die we gehanteerd hebben is de DFIT-methode (Raju, van der Linden, & Fleer, 1995). In deze methode worden de ‘ware’ scores op basis van itemparameters gekalibreerd op de referentiegroep (Advies) vergeleken met geschatte scores op basis van itemparameters gekalibreerd op de focale groep (Selectie). Hiervoor worden per item de volgende stappen ondernomen:

Voor de focale groep worden de itemparameters geschat en vervolgens de theta-scores berekend
Voor de referentiegroep worden de itemparameters geschat
Vervolgens worden voor de theta’s verkregen bij (1) de voorspelde waarde op een item berekend op basis van de itemparameters verkregen bij (1) en voor de itemparameters verkregen bij (2)
Vervolgens wordt het gemiddelde genomen van het gekwadrateerde verschil tussen de voorspelde waarden verkregen onder (3). Dit is de NCDIF-statistiek (Raju et al., 1995).

Wanneer itemkalibraties op twee verschillende steekproeven zijn gebaseerd, dan dienen de itemparameters op dezelfde schaal gezet te worden door middel van linking. In lijn met eerdere onderzoeken (O’Brien & LaHuis, 2011; Raju et al., 1995; Robie et al., 2001) hebben we de adviesparameters gelinkt aan de parameters gekalibreerd op basis van de Selectiegroep. Dit is gedaan volgens de multidimensionale uitbreiding van de methode van Haebara (1980), met behulp van het plink pakket (Weeks, 2010) in R (R Core Team, 2017).

3.2.1.1. Resultaten DIF op basis van DFIT

Gezien de grootte van onze steekproeven hebben we niet gekeken naar de significantieniveaus[1] van de NCDIF-waarden maar naar de effectgrootten (ESSD; zie Meade, 2010); deze ESSD-waarden kunnen geïnterpreteerd worden als Cohen’s d-waarden. De gevonden effectgrootten en de interpretatie hierbij is weergegeven in Tabel 1.18.

Tabel 1.18. Gevonden ESSD-waarden bij items van de WPV Adaptief.
	Gemiddeld-groot	Klein-gemiddeld	Klein	Klein-gemiddeld	Gemiddeld-groot
	>-0.80 <-0.50	>-0.50 <-0.20	>-0.20 <0.20	>0.20 <0.50	>0.50 <0.80
Aantal items	0	5	192	73	6
%	0	1.8	69.6	26.4	2.2

Uit de analyses bleek dat de meerderheid van de items een geringe mate van DIF vertoonden. Het feit dat de meeste waarden positief zijn, komt overeen met de verwachting dat bij een gelijke ‘ware’ score op een bepaalde trek, personen in een selectiesituatie een hogere kans hebben het eens te zijn met een antwoord omdat ze overal ‘een schepje bovenop doen’. Opvallend was echter wel dat bij iedere schaal er zowel positieve als negatieve DIF plaatsvond, dit betekent dat het niet altijd het geval was dat bij een gelijke score op een bepaalde trek de kans op een positief antwoord altijd hoger was bij de Selectiegroep. Sollicitanten lijken dus niet ongeacht het item een hogere kans op een positief antwoord te hebben.

Slechts 2.2% van de items vertoonden een gemiddeld tot grote mate van DIF. Om te onderzoeken in hoeverre de items die de meeste DIF lieten zien getoond werden in de WPV Adaptief, is gekeken naar de 20 items met de hoogste absolute ESSD-waarden. Hieruit bleek dat deze items gemiddeld in slechts 1.6% van de gevallen aan een kandidaat getoond werden (SD = 2.2, Min. = .01, Max. = 8.3). Hieruit blijkt dat het effect van DIF in de praktijk bij de WPV Adaptief waarschijnlijk weinig invloed op de scores zal hebben.

3.2.1.2. Resultaten DTF op basis van DFIT

Ook op schaalniveau zijn de ESSD-waarden berekend (zie Tabel 1.19.). Afgaande op de richtlijnen van Cohen (1988) zien we dat de meeste schalen een geringe mate van DTF vertonen, met iets grotere effecten voor Positivisme en Frustratietolerantie (hoewel deze nog steeds als relatief klein beschouwd kunnen worden). De schalen van de WPV Adaptief lijken zich dus niet anders te gedragen in selectiesituaties in vergelijking met adviessituaties.

Tabel 1.19. Gevonden ESSD-waarden bij de schalen van de WPV Adaptief.
	ESSD
Competitie	0.00
Dominantie	-0.05
Status	0.04
Zelfvertoon	-0.03
Contactbehoefte	-0.02
Sociaal ontspannen	0.16
Zelfonthulling	0.04
Vertrouwen	0.08
Hartelijkheid	0.19
Zorgzaamheid	0.12
Energie	0.03
Zelfontwikkeling	0.02
Volharding	0.04
Vernieuwing	0.07
Originaliteit	0.13
Onafhankelijkheid	0.06
Ordelijkheid	0.07
Nauwkeurigheid	0.00
Regelmaat	-0.02
Conformisme	-0.12
Weloverwogen	0.04
Zelfvertrouwen	0.07
Positivisme	0.31
Frustratietolerantie	0.24
Incasseringsvermogen	0.06

3.2.2. Ordinale logistische regressie (OLR)

Omdat de statistische power van de verschillende methoden om DIF te detecteren verschilt, wordt aangeraden om meerdere methoden van onderzoek te gebruiken (Wood, 2011). We hebben daarom ook DIF en DTF onderzocht door middel van ordinale logistische regressie (OLR).

Hiervoor hebben we het hiërarchische model van Zumbo (1999) gebruikt:

Model 1: Eerst wordt een ordinale logistische regressie uitgevoerd met het item als de afhankelijke variabele en de totaalscore (theta) op het construct dat door dit item gemeten wordt als onafhankelijke variabele.

Model 2: Vervolgens wordt de groepsvariabele als onafhankelijke variabele ingevoerd (in ons geval Advies/Selectie).

Model 3: Vervolgens wordt de interactie tussen de totaalscore en de groepsvariabele als onafhankelijke variabele ingevoerd.

Er zijn twee voorwaarden die bepalen wanneer we kunnen spreken van substantiële DIF. Allereerst kan de fit van deze modellen aan de hand van hun χ² waarden vergeleken worden. Als de p-waarde van het verschil in χ² waarden van Model 3 en Model 1 (met 2 vrijheidsgraden) kleiner is dan 0.01 (een α van 1% is hier nodig, omdat meerdere hypotheses getoetst worden; Zumbo, 1999), dan is Model 3 dus significant beter dan Model 1 en kan er sprake zijn van DIF.

In het voorgaande wordt aangegeven dat er ‘sprake kan zijn van DIF’: onder invloed van bijvoorbeeld de steekproefgrootte, relatieve grootte van de focale- en referentiegroep en de kenmerken van de items kan de χ²-waarde significant worden (Lei et al., 2006; Swaminathan & Rogers, 1990; Zumbo, 1999). De tweede voorwaarde is daarom dat er aanzienlijke effectgrootten moeten zijn voordat er sprake kan zijn van substantiële DIF (Kirk, 1996; Zumbo, 1999; Zumbo & Hubley, 1998). Hiervoor wordt het verschil in verklaarde variantie, ΔR², tussen de verschillende modellen gebruikt. Jodoin en Gierl (2001) hanteren de categorieën: 0 – .035 als verwaarloosbaar, .035 – .07 als matig en >.07 als sterk. In het huidige onderzoek hanteren we deze vuistregel. Alleen wanneer aan de beide voorwaarden (significantie en een substantiële effectgrootte) voldaan wordt dan kunnen we spreken van substantiële DIF.

Bovenstaande test met 2 vrijheidsgraden kan gezien worden als een omnibus test voor zowel uniforme als non-uniforme DIF. Een manier om vervolgens inzicht te krijgen in de mate van uniforme- en non-uniforme DIF is door de R²-waarden van Model 2 en Model 3 te vergelijken. Het verschil in R²-waarden tussen Model 1 en Model 3 is namelijk additief (bijvoorbeeld ΔR²_M3-M1 = .10): de ΔR² tussen Model 1 en Model 2 is representatief voor uniforme DIF (bijvoorbeeld ΔR²_M2-M1 = .08), de ΔR² tussen Model 3 en Model 2 is representatief voor non-uniforme DIF (bijvoorbeeld ΔR²_M3-M2 = .02).

Het effect van DIF op schaalniveau (DTF) kan ook onderzocht worden door:

voor ieder item de voorspelde score te berekenen op basis van het geschatte logistische model
voor iedere schaal de voorspelde schaalscore te berekenen door de scores verkregen onder (1) per schaal te sommeren en
deze voorspelde schaalscores in een grafiek af te zetten tegen de theta-scores, met aparte lijnen voor de Advies- en Selectiegroep.

Voordat we over konden gaan op onze analyses is eerst een gezamenlijke kalibratie uitgevoerd van de Advies- en Selectiegroep. Hiervoor werden deze twee groepen samengevoegd tot één steekproef (N = 18352), waarna eerst de itemparameters voor deze gecombineerde groep werden berekend en vervolgens de theta’s.

3.2.2.1. Resultaten DIF op basis van OLR

Uit de analyses bleek dat 211 van de 276 items (76%) potentiële DIF vertoonden op basis van het significantieniveau (M3 – M1). Echter, zoals vermeld dient ook gekeken te worden naar de effectgrootte. Hieruit bleek dat de maximaal gevonden effectgrootte slechts 0.016 was: dit ligt in de categorie tussen de 0 en 0.035 wat als ‘verwaarloosbaar’ gekenmerkt kan worden. Dit houdt in dat er op basis van deze analyses nauwelijks sprake van DIF op basis van testsituatie blijkt te zijn bij de items van de WPV Adaptief.

3.2.2.2. Resultaten DTF op basis van OLR

Voordat we de resultaten van de DTF analyses toelichten is het interessant om te vermelden dat er, zoals verwacht op basis van de literatuur, verschillen in gemiddelde theta’s waren tussen Advies en Selectie. De gemiddelde Cohen’s d waarde over de 25 schalen was 0.34 (SD = 0.21, Min. = -0.31, Max. = 0.59). Het feit dat deze gemiddelde waarde positief is, duidt erop dat de scores voor de Selectiegroep, zoals verwacht, over het algemeen hoger waren dan voor de Adviesgroep. Ook waren er verschillen in gemiddelde voorspelde schaalscores (gemiddelde Cohen’s d van 0.34). Echter, er bleken weinig verschillen wanneer de behaalde theta-score constant gehouden werd tussen de groepen; de geringe DIF effecten op itemniveau vertaalden zich dus door naar geringe effecten op schaalniveau.

Een voorbeeld hiervan is te zien in Figuur 1.7., voor de schaal Positivisme, waarvoor het verschil in gemiddelde (voorspelde) scores het grootst was (d = 0.60). Uit het figuur is af te lezen dat bij een gelijke score op Positivisme (theta), de voorspelde score op basis van het logistische model nagenoeg hetzelfde is voor Advies en Selectie. Dus, hoewel er verschillen in gemiddelde scores zijn, lijken de schalen van de WPV Adaptief zich niet anders te gedragen in advies- en selectiesituaties.

Figuur 1.7. Logistisch model op de schaal Positivisme

3.2.3. Conclusie onderzoek DIF en DTF tussen Advies- en Selectiegroep

Op basis van twee verschillende methoden is onderzocht of de items van de WPV Adaptief anders functioneren wanneer deze onder adviessituaties ingevuld worden of onder selectiesituaties. Op basis van de methode van DFIT kwamen er enkele verschillen naar voren, hoewel deze (1) niet erg groot waren en (2) bij items voorkwamen die relatief weinig getoond worden in de WPV Adaptief. Op schaalniveau werden ook verschillen gevonden, maar ook deze waren van geringe grootte. De grootste effecten werden gevonden voor Positivisme en Frustratietolerantie. Hierbij dient ook opgemerkt te worden dat de analyses gebaseerd zijn op de gehele WPV-N: gezien het feit dat de grotere effecten op itemniveau gevonden werden voor weinig getoonde items, mag verwacht worden dat de effecten op schaalniveau bij de WPV Adaptief nog kleiner zijn.[2]

Om de behaalde resultaten te verifiëren is ook via logistische regressie DIF en DTF onderzocht. Hieruit bleek dat er weinig tot geen sprake was van DIF of DTF. Uit de analyses bleek wel dat er verschillen in gemiddelde scores waren, waarbij de Selectiegroep over het algemeen hoger scoorde dan de Adviesgroep. Dit is een bekend gegeven uit de selectie- en assessment literatuur (Birkeland et al., 2006). De resultaten van beide methoden samen nemend is geconcludeerd dat de items niet anders functioneren onder de verschillende testsituaties; daarom is besloten de Selectiegroep simpelweg te scoren met de itemparameters gekalibreerd op de Adviesgroep, maar wel een Selectienormgroep te hanteren om voor vertekeningen in gemiddelde scores te corrigeren.

3.3. Ontwikkeling Selectienormgroep

Net als bij de Adviesnormgroep is er door middel van het trekken van een steekproef uit de ongewogen groep een representatieve normgroep wat betreft leeftijd, opleiding en geslacht gecreëerd. Bij een N van 1000 was de balans tussen een zo groot mogelijke steekproef en een zo klein mogelijke afwijking van de CBS verdelingen wat betreft geslacht, leeftijd en opleiding optimaal. Na weging was er geen verschil in verdeling wat betreft geslacht tussen de gewogen steekproef en het CBS (χ²(1) = .06, p = .80). Er waren slechts kleine tot gemiddelde verschillen voor leeftijd (χ²(4) = 18.25, p < .001, Cramer’s V = .07) en opleiding (χ²(2) = 33.79, p < .001, Cramer’s V = .13). De verdeling wat betreft geslacht, leeftijd en opleidingsniveau in de gewogen Selectienormgroep is weergegeven in Tabel 1.20.

Tabel 1.20. Verdeling geslacht, opleidingsniveau en leeftijd gewogen normgroep – Selectie.
	Freq.	%
Geslacht
Man	525	52.5
Vrouw	475	47.5

Opleiding
Laag	136	13.6
Midden	466	46.6
Hoog	398	39.8

Leeftijd
< 25	122	12.2
25 – 35	232	23.2
35 – 45	219	21.9
45 – 55	268	26.8
> 55	159	15.9

Net als bij de Adviesnormgroep is bij de Selectienormgroep de eerste versie van de WPV Adaptief gesimuleerd (zie pagina 25 voor de specificaties van de vragenlijst). Nadat iedere persoon in de normgroep de WPV Adaptief had doorlopen zijn de theta-scores genormeerd met de continue fit-methode (zie Van der Woud, 2007). De kenmerken van de ruwe scores en de stenscores (die weergegeven in de rapportage van de WPV Adaptief) zijn weergegeven in Tabel 1.21.

Tabel 1.21. Kenmerken van de ruwe scores en stenscores Adaptieve WPVN, normgroep Selectie (N = 1000).
	Ruwe scores						Latente (sten)scores
	Min.	Max.	M	SD	S	P	Min.	Max.	M	SD	S	P
Competitie	-3.32	3.24	0.05	0.99	0.04	0.03	0.51	8.74	5.50	1.85	-0.14	-0.42*
Dominantie	-2.51	3.64	0.37	1.04	0.02	0.05	-0.06	10.93	5.50	1.85	0.02	-0.05
Status	-2.99	3.60	0.36	0.97	-0.10	0.15	0.72	10.98	5.50	1.84	0.00	-0.01
Zelfvertoon	-2.68	3.34	0.27	0.99	-0.05	0.00	-0.10	10.82	5.50	1.84	0.01	-0.07
Contactbehoefte	-4.09	2.97	0.41	1.00	0.01	0.29	0.45	11.42	5.50	1.84	0.02	-0.10
Sociaal Ontspannen	-3.47	3.55	0.45	1.02	0.11	0.09	-0.11	10.14	5.50	1.84	-0.01	-0.17
Zelfonthulling	-3.65	3.21	0.17	0.90	0.06	0.37	1.20	11.28	5.50	1.81	0.05	-0.16
Vertrouwen	-2.79	2.86	0.17	0.91	-0.02	0.05	0.03	10.36	5.50	1.82	-0.01	-0.04
Hartelijkheid	-2.78	3.43	0.47	1.04	0.15	-0.04	0.24	9.479	5.50	1.85	-0.07	-0.19
Zorgzaamheid	-2.70	2.77	0.19	1.00	0.22*	-0.24	0.99	10.93	5.50	1.84	0.04	-0.16
Energie	-2.90	4.30	0.58	1.02	0.26*	0.28	1.37	11.01	5.50	1.83	0.03	0.08
Zelfontwikkeling	-3.01	4.08	0.36	0.98	0.05	0.06	0.41	10.44	5.50	1.82	-0.02	-0.10
Volharding	-2.40	3.35	0.32	0.97	0.14	-0.16	1.17	11.44	5.50	1.82	-0.03	-0.04
Vernieuwing	-2.85	4.01	0.46	1.02	0.01	0.18	0.83	10.02	5.50	1.84	-0.01	-0.19
Originaliteit	-2.60	2.96	0.29	0.98	0.00	-0.24	0.11	10.30	5.50	1.84	0.01	-0.08
Onafhankelijkheid	-3.27	2.95	-0.37	1.01	0.28*	-0.13	0.59	11.48	5.50	1.84	0.00	-0.02
Ordelijkheid	-2.86	2.60	0.25	0.95	0.05	-0.28	0.87	10.61	5.50	1.82	0.02	-0.17
Nauwkeurigheid	-2.84	3.13	0.26	1.03	-0.01	-0.19	1.50	9.979	5.50	1.85	0.03	-0.19
Regelmaat	-3.00	3.24	-0.21	0.93	0.36*	0.49*	0.89	10.79	5.50	1.83	-0.04	0.08
Conformisme	-3.07	3.34	0.35	1.02	0.18	0.00	0.23	10.24	5.50	1.84	-0.04	-0.11
Weloverwogen	-3.10	2.87	0.24	0.91	0.06	0.26	0.92	10.10	5.50	1.81	0.02	-0.19
Zelfvertrouwen	-3.03	3.95	0.52	0.99	0.04	0.59*	1.23	10.37	5.50	1.85	0.02	-0.11
Positivisme	-2.60	3.65	0.53	0.99	0.02	0.08	0.60	10.28	5.50	1.83	0.00	-0.10
Frustratietolerantie	-3.02	3.62	0.47	0.99	-0.07	0.21	0.96	11.03	5.50	1.85	0.00	-0.16
Incasseringsvermogen	-3.12	3.56	0.57	0.97	0.08	0.16	0.68	10.45	5.50	1.84	-0.01	-0.17
Noot. * > 2.58, ** > 3, S = Scheefheid, P = Platheid

Met een asterisk (*) is aangegeven wanneer de Z-score (verkregen door de waardes door hun standaardfout te delen) van de scheefheid en kurtosis (platheid) de grens ± 2.58 overstijgt. Er zijn 4 schalen waarbij de ruwe scores een wat schevere verdeling dan verwacht laten zien, en 2 schalen waar de verdelingen een wat hogere piek laten zien dan verwacht. Echter, de vuistregel van ||Z||>2.58 wordt door sommigen als erg streng gekwalificeerd, en zij hanteren daarom liberalere regels waarbij absolute waarden van scheefheid > 3 en kurtosis > 8 (of zelf >10) gelden als een indicatie voor een afwijking van de normale verdeling (Kline, 2005). Gebaseerd op deze regels (zie Tabel 1.21.) kunnen we over het algemeen concluderen dat de ruwe scores van WPV Adaptief redelijk normaal verdeeld zijn in de normgroep. Bovendien zien we dat de stenscores niet afwijken van de normale verdeling wat betreft scheefheid en platheid (met uitzondering van Competitie, die een wat plattere verdeling dan een normale verdeling laat zien).

Net als bij de Adviesgroep is gekeken naar de samenhang tussen de theta-scores verkregen via de WPV Adaptief, de WPV-N gescoord via MIRT en gescoord volgens de klassieke testtheorie. De correlaties zijn weergegeven in Tabel 1.22. We zien, net als bij de Adviesgroep, dat de correlaties zeer hoog zijn. Als we de gemiddelde waarden onderin Tabel 1.11 vergelijken met Tabel 1.22, dan zien we nauwelijks verschillen; hieruit blijkt dat de WPV Adaptief zowel bij de Advies- als Selectiegroep sterke samenhang laat zien met de volledige WPV-N en dat hier geen vertekeningen optreden door de testsituatie.

Tabel 1.22. Correlaties schalen en factoren WPV-A V1, volledige WPVN gescoord met MIRT en volledige WPVN klassiek gescoord – Selectie.
	Adap vs Full MIRT	Adap vs Full CTT	Full MIRT vs Full CTT
Invloed	.98	.96	.99
Competitie	.97	.91	.98
Dominantie	.97	.92	.98
Status	.96	.89	.98
Zelfvertoon	.97	.94	.99
Sociabiliteit	.98	.96	.99
Contactbehoefte	.97	.92	.97
Sociaal ontspannen	.97	.92	.97
Zelfonthulling	.96	.91	.98
Vertrouwen	.96	.93	.98
Hartelijkheid	.97	.92	.97
Zorgzaamheid	.95	.92	.99
Gedrevenheid	.98	.95	.98
Energie	.97	.90	.96
Zelfontwikkeling	.98	.88	.93
Volharding	.96	.89	.96
Vernieuwing	.98	.94	.97
Originaliteit	.96	.94	.99
Onafhankelijkheid	.97	.91	.97
Structuur	.98	.96	.98
Ordelijkheid	.97	.92	.97
Nauwkeurigheid	.96	.91	.97
Regelmaat	.94	.92	.99
Conformisme	.97	.94	.98
Weloverwogen	.96	.94	.98
Stabiliteit	.98	.95	.98
Zelfvertrouwen	.96	.90	.97
Positivisme	.96	.91	.96
Frustratietolerantie	.96	.89	.97
Incasseringsvermogen	.96	.91	.98
Gemiddelde schalen	.96	.92	.97
Gemiddelde factoren	.98	.96	.98

Ook zijn bij de Selectienormgroep de betrouwbaarheden berekend bij de adaptieve versie, de volledige versie gescoord via MIRT en de klassiek gescoorde WPV-N. Deze zijn weergegeven in Tabel 1.23.

Tabel 1.23. Betrouwbaarheden adaptieve WPV-N, volledige WPV-N gescoord met MIRT en volledige WPV-N klassiek gescoord – Selectie.
	Adap	Full	CTT
Invloed	.94	.97	.80 / .96
Competitie	.86	.97	.89
Dominantie	.86	.97	.89
Status	.85	.96	.89
Zelfvertoon	.85	.97	.88
Sociabiliteit	.95	.98	.81 / .97
Contactbehoefte	.85	.97	.86
Sociaal ontspannen	.85	.97	.90
Zelfonthulling	.82	.96	.89
Vertrouwen	.82	.96	.87
Hartelijkheid	.85	.97	.89
Zorgzaamheid	.85	.95	.94
Gedrevenheid	.95	.97	.75 / .95
Energie	.84	.97	.86
Zelfontwikkeling	.83	.98	.79
Volharding	.83	.96	.86
Vernieuwing	.85	.98	.85
Originaliteit	.85	.96	.93
Onafhankelijkheid	.84	.97	.85
Structuur	.94	.96	.72 / .95
Ordelijkheid	.83	.97	.86
Nauwkeurigheid	.85	.96	.91
Regelmaat	.83	.94	.90
Conformisme	.85	.97	.90
Weloverwogen	.82	.96	.88
Stabiliteit	.94	.97	.81 / .96
Zelfvertrouwen	.85	.96	.90
Positivisme	.84	.96	.90
Frustratietolerantie	.85	.96	.89
Incasseringsvermogen	.84	.96	.89
M schalen	.84	.96	.88
M factoren	.94	.97	.78 / .96

De betrouwbaarheden van de schalen zijn iets lager dan bij de Adviesgroep, maar nog steeds hoog. Voor de factoren geldt dat de betrouwbaarheden zeer hoog zijn. Gemiddeld zijn er 95 items (SD = 10.2, Min. = 64, Max. = 148) nodig om tot deze betrouwbare schattingen te komen; dit zijn gemiddeld slechts 3 items meer dan bij Advies. Dit is een gemiddelde reductie van 66%. Qua afnametijd betekent dit dat de WPV Adaptief ook in selectiesituaties ongeveer 10 tot 25 minuten zal duren, vergeleken met 30 tot 40 minuten bij de WPV-N.

[1] Het bepalen van significantieniveaus van de NCDIF-waarden vergt bovendien uitgebreide simulatiestudies, wat met onze hoeveelheden items zeer tijdrovend is. Ook is nog weinig bekend over de drempelwaarden voor het bepalen van significantieniveaus van NCDIF-waarden bij multidimensionale IRT.

[2] Onderzoek naar DIF en DTF bij de WPV Adaptief wordt gedaan wanneer er voldoende data beschikbaar is.