Loading presentation...

Present Remotely

Send the link below via email or IM

Copy

Present to your audience

Start remote presentation

  • Invited audience members will follow you as you navigate and present
  • People invited to a presentation do not need a Prezi account
  • This link expires 10 minutes after you close the presentation
  • A maximum of 30 users can follow your presentation
  • Learn more about this feature in our knowledge base article

Do you really want to delete this prezi?

Neither you, nor the coeditors you shared it with will be able to recover it again.

DeleteCancel

Make your likes visible on Facebook?

Connect your Facebook account to Prezi and let your likes appear on your timeline.
You can change this under Settings & Account at any time.

No, thanks

Masterclass Digitaal Toetsen

Digitale itemconstructie en digitale toetsanalyse
by

Sharon Klinkenberg

on 24 November 2016

Comments (0)

Please log in to add your comment.

Report abuse

Transcript of Masterclass Digitaal Toetsen

Compromis
Beuk
Hofstee
Cohen-Schotanus, van der Vleuten
Absoluut
Angoff
Nedelsky
Ebel
Kernitemmethode (De Groot)
Bookmark
Relatief
Contrastgroep
Grensgroep
Grading on the curve (methode Wijnen)
De juiste vorm van de stimulus is het belangrijkst!
Naamgeving van vragen
Dichotoom (0,1) of polytoom (0,1,2,3,...) scoren?
Toegankelijk voor mensen met een functiebeperking?
Dubbele stellingvragen? Niet doen!
Gebruik conventies voor taalgebruik, lettertype, etc.
Houd je aan de vuistregels voor goed vraagontwerp...
Masterclass Digitaal toetsen:
Digitale itemconstructie en digitale toetsanalyse

Dag 1
Dag 2
Take Home Opdracht
Theoretisch Kader
Constructieregels voor toetsvragen
Vorm en inrichting
Digitale vraagtypen
Programma's
voor Toetsanalyse

Toets- en itemanalyse
Enige bijzonderheden
KTT
IRT
CAT
Literatuur
http://en.wikipedia.org/wiki/Classical_test_theory
http://en.wikipedia.org/wiki/Item_Response_Theory
Bekijk hier de invloed
van de parameters
1PL/Rasch
2PL/Birnbaum
3PL
P is de kans op
een correct antwoord
Aantal items
Cronbach's alpha
Variantie van
de items
Variantie van
de totaalscore
K=3
Digitale Vraagtypes
Special Cases Medical Education
Casusgerichte toetsing in het Medisch Onderwijs

Literatuur
Schuwirth, L. W. T. (1999). How to write short cases for assessing problem-solving skills. Medical Teacher, 21, 144-150. doi:10.1080/01421599979761
Extended Matching Questions

Literatuur
Case, S. M., & Swanson, D. B. (1994). Extended matching items: a practical alternative to free-response questions. Teaching and Learning in Medicine, 5, 107-115.
1
2
3
4
5
6
Parshall (2002)

reduce the
effect of guessing
enable a more
direct measure
of the skill or attribute of interest

5 dimensions
in which items may be innovative are:

item forma
t: the sort of response collected from the examinee e.g. selected response or constructed response.
response action
: the means by which the examinee provides his response e.g. key presses, mouse clicks, …
media inclusion
: the addition of nontext elements in the item
level of interactivity: the extent to which an item type reacts or responds to the examinees input.
scoring method
: how examinee responses are converted into quantitative scores
Raadscore
Beschouw het echt als een ontwerpproces!
Bepaal de type simulatie/opdracht
Bepaal welke materialen digitaal beschikbaar zijn of ontwikkeld moeten worden
Maak een mock-up van de vraag (lay-out, elementen, antwoord elementen, hulpmiddelen e.d.). Maak een tekening met de hand of met de computer
Maak een prototype van de vraag in het programma waarin de vraag moet worden afgenomen
Probeer de vraag uit bij collega's of een paar studenten (5-10 is genooeg)
Pas de vraag aan
Video:
welk video formaat?
zelf startend of niet?
wel of niet volume-regeling?
zelf stoppend of niet?
wel of niet meerdere keren afspeelbaar?
wel of niet opblaasbaar naar full-screen?
zorg ervoor dat de video afspeelt op de apparaten van de studenten - iPad ondersteunen geen flash, maar wel YouTube?
mag de video wel of niet zichtbaar zijn op het internet?
Afbeeldingen:
hoeveel resolutie is nodig om de afbeelding goed te kunnen zien?
zijn in- en uitzoom opties noodzakelijk?
mag de afbeelding maar een korte tijd zichtbaar zijn?
is de afbeelding noodzakelijk voor het beantwoorden van de vraag?
"Formatief - summatief is een continuüm van wat er op het spel staat"
Betrouwbaarheid neemt toe met toetstijd.

Voorbeeld meerkeuzevragen:
1 uur - 0,62
2 uur - 0,76
4 uur - 0,93
8 uur - 0,93
Onderzoek Norcini et al, 1985
Wel of geen feedback?
Alleen punten geven levert hele schrale informatie. Daar heb je als student weinig aan.
"Elke toets is in feite een compromis."
Cees van der Vleuten
Toetslengte
Cees van der Vleuten
Toetsdoel
Zorg dat toetsen altijd een leerfunctie hebben
Randomiseren volgorde, ja of nee?
Toetsniveau
Vragenblokniveau
Vraagniveau
Alternatievenniveau
Random vraagtrekking uit itembanken, ja of nee?
Aandachtspunten vraagontwerp
Presentatie toets tijdens afname
Onderverdeeld in vraagblokken?
Tijd en toetsen
Tijdsbeperking voor toets?
7 reasons why 'marking' sucks
http://donaldclarkplanb.blogspot.com/2011/07/7-reasons-why-marking-sucks.html
Kafkaësk toetsen?
7 reasons why Kafka would have loved assessment
http://donaldclarkplanb.blogspot.com/2011/09/7-reasons-kafka-would-have-loved.html
Zeven checks:
De kans om bij een toets succes te hebben, mag niet afhangen van het toepassen van 'slimme' antwoordstrategieën.
1
Gaan de toetsvragen écht ergens over? Dus niet over trivialiteiten die niemand later nodig blijkt te hebben?
2
Toets niet te laat. Alleen een eindtoets is niet goed genoeg. Maak gebruik van de kracht van herhaling en oefenen.
3
Toets niet het falen van studenten, maar juist hun voortgang bij het volledig behalen van de leerdoelen.
4
Rem de 'vergeetcurve' af door niet alleen kennis te toetsen, maar ook hogere cognitieve niveaus.
5
Toetsen op papier of digitaal? Hoe meer schrijfwerk, hoe liever digitaal. Pen en papier is zó 1980...
6
Investeer zoveel mogelijk tijd en moeite in het construeren van goede toetsen. Kwaliteitszorg is uiterst belangrijk.
7
Aandachtspunten toetsontwerp
Lengte, niet te kort, niet te lang?
Niet teveel vraagsoorten door elkaar?
Vragen geschikt voor analyse achteraf?
Vragen geschikt voor inzagerapporten achteraf?
Let op met "certainty based marking"
Niet vergeten: een toetsinstructie
Introductie- en feedbackteksten in orde?
Toegankelijk voor mensen met een functiebeperking?
Gebruik alleen relevante en representatieve vragen
Goede toetsanalyse nodig? Wees dan behoudend in de keuze voor te gebruiken vraagsoorten. Bijvoorbeeld meerkeuze.
Niet alle vraagsoorten zijn even geschikt om na de toets gebruikt te worden in bijvoorbeeld een inzagerapport. Controleer vooraf of alle gewenste informatie getoond kan worden
Presentaties SURF-workshop aan de slag met formatief toetsen: http://www.surf-academy.nl/archief/event/?id=351
*
*
Zie voor een nuancering van deze punten de discussie in de commentaren van deze blogpost van Wilfred Rubens: http://wilfredrubens.typepad.com/wilfred_rubens_weblog/2011/09/beoordelen-een-kafka%C3%AFaans-proces-in.html
*
Lees hier waarom: http://goo.gl/gHbj9
Alle vragen onder elkaar (scrollen) of vraag per vraag (QxQ)?
Onderzoek van Ricketts en Wilks duidt op betere resultaten bij vraag-per-vraag. Zie http://goo.gl/ZmHek
Hoeveel vragen per onderwerp?
PriceWaterhouseCoopers bepaalt het aantal vragen per onderwerp aan de hand van de onderstaande formule.
Criticality
Domain size
x
=
# Questions
1 = Slightly important but needed only once in a while
2 = Important but not used on every job
3 = Very important, but not used on every job
4 = Critical and used on every job
1 = Small (less than 30 minutes to train)
2 = Medium (30-59 minutes to train)
3 = Large (60-90 minutes to train)
Meer info: http://goo.gl/sOu79
Voorkom problemen: besteed zoveel mogelijk tijd en aandacht aan de kwaliteit van toetsing als mogelijk is
Eenrichtingsverkeer?
Maakt toetsanalyse op blokniveau mogelijk
Studenten willen graag kunnen wisselen tussen vragenblokken
Questionmark Perception kent alleen maar eenrichtingsverkeer tussen vragenblokken
Voorkomt 'weggevertjes' doordat antwoord niet kan worden teruggezocht bij een eerdere vraag
Vermindert piekbelasting van server
<P style="TEXT-ALIGN: justify; MARGIN: 0cm 0cm 0pt" class=MsoNormal><B><SPAN style="FONT-FAMILY: Arial; FONT-SIZE: 10.5pt; mso-bidi-font-family: Arial; mso-ansi-language: NL" lang=NL>Pas op met kopiëren en plakken uit Word!<?xml:namespace prefix = o ns = "urn:schemas-microsoft-com:office:office" /><o:p></o:p></SPAN></B></P>
Word
Notepad
Pas op met kopiëren en plakken uit Word!
vs
http://notepad-plus-plus.org/
http://notepad-plus-plus.org/
http://notepad-plus-plus.org/
http://notepad-plus-plus.org/
Zie http://goo.gl/bjAnS
Top 5 constructiefouten
Meerkeuzevragen
1. Stam zonder vraag/context
2. Negatieve vraagstelling
3. Alle/geen van bovenstaande
4. Combinatie van alternatieven
5. Alternatieven met appels/peren
Als de toets een
diagnostische
functie heeft:
dan moet de inhoud van de formatieve toets
representatief
zijn voor het niveau van de eindtoets en de leerdoelen goed dekken
dan moet de feedback zowel een
totaal score
bevatten als informatie over de beheersing van de
verschillenden onderdelen
van de leerstof (aan welke onderdelen moet de student extra aandacht besteden?)
dan wordt de
feedback gegeven nadat de formatieve toets
geheel is gemaakt
dan moet de
registratie zowel gegevens per student als over de hele groep
bevatten; eventueel moeten resultaten kunnen worden weggeschreven naar het studentvolgsysteem van de opleiding
Voorbeelden van formatief toetsen
Online quizzing
Innovatieve toetsvragen
Parshall, C., Davey, T., & Pashley, P. (2000). Innovative Item Types for Computerized Testing. Computerized Adaptive Testing: Theory and Practice (pp. 129-148). Retrieved from http://dx.doi.org/10.1007/0-306-47531-6_7
Thomas, R., Ashton, H., Austin, B., Beevers, C., Edwards, D., & Milligan, C. (2004). Assessing Higher Order Skills Using Simulations. In M. Danson (Ed.), 8th CAA Conference. Loughborough. Retrieved from http://www.jelsim.org/resources/thomasetal_caa2004.pdf
Voorbeelden van 'typisch' digitale toetsvragen
http://toetsauth.vu.nl/q/perception.dll?Name=OND%2DDEMO&password=OND%2DDEMO&session=2756121932389954
https://www.surfgroepen.nl/sites/flexassessment/Lists/dp5/example_view.aspx
Toetstheoriën
Angus, S. D., & Watson, J. (2009). Does regular online testing enhance student learning in the numerical sciences? Robust evidence from a large data set. British Journal of Educational Technology, 40(2), 255-272. doi:10.1111/j.1467-8535.2008.00916.x
Haak, D. C., HilleRisLambers, J., Pitre, E., & Freeman, S. (2011). Increased Structure and Active Learning Reduce the Achievement Gap in Introductory Biology. Science, 332(6034), 1213 -1216. doi:10.1126/science.1204820
Freie-Universität-Berlin. (2003). Dialang: Experimental Items Menu. Lancaster University. Retrieved from http://www.lancs.ac.uk/fss/projects/linguistics/experimental/new/expmenu.htm
Summatief toetsen
Formatief toetsen
Een overzicht van toetsvraagtypen met voorbeelden, voor- en nadelen en aanwijzingen voor scoring
http://testdevelopment.nl/qdst/qdst-nl/pro-con-q-formats/pro-con-general.htm
Doel van innovatieve items
Ontwikkelproces
Parshall, C. G., & Harmes, J. C. (2009). Improving the Quality of Innovative Item Types: Four Tasks for Design and Development. Journal of Applied Testing Technology, 10, 20. http://www.testpublishers.org/assets/documents/Improving.pdf
Vraagtypes
Techniek
Uitwisseling van data
IMS QTI v1.2 en 2.1 - korte demo Respondus
SCORM en AICC - kort demo Adobe Captivate

Koppeling aan DLO's
De gouden standaard: Multiple-choice vragen
Ook goed: Juist-Onjuistvragen
Multiple-Response
Ordening en Matching
Invulvragen
Numeriek antwoordvraag
Specialisten in het proces
Wie zijn er allemaal betrokken bij het digitale toetsproces?

Op de achtergrond
Software leverancier
Technisch beheer
Applicatiebeheer
Functioneel beheer

Ontwikkelproces
Projectleider
Eindredactie
Redactie
Inhoudsdeskundigen

Innovatieve en multimediale toetsvragen
Technisch ontwikkelaar

Afnameproces
Roosteraars
Surveillanten
Toetsleider
(Functioneel beheer)
(Applicatiebeheer)
Hotspot en drag-and-dropvragen
Mogelijke feedback bij toetsen
Uitsluitend aangeven of een
vraag correct of fout
beantwoord is (beoordeling).
Aangeven of de student
voldoet aan de tentameneisen
(normfeedback).
Inhoudelijk uitleggen
waarom een vraag correct of fout beantwoord is.
Studeeraanwijzingen of hints
geven waarmee de student de vraag opnieuw kan proberen.
3 opties is genoeg
Middelste opties worden vaker gekozen dan de uitersten
Docenten maken de middelste opties vaak het correcte antwoord
Juist-Onjuist
Alternate choice
MapleTA:
http://www.maplesoft.com/products/mapleta/types.aspx
Blackboard:
http://www.southampton.ac.uk/isolutions/computing/elearn/blackboard/questiontypes.html
Questionmark Perception:
http://www.questionmark.com/us/perception/authoring_windows_qm_qtypes.aspx
Toetsen met de computer
Website Digitale Didactiek: http://www.digitaledidactiek.nl/wp/?cat=7
Heel veel verschillende mogelijkheden
Sterk afhankelijk van programma
MapleTA
Blackboard
TestVision
WinToets
Questionmark Perception
Adobe Captivate
Articulate Quizmaker
Afhankelijk van programma
MapleTA
Blackboard
TestVision
WinToets
Questionmark Perception
Adobe Captivate
Articulate Quizmaker
Adobe Captivate:
http://www.thelearningsmith.com/resources/eLearningTemplate_800x600/sample.htm
Articlulate Quizmaker:
http://cdn.articulate.com/images/products09/product-files/quizmaker/Manager/quizmaker.html
Standaard vraagtypes
Speciale importopmaak voorbeelden:

Respondus:
http://oel.umflint.edu/helpguides%5Cfaculty%5Cbb9%5CCT19_Common_Question_Formats_Respondus.htm
Questionmark Perception:
http://www.questionmark.com/perception/help/v4/best_practice/importing/importing_content/ascii_import.htm
Writing Effective Test Questions:
http://app.qstream.com/topctjones/courses/400-Writing-Effective-Test-Questions
http://www.beterspellen.nl
Toets-ICT van Instruct:
http://www.toetsit-online.nl/toetsit/demonstratie/Totaaloverzicht%20leerlingomgeving.html
Hoofddoelen van een toetsvraag
Vragen naar belangrijke concepten uit de stof
Vragen die niet te moeilijk en te gemakkelijk zijn
Vragen die discrimineren tussen degene die de stof beheerst en degene die de stof niet beheerst
Studenten stimuleren om hun best te doen

Belangrijk:
De kwaliteit van de
stimulus
bepaalt de aard van het denkproces van de student,
niet
het vraagtype
Het denkproces van de student wordt bepaalt door de mate van beheersing van de stof
How much do you know about Assessments 1:
http://blog.questionmark.com/how-much-do-you-know-about-assessment-quiz-1-cut-scores
How much do you know about Assessments 2:
http://blog.questionmark.com/how-much-do-you-know-about-assessments-quiz-2-validity-defensibility
Als de toets bedoeld is om met de leerstof te
oefenen:

ontwerp dan oefeningen die eventueel
eenvoudiger
zijn dan de eindtoets (bijv. leren toepassen van sleutelconcepten uit de leerstof) en maak de studenten duidelijk dat het niveau niet representatief is voor de eindtoets
maak dan vooral vragen over
lastige
onderdelen van de leerstof
maak dan een
keuzemenu
zodat studenten kunnen kiezen voor vragen over bepaalde onderwerpen
maak dan meer vragen per onderwerp en geef liefst
feedback na afronding van een 5-10-tal vragen
zodat studenten van hun fouten kunnen leren maar wel een echte poging hebben moeten ondernemen om de vragen correct te beantwoorden
plaats dan de vragen in
oplopende
volgorde van moeilijkheid zodat studenten niet direct vastlopen
maak dan gebruik van een
variatie
aan vraagtypen en van multimediaal materiaal om de student extra te motiveren om met het materiaal aan de slag te gaan
voorzie dan de
eerste opgaven van aanwijzingen of suggesties
in welke richting de oplossing moet (kan) worden gezocht of verdeel de opgaven in kleine stappen die voorafgaan aan de uiteindelijke hoofdoplossing.
diagnostische toetsen en oefentoetsen
Itemindices
p-waarde
a-waarde
= % correct
= % antwoord opties
= correlatie tussen item en totaalscore
= correlatie tussen item en gecorrigeerde totaalscore
= mean item alternative
= mean item alternative corrected total score
if alternative is correct
Feedback
Inspiratiebronnen voor toetsvraagontwikkeling:
http://testdevelopment.nl/qdst/qdst-nl/pro-con-q-formats/dive-general.htm
Metadatering -> Garbage In = Garbage Out --> KISS
Bepaal primaire vraagtype
Bepaal de 'specials'
Bepaal wel/niet ontwikkeling van feedback
Aanwijzingen bij het geven van feedback:

Geef pas feedback nadat zeker is dat de lerende
een oprechte poging
heeft gedaan om een antwoord te formuleren, bijvoorbeeld door een drempel op te werpen. Dan kan bijvoorbeeld, door feedback te geven:
--> in de vorm van
timing
, waardoor pas na bijvoorbeeld 30 seconden een antwoord kan worden gegeven
--> in de vorm van
een nieuwe vraag

-->in de vorm van een
studeeraanwijzing
als de vraag niet correct is beantwoord
-->pas als
minimaal 80%
van de vragen correct is beantwoord
-->pas als het antwoord correct is;
Formuleer
feedback beknopt
.
Houd de
toon van feedback positief / neutraal
; feedback bij verkeerd beantwoorde vragen mag nooit neerbuigend zijn.
Geef bij correct beantwoorde vragen aan
waarom het gekozen antwoord correct
is en waarom de andere antwoorden fout zijn; een student kan door gokken het correcte antwoord hebben gekozen.
Geef bij gedeeltelijk correct of fout beantwoorde vragen aan wat het juiste antwoord is, waarom dat het juiste antwoord is, waarom het door de student gekozen antwoord fout is en waarom de andere antwoorden fout zijn.
Lange antwoorden op open vragen kunnen niet automatisch worden nagekeken, feedback kan hier worden gegeven in de vorm van een
antwoordmodel
waarmee de student het eigen antwoord kan vergelijken. Geef hierbij ook een beoordeling aan (‘Als je tenminstens drie van deze punten hebt genoemd, is de vraag voldoende beantwoord.’)
Zorg dat de
vraag nog te zien
is als de feedback verschijnt, herhaal zonodig de vraag in de feedback.
Feedback is meestal tekstueel maar soms is een andere vorm duidelijker, zoals een afbeelding.
Gebruik
geen speciale effecten
(zoals geluid of humoristische afbeeldingen) in feedback, deze kunnen studenten afleiden of irriteren.
Geef studenten zo mogelijk de gelegenheid te
kiezen uit verschillende soorten feedback
, aansluitend bij verschillende fout- of redeneertypen..
Behalve inhoudelijke informatie kan feedback ook informatie geven voor
strategieën of suggesties
om verder te gaan. Soms is een hint waarmee een student zelf de oplossing kan zoeken, zeer leerzaam. Uiterlijk na de derde poging moet het correcte antwoord worden gegeven en/of moet de student verder kunnen met de volgende vraag.
Alle informatie die nodig is om de vraag te beantwoorden moet in de vraag staan (het is frustrerend voor studenten als noodzakelijk informatie pas achteraf wordt gegeven in de feedback).

naar; Fenrich (1997) en Rayne (2002).
Formatief
Summatief
Denk terug aan de "beste toets ooit" waar de dag mee begonnen is. Welke constructie-regels werden daarin overtreden?
Itembanking
Matrijs
Cijfers geven
Op basis van toetsmatrijs: toets -> hoofdonderwerpen -> subonderwerpen
Boek -> Hoofdstuk -> Paragraaf -> Bladzijde
Vakken -> Hoofdthema’s -> Onderwerp -> Deelonderwerp
Curriculum -> Studiefase -> Semester -> Blok
Rollen -> competenties -> doelen ->trefwoorden
Kennisvraag, Toepassingsvraag, Inzichtsvraag
Meerkeuzevraag, Invulvraag, Numerieke vraag, Aanwijsvraag, Juist/Onjuist vraag, Parallelvraag, Casusvraag
Tentamenvraag, Oefenvraag, Voortgangsvraag
Overige gegevens: Datum afname, Rit- of Rir-waarde bij laatste afname (dit is een indicatie voor de bijdrage aan de toetsbetrouwbaarheid), trefwoord, auteur, bron, moeilijkheidsgraad, geschatte beantwoordingsduur, afhankelijkheid ten opzichte van andere vragen.
Hiërarchische structuur
Metadata structuur
Te makkelijke en
te moeilijke items
zijn niet goed
Correct/Incorrect
gekozen alternatief
Projectleider
Eindredactie
Redactie
Inhoudsdeskundigen
Rollen
Draaijer, S., Hulst, M. E. van der, & Graaff, R. de. (2006). Het afnemen van toetsen met de computer. In H. van Berkel & A. Bax (Eds.), Toetsen in het Hoger Onderwijs. (2nd ed., p. Hoofdstuk 5). Bohn Stafleu Van Loghum. http://goo.gl/7HTBp
Quizzing
Assessing
Uitwisseling data en toetsen
Multimedia en Usability
Simulaties
zelf startend of niet?
zelf stoppend of niet?
wel of niet opblaasbaar naar full-screen?
zorg ervoor dat de simulatie afspeelt op de apparaten van de studenten - iPad ondersteunen geen flash, maar wel YouTube?
http://testdevelopment.nl/qdst/qdst-nl/pro-con-q-formats/pro-con-mrq.htm
http://testdevelopment.nl/qdst/qdst-nl/pro-con-q-formats/pro-con-mcq.htm
http://testdevelopment.nl/qdst/qdst-nl/pro-con-q-formats/pro-con-match.htm
http://testdevelopment.nl/qdst/qdst-nl/pro-con-q-formats/pro-con-ord.htm
http://testdevelopment.nl/qdst/qdst-nl/pro-con-q-formats/pro-con-t-f.htm
http://testdevelopment.nl/qdst/qdst-nl/pro-con-q-formats/pro-con-fill-in-the-blank.htm
Biserial correlation coefficient
M1=(2+4+10+5+10)/5=6.2 n1=5
M0=(5+6+3+4+1)/5=3.8 n2=5
sd sum = 3.018462
is erg lastig met de hand te berekenen
SD van sum met alle personen
Test Information
Standard error of estimation
Beveiliging
Vraaginhoud
Vraagvorm
Stijl
Vraagstam
Alternatieven
?
Programma
Introductie en kennismaking
Nabespreken: "de beste toets ooit"
Toetsen en beoordelen: theoretisch kader
Lunch
Toetsmatrijs en validiteit
Vorm en inrichting van digitale toetsen
Digitale vraagtypen
Pauze
Opdracht: voorbereiding take-home-opdracht
Evalueren, vooruitkijken en take-home-opdracht
Einde
10.00
10.20
11.00
12.15
13.00
13.15
14.00
14.45
15.00
15.45
16.00
A Review of Multiple-Choice Item-writing Guidelines for Classroom Assessment
Bron:
Haladyna, Downing, Rodriguez, 2002
Nabespreking van...
De beste toets ooit!
not...
Maak "de beste toets ooit..."

Log in met de onderstaande gegevens.
!
URL:
http://goo.gl/34WZF
eigen naam
SURF
Studentnummer:
Groep:
Wat is je opgevallen aan de toets?
Hoe meer toetsen, hoe beter je beslissing
Zie de serie blogposts - in ontwikkeling - van Jack Pleumeekers op Oculary.nl
http://oculary.nl/2011/11/16/digitaal-toetsen-deel-4a-security/
Test, test, test!
Bij complexe vraagtypen altijd uitgebreid testen, liefst ook met studenten
Questionmark Perception heeft hiervoor vraagstatussen "beta" en "expirimental"
Wordt de vraag getoond zoals beoogd?
Kun je de vraag beantwoorden zoals bedoeld?
Levert een goed antwoord het gewenste aantal punten op?
Levert een fout antwoord niet tóch punten op?
Klopt de getoonde feedback?
Staat de gevoeligheid voor typefouten en hoofdlettergroep goed ingesteld?
Wat is goed?
Wat is voor verbetering vatbaar?
Examination
Validiteit
Betrouwbaarheid
Transparantie
Bruikbaarheid
Silvester Draaijer
Vrije Universiteit Amsterdam
http://www.linkedin.com/in/silvesterdraaijer

Sander Schenk
Hogeschool Rotterdam
http://www.linkedin.com/in/sanderschenk

Sharon Klinkenberg
Universiteit van Amsterdam
http://www.linkedin.com/in/SharonKlinkenberg

Toetssamenstelling
Ronald K. Hambleton. Fundamentals of Item Response Theory (Measurement Methods for the Social Science). Sage Publications, Inc, 1 edition, July 1991.
http://books.google.com/books/about/Fundamentals_of_item_response_theory.html?id=cmJU9SHCzecC
Brink, W. P., & Mellenbergh, G. J. (1998). Testleer en testconstructie. Amsterdam: Boom.
http://www.bol.com/nl/p/nederlandse-boeken/testleer-en-testconstructie-druk-1/666821103/index.html
Field, A. (2009). Discovering statistics using SPSS (and sex and drugs and rock 'n' roll). London etc.: Sage Publications.
http://books.google.com/books/about/Discovering_Statistics_Using_SPSS.html?id=5253SAL5nDgC
Gruijter de, D. N. M. (2008). Toetsing en toetsanalyse, herziene versie november 2008.
http://media.leidenuniv.nl/legacy/toetsing-en-toetsanalyse.pdf
komt zelden voor
is meestal technisch niet mogelijk
wordt vaak afgeraden
Zie o.a. Huntley en Welch, 1993
http://eric.ed.gov/PDFS/ED358136.pdf
Items werden niet moeilijker, maar waren wel lastiger voor laag scorende deelnemers (hogere discriminatie)
Logische volgorde
Zo simpel mogelijk
Op- of aflopend (getallen)
Alfabetisch (woorden)
Op lengte (zinnen)
máár...
Zie ook Attali en Bar-Hillel, 2003
http://goo.gl/1cHqF
Antwoordopties worden vaak overdreven goed 'uitgebalanceerd' in een toets. Studenten doen dit bij hun beantwoording minder, zij hebben een bias voor 'het midden'. Dit heeft mogelijk psychometrische implicaties.
in het algemeen niet wenselijk (?!)
Vraaginvoermethoden
Auteurstool van toetssysteem
via client-software, maar steeds vaker ook web based
geschikt voor vraagtypen met media
relatief eenvoudig te bedienen
Welke methode je ook kiest, pas op met knippen en plakken!
Import via platte-tekst-methode
via importbestanden in QML, ASCII, QTI, XML, CSV, etc.
gechikt voor grote aantallen en speciale vraagtypen
lastiger om mee te werken, is specialisme
Tested the effect of putting opinion survey items in different positions in a questionnnaire. Equivalent samples of 284 and 281 employees in an industrial corporation completed similar questionnaires in which the placement of 46 Likert-type items were reversed. Respondents answered with less extreme responses and were slightly more likely to omit replies when items were placed later in the questionnaire. Findings suggest that comparisons of responses to identical items used in different surveys may be misleading if they appeared in different position or context.
Kraut, Wolfson en Rothenberg, 1975
meerkeuze
meerkeuze
meerkeuze
...
Wat is de hoofdstad van Australië?
Gegeven: een accountant bezoekt een...
Bereken (2 1/4) / (3/8)
...
Scoring en Raadscore
DigiCAT VUmc:
http://toetsauth.vu.nl/q/perception.dll?Name=OND%2DDEMO&password=OND%2DDEMO&session=5200924487068358
IFM.BEC.12.01.03_XN001_XA4
Fruit - leerdoel 34 - vraag 8
COMP-B12-V37
...
Hulpmiddel: toetstermen

Toetstermen zijn concretiseringen van leerdoelen. Zeggen iets over inhoud, gedrag en eventueel minimumprestatie en voorwaarden.
Hulpmiddel: toetsmatrijs

Een toetsmatrijs is een lijst met onderwerpen die je wilt toetsen en een indicatie van het niveau waarop je die onderwerpen wilt toetsen.
ja, maar zorg dat de toetstijd ruim genoeg is voor de overgrote meerderheid
Tijdsbeperking voor vragen?
Wel of geen race tegen de klok?
Informatieve grafieken mogelijk
tsja, meet je dan nog wel wat je wilt meten, of ook iets anders?
nee, tenzij presteren onder tijdsdruk een expliciete doelstelling is van de toets
Wat zijn voor- en nadelen?
?
Discussie
In welke situaties gelden deze?
Conclusie?
Leren en Feedback
Meten
Raadscore van Multiple-response en Matching en Ordering vragen:
http://goo.gl/Hj5SS
Vragen maken is Probleem Oplossen
Antwoordstrategieën
bij meerkeuzevragen?
Goede meerkeuzevragen zijn 'immuun' voor antwoordstrategieën
http://goo.gl/YgWsB
"If All Else Fails, Choose C"
http://demonstrations.wolfram.com/123ParameterLogisticRaschAndBirnbaumModelsAndItemAnalysis/
Maak een mini-toets over
Toetsen en Beoordelen voor je collega's
5 min: Maak groepje van 3
5 min: Kies een onderwerp
20 min: Maak zelf 4-5 vragen in Google Docs
15 min: Verbeter de vragen van andere groepsleden
5: Voeg de vragen samen en kies bijvoorbeeld de 10 beste er uit
6: Kies toetsprogramma
7: Bepaal projectleider, eindredacteur, redacteur
Tijdens Masterclass dag 1
Voer vragen in, stel een toets samen
Verzamel e-mailadressen
Eindredacteur zet toets klaar
Projectleider en redacteur voeren toetsanalyse uit
Uiterlijk vrijdag 30 november moet u een bestand met ruwe data naar Sharon Klinkenberg (s.klinkenberg@uva.nl) verzenden
Tussendoor
Tijdens Masterclass dag 2
1-2 groepjes presenteren analyse
Stroomschema
Afnamecondities
Betrouwbaarheid voor
dichotoom gescoorde items
Test Cultuur
Praktijkvoorbeeld: http://goo.gl/EOerb
TAP: Test Analysis Program
http://www.ohio.edu/people/brooksg/tap.htm
TIAplus (CITO)
SPSS (IBM)
R
P-waarden stabiliteit
Aantal afgenomen toetsen:
http://blog.questionmark.com/psychometrics-101-sample-size-and-question-difficulty-p-values
http://www.r-project.org/
Het klassieke proces van toets- en itemanalyse
Stap 0: Data opschonen en prepareren

Stap 1: betrouwbaarheidsberekening + toetsverlengingsberekening

Stap 2: itemanalyse (p, p’, Rit/Rir, a) – vuistregels voor gevonden waarden

Stap 3: histogrammen van behaalde scores

Stap 4: cesuurstelling en score-cijfertransformatie

Stap 5: bepalen percentages gezakten en geslaagden

Stap 6: inhoudelijke discussie met docenten over analyse en resultaten

Stap 7: besluit tot aanpassing of verwijdering van items, besluit tot aanpassing cesuur

Stap 8: herberekeningen uitvoeren
De 6-jes student
De 6-jes student
Informatie uit:

Kloppenburg, E. F. M. (2003). De ontwikkeling van een psychometrische kwaliteitsanalyse voor de toetsenbank van de Examenbank EbA (Afstudeerverslag in het kader van de opleiding Toegepaste Onderwijskunde aan de Universiteit Twente). Enschede: Universiteit Twente.
De 6-jes student
De 6-jes student
Masters en non-Masters vooraf bekend
De 6-jes studenten
Zorgen dat niemand
ten onrechte zakt
Cesuur bepalen
Score-cijfer transformatie
Vos, H., Kloppenburg, M., & Tomson, O. (2010, September). Optimale uniforme scoringsregels
voor innovatieve vraagvormen. EXAMENS, (3), 21-24.
ovragen met lage/hoge Difficulty (<0,1, >0,85) en uitgesproken negatieve Correlation-waarden (<0,05) (Ander alternatief juist? Strikvraag?)
ovragen met gemiddelde Difficulty (>0,2,<0,4) en negatieve Correlation-waarden (<0,1) (ander alternatief juist? Strikvraag?)
ovragen met gemiddelde Difficulty (>0,2,<0,4) en Correlation-waarden rond de 0 (Ander alternatief juist? Behandeld?)
ovragen met lage Difficulty (<0,1) en Correlation-waarden rond de 0 (Behandeld?)
ovragen met hoge Correlation-waarden (>0,3) zijn goede vragen.
Vragen met lage/hoge moeilijkheid (<0,1, >0,85) en uitgesproken negatieve correlatie-waarden (<0,05) --> Ander alternatief juist? Strikvraag?
Vragen met gemiddelde moeilijkheid (>0,2,<0,4) en negatieve correlatie-waarden (<0,1) --> ander alternatief juist? Strikvraag?
Vragen met gemiddelde moeilijkheid (>0,2,<0,4) en correlatie-waarden rond de 0 -->Ander alternatief juist? Behandeld?
Vragen met lage moeilijkheidsgraad (<0,1) en correlatie-waarden rond de 0 -->Behandeld?
Vragen met hoge correlatie-waarden (>0,3) zijn goede vragen.
Itemkenmerken
Programma
Validiteit, Toetsaanbieding, Itembanking, Klassieke proces van toets- en itemanalyse, Cesuurstelling, Random-trekking
Terugkoppeling huiswerkopdracht - vraagconstructie en analyses
Lunch
Toetsanalyse in SPSS en nadere verkenning IRT
Zelf aan de slag met TAP of R / persoonlijke vragen
Pauze - Plenaire uitleg
Weer verder aan de slag
Evaluatie
Afsluiting en borrel
10.15


11.15

12.15
13.00
14.00
14.45
15.00
15.45
16.00
The point biserial correlation coefficient (rpb) is a correlation coefficient used when one variable (e.g. Y) is dichotomous; Y can either be "naturally" dichotomous, like gender, or an artificially dichotomized variable. In most situations it is not advisable to artificially dichotomize variables. When you artificially dichotomize a variable the new dichotomous variable may be conceptualized as having an underlying continuity. If this is the case, a biserial correlation would be the more appropriate calculation.
Biserial vs Point Biserial
vs
http://titanpad.com/ltm-workshop
Luister naar de audio over dit onderwerp
Luister naar de audio over dit onderwerp
Een weegfactor voor toetsvragen?
Wat vinden studenten van gesloten toetsvragen?
Wat is het doel van toetsvragen?
Absoluut
60% methode
Stel: een meerkeuzetentamen bestaat uit 60 vier-keuzevragen. Waar stellen we de cesuur?

Voor het berekenen van de cesuur wordt eerst de raadkans van het totaal afgetrokken: dat is voor 4-keuzevragen 25% van het totaal, dus een score van 15. Voor deze eerste 15 punten worden dus geen cijferpunten toegekend.

In dit geval bepaalt dat de student 60% goed moet hebben om een voldoende te krijgen. Die 60% wordt berekend over de score na aftrek van de kansscore: dat is in dit voorbeeld 60% over 45 = 27.

De grens voldoende/onvoldoende komt nu te liggen op 27 + de raad¬kans (15): men moet dus 42 van de 60 vragen goed hebben voor een voldoende (een zes). In formule:

Cesuur = 0.25 60 + 0.6 (60 - 0.25 60) = 42.
CB's alpha verhogen
Misclassificaties
Geaccepteerde waarden voor de betrouwbaarheid:
alpha < 0.6 = zeer slecht
alpha >0.6, <0.7 = matig
alpha >0.7, <0.8 = redelijk
alpha >0.8, <0.9 = voldoende
alpha > 0.9 = goed
Voorbeeld 1
Voorbeeld 2
Validiteit
Indruksvaliditeit
Inhoudsvaliditeit
Criteriumvaliditeit
Concurrent validiteit
Predictieve validiteit
Ecologische validiteit
Constructvaliditeit
Convergente validiteit
Divergente validiteit
Discriminante validiteit

Consequentiele validiteit
Tenzij... "B is the new C"
http://www.collegehumor.com/article/1019951/the-answer-is-not-always-c
https://dl.dropbox.com/u/1429185/IRT_analysis.html
R assignment
Van cesuur naar cijfer
Excel-omrekenhulp om op basis van een aantal vragen goed of een percentage gescoorde punten van een cesuur naar een cijfer te komen:
http://goo.gl/2uHGH
Full transcript