Introducing 

Prezi AI.

Your new presentation assistant.

Refine, enhance, and tailor your content, source relevant images, and edit visuals quicker than ever before.

Loading…
Transcript

Validiteit, Toetsaanbieding, Itembanking, Klassieke proces van toets- en itemanalyse, Cesuurstelling, Random-trekking

Terugkoppeling huiswerkopdracht - vraagconstructie en analyses

Lunch

Toetsanalyse in SPSS en nadere verkenning IRT

Zelf aan de slag met TAP of R / persoonlijke vragen

Pauze - Plenaire uitleg

Weer verder aan de slag

Evaluatie

Afsluiting en borrel

Masterclass Digitaal toetsen:

Digitale itemconstructie en digitale toetsanalyse

Silvester Draaijer

Vrije Universiteit Amsterdam

http://www.linkedin.com/in/silvesterdraaijer

Sharon Klinkenberg

Universiteit van Amsterdam

http://www.linkedin.com/in/SharonKlinkenberg

Sander Schenk

Hogeschool Rotterdam

http://www.linkedin.com/in/sanderschenk

Take Home Opdracht

Theoretisch Kader

Dag 1

Dag 2

Maak een mini-toets over

Toetsen en Beoordelen voor je collega's

KTT

IRT

1PL/Rasch

Tijdens Masterclass dag 1

Tijdens Masterclass dag 2

Tussendoor

1-2 groepjes presenteren analyse

Programma's

voor Toetsanalyse

Bekijk hier de invloed

van de parameters

http://demonstrations.wolfram.com/123ParameterLogisticRaschAndBirnbaumModelsAndItemAnalysis/

  • Voer vragen in, stel een toets samen
  • Verzamel e-mailadressen
  • Eindredacteur zet toets klaar
  • Projectleider en redacteur voeren toetsanalyse uit
  • Uiterlijk vrijdag 30 november moet u een bestand met ruwe data naar Sharon Klinkenberg (s.klinkenberg@uva.nl) verzenden

5 min: Maak groepje van 3

5 min: Kies een onderwerp

20 min: Maak zelf 4-5 vragen in Google Docs

15 min: Verbeter de vragen van andere groepsleden

5: Voeg de vragen samen en kies bijvoorbeeld de 10 beste er uit

6: Kies toetsprogramma

7: Bepaal projectleider, eindredacteur, redacteur

Toets- en itemanalyse

Programma

Nabespreking van...

2PL/Birnbaum

P is de kans op

een correct antwoord

De beste toets ooit!

K=3

Aantal items

Variantie van

de items

not...

TAP: Test Analysis Program

Test Information

Cronbach's alpha

3PL

Misclassificaties

http://www.ohio.edu/people/brooksg/tap.htm

10.00

10.20

11.00

12.15

13.00

13.15

14.00

14.45

15.00

15.45

16.00

Introductie en kennismaking

Nabespreken: "de beste toets ooit"

Toetsen en beoordelen: theoretisch kader

Lunch

Toetsmatrijs en validiteit

Vorm en inrichting van digitale toetsen

Digitale vraagtypen

Pauze

Opdracht: voorbereiding take-home-opdracht

Evalueren, vooruitkijken en take-home-opdracht

Einde

Geaccepteerde waarden voor de betrouwbaarheid:

  • alpha < 0.6 = zeer slecht
  • alpha >0.6, <0.7 = matig
  • alpha >0.7, <0.8 = redelijk
  • alpha >0.8, <0.9 = voldoende
  • alpha > 0.9 = goed

Betrouwbaarheid voor

dichotoom gescoorde items

10.15

11.15

12.15

13.00

14.00

14.45

15.00

15.45

16.00

Voorbeeld 2

Voorbeeld 1

Standard error of estimation

CB's alpha verhogen

Variantie van

de totaalscore

!

Maak "de beste toets ooit..."

Log in met de onderstaande gegevens.

TIAplus (CITO)

Itemindices

http://goo.gl/34WZF

URL:

p-waarde

a-waarde

= % correct

= % antwoord opties

P-waarden stabiliteit

eigen naam

Studentnummer:

= correlatie tussen item en totaalscore

= mean item alternative

= correlatie tussen item en gecorrigeerde totaalscore

SURF

= mean item alternative corrected total score

if alternative is correct

Groep:

Het klassieke proces van toets- en itemanalyse

  • Stap 0: Data opschonen en prepareren

  • Stap 1: betrouwbaarheidsberekening + toetsverlengingsberekening

  • Stap 2: itemanalyse (p, p’, Rit/Rir, a) – vuistregels voor gevonden waarden

  • Stap 3: histogrammen van behaalde scores

  • Stap 4: cesuurstelling en score-cijfertransformatie

  • Stap 5: bepalen percentages gezakten en geslaagden

  • Stap 6: inhoudelijke discussie met docenten over analyse en resultaten

  • Stap 7: besluit tot aanpassing of verwijdering van items, besluit tot aanpassing cesuur

  • Stap 8: herberekeningen uitvoeren

gekozen alternatief

Correct/Incorrect

Biserial correlation coefficient

SD van sum met alle personen

is erg lastig met de hand te berekenen

M1=(2+4+10+5+10)/5=6.2 n1=5

M0=(5+6+3+4+1)/5=3.8 n2=5

sd sum = 3.018462

Te makkelijke en

te moeilijke items

zijn niet goed

vs

Biserial vs Point Biserial

The point biserial correlation coefficient (rpb) is a correlation coefficient used when one variable (e.g. Y) is dichotomous; Y can either be "naturally" dichotomous, like gender, or an artificially dichotomized variable. In most situations it is not advisable to artificially dichotomize variables. When you artificially dichotomize a variable the new dichotomous variable may be conceptualized as having an underlying continuity. If this is the case, a biserial correlation would be the more appropriate calculation.

SPSS (IBM)

Wat is je opgevallen aan de toets?

Wat is goed?

Wat is voor verbetering vatbaar?

R assignment

Luister naar de audio over dit onderwerp

R

CAT

Constructieregels voor toetsvragen

https://dl.dropbox.com/u/1429185/IRT_analysis.html

http://www.r-project.org/

Wat is het doel van toetsvragen?

Itembanking

Vraaginhoud

http://titanpad.com/ltm-workshop

?

  • Metadatering -> Garbage In = Garbage Out --> KISS
  • Bepaal primaire vraagtype
  • Bepaal de 'specials'
  • Bepaal wel/niet ontwikkeling van feedback

Denk terug aan de "beste toets ooit" waar de dag mee begonnen is. Welke constructie-regels werden daarin overtreden?

Rollen

  • Projectleider
  • Eindredactie
  • Redactie
  • Inhoudsdeskundigen

Vraagvorm

Metadata structuur

Toetsdoel

Stijl

  • Kennisvraag, Toepassingsvraag, Inzichtsvraag
  • Meerkeuzevraag, Invulvraag, Numerieke vraag, Aanwijsvraag, Juist/Onjuist vraag, Parallelvraag, Casusvraag
  • Tentamenvraag, Oefenvraag, Voortgangsvraag
  • Overige gegevens: Datum afname, Rit- of Rir-waarde bij laatste afname (dit is een indicatie voor de bijdrage aan de toetsbetrouwbaarheid), trefwoord, auteur, bron, moeilijkheidsgraad, geschatte beantwoordingsduur, afhankelijkheid ten opzichte van andere vragen.

"Formatief - summatief is een continuüm van wat er op het spel staat"

Cees van der Vleuten

Zorg dat toetsen altijd een leerfunctie hebben

Matrijs

Hoe meer toetsen, hoe beter je beslissing

Vraagstam

Bron:

Hiërarchische structuur

  • Op basis van toetsmatrijs: toets -> hoofdonderwerpen -> subonderwerpen
  • Boek -> Hoofdstuk -> Paragraaf -> Bladzijde
  • Vakken -> Hoofdthema’s -> Onderwerp -> Deelonderwerp
  • Curriculum -> Studiefase -> Semester -> Blok
  • Rollen -> competenties -> doelen ->trefwoorden

A Review of Multiple-Choice Item-writing Guidelines for Classroom Assessment

Leren en Feedback

Meten

Haladyna, Downing, Rodriguez, 2002

diagnostische toetsen en oefentoetsen

Alternatieven

Assessing

Quizzing

Examination

  • Validiteit
  • Betrouwbaarheid
  • Transparantie
  • Bruikbaarheid

Als de toets een diagnostische functie heeft:

  • dan moet de inhoud van de formatieve toets representatief zijn voor het niveau van de eindtoets en de leerdoelen goed dekken
  • dan moet de feedback zowel een totaal score bevatten als informatie over de beheersing van de verschillenden onderdelen van de leerstof (aan welke onderdelen moet de student extra aandacht besteden?)
  • dan wordt de feedback gegeven nadat de formatieve toets geheel is gemaakt
  • dan moet de registratie zowel gegevens per student als over de hele groep bevatten; eventueel moeten resultaten kunnen worden weggeschreven naar het studentvolgsysteem van de opleiding

Als de toets bedoeld is om met de leerstof te oefenen:

  • ontwerp dan oefeningen die eventueel eenvoudiger zijn dan de eindtoets (bijv. leren toepassen van sleutelconcepten uit de leerstof) en maak de studenten duidelijk dat het niveau niet representatief is voor de eindtoets
  • maak dan vooral vragen over lastige onderdelen van de leerstof
  • maak dan een keuzemenu zodat studenten kunnen kiezen voor vragen over bepaalde onderwerpen
  • maak dan meer vragen per onderwerp en geef liefst feedback na afronding van een 5-10-tal vragen zodat studenten van hun fouten kunnen leren maar wel een echte poging hebben moeten ondernemen om de vragen correct te beantwoorden
  • plaats dan de vragen in oplopende volgorde van moeilijkheid zodat studenten niet direct vastlopen
  • maak dan gebruik van een variatie aan vraagtypen en van multimediaal materiaal om de student extra te motiveren om met het materiaal aan de slag te gaan
  • voorzie dan de eerste opgaven van aanwijzingen of suggesties in welke richting de oplossing moet (kan) worden gezocht of verdeel de opgaven in kleine stappen die voorafgaan aan de uiteindelijke hoofdoplossing.

Test Cultuur

Cijfers geven

Informatie uit:

Kloppenburg, E. F. M. (2003). De ontwikkeling van een psychometrische kwaliteitsanalyse voor de toetsenbank van de Examenbank EbA (Afstudeerverslag in het kader van de opleiding Toegepaste Onderwijskunde aan de Universiteit Twente). Enschede: Universiteit Twente.

Voorbeelden van formatief toetsen

Enige bijzonderheden

http://www.beterspellen.nl

Writing Effective Test Questions:

http://app.qstream.com/topctjones/courses/400-Writing-Effective-Test-Questions

Validiteit

Absoluut

  • 60% methode

Raadscore

Toets-ICT van Instruct:

http://www.toetsit-online.nl/toetsit/demonstratie/Totaaloverzicht%20leerlingomgeving.html

Luister naar de audio over dit onderwerp

Stel: een meerkeuzetentamen bestaat uit 60 vier-keuzevragen. Waar stellen we de cesuur?

Voor het berekenen van de cesuur wordt eerst de raadkans van het totaal afgetrokken: dat is voor 4-keuzevragen 25% van het totaal, dus een score van 15. Voor deze eerste 15 punten worden dus geen cijferpunten toegekend.

In dit geval bepaalt dat de student 60% goed moet hebben om een voldoende te krijgen. Die 60% wordt berekend over de score na aftrek van de kansscore: dat is in dit voorbeeld 60% over 45 = 27.

De grens voldoende/onvoldoende komt nu te liggen op 27 + de raad¬kans (15): men moet dus 42 van de 60 vragen goed hebben voor een voldoende (een zes). In formule:

Cesuur = 0.25 60 + 0.6 (60 - 0.25 60) = 42.

Aantal afgenomen toetsen:

http://blog.questionmark.com/psychometrics-101-sample-size-and-question-difficulty-p-values

Vorm en inrichting

  • Indruksvaliditeit
  • Inhoudsvaliditeit
  • Criteriumvaliditeit
  • Concurrent validiteit
  • Predictieve validiteit
  • Ecologische validiteit
  • Constructvaliditeit
  • Convergente validiteit
  • Divergente validiteit
  • Discriminante validiteit

  • Consequentiele validiteit

How much do you know about Assessments 1:

http://blog.questionmark.com/how-much-do-you-know-about-assessment-quiz-1-cut-scores

Formatief

Summatief

How much do you know about Assessments 2:

http://blog.questionmark.com/how-much-do-you-know-about-assessments-quiz-2-validity-defensibility

Randomiseren volgorde, ja of nee?

Wel of geen feedback?

De 6-jes student

komt zelden voor

Alleen punten geven levert hele schrale informatie. Daar heb je als student weinig aan.

De 6-jes student

is meestal technisch niet mogelijk

Toetsniveau

Vragenblokniveau

Vraagniveau

Alternatievenniveau

Kraut, Wolfson en Rothenberg, 1975

in het algemeen niet wenselijk (?!)

Tested the effect of putting opinion survey items in different positions in a questionnnaire. Equivalent samples of 284 and 281 employees in an industrial corporation completed similar questionnaires in which the placement of 46 Likert-type items were reversed. Respondents answered with less extreme responses and were slightly more likely to omit replies when items were placed later in the questionnaire. Findings suggest that comparisons of responses to identical items used in different surveys may be misleading if they appeared in different position or context.

Absoluut

  • Angoff
  • Nedelsky
  • Ebel
  • Kernitemmethode (De Groot)
  • Bookmark

Toetslengte

De 6-jes student

wordt vaak afgeraden

7 reasons why 'marking' sucks

Zie o.a. Huntley en Welch, 1993

http://donaldclarkplanb.blogspot.com/2011/07/7-reasons-why-marking-sucks.html

Onderzoek Norcini et al, 1985

Logische volgorde

http://eric.ed.gov/PDFS/ED358136.pdf

Items werden niet moeilijker, maar waren wel lastiger voor laag scorende deelnemers (hogere discriminatie)

Betrouwbaarheid neemt toe met toetstijd.

Voorbeeld meerkeuzevragen:

  • 1 uur - 0,62
  • 2 uur - 0,76
  • 4 uur - 0,93
  • 8 uur - 0,93

ovragen met lage/hoge Difficulty (<0,1, >0,85) en uitgesproken negatieve Correlation-waarden (<0,05) (Ander alternatief juist? Strikvraag?)

ovragen met gemiddelde Difficulty (>0,2,<0,4) en negatieve Correlation-waarden (<0,1) (ander alternatief juist? Strikvraag?)

ovragen met gemiddelde Difficulty (>0,2,<0,4) en Correlation-waarden rond de 0 (Ander alternatief juist? Behandeld?)

ovragen met lage Difficulty (<0,1) en Correlation-waarden rond de 0 (Behandeld?)

ovragen met hoge Correlation-waarden (>0,3) zijn goede vragen.

Zo simpel mogelijk

Op- of aflopend (getallen)

Alfabetisch (woorden)

Op lengte (zinnen)

máár...

Zie ook Attali en Bar-Hillel, 2003

"Elke toets is in feite een compromis."

De 6-jes student

Hoeveel vragen per onderwerp?

http://goo.gl/1cHqF

Cees van der Vleuten

PriceWaterhouseCoopers bepaalt het aantal vragen per onderwerp aan de hand van de onderstaande formule.

Antwoordopties worden vaak overdreven goed 'uitgebalanceerd' in een toets. Studenten doen dit bij hun beantwoording minder, zij hebben een bias voor 'het midden'. Dit heeft mogelijk psychometrische implicaties.

x

Domain size

=

# Questions

Criticality

Digitale vraagtypen

Itemkenmerken

1 = Small (less than 30 minutes to train)

2 = Medium (30-59 minutes to train)

3 = Large (60-90 minutes to train)

1 = Slightly important but needed only once in a while

2 = Important but not used on every job

3 = Very important, but not used on every job

4 = Critical and used on every job

Meer info: http://goo.gl/sOu79

Een weegfactor voor toetsvragen?

Aandachtspunten vraagontwerp

Tijd en toetsen

Aandachtspunten toetsontwerp

  • Vragen met lage/hoge moeilijkheid (<0,1, >0,85) en uitgesproken negatieve correlatie-waarden (<0,05) --> Ander alternatief juist? Strikvraag?
  • Vragen met gemiddelde moeilijkheid (>0,2,<0,4) en negatieve correlatie-waarden (<0,1) --> ander alternatief juist? Strikvraag?
  • Vragen met gemiddelde moeilijkheid (>0,2,<0,4) en correlatie-waarden rond de 0 -->Ander alternatief juist? Behandeld?
  • Vragen met lage moeilijkheidsgraad (<0,1) en correlatie-waarden rond de 0 -->Behandeld?
  • Vragen met hoge correlatie-waarden (>0,3) zijn goede vragen.

Masters en non-Masters vooraf bekend

Tijdsbeperking voor toets?

ja, maar zorg dat de toetstijd ruim genoeg is voor de overgrote meerderheid

meerkeuze

meerkeuze

meerkeuze

...

Wat is de hoofdstad van Australië?

Gegeven: een accountant bezoekt een...

Bereken (2 1/4) / (3/8)

...

IFM.BEC.12.01.03_XN001_XA4

Fruit - leerdoel 34 - vraag 8

COMP-B12-V37

...

Goede toetsanalyse nodig? Wees dan behoudend in de keuze voor te gebruiken vraagsoorten. Bijvoorbeeld meerkeuze.

Vragen maken is Probleem Oplossen

Tijdsbeperking voor vragen?

De 6-jes studenten

tsja, meet je dan nog wel wat je wilt meten, of ook iets anders?

  • De juiste vorm van de stimulus is het belangrijkst!
  • Naamgeving van vragen
  • Dichotoom (0,1) of polytoom (0,1,2,3,...) scoren?
  • Toegankelijk voor mensen met een functiebeperking?
  • Dubbele stellingvragen? Niet doen!
  • Gebruik conventies voor taalgebruik, lettertype, etc.
  • Houd je aan de vuistregels voor goed vraagontwerp...

Relatief

  • Contrastgroep
  • Grensgroep
  • Grading on the curve (methode Wijnen)

Zorgen dat niemand

ten onrechte zakt

Wel of geen race tegen de klok?

nee, tenzij presteren onder tijdsdruk een expliciete doelstelling is van de toets

  • Lengte, niet te kort, niet te lang?
  • Niet teveel vraagsoorten door elkaar?
  • Vragen geschikt voor analyse achteraf?
  • Vragen geschikt voor inzagerapporten achteraf?
  • Let op met "certainty based marking"
  • Niet vergeten: een toetsinstructie
  • Introductie- en feedbackteksten in orde?
  • Toegankelijk voor mensen met een functiebeperking?
  • Gebruik alleen relevante en representatieve vragen

Informatieve grafieken mogelijk

Lees hier waarom: http://goo.gl/gHbj9

Niet alle vraagsoorten zijn even geschikt om na de toets gebruikt te worden in bijvoorbeeld een inzagerapport. Controleer vooraf of alle gewenste informatie getoond kan worden

Praktijkvoorbeeld: http://goo.gl/EOerb

Meerkeuzevragen

Top 5 constructiefouten

Zie http://goo.gl/bjAnS

1. Stam zonder vraag/context

2. Negatieve vraagstelling

3. Alle/geen van bovenstaande

4. Combinatie van alternatieven

5. Alternatieven met appels/peren

Hulpmiddel: toetsmatrijs

Een toetsmatrijs is een lijst met onderwerpen die je wilt toetsen en een indicatie van het niveau waarop je die onderwerpen wilt toetsen.

Hulpmiddel: toetstermen

Toetstermen zijn concretiseringen van leerdoelen. Zeggen iets over inhoud, gedrag en eventueel minimumprestatie en voorwaarden.

Vraagtypes

Digitale Vraagtypes

Techniek

Vraaginvoermethoden

Multimedia en Usability

Uitwisseling data en toetsen

Voorbeelden van 'typisch' digitale toetsvragen

Doel van innovatieve items

Hoofddoelen van een toetsvraag

  • Vragen naar belangrijke concepten uit de stof
  • Vragen die niet te moeilijk en te gemakkelijk zijn
  • Vragen die discrimineren tussen degene die de stof beheerst en degene die de stof niet beheerst
  • Studenten stimuleren om hun best te doen

Belangrijk:

  • De kwaliteit van de stimulus bepaalt de aard van het denkproces van de student, niet het vraagtype
  • Het denkproces van de student wordt bepaalt door de mate van beheersing van de stof

Een overzicht van toetsvraagtypen met voorbeelden, voor- en nadelen en aanwijzingen voor scoring

http://testdevelopment.nl/qdst/qdst-nl/pro-con-q-formats/pro-con-general.htm

Uitwisseling van data

  • IMS QTI v1.2 en 2.1 - korte demo Respondus
  • SCORM en AICC - kort demo Adobe Captivate

  • Koppeling aan DLO's

Auteurstool van toetssysteem

http://toetsauth.vu.nl/q/perception.dll?Name=OND%2DDEMO&password=OND%2DDEMO&session=2756121932389954

Speciale importopmaak voorbeelden:

Respondus:

http://oel.umflint.edu/helpguides%5Cfaculty%5Cbb9%5CCT19_Common_Question_Formats_Respondus.htm

https://www.surfgroepen.nl/sites/flexassessment/Lists/dp5/example_view.aspx

Freie-Universität-Berlin. (2003). Dialang: Experimental Items Menu. Lancaster University. Retrieved from http://www.lancs.ac.uk/fss/projects/linguistics/experimental/new/expmenu.htm

  • via client-software, maar steeds vaker ook web based
  • geschikt voor vraagtypen met media
  • relatief eenvoudig te bedienen

DigiCAT VUmc:

http://toetsauth.vu.nl/q/perception.dll?Name=OND%2DDEMO&password=OND%2DDEMO&session=5200924487068358

Parshall (2002)

  • reduce the effect of guessing
  • enable a more direct measure of the skill or attribute of interest

5 dimensions in which items may be innovative are:

  • item format: the sort of response collected from the examinee e.g. selected response or constructed response.
  • response action: the means by which the examinee provides his response e.g. key presses, mouse clicks, …
  • media inclusion: the addition of nontext elements in the item
  • level of interactivity: the extent to which an item type reacts or responds to the examinees input.
  • scoring method: how examinee responses are converted into quantitative scores

Questionmark Perception:

http://www.questionmark.com/perception/help/v4/best_practice/importing/importing_content/ascii_import.htm

Afbeeldingen:

  • hoeveel resolutie is nodig om de afbeelding goed te kunnen zien?
  • zijn in- en uitzoom opties noodzakelijk?
  • mag de afbeelding maar een korte tijd zichtbaar zijn?
  • is de afbeelding noodzakelijk voor het beantwoorden van de vraag?

Afhankelijk van programma

  • MapleTA
  • Blackboard
  • TestVision
  • WinToets
  • Questionmark Perception
  • Adobe Captivate
  • Articulate Quizmaker

Inspiratiebronnen voor toetsvraagontwikkeling:

http://testdevelopment.nl/qdst/qdst-nl/pro-con-q-formats/dive-general.htm

Heel veel verschillende mogelijkheden

Sterk afhankelijk van programma

  • MapleTA
  • Blackboard
  • TestVision
  • WinToets
  • Questionmark Perception
  • Adobe Captivate
  • Articulate Quizmaker

Import via platte-tekst-methode

Random vraagtrekking uit itembanken, ja of nee?

Standaard vraagtypes

Multiple-Response

  • via importbestanden in QML, ASCII, QTI, XML, CSV, etc.
  • gechikt voor grote aantallen en speciale vraagtypen
  • lastiger om mee te werken, is specialisme

Scoring en Raadscore

Specialisten in het proces

De gouden standaard: Multiple-choice vragen

http://testdevelopment.nl/qdst/qdst-nl/pro-con-q-formats/pro-con-mrq.htm

Test, test, test!

Video:

  • welk video formaat?
  • zelf startend of niet?
  • wel of niet volume-regeling?
  • zelf stoppend of niet?
  • wel of niet meerdere keren afspeelbaar?
  • wel of niet opblaasbaar naar full-screen?
  • zorg ervoor dat de video afspeelt op de apparaten van de studenten - iPad ondersteunen geen flash, maar wel YouTube?
  • mag de video wel of niet zichtbaar zijn op het internet?

Ordening en Matching

  • 3 opties is genoeg
  • Middelste opties worden vaker gekozen dan de uitersten
  • Docenten maken de middelste opties vaak het correcte antwoord

http://testdevelopment.nl/qdst/qdst-nl/pro-con-q-formats/pro-con-match.htm

http://testdevelopment.nl/qdst/qdst-nl/pro-con-q-formats/pro-con-ord.htm

http://testdevelopment.nl/qdst/qdst-nl/pro-con-q-formats/pro-con-mcq.htm

Beveiliging

Special Cases Medical Education

Invulvragen

Hotspot en drag-and-dropvragen

Wat vinden studenten van gesloten toetsvragen?

Ontwikkelproces

Ook goed: Juist-Onjuistvragen

http://testdevelopment.nl/qdst/qdst-nl/pro-con-q-formats/pro-con-fill-in-the-blank.htm

Juist-Onjuist

Casusgerichte toetsing in het Medisch Onderwijs

Literatuur

Schuwirth, L. W. T. (1999). How to write short cases for assessing problem-solving skills. Medical Teacher, 21, 144-150. doi:10.1080/01421599979761

Voorkom problemen: besteed zoveel mogelijk tijd en aandacht aan de kwaliteit van toetsing als mogelijk is

Extended Matching Questions

Literatuur

Case, S. M., & Swanson, D. B. (1994). Extended matching items: a practical alternative to free-response questions. Teaching and Learning in Medicine, 5, 107-115.

Numeriek antwoordvraag

1

2

Word

Notepad

http://notepad-plus-plus.org/

Alternate choice

vs

Compromis

  • Beuk
  • Hofstee
  • Cohen-Schotanus, van der Vleuten

http://testdevelopment.nl/qdst/qdst-nl/pro-con-q-formats/pro-con-t-f.htm

Score-cijfer transformatie

Pas op met kopiëren en plakken uit Word!

3

4

Wie zijn er allemaal betrokken bij het digitale toetsproces?

Op de achtergrond

  • Software leverancier
  • Technisch beheer
  • Applicatiebeheer
  • Functioneel beheer

Ontwikkelproces

  • Projectleider
  • Eindredactie
  • Redactie
  • Inhoudsdeskundigen

Innovatieve en multimediale toetsvragen

  • Technisch ontwikkelaar

Afnameproces

  • Roosteraars
  • Surveillanten
  • Toetsleider
  • (Functioneel beheer)
  • (Applicatiebeheer)

Van cesuur naar cijfer

Welke methode je ook kiest, pas op met knippen en plakken!

5

6

Beschouw het echt als een ontwerpproces!

  • Bepaal de type simulatie/opdracht
  • Bepaal welke materialen digitaal beschikbaar zijn of ontwikkeld moeten worden
  • Maak een mock-up van de vraag (lay-out, elementen, antwoord elementen, hulpmiddelen e.d.). Maak een tekening met de hand of met de computer
  • Maak een prototype van de vraag in het programma waarin de vraag moet worden afgenomen
  • Probeer de vraag uit bij collega's of een paar studenten (5-10 is genooeg)
  • Pas de vraag aan

Discussie

Simulaties

  • zelf startend of niet?
  • zelf stoppend of niet?
  • wel of niet opblaasbaar naar full-screen?
  • zorg ervoor dat de simulatie afspeelt op de apparaten van de studenten - iPad ondersteunen geen flash, maar wel YouTube?

Zie de serie blogposts - in ontwikkeling - van Jack Pleumeekers op Oculary.nl

<P style="TEXT-ALIGN: justify; MARGIN: 0cm 0cm 0pt" class=MsoNormal><B><SPAN style="FONT-FAMILY: Arial; FONT-SIZE: 10.5pt; mso-bidi-font-family: Arial; mso-ansi-language: NL" lang=NL>Pas op met kopiëren en plakken uit Word!<?xml:namespace prefix = o ns = "urn:schemas-microsoft-com:office:office" /><o:p></o:p></SPAN></B></P>

?

Wat zijn voor- en nadelen?

http://oculary.nl/2011/11/16/digitaal-toetsen-deel-4a-security/

  • Wordt de vraag getoond zoals beoogd?
  • Kun je de vraag beantwoorden zoals bedoeld?
  • Levert een goed antwoord het gewenste aantal punten op?
  • Levert een fout antwoord niet tóch punten op?
  • Klopt de getoonde feedback?
  • Staat de gevoeligheid voor typefouten en hoofdlettergroep goed ingesteld?

Excel-omrekenhulp om op basis van een aantal vragen goed of een percentage gescoorde punten van een cesuur naar een cijfer te komen:

In welke situaties gelden deze?

http://goo.gl/2uHGH

Bij complexe vraagtypen altijd uitgebreid testen, liefst ook met studenten

Conclusie?

Questionmark Perception heeft hiervoor vraagstatussen "beta" en "expirimental"

Kafkaësk toetsen?

Cesuur bepalen

7 reasons why Kafka would have loved assessment

http://donaldclarkplanb.blogspot.com/2011/09/7-reasons-kafka-would-have-loved.html

Feedback

Zeven checks:

Toetssamenstelling

1

De kans om bij een toets succes te hebben, mag niet afhangen van het toepassen van 'slimme' antwoordstrategieën.

2

Gaan de toetsvragen écht ergens over? Dus niet over trivialiteiten die niemand later nodig blijkt te hebben?

*

3

Toets niet te laat. Alleen een eindtoets is niet goed genoeg. Maak gebruik van de kracht van herhaling en oefenen.

Stroomschema

4

Toets niet het falen van studenten, maar juist hun voortgang bij het volledig behalen van de leerdoelen.

*

5

Rem de 'vergeetcurve' af door niet alleen kennis te toetsen, maar ook hogere cognitieve niveaus.

6

Toetsen op papier of digitaal? Hoe meer schrijfwerk, hoe liever digitaal. Pen en papier is zó 1980...

Mogelijke feedback bij toetsen

  • Uitsluitend aangeven of een vraag correct of fout beantwoord is (beoordeling).
  • Aangeven of de student voldoet aan de tentameneisen (normfeedback).
  • Inhoudelijk uitleggen waarom een vraag correct of fout beantwoord is.
  • Studeeraanwijzingen of hints geven waarmee de student de vraag opnieuw kan proberen.

7

Antwoordstrategieën

bij meerkeuzevragen?

Investeer zoveel mogelijk tijd en moeite in het construeren van goede toetsen. Kwaliteitszorg is uiterst belangrijk.

*

Zie voor een nuancering van deze punten de discussie in de commentaren van deze blogpost van Wilfred Rubens: http://wilfredrubens.typepad.com/wilfred_rubens_weblog/2011/09/beoordelen-een-kafka%C3%AFaans-proces-in.html

Presentatie toets tijdens afname

Afnamecondities

Aanwijzingen bij het geven van feedback:

  • Geef pas feedback nadat zeker is dat de lerende een oprechte poging heeft gedaan om een antwoord te formuleren, bijvoorbeeld door een drempel op te werpen. Dan kan bijvoorbeeld, door feedback te geven:
  • --> in de vorm van timing, waardoor pas na bijvoorbeeld 30 seconden een antwoord kan worden gegeven
  • --> in de vorm van een nieuwe vraag
  • -->in de vorm van een studeeraanwijzing als de vraag niet correct is beantwoord
  • -->pas als minimaal 80% van de vragen correct is beantwoord
  • -->pas als het antwoord correct is;
  • Formuleer feedback beknopt.
  • Houd de toon van feedback positief / neutraal; feedback bij verkeerd beantwoorde vragen mag nooit neerbuigend zijn.
  • Geef bij correct beantwoorde vragen aan waarom het gekozen antwoord correct is en waarom de andere antwoorden fout zijn; een student kan door gokken het correcte antwoord hebben gekozen.
  • Geef bij gedeeltelijk correct of fout beantwoorde vragen aan wat het juiste antwoord is, waarom dat het juiste antwoord is, waarom het door de student gekozen antwoord fout is en waarom de andere antwoorden fout zijn.
  • Lange antwoorden op open vragen kunnen niet automatisch worden nagekeken, feedback kan hier worden gegeven in de vorm van een antwoordmodel waarmee de student het eigen antwoord kan vergelijken. Geef hierbij ook een beoordeling aan (‘Als je tenminstens drie van deze punten hebt genoemd, is de vraag voldoende beantwoord.’)
  • Zorg dat de vraag nog te zien is als de feedback verschijnt, herhaal zonodig de vraag in de feedback.
  • Feedback is meestal tekstueel maar soms is een andere vorm duidelijker, zoals een afbeelding.
  • Gebruik geen speciale effecten (zoals geluid of humoristische afbeeldingen) in feedback, deze kunnen studenten afleiden of irriteren.
  • Geef studenten zo mogelijk de gelegenheid te kiezen uit verschillende soorten feedback, aansluitend bij verschillende fout- of redeneertypen..
  • Behalve inhoudelijke informatie kan feedback ook informatie geven voor strategieën of suggesties om verder te gaan. Soms is een hint waarmee een student zelf de oplossing kan zoeken, zeer leerzaam. Uiterlijk na de derde poging moet het correcte antwoord worden gegeven en/of moet de student verder kunnen met de volgende vraag.
  • Alle informatie die nodig is om de vraag te beantwoorden moet in de vraag staan (het is frustrerend voor studenten als noodzakelijk informatie pas achteraf wordt gegeven in de feedback).

naar; Fenrich (1997) en Rayne (2002).

Goede meerkeuzevragen zijn 'immuun' voor antwoordstrategieën

Alle vragen onder elkaar (scrollen) of vraag per vraag (QxQ)?

Onderzoek van Ricketts en Wilks duidt op betere resultaten bij vraag-per-vraag. Zie http://goo.gl/ZmHek

"If All Else Fails, Choose C"

http://www.collegehumor.com/article/1019951/the-answer-is-not-always-c

Tenzij... "B is the new C"

Onderverdeeld in vraagblokken?

Maakt toetsanalyse op blokniveau mogelijk

http://goo.gl/YgWsB

Vermindert piekbelasting van server

Eenrichtingsverkeer?

Voorkomt 'weggevertjes' doordat antwoord niet kan worden teruggezocht bij een eerdere vraag

Studenten willen graag kunnen wisselen tussen vragenblokken

Questionmark Perception kent alleen maar eenrichtingsverkeer tussen vragenblokken

Literatuur

Summatief toetsen

Toetstheoriën

http://en.wikipedia.org/wiki/Classical_test_theory

http://en.wikipedia.org/wiki/Item_Response_Theory

Ronald K. Hambleton. Fundamentals of Item Response Theory (Measurement Methods for the Social Science). Sage Publications, Inc, 1 edition, July 1991.

http://books.google.com/books/about/Fundamentals_of_item_response_theory.html?id=cmJU9SHCzecC

Brink, W. P., & Mellenbergh, G. J. (1998). Testleer en testconstructie. Amsterdam: Boom.

http://www.bol.com/nl/p/nederlandse-boeken/testleer-en-testconstructie-druk-1/666821103/index.html

Field, A. (2009). Discovering statistics using SPSS (and sex and drugs and rock 'n' roll). London etc.: Sage Publications.

http://books.google.com/books/about/Discovering_Statistics_Using_SPSS.html?id=5253SAL5nDgC

Gruijter de, D. N. M. (2008). Toetsing en toetsanalyse, herziene versie november 2008.

http://media.leidenuniv.nl/legacy/toetsing-en-toetsanalyse.pdf

Formatief toetsen

Toetsen met de computer

Website Digitale Didactiek: http://www.digitaledidactiek.nl/wp/?cat=7

Draaijer, S., Hulst, M. E. van der, & Graaff, R. de. (2006). Het afnemen van toetsen met de computer. In H. van Berkel & A. Bax (Eds.), Toetsen in het Hoger Onderwijs. (2nd ed., p. Hoofdstuk 5). Bohn Stafleu Van Loghum. http://goo.gl/7HTBp

Presentaties SURF-workshop aan de slag met formatief toetsen: http://www.surf-academy.nl/archief/event/?id=351

Online quizzing

Angus, S. D., & Watson, J. (2009). Does regular online testing enhance student learning in the numerical sciences? Robust evidence from a large data set. British Journal of Educational Technology, 40(2), 255-272. doi:10.1111/j.1467-8535.2008.00916.x

Haak, D. C., HilleRisLambers, J., Pitre, E., & Freeman, S. (2011). Increased Structure and Active Learning Reduce the Achievement Gap in Introductory Biology. Science, 332(6034), 1213 -1216. doi:10.1126/science.1204820

Innovatieve toetsvragen

Parshall, C., Davey, T., & Pashley, P. (2000). Innovative Item Types for Computerized Testing. Computerized Adaptive Testing: Theory and Practice (pp. 129-148). Retrieved from http://dx.doi.org/10.1007/0-306-47531-6_7

Parshall, C. G., & Harmes, J. C. (2009). Improving the Quality of Innovative Item Types: Four Tasks for Design and Development. Journal of Applied Testing Technology, 10, 20. http://www.testpublishers.org/assets/documents/Improving.pdf

Thomas, R., Ashton, H., Austin, B., Beevers, C., Edwards, D., & Milligan, C. (2004). Assessing Higher Order Skills Using Simulations. In M. Danson (Ed.), 8th CAA Conference. Loughborough. Retrieved from http://www.jelsim.org/resources/thomasetal_caa2004.pdf

Raadscore van Multiple-response en Matching en Ordering vragen:

http://goo.gl/Hj5SS

Vos, H., Kloppenburg, M., & Tomson, O. (2010, September). Optimale uniforme scoringsregels

voor innovatieve vraagvormen. EXAMENS, (3), 21-24.

MapleTA:

http://www.maplesoft.com/products/mapleta/types.aspx

Blackboard:

http://www.southampton.ac.uk/isolutions/computing/elearn/blackboard/questiontypes.html

Questionmark Perception:

http://www.questionmark.com/us/perception/authoring_windows_qm_qtypes.aspx

Adobe Captivate:

http://www.thelearningsmith.com/resources/eLearningTemplate_800x600/sample.htm

Articlulate Quizmaker:

http://cdn.articulate.com/images/products09/product-files/quizmaker/Manager/quizmaker.html

Learn more about creating dynamic, engaging presentations with Prezi