Introducing
Your new presentation assistant.
Refine, enhance, and tailor your content, source relevant images, and edit visuals quicker than ever before.
Trending searches
Validiteit, Toetsaanbieding, Itembanking, Klassieke proces van toets- en itemanalyse, Cesuurstelling, Random-trekking
Terugkoppeling huiswerkopdracht - vraagconstructie en analyses
Lunch
Toetsanalyse in SPSS en nadere verkenning IRT
Zelf aan de slag met TAP of R / persoonlijke vragen
Pauze - Plenaire uitleg
Weer verder aan de slag
Evaluatie
Afsluiting en borrel
Silvester Draaijer
Vrije Universiteit Amsterdam
http://www.linkedin.com/in/silvesterdraaijer
Sharon Klinkenberg
Universiteit van Amsterdam
http://www.linkedin.com/in/SharonKlinkenberg
Sander Schenk
Hogeschool Rotterdam
http://www.linkedin.com/in/sanderschenk
Maak een mini-toets over
Toetsen en Beoordelen voor je collega's
KTT
IRT
Tijdens Masterclass dag 1
Tijdens Masterclass dag 2
Tussendoor
1-2 groepjes presenteren analyse
http://demonstrations.wolfram.com/123ParameterLogisticRaschAndBirnbaumModelsAndItemAnalysis/
5 min: Maak groepje van 3
5 min: Kies een onderwerp
20 min: Maak zelf 4-5 vragen in Google Docs
15 min: Verbeter de vragen van andere groepsleden
5: Voeg de vragen samen en kies bijvoorbeeld de 10 beste er uit
6: Kies toetsprogramma
7: Bepaal projectleider, eindredacteur, redacteur
K=3
Aantal items
Variantie van
de items
TAP: Test Analysis Program
Test Information
Cronbach's alpha
http://www.ohio.edu/people/brooksg/tap.htm
10.00
10.20
11.00
12.15
13.00
13.15
14.00
14.45
15.00
15.45
16.00
Introductie en kennismaking
Nabespreken: "de beste toets ooit"
Toetsen en beoordelen: theoretisch kader
Lunch
Toetsmatrijs en validiteit
Vorm en inrichting van digitale toetsen
Digitale vraagtypen
Pauze
Opdracht: voorbereiding take-home-opdracht
Evalueren, vooruitkijken en take-home-opdracht
Einde
Geaccepteerde waarden voor de betrouwbaarheid:
Betrouwbaarheid voor
dichotoom gescoorde items
10.15
11.15
12.15
13.00
14.00
14.45
15.00
15.45
16.00
Voorbeeld 2
Voorbeeld 1
Standard error of estimation
Variantie van
de totaalscore
Maak "de beste toets ooit..."
Log in met de onderstaande gegevens.
TIAplus (CITO)
Itemindices
URL:
p-waarde
a-waarde
= % correct
= % antwoord opties
P-waarden stabiliteit
Studentnummer:
= correlatie tussen item en totaalscore
= mean item alternative
= correlatie tussen item en gecorrigeerde totaalscore
= mean item alternative corrected total score
if alternative is correct
Groep:
gekozen alternatief
Correct/Incorrect
Biserial correlation coefficient
SD van sum met alle personen
is erg lastig met de hand te berekenen
M1=(2+4+10+5+10)/5=6.2 n1=5
M0=(5+6+3+4+1)/5=3.8 n2=5
sd sum = 3.018462
Te makkelijke en
te moeilijke items
zijn niet goed
vs
Biserial vs Point Biserial
The point biserial correlation coefficient (rpb) is a correlation coefficient used when one variable (e.g. Y) is dichotomous; Y can either be "naturally" dichotomous, like gender, or an artificially dichotomized variable. In most situations it is not advisable to artificially dichotomize variables. When you artificially dichotomize a variable the new dichotomous variable may be conceptualized as having an underlying continuity. If this is the case, a biserial correlation would be the more appropriate calculation.
SPSS (IBM)
Wat is goed?
Wat is voor verbetering vatbaar?
R
CAT
https://dl.dropbox.com/u/1429185/IRT_analysis.html
http://www.r-project.org/
Wat is het doel van toetsvragen?
Itembanking
http://titanpad.com/ltm-workshop
Denk terug aan de "beste toets ooit" waar de dag mee begonnen is. Welke constructie-regels werden daarin overtreden?
Rollen
Metadata structuur
"Formatief - summatief is een continuüm van wat er op het spel staat"
Zorg dat toetsen altijd een leerfunctie hebben
Matrijs
Hoe meer toetsen, hoe beter je beslissing
Hiërarchische structuur
A Review of Multiple-Choice Item-writing Guidelines for Classroom Assessment
diagnostische toetsen en oefentoetsen
Assessing
Quizzing
Examination
Als de toets een diagnostische functie heeft:
Als de toets bedoeld is om met de leerstof te oefenen:
Test Cultuur
Voorbeelden van formatief toetsen
http://www.beterspellen.nl
Writing Effective Test Questions:
http://app.qstream.com/topctjones/courses/400-Writing-Effective-Test-Questions
Raadscore
Toets-ICT van Instruct:
http://www.toetsit-online.nl/toetsit/demonstratie/Totaaloverzicht%20leerlingomgeving.html
Stel: een meerkeuzetentamen bestaat uit 60 vier-keuzevragen. Waar stellen we de cesuur?
Voor het berekenen van de cesuur wordt eerst de raadkans van het totaal afgetrokken: dat is voor 4-keuzevragen 25% van het totaal, dus een score van 15. Voor deze eerste 15 punten worden dus geen cijferpunten toegekend.
In dit geval bepaalt dat de student 60% goed moet hebben om een voldoende te krijgen. Die 60% wordt berekend over de score na aftrek van de kansscore: dat is in dit voorbeeld 60% over 45 = 27.
De grens voldoende/onvoldoende komt nu te liggen op 27 + de raad¬kans (15): men moet dus 42 van de 60 vragen goed hebben voor een voldoende (een zes). In formule:
Cesuur = 0.25 60 + 0.6 (60 - 0.25 60) = 42.
Aantal afgenomen toetsen:
http://blog.questionmark.com/psychometrics-101-sample-size-and-question-difficulty-p-values
How much do you know about Assessments 1:
http://blog.questionmark.com/how-much-do-you-know-about-assessment-quiz-1-cut-scores
Formatief
Summatief
How much do you know about Assessments 2:
http://blog.questionmark.com/how-much-do-you-know-about-assessments-quiz-2-validity-defensibility
Alleen punten geven levert hele schrale informatie. Daar heb je als student weinig aan.
Toetsniveau
Vragenblokniveau
Vraagniveau
Alternatievenniveau
Tested the effect of putting opinion survey items in different positions in a questionnnaire. Equivalent samples of 284 and 281 employees in an industrial corporation completed similar questionnaires in which the placement of 46 Likert-type items were reversed. Respondents answered with less extreme responses and were slightly more likely to omit replies when items were placed later in the questionnaire. Findings suggest that comparisons of responses to identical items used in different surveys may be misleading if they appeared in different position or context.
7 reasons why 'marking' sucks
Items werden niet moeilijker, maar waren wel lastiger voor laag scorende deelnemers (hogere discriminatie)
Betrouwbaarheid neemt toe met toetstijd.
Voorbeeld meerkeuzevragen:
ovragen met lage/hoge Difficulty (<0,1, >0,85) en uitgesproken negatieve Correlation-waarden (<0,05) (Ander alternatief juist? Strikvraag?)
ovragen met gemiddelde Difficulty (>0,2,<0,4) en negatieve Correlation-waarden (<0,1) (ander alternatief juist? Strikvraag?)
ovragen met gemiddelde Difficulty (>0,2,<0,4) en Correlation-waarden rond de 0 (Ander alternatief juist? Behandeld?)
ovragen met lage Difficulty (<0,1) en Correlation-waarden rond de 0 (Behandeld?)
ovragen met hoge Correlation-waarden (>0,3) zijn goede vragen.
Zo simpel mogelijk
Op- of aflopend (getallen)
Alfabetisch (woorden)
Op lengte (zinnen)
"Elke toets is in feite een compromis."
Hoeveel vragen per onderwerp?
Antwoordopties worden vaak overdreven goed 'uitgebalanceerd' in een toets. Studenten doen dit bij hun beantwoording minder, zij hebben een bias voor 'het midden'. Dit heeft mogelijk psychometrische implicaties.
Itemkenmerken
1 = Small (less than 30 minutes to train)
2 = Medium (30-59 minutes to train)
3 = Large (60-90 minutes to train)
1 = Slightly important but needed only once in a while
2 = Important but not used on every job
3 = Very important, but not used on every job
4 = Critical and used on every job
Een weegfactor voor toetsvragen?
Tijdsbeperking voor toets?
Vragen maken is Probleem Oplossen
Tijdsbeperking voor vragen?
Wel of geen race tegen de klok?
Informatieve grafieken mogelijk
Top 5 constructiefouten
Vraagtypes
Digitale Vraagtypes
Techniek
Multimedia en Usability
Uitwisseling data en toetsen
Voorbeelden van 'typisch' digitale toetsvragen
Doel van innovatieve items
Hoofddoelen van een toetsvraag
Belangrijk:
Een overzicht van toetsvraagtypen met voorbeelden, voor- en nadelen en aanwijzingen voor scoring
http://testdevelopment.nl/qdst/qdst-nl/pro-con-q-formats/pro-con-general.htm
Uitwisseling van data
Auteurstool van toetssysteem
http://toetsauth.vu.nl/q/perception.dll?Name=OND%2DDEMO&password=OND%2DDEMO&session=2756121932389954
Speciale importopmaak voorbeelden:
Respondus:
http://oel.umflint.edu/helpguides%5Cfaculty%5Cbb9%5CCT19_Common_Question_Formats_Respondus.htm
https://www.surfgroepen.nl/sites/flexassessment/Lists/dp5/example_view.aspx
Freie-Universität-Berlin. (2003). Dialang: Experimental Items Menu. Lancaster University. Retrieved from http://www.lancs.ac.uk/fss/projects/linguistics/experimental/new/expmenu.htm
DigiCAT VUmc:
http://toetsauth.vu.nl/q/perception.dll?Name=OND%2DDEMO&password=OND%2DDEMO&session=5200924487068358
Parshall (2002)
5 dimensions in which items may be innovative are:
Questionmark Perception:
http://www.questionmark.com/perception/help/v4/best_practice/importing/importing_content/ascii_import.htm
Afbeeldingen:
Afhankelijk van programma
Inspiratiebronnen voor toetsvraagontwikkeling:
http://testdevelopment.nl/qdst/qdst-nl/pro-con-q-formats/dive-general.htm
Heel veel verschillende mogelijkheden
Sterk afhankelijk van programma
Import via platte-tekst-methode
Standaard vraagtypes
Multiple-Response
Scoring en Raadscore
Specialisten in het proces
De gouden standaard: Multiple-choice vragen
http://testdevelopment.nl/qdst/qdst-nl/pro-con-q-formats/pro-con-mrq.htm
Video:
Ordening en Matching
http://testdevelopment.nl/qdst/qdst-nl/pro-con-q-formats/pro-con-match.htm
http://testdevelopment.nl/qdst/qdst-nl/pro-con-q-formats/pro-con-ord.htm
http://testdevelopment.nl/qdst/qdst-nl/pro-con-q-formats/pro-con-mcq.htm
Special Cases Medical Education
Invulvragen
Hotspot en drag-and-dropvragen
Wat vinden studenten van gesloten toetsvragen?
Ontwikkelproces
Ook goed: Juist-Onjuistvragen
http://testdevelopment.nl/qdst/qdst-nl/pro-con-q-formats/pro-con-fill-in-the-blank.htm
Juist-Onjuist
Casusgerichte toetsing in het Medisch Onderwijs
Literatuur
Schuwirth, L. W. T. (1999). How to write short cases for assessing problem-solving skills. Medical Teacher, 21, 144-150. doi:10.1080/01421599979761
Extended Matching Questions
Literatuur
Case, S. M., & Swanson, D. B. (1994). Extended matching items: a practical alternative to free-response questions. Teaching and Learning in Medicine, 5, 107-115.
Numeriek antwoordvraag
1
2
Alternate choice
http://testdevelopment.nl/qdst/qdst-nl/pro-con-q-formats/pro-con-t-f.htm
Pas op met kopiëren en plakken uit Word!
3
4
Wie zijn er allemaal betrokken bij het digitale toetsproces?
Op de achtergrond
Ontwikkelproces
Innovatieve en multimediale toetsvragen
Afnameproces
5
6
Beschouw het echt als een ontwerpproces!
Simulaties
Zie de serie blogposts - in ontwikkeling - van Jack Pleumeekers op Oculary.nl
<P style="TEXT-ALIGN: justify; MARGIN: 0cm 0cm 0pt" class=MsoNormal><B><SPAN style="FONT-FAMILY: Arial; FONT-SIZE: 10.5pt; mso-bidi-font-family: Arial; mso-ansi-language: NL" lang=NL>Pas op met kopiëren en plakken uit Word!<?xml:namespace prefix = o ns = "urn:schemas-microsoft-com:office:office" /><o:p></o:p></SPAN></B></P>
Wat zijn voor- en nadelen?
Excel-omrekenhulp om op basis van een aantal vragen goed of een percentage gescoorde punten van een cesuur naar een cijfer te komen:
In welke situaties gelden deze?
Conclusie?
Questionmark Perception heeft hiervoor vraagstatussen "beta" en "expirimental"
7 reasons why Kafka would have loved assessment
Feedback
Zeven checks:
Toetssamenstelling
De kans om bij een toets succes te hebben, mag niet afhangen van het toepassen van 'slimme' antwoordstrategieën.
Gaan de toetsvragen écht ergens over? Dus niet over trivialiteiten die niemand later nodig blijkt te hebben?
Toets niet te laat. Alleen een eindtoets is niet goed genoeg. Maak gebruik van de kracht van herhaling en oefenen.
Stroomschema
Toets niet het falen van studenten, maar juist hun voortgang bij het volledig behalen van de leerdoelen.
Rem de 'vergeetcurve' af door niet alleen kennis te toetsen, maar ook hogere cognitieve niveaus.
Toetsen op papier of digitaal? Hoe meer schrijfwerk, hoe liever digitaal. Pen en papier is zó 1980...
Mogelijke feedback bij toetsen
Investeer zoveel mogelijk tijd en moeite in het construeren van goede toetsen. Kwaliteitszorg is uiterst belangrijk.
Zie voor een nuancering van deze punten de discussie in de commentaren van deze blogpost van Wilfred Rubens: http://wilfredrubens.typepad.com/wilfred_rubens_weblog/2011/09/beoordelen-een-kafka%C3%AFaans-proces-in.html
Afnamecondities
Aanwijzingen bij het geven van feedback:
naar; Fenrich (1997) en Rayne (2002).
Alle vragen onder elkaar (scrollen) of vraag per vraag (QxQ)?
"If All Else Fails, Choose C"
Onderverdeeld in vraagblokken?
http://goo.gl/YgWsB
Eenrichtingsverkeer?
Literatuur
Summatief toetsen
Toetstheoriën
http://en.wikipedia.org/wiki/Classical_test_theory
http://en.wikipedia.org/wiki/Item_Response_Theory
Ronald K. Hambleton. Fundamentals of Item Response Theory (Measurement Methods for the Social Science). Sage Publications, Inc, 1 edition, July 1991.
http://books.google.com/books/about/Fundamentals_of_item_response_theory.html?id=cmJU9SHCzecC
Brink, W. P., & Mellenbergh, G. J. (1998). Testleer en testconstructie. Amsterdam: Boom.
http://www.bol.com/nl/p/nederlandse-boeken/testleer-en-testconstructie-druk-1/666821103/index.html
Field, A. (2009). Discovering statistics using SPSS (and sex and drugs and rock 'n' roll). London etc.: Sage Publications.
http://books.google.com/books/about/Discovering_Statistics_Using_SPSS.html?id=5253SAL5nDgC
Gruijter de, D. N. M. (2008). Toetsing en toetsanalyse, herziene versie november 2008.
http://media.leidenuniv.nl/legacy/toetsing-en-toetsanalyse.pdf
Formatief toetsen
Toetsen met de computer
Website Digitale Didactiek: http://www.digitaledidactiek.nl/wp/?cat=7
Draaijer, S., Hulst, M. E. van der, & Graaff, R. de. (2006). Het afnemen van toetsen met de computer. In H. van Berkel & A. Bax (Eds.), Toetsen in het Hoger Onderwijs. (2nd ed., p. Hoofdstuk 5). Bohn Stafleu Van Loghum. http://goo.gl/7HTBp
Presentaties SURF-workshop aan de slag met formatief toetsen: http://www.surf-academy.nl/archief/event/?id=351
Online quizzing
Angus, S. D., & Watson, J. (2009). Does regular online testing enhance student learning in the numerical sciences? Robust evidence from a large data set. British Journal of Educational Technology, 40(2), 255-272. doi:10.1111/j.1467-8535.2008.00916.x
Haak, D. C., HilleRisLambers, J., Pitre, E., & Freeman, S. (2011). Increased Structure and Active Learning Reduce the Achievement Gap in Introductory Biology. Science, 332(6034), 1213 -1216. doi:10.1126/science.1204820
Innovatieve toetsvragen
Parshall, C., Davey, T., & Pashley, P. (2000). Innovative Item Types for Computerized Testing. Computerized Adaptive Testing: Theory and Practice (pp. 129-148). Retrieved from http://dx.doi.org/10.1007/0-306-47531-6_7
Parshall, C. G., & Harmes, J. C. (2009). Improving the Quality of Innovative Item Types: Four Tasks for Design and Development. Journal of Applied Testing Technology, 10, 20. http://www.testpublishers.org/assets/documents/Improving.pdf
Thomas, R., Ashton, H., Austin, B., Beevers, C., Edwards, D., & Milligan, C. (2004). Assessing Higher Order Skills Using Simulations. In M. Danson (Ed.), 8th CAA Conference. Loughborough. Retrieved from http://www.jelsim.org/resources/thomasetal_caa2004.pdf
Raadscore van Multiple-response en Matching en Ordering vragen:
http://goo.gl/Hj5SS
Vos, H., Kloppenburg, M., & Tomson, O. (2010, September). Optimale uniforme scoringsregels
voor innovatieve vraagvormen. EXAMENS, (3), 21-24.
MapleTA:
http://www.maplesoft.com/products/mapleta/types.aspx
Blackboard:
http://www.southampton.ac.uk/isolutions/computing/elearn/blackboard/questiontypes.html
Questionmark Perception:
http://www.questionmark.com/us/perception/authoring_windows_qm_qtypes.aspx
Adobe Captivate:
http://www.thelearningsmith.com/resources/eLearningTemplate_800x600/sample.htm
Articlulate Quizmaker:
http://cdn.articulate.com/images/products09/product-files/quizmaker/Manager/quizmaker.html