NAEC და `შეფასება განვითარებისთვის` – კრიტიკული ანალიზი |ნიკა მაღლაფერიძე

                                                                                                                                                                                                               

რამდენიმე წლის წინ შეფასებისა და გამოცდების ეროვნულმა ცენტრმა (ნაეკი) განაცხადა, რომ იწყებდა პროგრამას „შფასება განვითარებისთვის“. მიუხედავად იმისა, რომ საცდელი ტესტირებები უკვე დაწყებულია ასობით სკოლაში, ამ პროგრამის შესახებ ძალიან მწირი ინფორმაციაა ხელმისაწვდომი ფართო საზოგადოებისთვის. ერთი თვის წინ, გამოცემა „ახალი განათლების“ მეშვეობით, მოგვეცა შესაძლებლობა გავიგოთ ოდნავ მეტი ამ პროგრამის შესახებ, თუმცა ბევრი რამ ისევ ბუნდოვანია.                                                                                                                                                                          

“ახალ განათლებაში” გამოქვეყნებული სტატიის მიხედვით, საქართველოს სკოლებში “პირ­ვე­ლად დამ­კ­ვიდ­რდება შე­ფა­სე­ბის ახალ ინსტრუმენტი, რო­მე­ლიც მთლი­ა­ნად და­ფუძ­ნე­ბუ­ლი იქ­ნე­ბა არა გან­მ­საზღ­ვ­რელ, არა­მედ დი­აგ­ნოს­ტი­კურ შე­ფა­სე­ბებ­ზე, რო­მელ­მაც ერ­თ­გ­ვა­რი დი­აგ­ნოს­ტი­რე­ბა უნ­და მო­ახ­დი­ნოს თუ რა ‘მდგო­მა­რე­ო­ბა გვაქვს მე­ოთხე, მე­ექ­ვ­სე და მე­ა­თეკ­ლა­სე­ლე­ბის წიგ­ნი­ე­რე­ბი­სა და რა­ო­დე­ნობ­რი­ვი წიგ­ნი­ე­რე­ბის მი­მარ­თუ­ლე­ბით.” იმავე სტატიაში ნათქვამია, რომ ამ პროგრამის საშუალებით მეოთხე და მეექვსე კლასების დას­რუ­ლე­ბი­სას, შე­ფასდებიან მოსწავლეები და შედეგების შესახებ ეცნობებათ მათ, სკო­ლა­ს და მას­წავ­ლე­ბლებს, რათა შემ­დ­გო­მი გან­ვი­თა­რე­ბა ამ შე­ფა­სე­ბის შედეგების სა­ფუძ­ველ­ზე და­იგეგ­მოს.  მოსწავლეს და მასწავლებელს ექნებთ ინფორმაცია, თუ რაში უჭირს მოსწავლეს და რაში აკმაყოფილეს ამა თუ იმ სტანდარტში გათვალისწინებულ სასწავლო მიზანს. 

სტატიაში პირდაპირ არ არის ნათქვამი, რომ საქმე გვაქვს დიაგნოსტიკურ ტესტთან (მსგავსად GL Assessment-ის CAT 4 დიაგნოსტიკური ტესტისა), მაგრამ აღნიშნულია, რომ შეფასება მოახდენს ‘ერთგვარ დიაგნოსტირებას’ და შექმნის ‘რეალურ სურათს’, თუ რა გამოწვევების წინაშე იმყოფებიან მოსწავლეები  ასევე, სტატიაში არა ერთხელ მოიხსენიებენ  ამ შეფასებას, როგორც განმავითარებელ შეფასებას, რაც უაღრესად პრობლემატურია1. თავად ნაეკი პროგრამას ‘შეფასება განვითარებისთვის’ უწოდებს, რაც ერთგვარი სიტყვათა თამაშია, მაგრამ წმინდა სემანტიკური თვალსაზრისით, განმავითარებელი შეფასება და შეფასება განვითარებისთვის მსგავსი ტერმინებია,  მითუმეტეს მაშინ, როცა შეფასებისა და გამოცდების ეროვნულ ცენტრს თავად არ აქვს განსაზღვრული, თუ როგორ და რა ნიშნებით ანსხვავებს განმავითარებელ და შემაჯამებელ შეფასებას ერთმანეთისგან2. ამას გარდა, “შეფასება განვითარებისთვის”, დიდი ალბათობით, ინგლისურიდან ითარგმნა – “Assessment for Learning”, რაც ტექნიკური ტერმინია და მას ქართულად განმავითარებელ შეფასებას ვუწოდებთ. ადამიანები, ვინც ამ საკითხში არ არიან ჩახედულნი, რა თქმა უნდა, ამ ორ ტერმინს შორის სხვაობას ვერ დაინახავენ. ამასთანავე, მსოფლიო ბანკის ანგარიშშიც, რომლის ფარგლებშიც ნაეკი პარტნიორობს პროექტის განსახორციელებლად, ეს შეფასება მოხსენიებულია, როგორც “განმავითარებელი შეფასებები” (მრავლობითში) (“formative assessments”) (World Bank, 2019). 

შეფასებისა და გამოცდების ეროვნული ცენტრი  მიერ ამ დრომდე ზუსტად არ არის განსაზღვრული, თუ რა ტიპის შეფასებაა “შეფასება განვითარებისთვის”- შემაჯამებელი, თუ დიაგნოსტიკური. ამასთან დაკავშირებით როგორც მედია, ისე სამინისტრო და თავად შეფასებისა და გამოცდების ეროვნული ცენტრი ფართო საზოგადოებას არაერთგვაროვან, საკმაოდ დამაბნეველ ინფორმაციას აწვდის. რადგან ნაეკმა გადაწყვიტა, რომ ამ ტესტისთვის “შეფასება განვითარებისთვის” ეწოდებინა, არსებობს მაღალი რისკი მისი საზოგადოების მიერ განმავითარებელ შეფასებასთან გაიგივების, რაც კიდევ უფრო გაამწვავებს ამ საკითხთან დაკავშირებულ პრობლემებს ქვეყანში. აშკარააა, რომ შეფასებისა და გამოცდების ეროვნული ცენტრი თავს იკავებს და ამ ტესტს არ უწოდებს შემაჯამებელ შეფასებას და გარკვეულ შემთხვევებში მას დიაგნოსტიკურ შეფასებას უწოდებს, ხოლო სხვა შემთხვევებში –  განმავითარებელ შეფასებას. ინტერნეტ-სივრცეში არსებულ ინფორმაციაზე დაყრდნობით, შეგვიძლია დავასკვნათ, რომ ეს პროექტი გულისხმობს დიაგნოსტიკური ტესტის მეშვეობით მოსწავლეების შეფასებას და მის შედეგებზე დაყრდნობით მთელი რიგი დასკვნების გამოტანას (value-added analysis/assessment). როგორც წესი, ამგვარი შეფასების ინსტრუმენტი შემაჯამაბელი შეფასების სახეობას წარმოადგენს და არც თუ ისე ბევრი აქვს საერთო განმავითარებელ შეფასებასთან (Dolin & Black, 2018). 

ამ ვრცელი ბლოგის ერთ-ერთი მიზანია საზოგადოებას დავანახოთ, რომ “შეფასება განვითარებისთვის” არ გახლავთ განმავითარებელი შეფასება. ამ ბლოგპოსტში ასევე განვიხილავთ იმ მიზეზებს, თუ რა ნეგატიური ფაქტორები შეიძლება ახლავდეს ამგვარ შეფასებას სხვადასხვა ასპექტის მიხედვით და ასევე მკითხველს მივაწვდით ინფორმაციას დაწყებით საფეხურზე ალტერნატიული შეფასების მოდელის შესახებ. 

რა არის განმავითარებელი შეფასება? 

მოსწავლეების შეფასება შესაძლოა ორ მიზანს ემსახურებოდეს: პირველი, გაუმჯობესდეს სწავლა-სწავლების პროცესი და ხარისხი (შეფასება განვითარებისთვის – assessment for learning) და მეორე – მოვახდინოთ სწავლის შეჯამება. ამგვარ შეფასებას შემაჯამებელი შეფასება ეწოდება (assessment of learning) (Alexander, 2010; Harlen, 2005).  თუ მოსწავლეთა შეფასების შესახებ აკადემიურ ლიტერატურას თვალს გადავავლებთ, აღმოვაჩენთ, რომ განმავითარებელი შეფასების მრავალი განმარტება და ინტერპრატაცია არსებობს. მაგალითად, პოლ ბლექი და დილან უილიამი განმავითარებელ შეფასებას განმარტავენ ისეთ შეფასებად, რომელიც შეიძლება გამოყენებული იყოს როგორც მასწავლებლის, ასევე მოსწავლეების მიერ. ის მოიცავს ყველა იმ აქტივობას, რომელიც სწავლის პროცესში იძლევა ინფორმაციას, რომელზე დაყრდნობითაც მასწავლებელს და მოსწავლეებს შეუძლიათ სწავლა-სწავლების პროცესის იმგვარად ცვლილება, რომ მიღწეულ იქნას სასწავლო მიზან(ებ)ი (Black & Wiliam, 2006). ეკონომიკური თანამშრომლობისა და განვითარების ორგანიზაციის თანახმად (OECD), განმავითარებელი შეფასება სასწავლო პროცესის თანმდევი კომპონენტია. მას ინტერაქტიული ხასიათი აქვს და მიზნად ისახავს მოსწავლეების როგორც წარმატების, ისე საჭიროებების გამოვლენას. განმავითარებელი შეფასება შესაძლებელს ხდის მოსწავლეების ცოდნის, უნარებისა და კომპეტენციის გაუმჯობესებას (Looney, 2012). აქედან გამომდინარე, განმავითარებელი შეფასება სრულად ინტეგრირებულია სწავლა/სწავლების პროცესში  (Harlen & James, 2006; Jakicic & Bailey, 2011)., ასევე აღსანიშნავია, რომ ის ყოველთვის არ არის სასწავლო პროგრამით გათვალისწინებულ მიზნებზე მორგებული (Harlen & James, 2006; Swaffield, 2011; Eisner, 2002). ხშირად კრიტიკული და კრეატიული აზროვნების განვითარებისთვის დაგეგმილი აქტივობების შედეგების ფორმები წინასწარ განსაზღვრას არ ექვემდებარებიან. ეს ისეთ შემთხვევებსაც ეხება, როდესაცამ აქტივობების დროს არ არსებობს სწორი ან არასწორი პასუხები (ღია კითხვები და ა.შ). მაგალითად,  პროცესზე ორიენტირებულ კურიკულუმში (the process curriculum) არ ხდება სწავლის მიზნებზე ორიენტაცია, რის  სანაცვლოდ სწავლის პროცესშივე აქტიურად გამოიყენება განმავითარებელი შეფასების მრავალი სტრატეგია (Plaskow, 2005). ასევე, მაგალითად, Project Zero-ს სტრატეგიების შემთხვევაშიც ძალიან რთული იქნებოდა რაიმე სტანდარტით და ინდიკატორით მათი განსაზღვრა3

ამ განმარტებებიდან ჩანს, რომ განმავითარებელი შეფასება არის პროცესი და არა ერთჯერადი შეფასების ფორმა, როგორც ეს ნაეკის პროექტის შემთხვევაშია. განმავითარებელი შეფასება ასევე ითვალისწინებს როგორც მასწავლებლის, ისე მოსწავლეების აქტიურ ჩართულობას შეფასების პროცესში. ამაში იგულისხმება თვით-შეფასება, ურთიერთშეფასება და მეტაკოგნიტური სტრატეგიების ეფექტური გამოყენება  (Swaffield, 2011). ამ შემთხვევაში, სწავლის წყარო თითოეული მოსწავლეა მასწავლებელთან ერთად. ასევე, შეფასებას არ შეიძლება ვუწოდოთ განმავითარებელი, თუ შეფასებით მიღებულ ინფორმაციაზე დაყრდნობით არ ხდება სასწავლო პროცესის მოდიფიცირება/გაუმჯობესება (Popham, 2011). როგორც დილან უილიამი, Times Educational Supplement-ში განმარტავდა,  განმავითარებელ შეფასებას თავად შეფასებასთან ბევრად უფრო ნაკლები საერთო აქვს, ვიდრე უშუალოდ სწავლა-სწავლების პროცესთან (Clarke, 2014). ამიტომაცაა, რომ განმავითარებელ შეფასებას ხშირად Responsive Teaching-ს უწოდებენ (Dyer & Sherin, 2016).  განმავითარებელი შეფასების სპეციალისტი შირლი კლარკი კი აცხადებს, რომ განმავითარებელი შეფასების დროს, მოსწავლის როლი მოიცავს სასწავლო პროცესის დაგეგმვა-განვითარებაში ჩართულობას და მეტაკოგნიტური უნარების განვითარებას სხვა კომპონენტებთან ერთად (Clarke, 2014).   

რით განსხვავდება შემაჯამებელი დავალება/აქტივობა განმავითარებლისგან? 

განმავითარებელი შეფასების არსის გააზრების ერთ-ერთი საუკეთესო საშუალებაა მისი შედარება განმსაზღვრელ შეფასებასთან. შედარების საფუძველზე აღმოჩენილი განსხვავებები, გვეხმარება იმის შეცნობაში, თუ რაში მდგომარეობს განმავითარებელი შეფასების იდეა.  ელემენტები, რომლებიც დამახასიათებელია განმსაზღვრელი შეფასებისთვის (Harlen & James, 2006, გვ. 372-373)4

  • შემაჯამებელი დავალება, როგორც წესი, ინტერვალებით ხორციელდება, თვეში ერთხელ, სემესტრულად, სასწავლო ფაზის და აკადემიური წლის ბოლოს და ა.შ.;
  • შემაჯამებელ დავალებას ხშირად გარე გამსწორებლები აფასებენ, თუმცა, ზოგიერთ შემთხვევაში ამ პროცესში დავალების შემსრულებელი მოსწავლის მასწავლებლებიც შეიძლება იყვნენ ჩართულნი; 
  • როგორც წესი, შედეგების გამოქვეყნება ხდება ან ანგარიშის სახით, ან კომენტარების ან/და ნიშნების სახით;
  • დიდი ყურადღება ეთმობავალიდურობას და სანდოობას (validity and reliability);
  • ხშირ შემთხვევაში, იგი ტესტის ან/და ქვიზის ფორმითაა წარმოდგენილი, მაგრამ მას შეიძლება ჯგუფური აქტივობის სახეც ჰქონდეს (Weurlander et al, 2012);
  • იგი კავშირშია სასწავლო პროგრესთან და ეროვნული სასწავლო გეგმით გათვალისწინებულ კრიტერიუმებს/ინდიკატორებს ეფუძნება და აფასებს მოსწავლის პროგრესს მათთან მიმართებაში (Lambert & Lines, 2013);
  • ხშირად არის სტანდარტიზირებული (norm-referenced);
  • ინდიკატორები ყველა მოსწავლისთვის ერთნაირია;
  • ხშირად გამოიყენება მშობლებისთვის ინფორმაციის მიწოდებისთვის და ასევე მასწავლებლებს ეცნობებათ შეფასების შედეგები (Lambert & Lines, 2013);
  • ეს შეფასება, როგორც წესი, უფრო მეტად ფორმალურია და სტრესის მომგვრელი როგორც მოსწავლეებისთვის, ასევე მასწავლებლებისთვის და, ზოგადად, სასკოლო საზოგადოებისთვის (Heywood, 2015);
  • ნებისმიერი შეფასების ინსტრუმენტი/მეთოდი, რომლის მიზანიც არის იმის გაზომვა და შეჯამება/განსაზღვრა, თუ რამდენად იქნა მიღწეული სტანდარტით გათვალისწინებული მიზანი/კრიტერიუმი (Clarke, 2005);
  • როგორც წესი, გამოიყენება ანგარიშვალდებულების მხრივ, რათა მოხდეს ხარისხის მონიტორინგი მასწავლებლებში და სკოლებში (Harlen, 2005). 

მხოლოდ იმის შესაძლებლობა, რომ შემაჯამებელი შეფასება შეიძლება გამოყენებულ იქნას მასწავლებლების მიერ სასწავლო პროცესის გასაუმჯობესებლად არ ხდის მას განმავითარებელ შეფასებად (Harlen, 2005). თუ ამ ორი ცნების და პრაქტიკის გამიჯვნა არ ხდება, განმავითარებელ შეფასებას აზრი ეკარგება და ყველნაირი ტიპის შეფასებას, მათ შორის ეროვნულ გამოცდებს, შეგვიძლია განმავითარებელი შეფასება ვუწოდოთ. ნებისმიერი გამოცდის, იქნება ეს ეროვნული გამოცდა, თუ სხვა, ერთ-ერთი მიზანი ზუსტად მიღებულ შედეგებზე რეფლექსიაა – ეს სკოლების ყოველდღიური ცხოვრების განუყოფელია ნაწილია. შეფასების სპეციალისტის, რიჩარდ სტიგინისის სიტყვებს რომ დავესესხოთ, “ხალხისთვის ტესტების გასაღება, იმ იმედით, რომ მათ განმავითარებელი მიზნებისთვის გამოიყენებენ არ ხდის მათ განმავითარებელ შეფასებად” (Cech, 2007). 

სამწუხაროდ, მსოფლიოში ამგვარი წარმოჩენის ძალიან ბევრი მაგალითი არსებობს შეფასების კორპორაციების (Pearson, Educational Testing Service (ETS), GL Assessment, CTB/Mcgraw-Hill და ა.შ.) მიერ ჩვეულებრივი ტესტების და გამოცდების განმავითარებელ შეფასებად შეფუთვისა და რეალიზაციის (ხშირ შემთხვევაში სამინისტროები) (Bennett, 2011). ამგვარი ფართო დეფინიციებისგან განათლების სპეციალისტები და მკვლევრები თავს შორს იჭერენ (ibid). 

რა კავშირი აქვს განმავითარებელ შეფასებას განმსაზღვრელ შეფასებასთან?  

პედაგოგიკურ პრაქტიკაში არსებობს მრავალი მაგალითი, სადაც ვხვდებით განმსაზღვრელი შეფასების განმავითარებელი მიზნებისთვის გამოყენებას და პირიქით. მეტიც, განმსაზღვრელი და განმავითარებელი შეფასება ერთი შკალის ნაწილია და ხშირად ხდება შემაჯამებელი ინსტრუმენტების განმავითარებელი მიზნებისთვის გამოყენება და პირიქით. განსაკუთრებით ხშირად ვხვდებით შემდეგ მაგალითებს (ამ სტრატეგიებს მეც ძალიან ხშირად ვიყენებ ჩემი გაკვეთილების დროს): 

  • ტესტის, ქვიზის ან/და გამოცდების შედეგებზე რეფლექსია და პრაქტიკის გაუმჯობესება (Black et al. 2003). აქვე უნდა აღინიშნოს, რომ ამგვარი სახის აქტივობები არ უწყობს ხელს სხვა, უფრო მრავალფეროვანი განმავითარებელი შეფასების სტრატეგიების გამოყენებას; 
  • რუბრიკების გამოყენებით მოსწავლეების მიერ ტესტების და ქვიზების შექმნა თანაკლასელებისთვის და შემდგომ ერთმანეთისთვის უკუკავშირის გაზიარება (ibid.); 
  • მოკლე/სწრაფი ქვიზების სწავლის პროცესში გამოყენება ძირითადად მასალის დამახსოვრების მიზნით – ანუ, შემაჯამებელი დავალებების, (low-stakes tests) როგორც მეტაკოგნიტური სტრატეგიებად გამოყენება (retrieval practice) (მეტი ინფორმაცია ამ თემასთან დაკავშირებით იხ. Black, 2015, გვ. 171-172 და Roediger & Butler, 2011); 

იმისთვის, რომ უკეთ ილუსტრირდეს, თუ რა სხვაობები და რა კავშირები არსებობს ამ ორი შეფასების ტიპს შორის იხილეთ ვენის დიაგრამა (fig. 1). 

(fig. 1) 

რატომ არ არის “შეფასება განვითარებისთვის” განმავითარებელი შეფასება 

ინტერვიუში (და არა მარტო)  შეფასებისა და გამოცდების ეროვნული ცენტრი უარყოფს, რომ შექმნილი ინსტრუმენტი არის შემაჯამებელი ხასიათის, რაც სიმართლეს არ შეესაბამება (ახალი განათლება, 2020). ამას გარდა შეფასებისა და გამოცდების ეროვნული ცენტრის მიერ აღწერილი მახასიათებლებიდან ნათლად ჩანს, რომ ეს შეფასება არის შემაჯამებელი ხასიათის (✔️ სიმბოლო აღნიშნავს, რომ აკმაყოფილებს მახასიათებელს): 

განმავითარებელი შეფასებაგანმსაზღვრელი შეფასება
✘ინტერაქციული ხასიათისაა✔️ არ არის ინტერაქციული ხასიათის
✘  არ არის სტანდარტიზირებული✔️ შესაძლოა იყოს სტანდარტიზირებული ან კრიტერიუმზე-დაფუძნებული 
✘ უშუალოდ სასწავლო პროცესის ნაწილია✔️ხშირად არ არის სასწავლო პროცესის ნაწილი 
✘ მოსწავლეები აქტიურად არიან ჩართულნი შეფასების პროცესში✔️ მოსწავლეებს პასიური როლი აკისრიათ
✘ შეფასება ხდება მოსწავლეების და მასწავლებლის მიერ✔️ შეფასება ხდება გარე გამსწორებლების მიერ, ან შეფასება ავტომატიზირებულია
✘ არ ხდება მასწავლებლების და სკოლების მონიტორინგი✔️ ხშირად გამოიყენება გარე ანგარიშვალდებულების მიზნებისთვის
✘ სხვადასხვა ინტერაქციულ და ინდივიდუალურ დავალებაში შეიძლება იქნას გამოყენებული✔️ ტესტის ფორმატისაა
✘ უკუკავშირის წარმოებაში ჩართულნი არიან მოსწავლეები; უკუკავშირი კომპლექსური ფორმისაა✔️უკუკავშირს ელექტრონული პროგრამა, ან გარე დამკვირვებელი წერს; უკუკავშირი ხშირად პრიმიტიული ფორმისაა
✘ხშირად არის არაფორმალური ხასიათის✔️ ხშირად ფორმალური ხასიათისაა
✘ არ არის სტრესული✔️ საკმაოდ სტრესულია

ამ ყველაფრის შემდეგ, გაუგებარია, თუ რა პარამეტრებზე დაყრდნობით აცხადებს შეფასებისა და გამოცდების ეროვნული ცენტრი (და არა მარტო შეფასებისა და გამოცდების ეროვნული ცენტრი), რომ “შეფასება განვითარებისთვის” არის განმავითარებელი შეფასების ინსტრუმენტი. 

თუმცა, სავსებით შესაძლებელია ამგვარი შეფასების ინსტრუმენტს ეწოდოს დიაგნოსტიკური ტესტი, რომელიც შემაჯამებელი შეფასების კატეგორიას განეკუთვნება (Dolin & Black, p.68, 2018), ეს იმიტომ, რომ მას მასწავლებლები არ აფასებენ, შედეგების შესახებ ინფორმაციას იღებენ მშობლები და სახელმწიფო უწყებები, არის სტანდარტიზირებული, ან კრიტერიუმზე დაფუძნებული ტესტის ფორმატის და არ არის უშუალოდ სასწავლო პროცესის ნაწილი. 

არის თუ არა “შეფასება განვითარებისთვის” დიაგნოსტიკური შეფასების ინსტრუმენტი? 

ამასთან დაკავშირებით, როგორც ჩანს, შეფასებისა და გამოცდების ეროვნული ცენტრი არ არის ჩამოყალიბებული. დიაგნოსტიკური შეფასება სასწავლო წლის დასაწყისში უტარდებათ მოსწავლეებს იმ მიზნით, რომ რაც შეიძლება მალე მოხდეს მოსწავლეების საჭიროებების გათვალისწინება სასწავლო პროცესში და შესაბამისი ინტერვენციების ჩატარება. დიაგნოსტიკური ტესტი შემაჯამებელი შეფასების სახეობაა და თავისი მახასიათებლებიდან გამომდინარე მომავალზე ორიენტირებული უფროა, ვიდრე წარსულზე, რადგან ის მიმდინარე და მომავალში გასავლელი მასალის წინარე ცოდნას აფასებს (Mckenna & Stahl, 2015; Education Endowment Foundation, 2016). როდესაც შეფასებისა და გამოცდების ეროვნული ცენტრი “შეფასება განვითარებაზე” საუბრობს ძირითადად განვლილი მასალის შეფასებაზე კონცენტრირდება. აქვე, შეგვიძლია მოვიყვანოთ ფრანგული დიაგნოსტიკური ტესტის მოდელიც, რასაც მოსწავლე აკადემიური წლის განმავლობაშიორჯერ წერს (სექტემბერში და თებერვალში), რომ შეფასდეს მოსწავლეების წინარე ცოდნა და შემდგომ თებერვალში შეფასდეს, თუ რამდენად დაძლია მოსწავლემ განვლილი მასალა. შესაბამისად, თუ “შეფასება განვითარებისთვის” დიაგნოსტიკური ტესტია, გაუგებარია რატომ ყოყმანობს ნაეკი იმაზე, თუ როდის დაწერენ მოსწავლეები ამ ტესტს, მაშინ როდესაც, ამგვარი დიაგნოსტიკური შეფასება, როგორც წესი, აკადემიური წლის დასაწყისში იწერება და არა ბოლოში. 

თუ ნაეკი აპირებს ამ ტესტის მეშვეობით პირველ ოთხ და ექვს კლასში მიღწეული შედეგების შეაფასებას, მისი აკადემიური წლის დასაწყისში განხორციელდება არასწორი იქნება შემდეგი მიზეზების გამო: ა) არსებობს საკმაოდ კარგად გამოკვლეული ფენომენი (summer learning loss), რომ მოსწავლეები  ზაფხულის არდადეგების დროს, საშუალოდ, წინა აკადემიურ წელს შეძენილი ცოდნის  25-30% ივიწყებენ. ეს ფაქტორი კიდევ უფრო გამოკვეთილია სოციალურად გაჭირვებული მოსწავლეებისთვის (Atteberry & Mceachin, 2016)  – შედეგად ამ შეფასების, როგორც შემაჯამებელი შეფასების სანდოობა, მიზნობრიობა და ეფექტურობა კიდევ უფრო კლებულობს, ბ) როგორც ნაეკის პროექტის მენეჯერმა თქვა (ახალი განათლება, 2020), ტესტში მიღებულ პასუხებზე დაყრდნობით, სკოლებს შეეძლებათ გადაწყვიტონ, თუ რომელი მასწავლებლები საჭიროებენ პროფესიულ გადამზადებას, რაც პრობლემურია რადგანაც ვიცით, რომ ამგვარი ტესტები სანდოობით არ გამოირჩევიან და თუ მასწავლებლებს სკოლები აიძულებენ შედეგების მიხედვით გადამზადებას, მაშინ ეს ორჯერ უფრო უსამართლო იქნება summer learning loss-ის გათვალისწინებით. 

ყოველივე ზემოთ თქმულიდან შეგვიძლია შემდეგი დასკვნა გამოვიტანოთ: ეს ტესტი თუ შემაჯამებელია, მაშინ აკადემიური წლის ბოლოს უნდა ჩატარდეს და თუ დიაგნოსტიკურია, მაშინ აკადემიური წლის დასაწყისში. 

არც ისაა ცნობილი, იქნება ეს ტესტი სტანდარტიზირებული (norm-referenced),  თუ კრიტერიუმზე დაფუძნებული (criterion-referenced). 

(fig. 2) 

მსგავსი ტესტების სტანდარტიზება დიაგნოსტიკური მიზნებისთვის არ არის მართებული, რადგან, როგორც წესი, სტანდარტიზირებული ტესტები ვალიდურობით არ გამოირჩევიან და რაც უფრო ნაკლებია ვალიდურობის კოეფიციენტი, მით უფრო  უშედეგოა ამგვარი შეფასების დიაგნოსტიკური და განმავითარებელი მიზნებისთვის გამოყენება (Wiliam, 2000). 

საფრთხეები 

სამწუხაროდ, “შეფასება განვითარებისთან” დაკავშირებული პრობლემები ამით არ სრულდება. აუცილებლად უნდა გავითვალისწინოთ ის რისკ-ფაქტორები, რომლებსაც დიდი ალბათობით  ექნებათ გავლენა  ჩვენს მასწავლებლებზე, მოსწავლეებზე და კურიკულუმზე, იმ შემთხვევაში, თუ ეს განმსაზღვრელი შეფასების ინსტრუმენტი დაინერგა იმ სახით, რა სახითაც მას შეფასებისა და გამოცდების ეროვნული ცენტრი გვთავაზობს დღეს. 

გავლენა კურიკულუმზე

ქვეყნებში, სადაც ამგვარი განმსაზღვრელი შეფასება არსებობს დაწყებით კლასებში, ხშირად აწყდებიან კურიკულუმის ფოკუსის შევიწროვებასთან დაკავშირებულ პრობლემებს. როგორც “ახალ განათლებასთან” ინტერვიუში (2020) იყო ნახსენები, ტესტი მოსწავლეებს მხოლოდ წიგნიერებაში და მათემატიკაში ჩაუტარდებათ. ძალიან დიდი საფრთხეა იმისა, რომ კურიკულუმი კიდევ უფრო მეტად გახდეს ამ საგნებზე ორიენტირებული და შედეგად ნაკლები ყურადღება დაეთმოს ისეთ საგნებს, როგორიც არის ფიზიკური განათლება, ხელოვნება, მუსიკა და ა.შ. შედეგად მივიღოთ ბევრად უფრო ღარიბ და ვიწრო კურიკულუმს დაწყებით საფეხურზე, რომელსაც ყოველთვის ექნება განმასზღვრელი და მაკონტროლებელი გავლენა სასკოლო კურიკულუმზე. ეს რისკი რეალურია, რასაც არაერთი კვლევა მოწმობს (Crooks, 1988; Black & Wiliam, 1998; Johnston & McClune, 2000; Harlen & Crick, 2003). მსოფლიოში ამგვარი მიდგომის არაერთი პრეცედენტი არსებობს, მაგალითად ინგლისური SATs (Standardised Attainment Tests), რომელიც თავისი ხასიათით წააგავს “შეფასება განვითარებისთვის”. ინგლისში მოსწავლეები ამ ტესტს მე-6 კლასის დასასრულს წერენ – პროცესი საკმაოდ სტრესულია როგორც მასწავლებლებისთვის, ასევე მოსწავლეებისთვის5. მასწავლებლები, როგორც წესი, დიდ დროს და რესურს ხარჯავენ ტესტისთვის მომზადებაში (Reay, 2017). ბლექის (1998) თქმით, ამგვარი ტესტების არსებობის შემთხვევაში მასწავლებლები ძალიან ხშირად გამოყენებულ ტესტებზე (past papers) აფუძნებენ გაკვეთილებს, რაც ისევ განმავითარებელი შეფასების სტრატეგიების დანერგვა-გამოყენებას და გაკვეთილების მრავალფეროვნებას უშლის ხელს. 2016 წელს, ინგლისში ჩატარებული გამოკითხვის მიხედვით, გამოკითხული მასწავლებლების 97% მიიჩნევს, რომ SAT-ს ნეგატიური გავლენა აქვს კურიკულმზე, მასწავლებლების მოტივაციაზე და მოსწავლეებში იწვევს განათლების არსის გაუკუღმართებას (Reay, 2017). ავსტრალიაში 8000 გამოკითხულ მასწავლებლის აზრით, ამგვარი შეფასებები ვნებს კურიკულუმს და მას ტესტზე ორიენტირებულს და ვიწროს ხდის (Polesel et al. 2014). 

სასწავლო პროცესს სამი ძირითადი კომპონენტი განსაზღვრავს: პედაგოგიკა, შეფასება და სასწავლო მასალა (კონტენტი). ეს სამი კომპონენტი ერთმანეთზე უწყვეტად ზემოქმედებენ (ფიგ. 3), შესაბამისად, ერთ-ერთ კომპონენტში შეტანილი ცვლილება აუცილებლად იქონიებს გავლენას სხვა კომპონენტებზე. მაგალითად, თუ დავნერგავთ შემაჯამებელ შეფასებას დაწყებით საფეხურზე, მაშინ მოლოდინი უნდა გვქონდეს, რომ ამას პედაგოგიკაზე და კურიკულუმის მასალაზე გავლენა ექნება. 

(fig. 3) 

სწორედ ამიტომ “შეფასება განვითარებისთვის” პროექტმა შეიძლება საფრთხე შეუქმნას ‘ახალი სკოლის მოდელსაც’, რომელიც უფრო კონსტრუქტივისტული და პროგრესული ხასიათისაა და  მიზნად ისახავს მოსწავლეებში მრავალმხრივი სააზროვნო უნარების განვითარებას6. ახალი სკოლის მოდელი მოიცავს დეკლარატიულ,  პროცედურულ და გამოცდილებით (experiential) ცოდნას, რომელიც ასევე შეიცავს ცნებებზე დაფუძნებული სწავლების (concept-based learning) ელემენტებს და საკმაოდ კომპლექსურია თავისი სტრუქტურით.  რთულია წარმოვიდგინოთ მასწავლებელი, რომელიც ერთდროულად შეძლებს მოსწავლეების “შეფასებას განვითარებისთვის” (რომელიც მხოლოდ წიგნიერებას და რაოდენობრივ ცოდნას ამოწმებს)  და ხარისხიანი კომპლექსური დავალებების დაგეგმვას. ეს ორი პარადიგმა ვერ თანაარსებობს, რასაც მოწმობს ავსტრალიის გამოცდილებაც, სადაც “ეროვნული შეფასების პროგრამამ” (National Assessment Programme – Literacy and Numeracy (NAPLAN)) მთლიანად გადაფარა კონსტრუქტივისტულ პრინციპებზე დაფუძნებული the New Basics პროგრამა, რაც მოგვიანებით გაუქმდა კიდეც (Lingard & Mcgregor, 2013)7. ასე რომ, აუცილებელია თანხვედრა იყოს კურიკულუმის ფორმატსა და შეფასების ფორმატს შორის, თუ არ გვინდა, რომ მივიღოთ ატროფირებული ეროვნული სასწავლო გეგმა, რომელიც ვერ პასუხობს მოსწავლის და მასწავლებლის საჭიროებებს (Kelly, 2009). ახალი სკოლის მოდელის მორგება შემაჯამებელ დავალებებზე ორიენტირებულ საბაზო საფეხურზე ორმაგად რთული (შეუძლებელიც კი) იქნება, თუ ამას მეათე კლასში კიდევ ერთ მასიურ სტანდარტიზირებულ ტესტს დავუმატებთ. აქ გვაქვს ორ ურთიერთსაპირისპირო პარადიგმას შორის ჭიდილი: ჟერომ ბრუნერი, რომელიც ამბობდა, რომ მოსწავლეებს უნდა მივცეთ საშუალება ამოცანას ერთზე მეტი ახსნა მოუძებნონ და რალფ ტაილერი, რომელიც მხოლოდ სტანდარტში გაწერილ მიზნებზე იყო ორიენტირებული.  

ამგვარი შეფასების შედეგად, გაუგებარი ხდება ჩვენი საჯარო განათლების სისტემა რა გზას ადგას: “ახალი განათლება” თავისი ფილოსოფიით პროგრესულია, ხოლო “შეფასება განვითარებისთვის” უფრო ტრადიციული ხასიათისაა. როგორც მსოფლიო გამოცდილება გვიჩვენებს, ეს ორი პარადიგმა ერთად ხშირად არ მუშაობს და ქმნის სირთულეებს მასწავლებლებისთვის, მოსწავლეებისთვის და ზოგადად სკოლებისთვის (Lingard & Mcgregor, 2013). 

მასწავლებლის როლის დაკნინება 

“ახალი განათლების” სტატიაში ასევე ნათქვამია, რომ ტესტში მიღებულ შედეგებზე დაფუძნებით, სკოლებს საშუალება ექნებათ განსაზღვრონ რომელი მასწავლებელი საჭიროებს გადამზადებას, რაც იმას ნიშნავს, რომ ამ ტესტს გარე ანგარიშვალდებულების ფუნქციაც დაეკისრება. ეს არასწორი პრაქტიკა იქნებოდა იქიდან გამომდინარე, რომ ამგვარი შეფასებები ვალიდურობით არ გამოირჩევიან, (იხ. ქვემოთ) რაც, თავის მხრივ,  არ გვაძლევს იმის საშუალებას, რომ პროფესიული თვალსაზრისით განვსაჯოთ ვინ საჭიროებს გადამზადებას. მასწავლებლების კომპეტენციების შეფასებისთვის გაცილებით უფრო კომპლექსური მოდელის შექმნა იქნება საჭირო, რაც მხედველობაში იქონიებსიმ გარემოებებსა და ასპექტებს, რასაც უშუალოდ გავლენა აქვთ მასწავლებლების კომპეტენციების ჩამოყალიბება-განვითარებაზე: სასკოლო კულტურა და კონტექსტი, პროფესიული განვითარება და გადამზადება, სასკოლო რესურსები, კურიკულუმი, სკოლის ადმინისტრაცია და ა.შ. და არა ისეთი პრიმიტიული მოდელი, რასაც ნაეკი გვთავაზობს. 

გარდა ამისა, კორელაცია შესრულებული ტესტების შედეგებსა და მასწავლებლის კომპეტენციებს შორის საკმაოდ სუსტი და არასანდოა (Wiliam, 2018). მაგალითად, სტანფორდის უნივერსიტეტის შეფასების მკვლევრის, ედვარდ ჰარტელის თქმით, მასწავლებლის შემაჯამებელი ტესტის შედეგებით შეფასება წარმოადგენს უაღრესად არაზუსტ ინსტრუმენტს და შესაბამისად მასწავლებლების ნდობა ამგვარი შეფასებების მიმართ საკამოდ დაბალია, რაც ხშირად მასწავლებლებში იწვევს დემორალიზაციას და შეფასების ინსტრუმენტების მიმართ სრულიად გასაგებ უნდობლობას (Haertel, 2013). არანაირი მყარი მტკიცებულებითი საფუძველი არ არსებობს, რომ მასწავლებლები უფრო მოტივირებულები იქნებიან, თუ მასწავლებლების ტესტის შედეგების მიხედვით გადაწყდება მათი გადამზადების საკითხი (Baker et al. 2010). საინტერესოა ის ფაქტიც,  თუ როგორ გადაწყდება კონკრეტულად რა მიმართულებით უნდა გადამზადდეს მასწავლებელი სუსტი შედეგების შემთხვევაში. 

ამასთან,  საკმაოდ მყარი მტკიცებულება არსებობს იმის, რომ სანდოობის მხრივ, (reliability) მასწავლებლების მიერ შექმნილი შეფასების ინსტრუმენტები სტანდარტიზირებულ ტესტებს არ ჩამოუვარდება. 2019 წელს King’s College London-ის მიერ გამოქვეყნებული კვლევით გაირკვა, რომ მასწავლებლის მიერ ჩატარებული შეფასება არის ისეთივე სანდო და სტაბილური, როგორც ტესტ-ქულბი და ეს ზოგადი განათლების ყველა საფეხურს ეხება (Rimfeld et al. 2019).

ეს ყველაფერი უნდა გვიბიძგებდეს იმისკენ, რომ რაც შეიძლება ნაკლები ტესტი დავნერგოთ დაწყებით საფეხურზე და რაც შეიძლება მეტად ხელი შევუწყოთ მასწავლებელთა პროფესიულ განვითარებას შეფასების ტექნიკების განვითარების მიზნით. საეჭვოა ბევრ მასწავლებელს ახსოვდეს ბოლოს როდის ჰქონდა შესაძლებლობა მონაწილეობა მიეღო  ეფექტური პროფესიული გადამზადებაში8. განათლების ხარისხის გაუმჯობესება მხოლოდ სწავლა-სწავლების ხარისხის გაზრდითაა შესაძლებელი და არა ტესტირებით. ამგვარი ტესტირება სწავლა-სწავლების ხარისხის გაუმჯობესებაში ვერ ითამაშებს ინსტრუმენტალურ როლს.  

თუ სათანადოდ არ ვენდობით მასწავლებლებს, რომ შეაფასონ და გაიგონ,  “განვითარების რა ეტაპზე არიან” მათი მოსწავლეები განმავითარებელ, შემაჯამებელ და დიაგნოსტიკური შეფასების მიდგომებით, მაშინ აჯობებს მასწავლებლები გადავამზადოთ ეფექტურად, რაც გრძელვადიან პერიოდში გაცილებით მეტ სარგებელს მოგვიტანს. კვლევები გვეუბნებიან, რომ ჯერ არ არსებობს ეროვნული ტესტი, რომელსაც სწავლის ხარისხის გაუმჯობესებასთან მივყავართ – სწავლის ხარისხს მხოლოდ მასწავლებლების გაძლიერებით და განვითარებით თუ შევძლებთ (Wiliam, 2018). 

გავლენა მოსწავლეებზე 

გარდა ამისა, რომ ამგვერ შეფასებას საკმაოდ ნეგატიური გავლენა აქვს თავად მოსწავლეებზე (ჩვენთან ამ ტესტს მეოთხე კლასში, კიდევ უფრო უმცროს მოსწავლეებთანაც ჩაატარებენ). მაგალითად, მსგავსი პრობლემის წინაშე დგანან ინგლისელი მოსწავლეები, როცა მათ სტრესის ქვეშ და სახეცვლილ გარემოებებში უწევთ ტესტის წერა (Reay, 2017). ამ ასაკის ბავშვები ნაკლებად არიან ემოციურად და კოგნიტურად მზად გაუმკლავდნენ ამგვარ ტესტებს, როგორც ამას არაერთი კვლევა მოწმობს (Meighan & Harber, 2007).  ხშირად მოსწავლეები ტესტისთვის მზადებაში ვერ ახერხებენ საკითხების სიღრმისეულ გაგებას და მხოლოდ ზედაპირული ცოდნის შეძენით შემოიფარგლებიან, რომელიც ხშირად გამოცდის შემდეგ  არ ამახსოვრდებათ. ასევე,  კნინდება ჯგუფური მუშაობის როლი და სასწავლო პროცესი ხდება უფრო ინდივიდზე და შეჯიბრზე ორიენტირებული (Philips, 1997). მოსწავლეებში არსებულ სტრესს არც მასწავლებლების და სკოლაში მომუშავე უფროსების მიერ შეგნებულად განხორციელებული დამამშვიდებელი პოლიტიკა  შველის. 

ნაეკის პროექტში არ ჩანს, თუ როგორ აირიდებენ ისინი თავიდან მოსწავლეებს შორის “ჩაჭრილად” და “მოგებულების” კატეგორიზებას, რაც გამოუსწორებელ და გრძელვადიან ზიანს მოუტანს მოსწავლეებს. ამგვარ ტესტებში მიღებული უკუკავშირი მოსწავლეების მიერ ყოველთვის აღიქმება, როგორც განსჯა და მოსწავლეები ხშირად ახდენენ მიღებული უკუკავშირის და შედეგის ერთმანეთთან შედარებას და შემდგომ განსჯას (Harlen, 2013). აღსანიშნავია ის ფაქტიც, რომ ამგვარ გარე შეფასებებს, როდესაც ანგარიშვალდებულების ფუნქცია მოხსნილი აქვს, მასწავლებლების პრაქტიკაზე ნეგატიური გავლენა აქვს (2014). 

ასევე, ამგვარი შეფასებებით სკოლებში გამოსწორებულ განათლების ხარისხს მსოფლიოში იშვიათად შევხვდებით, სამაგიეროდ, წავაწყდებით ისეთ შემთხვევებს, როდესაც მოსწავლეები კარგ განათლებას მათემატიკაში და წიგნიერების ტესტებში მიღებული კარგი შეფასებით ზომავენ და არა იმით, თუ რამდენად მოსწონთ და კარგად გამოსდით ხატვა, ძერწვა, მუსიკა, სპორტი, უცხო ენები და ა.შ. (Reay & Wiliam, 1999). ამ შეფასების შედეგად, ვზრდით საფრთხეს მოსწავლეებს ჩავუნერგოთ, თუ მათემატიკა-წიგნიერებაში არ გვაქ კარგი შეფასებები, მაშინ არ ვართ საკმარისად კარგები. სამწუხაროდ, ზუსტად ამას ამბობს “შეფასება განვითარებისთვის” პროექტის ხელმძღვანელი, რომ თუ მოსწავლე ამ ორი მიმართულებით ძლიერია, მაშინ იგი საშუალოდ სხვა საგნებშიც კომპეტენტური იქნება, რაც არასწორია ორი მიზეზის გამო: ა) წიგნიერება ყველა საგნისთვის მნიშვნელოვანია, მაგრამ ეს ნიშნავს იგივეს, რომ წიგნიერების და მათემატიკის უნარების და ცოდნის გაზომვით, ჩვენ ვზომავდეთ მოსწავლეების უნარებს ხელოვნებაში, მუსიკაში, სპორტში, ა.შ., ბ) ახალ განათლებასთან ინტერვიუში პროექტის მენეჯერი, ეკა ჯელაძე, აცხადებს: “ გა­ნათ­ლე­ბის ექ­ს­პერ­ტე­ბი თან­ხ­მ­დე­ბი­ან, რომ თუ მოს­წავ­ლეს ეს ორი უნა­რი – წიგ­ნი­ე­რე­ბა და რა­ო­დე­ნობ­რი­ვი წიგ­ნი­ე­რე­ბა – გან­ვი­თა­რე­ბუ­ლი აქვს, ის ნე­ბის­მი­ე­რი საგ­ნის შეს­წავ­ლას შეძ­ლებს იოლად და მარ­ტი­ვად.” რაც არ უნდა განვითარებული ჰქონდეს მოსწავლეს წიგნიერება და რაოდენობირივი წიგნიერება, ეს არ ნიშნავს იმას, რომ მოსწავლეს სპორტში რბენის დროს სხვადასხვა მანძილიდან მიზანში ბურთის ტყორცნა შეუძლია “იოლად და მარტივად” და ხელოვნებაში “იოლად და მარტივად” იღებს მონაწილეობას თეატრალურ წარმოდგენებში,  საკლასო და სასკოლო  ზეიმებში და გამოფენებში. საინტერესო იქნებოდა მოგვესმინა ნაეკის მხრიდან, თუ კონკრეტულად რომელი “განათლების ექსპერტები” თანხმდებიან ზემოთხსენებულ საკითხზე და თუ უდევს რაიმე კვლევა ამ არგუმენტს საფუძვლად. ზოგადად, აქცენტი ამ ორი მიმართულებით იმიტომ კეთდება, რომ ამ საგანში ცოდნის გაზმოვა შედარებით უფრო პრაქტიკულ, იაფ და მარტივ საკითხს წარმოადგენს, ვიდრე ვთქვათ ფიზიკურ განათლებაში, მუსიკაში და ა.შ. (Ball, 2017). 

სოციალური და პოლიტიკური ასპექტები 

“ახალი განათლების” სტატიაში ნათქვამია, რომ ტესტის საშუალებით გადაწყდება, თუ რომელ მასწავლებელს დასჭირდება პროფესიული განვითარება, რაც იმას ნიშნავს, რომ “შეფასება განვითარებისთვის” მოგვევლინება, როგორც გარე ანგარიშვალდებულების ინსტრუმენტი. არც ნაეკის ვებ-საიტზე, და არც მედიასთან საუბარში, არ არის ნახსენები, რომ ამგვარი შეფასების დროს მხედველობაში იქნება მიღებული ისეთი ასპექტები, რაც ამგვარ შეფასებას უფრო სამართლიანს და დაბალანსებულს გახდის.

როგორი შეიძლება იყოს ამგვარი შეფასება? პირველ რიგში, შეფასება უნდა იყოს გაცილებით კომპლექსური და გარკვეულწილად უნდა იყოს ინფორმირებული იმ გარემოებებით, რომლებსაც გავლენა აქვთ მოსწავლეებზე. სტანფორდის უნივერსიტეტის პროფესორის, ჰარტლის თანახმად, სკოლის გარეთ არსებული გარემოებები 60%-ით განსაზღვრავს მოსწავლეებს შორის მიღწევებს, ხოლო მასწავლებლების როლი ამ მხრივ მხოლოდ 9%-ს შეადგენს (Haertel, 2013). შესაბამისად, როცა მოსწავლეების მიღწევაზე ვსაუბრობთ, აუცილებლად უნდა გავითვალისწინოთ, რომ მიღებული ქულით უაღრესად რთულია (თუ შეუძლებელი არა) განვსაზღვროთ და გავზომოთ სკოლის, სასწავლო პროცესის და მასწავლებლის ეფექტურობა. რა თქმა უნდა, მასწავლებლის როლი მნიშვნელოვანია, თუმცა, სოციალური, კულუტურილი და ფინანსური კაპიტალი უფრო მეტ გავლენას ახდენს მოსწავლის წარმატებაზე (Jæger, 2011). მაგალითად, სკოლაში სადაც მოსწავლეები ძირითადად ღარიბი ოჯახებიდან დადიან, სკოლა იმყოფება შედარებით ღარიბ უბანში და მშობლებს ნაკლებად გააჩნიათ რესურსი ბავშვებს დახმარება გაუწიონ, საშუალოზე დაბალი მიღწევა არ შეიძლება ჩაითვალოს წარუმატებლობად. შესაბამისად, თუ გვსურს სამართლიანი და სწორი გარე ანგარიშვალდებულების ინსტრუმენტის შექმნა მოსწავლეების მიღწევებზე დაყრდნობით, მაშინ ეს მონაცემები შეზავებულ უნდა იქნას შემდეგ ფაქტორებთან რომ მივიღოთ რეალობასთან მიახლოებული სურათი: მოსწავლის ოჯახური/სოციალური პროფილი, კულტურული და ფინანსური კაპიტალი და ლოკაცია. 

განათლების სოციოლოგ ბაზილ ბერნშტაინის მიხედვით (2004),   აკადემიური წარმატება განისაზღვრება როგორც სკოლაში, ასევე სახლში. რაც უფრო მეტი მასალაა განსაზღვრული სასწავლო გეგმაში და რაც უფრო მეტი ძალისხმევაა ტესტების მომზადებისთვის საჭირო, მით უფრო დამოკიდებული ხდება ბავშვი იმაზე, თუ რა რაოდენობის დახმარებას მიიღებს იგი ოჯახიდან, რაც თავის მხრივ, დამოკიდებულია იმაზე, თუ რომელ სოციალურ ფენას განეკუთვნება ესა თუ ის ოჯახი. 

მაშინ, როცა ჩვენს ქვეყანაში სოციალური უთანასწორობა მატულობს, ვნერგავთ ისეთ პრიმიტიულ შეფასების ინსტრუმენტებს, რომლებსაც არც ერთ ქვეყანაში არანაირი სარგებელი არ მოუტანია, არც მოსწავლეებისთვის და არც მასწავლებლებისთვის (Kelly, 2009). ჩვენს შემთხვევაში,  მოტივი შეიძლება პოლიტიკური იყოს, რაც ამგვარი ტესტების შემთხვევაში, ხშირად ასეც არის (ibid.). ელიოტ აიზნერის თქმით (1993), ეროვნულ ტესტებს ხშირად პოლიტიკური დატვირთვა აქვთ და გამოიყენება სკოლების და მასწავლებლების სამართავად და არა სხვა პოზიტიური მიზნებისთვის, მაგალითად, მოსწავლეების ჰოლისტური მომზადება რეალურ სამყაროში ცხოვრებისთვის. სხვა ქვეყნების გამოცდილებიდან გამომდინარე, ადვილად გაზომვადი სტატისტიკური მონაცემები მარტივად შეიძლება იქნას გამოყენებული პოლიტიკური მიზნებისთვის, რათა ფართო საზოგადოებას ადვილად გასაგები სტატისტიკური მონაცემებით დავანახოთ, თუ რა ‘ვითარებაა’ სკოლებში და მივცეთ პოლიტიკოსებს უფრო მეტი ცენტრალიზებული ინსტრუმენტები კურიკულუმის, მასწავლებლების, მოსწავლეების და მშობლების მანიპულაციისთვის. თუმცა, ყველამ ვიცით, რომ ამგვარი სტატისტიკური მაჩვნებლები მთლიან სურათს არასდროს გვიჩვენებს. 

გარდა ამისა, ეს ტესტები შეიძლება გამოყენებულ იქნეს PISA-ს და სხვა საერთაშორისო ტესტებში მოსწავლეების მოსამზადებლად. ისინი ფორმატიდან გამომდინარე, ძალიან ჰგვანან ერთმანეთს. PISA-ს სწორედ ამ მიზეზით აკრიტიკებენ განათლების მკვლევრები – იგი მსოფლიოს მაშტაბით ნეგატიურ გავლენას ახდენს ეროვნულ სასწავლო გეგმებზე (Grek, 2009). 

ნაეკის ვებ-გვერდზე აღნიშნულია, რომ ამ შეფასების ინსტრუმენტის საშუალებით სკოლები შეძლებენ სკოლის დონეზე კლასების ერთმანეთთან შედარებას – არავითარ შემთხვევაში არ უნდა დაგვავიწყდეს, რომ ვერც ერთი ტესტი შედეგი ვერ იქნება იმ რეალობის ამსახველი, რაც სინამდვილეში საკლასო ოთხაში ხდება. რადგან ამ ტესტს ამ ინსტრუმენტს ვაძლევთ ეს აუცილებლად გამოიწვევს კლასებს შორის კონკურენციას და შეჯიბრს, რაც თავისთავად სასწავლო პროცესს ნაკლებად ინკლუზიურს გახდის. ხშირად მასწავლებლები გახდებიან განსჯის საგანი,  რამაც შეიძლება ხელი შეუწყოს მაღალ კლასებში (საშუალო საფეხურზე) იმ მოსწავლეების სკოლიდან დათხოვნის პრაქტიკას, რომლებიც კლასის რეიტინგს დაბლა აგდებენ. ასეთი მოსწავლეები კი ხშირად ისინი არიან, ვისაც მეტი დახმარება სჭირდება. სამწუხაროდ, ასეთი მიდგომა ბევრ ქვეყანაშია ფეხმოკიდებული (Dane & Knowler, 2020). 

ტესტის ვალიდურობა, საიმედოობა და მიზნობრიობა 

არ არის ცნობილი, თუ რა მიზნით შეიქმნა ეს ტესტი. ერთადერთი გაცხადებული მიზანი არის ის, რომ ამ ტესტის შედეგებით მასწავლებლები შეძლებენ უკეთ დაგეგმონ სწავლა-სწავლების პროცესი და მოახდინონ მშობლების ინფორმირება მოსწავლეების პროგრესის შესახებ. ასევე, ნახსენებია, რომ ტესტების შედეგებზე დაყრდნობით, სკოლა გადაწყვეტს რომელ მასწავლებელს სჭირდება გადამზადება. ტესტების შედეგებზე დაყრდნობით მასწავლებლების და სკოლების გარე ანგარიშვალდებულება საკმაოდ არაზუსტ მეცნიერებას წარმოადგენს და მრავალი კვლევა გვაჩვენებს, რომ ეს იწვევს მთელ რიგ უკუჩვენებებს, რაზეც ზემოთაც ვისაუბრეთ9

იმისთვის, რომ ტესტი იყოს ეფექტიანი,  ის უნდა აკმაყოფილებდეს ორ ძირითად კრიტერიუმს: სანდოობა (reliability) და ვალიდურობა (validity). სანდოობის პრინციპმა ძალიან ადვილად აღსაქმელი დანიშნულება უნდა დააკმაყოფილოს: რამდენად მსგავს შედეგს მიიღებს მოსწავლე ერთიდაიმავეტესტის დაწერისას სხვადასხვა გარემოსადა გამსწორებლის? ვალიდურობა გაცილებით უფრო კომპლექსური ცნებაა, თუმცა, მისი მარტივი ილუსტრირება შესაძლოა შემდეგი კითხვით: რამდენად ამოწმებს ესა თუ ის შეფასების ინსტრუმენტი სასწავლო პროგრამით გათვალისწინებულ ცოდნას, უნარებს და ა.შ. შესაბამისად, ხშირ შემთხვევაში, რაც უფრო ვალიდურია ტესტი, იზრდება რისკი მისი სანდოობის შემცირებისა, რაც თავისთავად საჭიროს ხდის ამ ორ კომპონენტს შორის ბალანსის პოვნას10. მაგალითად,  ვალიდური ტესტი გაცილებით უფრო კომპლექსურად აფასებს მოსწავლეს და შედეგად ამგვარი ტესტის შემთხვევაში, მოსწავლემ შეიძლება ერთიდაიგივე შედეგი არ მიიღოს ტესტის განმეორებით შესრულების დროს (Black, 1998). ამიტომ, თუ გვსურს ტესტი იყოს სანდო, მაშინ ეს შეიძლება მივაღწიოთ მისი ვალიდურობის ხარჯზე. “შეფასება განვითარების” შემთხვევაში, ჩვენ წარმოდგენაც არ გვაქვს, თუ რამდენად დაბალანსებულია ეს შეფასება ვალიდურობის და სანდოობის მხრივ. მაგალითად, სასწავლო პროგრამის რა პროპორციას აფასებს “განათლება განვითარებისთვის”? როგორც წესი, ამგვარი ტესტები სასწავლო პროგრამის ძალიან მწირ ნაწილს ამოწმებენ, რაც ბადებს კითხვას, თუ რამდენად გამართლებულ ხარჯს სწევს მთავრობა ამ პროექტში (Alexander, 2010). როგორც სხვა ქვეყნების გამოცდილება გვეუბნება, ამგვარი ტესტები როდესაც ეროვნულ შეფასებად გვევლინებიან, სანდოობით და ეფექტურობით არ გამოირჩევიან მათ არ შეაქვთ არანაირი პოზიტიური წვლილი სწავლა-სწავლების ხარისხის გაუმჯობესებაში (Kelly, 2009; Doyle & Godfrey, 2005; Wiliam, 2018; Black, 1993; Eisner, 1996).

ძალიან უცნაურია ის გარემოებაც, რომ ნაეკი ზუსტად არ აცხადებს, თუ როგორ დაახარისხებენ მოსწავლეების შედეგებს. შეიძლება მოსწავლეებს ნიშნები არ ეძლევათ, მაგრამ თუკი ამ ტესტით სკოლაც და მასწავლებელიც მოწმდება და ერთგვარი მონაცემთა ბაზა იქმნება, მაშინ ერთგვარი შკალირებაც უნდა მოხდეს მოსწავლეების, კლასების და სკოლების11

რეკომენდაციები

სამწუხაროა, რომ განათლების სამინისტრომ და ნაეკმა ეს გზა არჩია სკოლებში განათლების ხარისხის გაუმჯობესებლად, როცა უამრავი ალტერნატივა არსებობს, რომელიც მასწავლებლის როლის დაკნინების ნაცვლად,  მათ გაძლიერებას შეუწყობდა ხელს. “შეფასება განვითარებისთვის” ალტერნატივად შეიძლება შემდეგი მოდელი იქნეს გამოყენებული: 

(fig. 4) 

ინტეგრირებული განმავითარებელი შეფასება (Embedding Formative Assessment): 

ინტეგრირებული განმავითარებელი შეფასების ტრენინგი დაახლოებით $500 დოლარი ჯდება ერთ სკოლაზე, რაც გულისხმობს ორ წლიან ინტენსიურ გადამზადების პროგრამას. ამ ტრენინგის ეფექტურობას Education Endowment Foundation-ის ფართო მაშტაბიანი კვლევაც გვიჩვენებს – მოსწავლეები, რომელთა მასწავლებლებსაც ინტეგრირებული განმავითარებელი შეფასების ტრენინგი აქვთ გავლილი, საშუალოდ, 2 თვით მეტ პროგრესს აღწევენ სხვებთან შედარებით (Speckesser et al., 2018). ამ პროგრამის ადმინისტრირება სკოლის თანამშრომლების მიერაც არის შესაძლებელი და არ საჭიროებს მოწვეულ ტრენერებს. ტრენინგ პაკეტში მოცემული ვიდეო/აუდიო და ინსტრუქციული მასალა საკმაოდ ვრცელია და ზუსტად აწვდის მასწავლებლებს ინსტრუქციას, თუ როგორ მოახდინონ განმავითარებელი შეფასების სტრატეგიების ინტეგრირება პედაგოგიურ პრაქტიკაში, რაც ამავე დროს ბოლოს მოუღებდა იმ გაუგებრობას, რაც განმავითარებელი შეფასების გარშემო ტრიალებს დღეს ქართულ სკოლებში. 

მასწავლებლის შეფასებები: დაწყებით საფეხურზე შეიძლება გამოყენებულ იქნას მასწავლებლების შეფასებები. ამის კარგი მაგალითია ჰარლენი (2013), სადაც მასწავლებლები მთელი წლის განმავლობაშიაკვირდებიან და ახარისხებენ მოსწავლეებთან ერთად შექმნილ ნამუშევრებს (პორტფელები); მათ სტანდარტში განსაზღვრულ მიზნებს უკავშირებენ და შემდეგ შეჯამებული სახით ახდენენ ამ ინფორმაციის თავმოყრას მოსწავლის ბარათებში (student report cards), სადაც დეტალურად აღწერენ მოსწავლეების ძლიერ მხარეებს სასკოლო ცხოვრების ყველა ასპექტში (არა მხოლოდ მათამატიკა-წიგნიერებაში) და აძლევენ მათ რჩევებს წინსვლისთვის. ამ ხერხით, შესაძლებელი იქნებოდა კურიკულუმის მრავალფეროვნების შენარჩუნება და ამავე დროს, შევძლებდით მასწავლებლის როლის კიდევ უფრო გამყარებას და დაფასებას. ამას, რა თქმა უნდა, მასწავლებლების გადამზადება დასჭირდებოდა, თუმცა, ეჭვიც არ მეპარება, ამ ორ ალტერნატივას შორის, მასწავლებელთა უმრავლესობა რომელს აირჩევდა. მსგავს მიდგომას იყენებენ ისლანდია, ფინეთი და დანია დაწყებით საფეხურზე. 

ეს პუნქტი ასევე ებმის ინტეგრირებული განმავითარებელი შეფასების პუნქტს. ზუსტად ინტეგრირებული განმავითარებელი შეფასების სტრატეგიების გამოყენებით, მთელი აკადემიური წლის მანძილზე, მასწავლებლებს შეეძლებოდათ შეფასების მონაცემების შედარება  სასწავლო გეგმაში გათვალისწინებულ მიზნებთან (და არამარტო) მიმართებაში. ამ გზით, მასწავლებლების შეფასებები იქნებოდა ვალიდურიც და სანდოც (dependability) (Harlen, 2014).

შემაჯამებელი შეფასება: მოსწავლეები დაწყებითი საფეხურის დასრულებისას, უნდა შეფასდნენ შემაჯამებელი შეფასების გზით მხოლოდ ერთხელ, ხოლო დაწყებით საფეხურზე სწავლისას ძირითადად განმავითარებელი შეფასების გზით. ჯერჯერობით, გაუგებარია, თუ რატომ გადაწყვიტა ნაეკმა დაწყებით საფეხურზე ორი ტესტის დანერგვა. დაწყებითი საფეხურის დამასრულებელმა  შემაჯამებელმა შეფასებამ უნდა დააკმაყოფილოს შემდეგი კრიტერიუმები: 

  • არ შეავიწროვოს კურიკულუმი. დაწყებით საფეხურზე სწავლის პროცესი არასდროს უნდა იყოს ტესტის შედეგებზე ორიენტირებული; 
  • არ უნდა იყოს მასწავლებლების მიერ განმავითარებელი შეფასების სტრატეგიების გამოყენებისთვის ხელისშემშლელი ფაქტორი;
  • უნდა შეფასდეს უფრო მეტი, ვიდრე მხოლოდ  წიგნიერება და მათემატიკა, რადგან სასკოლო კურიკულუმი იმაზე ბევრად მეტია, ვიდრე მათემატიკა და წიგნიერება. 
  • ამგვარი შემაჯამებელი შეფასება უმჯობესია მასწავლებლების მიერ იქნას შეფასებული, ხოლო ხარისხის კონტროლი და მოდერაცია გარე დამოუკიდებელ ინსტიტუტს დაეკისროს;
  • მოსწავლეების შეფასება უნდა ემსახურებოდეს მხოლოდ ერთ მიზანს: ბავშვების შეფასება და მასწავლებლებისთვის, მოსწავლეებისთვის და მშობლებისთვის ეფექტური უკუკავშირის მიწოდება. ამგვარ შეფასებას არ უნდა დაეკისროს გარე ანგარიშვალდებულების ფუნქციები, როგორიცაა მასწავლებლების და სკოლების მინიტორინგი და შეფასება. 

იმისათვის, რომ მოხდეს მოსწავლეების უნარების, ცოდნის და კომპეტენციების კომპლექსური შეფასება ეს შესაძლოა რამდენიმე შეფასების ინსტრუმენტის კომბინაციის სახით მოგვევლინოს: წერითი აქტივობა, გასაუბრება, ტესტი, ჯგუფური და ინდივიდუალური კომპლექსური აქტივობა. მსგავსი შეფასების სისტემა არსებობს შემდეგ ქვეყნებში: ნორვეგია, ისლანდია, ფინეთი, და დანია12.  ეს შეფასება შეიძლება შესრულებული იყოს სპეციალურად გადამზადებული მასწავლებელთა ჯგუფის მიერ და შემდგომ მისი მოდერაცია მოხდეს გარედან. ამგვარი შემაჯამებელი შეფასება, უფრო მეტ დახმარებას გაუწევს მოსწავლეს მოახდინოს რეფლექსია მის პრაქტიკაზე და გაიუმჯობესოს სწავლა-სწავლების მიდგომები მომავალში.  

ასევე, შეიძლება სკოლას ვანდოთ და შევუქმნათ შეფასების ბანკი (ახალი ზელანდიის მოდელი). ამ ტესტების დანერგვა-გამოყენება არ იქნება სავალდებულო და სკოლები ნებაყოფლობით გამოიყენებენ ტესტ ბანკს საჭიროების მიხედვით13

გარე ანგარიშვალდებულება

იმისთვის, რომ მოვახდინოთ ეროვნულ და რეგიონალურ დონეზე, ხარისხის მონიტორინგი არ არის აუცილებელი ყველა სკოლაში ჩავატაროთ ტესტირება. სანაცვლოდ,  შეიძლება შეფასდეს მხოლოდ რეპრეზენტატულად შერჩეული მოსწავლეების რაოდენობა რეგიონალურ დონეზე, რაც მიღებული პრაქტიკაა არაერთ ქვეყანაში (Harlen, 2014; Didau, 2019). რეპრეზენტატულად შერჩეული ერთეულები სხვადასხვა კუთხით შეფასდებიან, რაც საერთო ჯამში მოგვცემს მთლიან სურათს, თუ რა ხდება ზოგადად ეროვნულ დონეზე. საერთაშორისო ფართომაშტაბიანი ტესტებიც (PISA & TIMSS) ზუსტად ამ მეთოდს იყენებენ. ამ გზით ჩვენ შევამცირებთ მოსწავლეებზე და სკოლებზე ზეწოლას და შესაბამისად ტესტსაც არ ექნება ის ნეგატიური გავლენა განათლებაზე, რაზეც ზემოთ ვსაუბრობდით. 

(fig. 5) 

დასკვნა 

შეფასებისა და გამოცდების ეროვნული ცენტრის პასუხისმგებლობაა საზოგადოების ადეკვატური ინფორმირება მოახდინოს ამ პროექტის შესახებ. ნაეკმა უახლოეს მომავალში აუცილებლად უნდა გასცეს პასუხი შემდეგ კითხვებს: 

  • ზუსტად რა ტიპის შეფასებას ითვალისწინებს “შეფასება განვითარებისთვის” – დიაგნისტიკურს თუ შემაჯამებელს? (განმავითარებელ შეფასებაზე ლაპარაკიც კი ზედმეტია);
  • ახლავს თუ არა “შეფასება განვითარებისთვის” გარე ანგარიშვალდებულების ფუნქცია (value added) (მასწავლებლების და სკოლების მონიტორინგი)?
  • ზუსტად რა მიზნებისთვის იქნება მონაცემები გამოყენებული? 
  • მოხდება თუ არა მოსწავლეების კატეგორიზაცია მათი მიღწევების დონეების მიხედვით? 
  • სავალდებულო იქნება  თუ არა ტესტირებაში  მონაწილეობა? 
  • რამდენად ვალიდური და სანდოა ტესტი? არსებობს თუ არა ბალანსი მის ვალიდურობასა და სანდოობას შორის (dependability)? 
  • ნაეკმა ზუსტად უნდა განსაზღვროს განმავითარებელი, შემაჯამებელი და დიაგნოსტიკური შეფასების დეფინიცია.
  • არის თუ არა ტესტები კრიტერიუმზე-დაფუძნებული თუ  (criterion-based) თუ ნორმაზე (norm-referenced). 

და ბოლოს, სამწუხაროა, რომ ეს ინიციატივა ხორციელდება ისე რომ საზოგადოებას და მასწავლებლებს არ ვუხსნით და პირიქით ვურევთ თავგზას ამ ტიპის შეფასების არასწორი კონცეპტუალიზაციით, რაც მომავალში სერიოზულ პრობლემას შეუქმნის სისტემას. 

სქოლიო:

  1. სტატიაში არ არის ნათელი ვინ უწოდებს ამას განმავითარებელ შეფასებას – ჟურნალისტი თუ NAEC-ის წარმომადგენელი
  2.  Ნაეკს და სამინისტროს დღემდე არ აქვთ გამოქვეყნებული მასალა სადაც მათი შეფასების ფილოსოფია იქნებოდა განმარტებული და გარკვეული რეკომენდაციები იქნებოდა მოყვანილი სკოლებისთვის, მასწავლებლებისთვის და მოსწავლეებისთვის.
  3. Სტრატეგიების სანახავად გადადით შემდეგ ბმულზე: The Thinking Routine Toolbox
  4.  Განმსაზღვრელი შეფასების ინსტრუმენტი შესაძლოა ყველა ან რამოდენიმე ამ კომპონენტს აკმაყოფილებდეს.
  5. Სემესტრის ბოლოს იმართება; ტარდება მეექვსე კლასის ბოლოს; მოსწავლეს და მასწავლებელს მიეწოდება უკუკავშირი; მოწმდება თუ რამდენად პასუხობს სტანდარტში გათვალისწინებულ მიზნებს ბავშვის ცოდნა; ნიშანი არ იწერება და ა.შ.
  6. Თუ რამდენად ეფექტურად ეს სხვა ბლოგპოსტის თემა იქნება.
  7. Აქ ინგლისის 1987 წლის National Curriculum Group on Assessment and Testing-ის (TGAT) ანგარიშიც საგულისხმოა.
  8. Თუ რას მეტაანალიზი ეფექტურ პროფესიულ განვითარებაზე იხილეთ შემდეგი ანგარიში: Developing Great Teaching
  9. Ამგვარ შეფასებებს value-added assessment-ს ეწუდებენ. მაგალითად, Ეს მაშინ ხდება როდესაც მასწავლებლების და სკოლების შეფასება მოსწავლეების მიერ დაწერილ ტესტების შედეგებით ფასებდა.
  10. Ამ ბალანსს dependability-ს უწოდებენ.
  11. Თუმცა არსებობს გამონაკლისი შემთხვევები, როდესაც ნიშნის დაწერაც შეიძლება იქნეს გამოყენებული განმავითარებელი მიზნებისთვის. Იხ. Დილან უილიამის Embedded Formative Assessment (2017)
  12.  Ასევე IB დაწყებით საფეხურზეც მოსწავლეები პროგრამის დასრულებამდე აწყობენ გამოფენას, სადაც ისინი ახდენენ ხუთი წლის მანძილზე შეძენილი ცოდნის დემონსტრირებას: https://www.ibo.org/programmes/primary-years-programme/pyp-exhibition/.
  13. Გაიგეთ მეტი ახალი ზელანდიის განათლების სამინისტროს ვებგვერდზე: Online Assessment

გამოყენებული ლიტერატურა: 

Alexander, R. (2010). Children, their world, their education. Final report and recommendations of the Cambridge Primary Review.

Atteberry, A., & McEachin, A. (2016). School’s out: Summer learning loss across grade levels and school contexts in the United States today.  In Alexander, K., Pitcock, S., & Boulay, M. (Eds). Summer learning and summer learning loss, pp35-54. New York: Teachers College Press.

Baker, E. L., Barton, P. E., Darling-Hammond, L., Haertel, E., Ladd, H. F., Linn, R. L., … & Shepard, L. A. (2010). Problems with the Use of Student Test Scores to Evaluate Teachers. EPI Briefing Paper# 278. Economic Policy Institute.

Bailey, K., & Jakicic, C. (2011). Common formative assessment: A toolkit for professional learning communities at work. Solution Tree Press.

Ball, S. J. (2017). The education debate. Policy Press.

Bennett, R. E. (2011). Formative assessment: A critical review. Assessment in education: principles, policy & practice, 18(1), 5-25.

Bernstein, B. (2004). The structuring of pedagogic discourse (Vol. 4). Routledge.

Black, P. (1993). The shifting scenery of the National Curriculum. Assessing the National Curriculum, 57-69.

Black, P. J. (1998). Testing, friend or foe?: the theory and practice of assessment and testing. Psychology Press.

Black, P., Harrison, C., & Lee, C. (2003). Assessment for learning: Putting it into practice. McGraw-Hill Education (UK).

Black, P, & Wiliam, D. (2006). Assessment and Classroom Learning. Assessment in Education : Principles, Policy & Practice, 5(1), 7-74.

Black, P. (2015). Formative assessment–an optimistic but incomplete vision. Assessment in Education: Principles, Policy & Practice, 22(1), 161-177.

Cech, S.J. (2007). Test industry split over ‘formative’ assessment. Edweek 28, no. 4:

1, 15. http://www.edweek.org/ew/articles/2008/09/17/04formative_ep.h28.html (accessed

October 31, 2020).

Clarke, S. (2005). Formative assessment in the secondary classroom. Hodder Murray.

Clarke, S. (2014). Outstanding formative assessment: Culture and practice. Hodder Murray.

Crooks, T. J. (1988). The impact of classroom evaluation practices on students. Review of educational research, 58(4), 438-481.

Done, E. J., & Knowler, H. (2020). A tension between rationalities:“off-rolling” as gaming and the implications for head teachers and the inclusion agenda. Educational Review, 1-20.

Didau, D (2019). Should we scrap SATs? Cautiously, yes. https://learningspy.co.uk/assessment/should-we-scrap-sats/

Dolin, J., Black, P., Harlen, W., & Tiberghien, A. (2018). Exploring relations between formative and summative assessment. In Transforming assessment (pp. 53-80). Springer, Cham.

Doyle, L., & Godfrey, R. (2005). Investigating the reliability of the Key Stage 2 test results for assessing individual pupil achievement and progress in England. London Review of Education, 3(1), 29-45.

Dyer, E. B., & Sherin, M. G. (2016). Instructional reasoning about interpretations of student thinking that supports responsive teaching in secondary mathematics. ZDM, 48(1-2), 69-82.

Eisner, E. W. (1996). Cognition and curriculum reconsidered. SAGE.

Eisner, E. W. (2002). The arts and the creation of mind. Yale University Press.

Grek, S. (2009). Governing by numbers: The PISA ‘effect’ in Europe. Journal of education policy, 24(1), 23-37.

Haertel, E. H. (2013). Reliability and Validity of Inferences about Teachers Based on Student Scores. William H. Angoff Memorial Lecture Series. Educational Testing Service.

Harlen, W., & Deakin Crick, R. (2003). Testing and motivation for learning. Assessment in Education: principles, policy & practice, 10(2), 169-207.

Harlen, W. (2005). Teachers’ summative practices and assessment for learning–tensions and synergies. Curriculum Journal, 16(2), 207-223.

Harlen, W. (2014). Assessment, standards and quality of learning in primary education. York: Cambridge Primary Review Trust.

Heywood, T. (2015). Assessment. In An Introduction to the Study of Education (D. Matheson, Ed.). Routledge.

Lambert, D., & Lines, D. (2013). Understanding assessment: Purposes, perceptions, practice. Routledge.

Lingard, B., & McGregor, G. (2013). High-stakes assessment and new curricula: A Queensland case of competing tensions in curriculum development. Reinventing the curriculum: New trends in curriculum policy and practice, 207-228.

Looney, J. (2012). Formative Assessment and Improving Learning. 3, 1318-1320.

McKenna, M. C. and Stahl, K. A. D. (2015) Assessment for Reading Instruction (3rd edn), New York: Guilford Publications.

Kelly, A. V. (2009). The Curriculum: Theory and Practice. Sage.

Jæger, M. M. (2011). Does cultural capital really affect academic achievement? New evidence from combined sibling and panel data. Sociology of education, 84(4), 281-298.

Johnston, J., & McClune, W. (2000). Selection project sel 5.1: pupil motivation and attitudes-self-esteem, locus of control, learning disposition and the impact of selection on teaching and learning. The effects of the selective system of secondary education in Northern Ireland, 1-37.

Meighan, R., & Harber, C. (2007). A sociology of educating. Bloomsbury Publishing.

Phillips, M. (1997). What makes a school effective. A comparison of the relationships of.

Plaskow, M. (2005). The Process Curriculum. In A Tribute to Caroline Benn: Education and Democracy. pp. 111-118. Continuum. 

Polesel, J., Rice, S., & Dulfer, N. (2014). The impact of high-stakes testing on curriculum and pedagogy: A teacher perspective from Australia. Journal of education policy, 29(5), 640-657.

Popham, W. J. (2011). Combating Phony Formative Assessment– With a Hyphen. Education Week, 30(21), 35.

Reay, D. (2017). Miseducation: Inequality, education and the working classes / Diane Reay. (21st Century Standpoints).

Reay, D., & Wiliam, D. (1999). ’I’ll be a nothing’: structure, agency and the construction of identity through assessment. British educational research journal, 25(3), 343-354.

Roediger III, H. L., & Butler, A. C. (2011). The critical role of retrieval practice in long-term retention. Trends in cognitive sciences, 15(1), 20-27.

Rimfeld, K., Malanchini, M., Hannigan, L. J., Dale, P. S., Allen, R., Hart, S. A., & Plomin, R. (2019). Teacher assessments during compulsory education are as reliable, stable and heritable as standardized test scores. Journal of Child Psychology and Psychiatry, 60(12), 1278-1288.

Shepard, L. A. (1992). Commentary: What policy makers who mandate tests should know about the new psychology of intellectual ability and learning. In Changing Assessments (pp. 301-328). Springer, Dordrecht.

Speckesser, S., Runge, J., Foliano, F., Bursnall, M., Hudson-Sharp, ცN., Rolfe, H., & Anders, J. (2018). Embedding Formative Assessment: evaluation report and executive summary.

Swaffield, S. (2011). Getting to the heart of authentic assessment for learning. Assessment in Education: Principles, Policy & Practice, 18(4), 433-449.

Wiliam, D. (2000). Integrating summative and formative functions of assessment.

Wiliam, D. (2001a) Reliability, validity and all that jazz, Education 3–13, October, 17–21.

Wiliam, D. (2017). Embedded Formative Assessment. Bloomington, Indiana: Solution Tree Press.

Wiliam, D. (2018). Creating the Schools Our Children Need: Why what We’re Doing Now Won’t Help Much (and what We Can Do Instead). Learning Sciences International.

World Bank. (2019) Project Appraisal Document on a Proposed Loan in the Amount of US$102.7 Million to Georgia for a Georgia I2Q Project. (Report No: PAD 3221). The World Bank, New York. http://documents1.worldbank.org/curated/en/371071559440981431/pdf/Georgia-Innovation-Inclusion-and-Quality-Project.pdf 

Weurlander, M., Söderberg, M., Scheja, M., Hult, H., & Wernerson, A. (2012). Exploring formative assessment as a tool for learning: students’ experiences of different methods of formative assessment. Assessment & Evaluation in Higher Education, 37(6), 747-760.

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google photo

You are commenting using your Google account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s

This site uses Akismet to reduce spam. Learn how your comment data is processed.