Московский государственный университет печати. Трудность теста и тестовых заданий Дискриминативность тестового задания

💖 Нравится? Поделись с друзьями ссылкой
валидность . Для повышения качества тест-материалов, начиная с этапа их проектирования и разработки, уже используется экспертиза.

Тестовые задания, удовлетворяющие "внешним" формальным требованиям (правильность формулировки, логическая непротиворечивость , адекватная форма и др.) не являются всегда качественными, позволяющими рассматривать такие задания априори или апостериори как эффективное средство оценки уровня подготовки обучаемых.

Тестовые задания (тесты) измеряют свойства тех или иных выборок потенциальных испытуемых. Экспертиза качества заданий и всего теста – это оценка не только каждого его элемента (дистракторы, их количество и др.), но и всего теста, его структуры, взаимоотношений с другими заданиями.

Качество профессионального образования – это и уровень, объем знаний, их системность, устойчивость , ценность, перспективность, фундаментальность, способность получать и строить новые знания, применять их для решения задач. Эффективное управление качеством образования также невозможно без релевантной и оперативной информации об уровне обученности. Необходимо применение качественных тестовых материалов, достоверно оценивающих учебные достижения.

Применение принципов и средств квалиметрии, системного анализа акцентирует на целостность , эмерджентность, совместимость, адаптивность и другие системные признаки тестов. Качество тестов оценивают мерой соответствия характеристик тестовых заданий и составленных на их основе вариантов тестов. Комплексной оценкой теста (испытания) в целом.

У тестовых заданий, всего теста есть структурные элементы, характеризуемые внутренними и внешними свойствами, своей структурой. На эти свойства влияют определяющим образом много факторов:

  • генеральная совокупность и выборки испытуемых;
  • показатели качества;
  • особенности технологии тестирования;
  • особенности обработки, анализа результатов тестирования (в частности, используемые математико-статистический аппарат и эвристические процедуры);
  • квалификация экспертов и профессиональность экспертной группы;
  • системный подход к проведению и анализу тестирования.

Полный учет свойств позволяет сконструировать "желаемые" тесты – тесты с наперед задаваемыми (согласно гипотезе тестирования) качествами, статистическими свойствами, например, "параллельные" тесты, субтесты и др. Нужно учитывать также меру дифференциации, способность заданий (тестов) дифференцировать тестируемых, например, способность дифференцировать относительно максимального или минимального уровня обучения.

Первостепенно важны для анализа такие характеристики, как трудность (сложность) задания и его различающая способность. Трудность задания отражает уровень ее выполнимости в данной статистической выборке (стандартной). Ее оценивают часто отношением количества правильно выполнивших задание к количеству выборки испытуемых.

Чем ближе этот показатель к 1, тем выше трудность задания, чем ближе к 0 – тем ниже его трудность.

В качестве показателя трудности задания теста используют индекс трудности U вычисляемый по формуле:

где n – количество правильно ответивших на задание, N – общее количество испытуемых (выборки).

При построении критериально-ориентированного теста, для повышения его трудности добавляют задания более высокой трудности, для понижения – включают больше заданий низкой трудности.

Трудность задания (теста) бывает:

  • субъективная, связанная с обстоятельствами типа лимит времени, знание технологии, понимание условий (сформированность знаний, умений и навыков), психическая готовность и т.д.;
  • объективная (статистическая), связанная с долей испытуемых из выборки, решивших задание (тест).

Трудность – относительная величина, зависящая от возрастных, профессиональных и иных различий испытуемых, поэтому эти особенности влияют на результаты тестирования, на надежность теста. Необходимы меры выравнивания условий (минимизации таких воздействия на тестируемых). Для этого используют направленное комплектование выборки, стандартизацию процедуры тестирования, т.е. необходима эффективная диагностическая методика, приводящая к "золотой середине", балансу трудных, среднего уровня и простых заданий.

Слишком трудные задания ухудшают статистические характеристики оценивания (мало решающих, неудача на трудном задании может повлиять на решение других заданий и т.п.). Слишком простые задания ведут к малоинформативным однообразным результатам, затрудняющим анализ качества обучения, вызывают негативное отношение испытуемых к тесту и тестированию.

Пример. Критериально-ориентированный тест должен быть полным, отражающим по содержанию весь объем знаний, планируемый к усвоению. Нормативно-ориентированный тест может содержать лишь те разделы , которые требуются для дифференциации по уровню учебных достижений обучаемых, например, 50-70% заданий средней трудности (рис. 4.1 , рис. 4.2).

В критериально-ориентированных аттестационных тестах основная часть заданий легче, что ограничивает процент неаттестованных студентов.

Пример. Если прогнозный процент неаттестованных должен быть не больше 10%, а критерий "неуспеваемости" – 70% (выполнившие лишь до 30% заданий – не аттестованы), в тест следует включить от 70% легких заданий, посильных 90% тестируемых (рис. 4.2).


Рис. 4.1.


Рис. 4.2.

Поэтому важно выбрать тест, оптимальный по сложности заданий, группам сложности, структуре теста. Если на вопрос правильно отвечает большинство испытуемых, его обычно помещают в начале теста, а остальные вопросы – по мере роста их трудности. Такое расположение заданий позволяет оценить приблизительно порог трудности для каждого испытуемого, его место в рейтинге.

Практическое тестирование свидетельствует: максимально отражается индивидуальный уровень знаний, навыков, умений испытуемых при использовании заданий средней трудности с включением небольшого количества остальных заданий.

Есть специальная характеристика, называемая различающей способностью заданий. Она показывает меру эффективности различения тестируемых на группы: овладевшие учебным материалом и не овладевшие им.

Чем ближе R к нулю, тем меньше различение заданием испытуемых, овладевших или не овладевших учебным материалом.

Чем ближе R к значению –1, тем также больше различение, но в инверсном порядке: испытуемые, овладевшие материалом, ответили неправильно, и наоборот. Это редкий случай, он свидетельствует, например, о пробелах в методике, спонтанности ее.

Определение сложности и трудности тестовых заданий дадим на основе определений слов «сложный» и «трудный» из толкового словаря русского языка Ушакова.

Итак, «Сложный - состоящий из нескольких частей или элементов, образованный посредством соединения, сложения частей». Очевидно, из этого определения становится ясным как можно установить сложность тестового задания. Для этого достаточно проанализировать количество элементов знаний, охватывающих это тестовое задание, а также установить насколько глубоко испытуемый при ответе должен знать предметную область, чтобы правильно ответить на это ТЗ. Другими словами, сложность может быть связана с количеством умственных операций, которые нужно совершить, чтобы достичь правильного ответа. Если испытуемый не знает некоторые из этих операций - то для него задание будет сложным, если знает - более легким.

«Трудный - требующий большого умственного напряжения, усилий, затруднительный, мудреный». Это определение дает один из критериев оценки трудности тестового задания, а именно - сколько времени потребуется испытуемому, чтобы усилия, направленные на поиск правильного ответа были потрачены не зря. Понятие трудности может основываться на статистических оценках, например, чем меньше правильных ответов, тем труднее задание.

В общем случае сложность и трудность определяются разработчиком ТЗ и указывают субъективную величину того, насколько тяжело будет решить данное тестовое задание испытуемому с минимальным уровнем подготовки за определенное время.

Можно различать два вида сложности и трудности - теоретическая (априорная) и фактическая (апостериорная). Априорная сложность и трудность определяются экспертами до проведения тестовых испытаний. В процессе апробации банка тестовых заданий и расчета по определенным методикам получаются апостериорные сложность и трудность.

Нужно учитывать, что при использовании банка тестовых заданий при тестировании трудность и сложность может адаптироваться в соответствии с аудиторией, т.е. при получении статистических данных по ответам на задания можно выявить насколько легко задание воспринимается тестируемыми, и какие заключения на него даются. В соответствии с этим устанавливаются фактическая (апостериорная) трудность и сложность тестового задания.

Важнейшее назначение сложности и трудности ТЗ - использование при алгоритмах адаптивного тестирования. При отсутствии информации о сложности и трудности невозможна адаптация тестовых заданий по текущему уровню знаний испытуемого. Более того, при ошибочном задании трудности и сложности алгоритмы адаптивного тестирования будут работать некорректно, и в результате будет выставлена оценка уровня учебных достижений, имеющая большую погрешность.

Как видно из определения, трудность ТЗ может рассчитываться по времени, отводимому на решение этого ТЗ испытуемому со средним уровнем знаний. Например, 30 секунд, или 1 минута и 50 секунд. Очевидно, что трудность в данном случае будет зависеть от сложности, поскольку, чем сложнее ТЗ, тем больше времени потребуется на его решение, тем труднее оно. С другой стороны, чем труднее задание, тем больше знаний нужно иметь для поиска ответа, тем сложнее становится задание. Таким образом, трудность и сложность, очевидно, зависят друг от друга. Именно поэтому в теории педагогических измерений используется, как правило, одно понятие - трудность, относительного которого рассмотрим более подробно, как можно определить трудность тестового задания.

  1. количество концептов, необходимых для решения ТЗ;
  2. образ мышления, на который направлено ТЗ;
  3. форма ТЗ;
  4. глубина расположения ТЗ в спецификации;
  5. количество дистракторов и правильных заключений;
  6. уровень значимости.

Под концептом в дальнейшем понимается некоторое умозаключение (формула, правило, аксиома и т.д.), позволяющее приблизить правильное решение ТЗ. Чем больше шагов нужно выполнить для получения правильного ответа, тем выше трудность, тем труднее считается ТЗ. Трудность, безусловно, должна оцениваться с учетом количества используемых концептов, необходимых для поиска правильного решения.

Приведем следующие примеры:

Легкое тестовое задание

Для решения такого задания не надо выполнять каких-либо действий, кроме как вспомнить фамилию известного русского поэта, всем известного по школьной программе. Легкое (простое) тестовое задание имеет один концепт.

Задание средней трудности

Корнями квадратичного уравнения формула" src="http://hi-edu.ru/e-books/xbook688/files/17-1.gif" border="0" align="absmiddle" alt=" (Ответ: 1 и -1).

Задание трудное

Уравнение, один из корней которого равен формула" src="http://hi-edu.ru/e-books/xbook688/files/17-3.gif" border="0" align="absmiddle" alt=")

маркер">

  • пространство и время;
  • максимизация положительного и минимизация отрицательного;
  • индукция-дедукция;
  • причинно-следственное (аналитическое, позитивное, дедуктивное) мышление;
  • диалектико-алгоритмическое (синтетическое, негативное, дедуктивное) мышление;
  • голографическое, или полноописательное мышление;
  • вихревое, или синергетическое.
  • Каждый тестируемый имеет свой субъективный мир восприятия. Он формируется из того, на что более всего человек обращает внимание. Следовательно, если тестируемый изначально настроен воспринимать процедуру тестирования как нечто сложное, недостижимое, психологически травмирующее, то даже самое простое тестовое задание может восприниматься им как сложнейшая задача. Если же изначально испытуемых настраивать на то, что это достаточно объективная процедура для проверки того, чему их смогли научить, а над чем еще нужно потрудиться, и им самим было бы интересно узнать что они усвоили хорошо, то настрой на саму процедуру будет позитивен, следовательно, и трудность задания будет восприниматься тестируемым более объективно.

    Попробуем выделить образы мышления, относительно которых формируется трудность тестовых заданий.

    ТЗ простого уровня трудности:

    • «опознание» какого-то объекта или проверка «знания-знакомства»;
    • выбор одного варианта ответа из многих с помощью знания всего одного концепта;
    • задание открытого типа, направленное на выявление знания определения односложного базового термина.

    ТЗ среднего уровня трудности:

    • направлено на применение усвоенных ранее знаний в типовых ситуациях (т.е. в тех ситуациях, с которыми знаком испытуемый) или на проверку «знаний воспроизведения копии». К ТЗ такого уровня трудности следует относить ТЗ, направленные на мышление, связанное с высказываниями конъюнктивного или дизъюнктивного вида или ТЗ с несколькими концептами по выбору подмножества правильных вариантов из заданного множества заключений. В некоторых случаях к ТЗ такого уровня трудности могут быть отнесены ТЗ на соответствие и порядок.

    Трудные ТЗ:

    • направлено на применение усвоенных знаний и умений в нестандартных условиях (т.е. в условиях, ранее незнакомых испытуемому) или на проверку «знаний умения и применения». К ТЗ такого уровня трудности относятся задания, которые вызывают заключения, сформулированные в виде утверждений импликативного типа. Такие задания требуют применения рассуждений в форме дедуктивного, индуктивного вывода и аналогии, причем для получения окончательного ответа необходима некоторая последовательность умозаключения (несколько концептов).

    Следует учитывать так же то обстоятельство, что трудность ТЗ определять можно с учетом формы тестового суждения. Здесь обязательно должно учитываться количество концептов, т.к. если для выбора верного ответа на задание необходимо иметь какие-то дополнительные знания или решить задачу, то трудность задания возрастает. Самой простой считается закрытая форма тестовых заданий, когда испытуемому предлагается выбрать верный вариант(ы) из предложенных. Самой трудной принято считать открытую форму, т.к. для того чтобы дать правильное заключение, нужно понять смысл тестового суждения и подобрать нужное определение из нескольких существующих. Формы на последовательность и на соответствие чаще всего относятся к заданиям со средним уровнем трудности .

    Назначение трудности можно осуществлять исходя из принадлежности ТЗ уровню «глубины» спецификации теста. Если ТЗ раскрывает самый нижний уровень иерархии спецификации теста (например, некоторое «Понятие»), то такое задание будет легким. Принадлежность ТЗ средним уровням иерархии спецификации теста (например, некоторой «Теме» или «Подтеме») повышает трудность. Такие ТЗ можно считать ТЗ со средней трудностью. Наконец, ТЗ, относящееся к верхнему уровню, корню дерева иерархии (например, к «Разделу», «Главе»), можно считать трудным. Следовательно, при рассмотрении трудности с учетом спецификации банка тестовых заданий будем считать, что задание на рассмотрение более частного случая имеет меньшую трудность, чем задание, рассмотренное на более общую тему.

    Увеличение количества дистракторов и правильных заключений влияет на уровень трудности ТЗ. Чем больше число дистракторов и правильных заключений, тем более длительного мыслительного процесса требует верное заключение. Увеличивается время на ответ. Тем более трудным считается задание.

    Определить трудность задания можно исходя из принадлежности ТЗ основному и дополнительному материалам (уровень значимости ТЗ). Очевидно, что для каждой дисциплины есть определенный набор базовых понятий, например, прописанных в ГОСе, а есть понятия, относящиеся к дополнительному материалу, то есть материалу, который дается лишь наиболее успешно обучающимся группам учащихся. Кроме того, допустимо давать около 10% всего материала по курсу на усмотрение преподавателя. Поэтому, если ТЗ раскрывает базовое понятие, то такое задание можно считать простым, если же ТЗ принадлежит к дополнительному материалу (т.е. для того, чтобы дать верное заключение нужно иметь дополнительные знания и оперировать несколькими концептами), то его можно считать трудным.

    При определении трудности тестовых материалов важно уметь сопоставлять приведенные факторы для различных случаев и учитывать все особенности предметной области.

    Для упрощения задачи выводов по трудности тестовых заданий определим количественные показатели качественных факторов.

    Для примера возьмем 2 задания из банка, для которого определены следующие уровни трудности:

    • задание № 1 -теоретически интерпретируется как трудное;
    • задание № 2 - теоретически интерпретируется как средней трудности.

    Рассматривается выборка из 10 групп испытуемых, которые тестировались по одной и той же дисциплине. Для примера возьмем средний балл, полученный в результате тестирования испытуемыми одной группы по предложенным двум заданиям.

    Новая страница 1

    Группы Баллы по 1-му ТЗ Баллы по 2-му ТЗ
    № 1 32,1 45
    № 2 20 65
    № 3 55 34
    № 4 70 58
    № 5 64,2 40
    № 6 45 36
    № 7 46,1 67
    № 8 80 54
    № 9 72,3 44
    № 10 46,7 53

    Для оценивания трудности тестового задания выбираются различные шкалы. Возьмем следующую шкалу, которую будем априорно (теоретически) считать эталонной. Пусть W - оценка, набранная испытуемыми по i-му заданию при тестировании. Тогда 5-ти балльная шкала распределения процентов (исходя из 100%) и оценок, может быть следующей:

    формула" src="http://hi-edu.ru/e-books/xbook688/files/23.gif" border="0" align="absmiddle" alt=".gif" border="0" align="absmiddle" alt="

    где пометка">n - количество оценочных коэффициентов по выбранной шкале (например, «неудовл.», «удовл.», «хорошо», «отлично»). Таким образом, разница между оценками в данном примере равна 15%.

    Шкалы для этой выборки будут выглядеть следующим образом:

    Основываясь на расчетных нормах, проведем итоговый подсчет баллов, в результате которого получим, что:

    • «легким» - это задание было для 30% испытуемых;
    • «средней трудности» - для 50% испытуемых;
    • «трудное» - для 20% испытуемых.

    Посчитаем среднее значение, полученное по ТЗ десятью группами для второго задания:

    что соответствует средней трудности по эталонной (априорной) шкале.

    Изначально это задание интерпретировалось составителем-тестологом как средней трудности. Следовательно, априорное значение трудности задания в данном случае будет совпадать с апостериорным значением, которое будем считать верным для данной выборки. Также можно для второго задания посчитать апостериорную шкалу.

    Показатель трудности тестового задания как важнейший тестообразующий фактор.

    Крашенинникова Галина Геннадьевна

    канд. пед. наук, Магаданский филиал РГГУ

    Одной из основных характеристикой тестового задания является его трудность. Уровень трудности задания, а также уровень подготовленности тестированного – это латентные параметры, которые не поддаются непосредственному наблюдению. Для того, чтобы оценить эти параметры, требуется использовать тесно связанные с ними индикаторы. При тестировании знаний студентов в качестве индикатора выступают сами тестовые задания. Возникает задача: преобразовать значения индикаторов в значения латентных параметров. Существуют различные подходы к решению этой задачи. Классическая и современная теории тестирования предлагают свои методы оценивания латентных параметров.

    Традиционной мерой трудности задания в классической теории тестов долгие годы остаётся отношение числа правильных ответов на данное задание к общему числу испытуемых в группе. Чем легче задание, тем выше процент справившихся с этим заданием .

    Однако данное определение несёт в себе смысловую неточность: увеличение числового значения статистического показателя говорит об уменьшении уровня трудности задания, и наоборот. Поэтому в последнее время предпринимаются попытки введения новых единиц трудности. Классическая мера трудности заменяется на противоположную и представляет собой долю неправильных ответов в группе испытуемых, что, на наш взгляд, более точно отражает смысл параметра «трудность задания».

    Современная теория тестирования – Item Response Theory (IRT) – основывается на созданной П. Лазарсфельдом теории латентно-структурного анализа (ЛСА). В IRT, в отличие от классической теории, латентный параметр трактуется не как постоянная величина, а как непрерывная переменная. Методы IRT можно классифицировать по числу используемых в них параметров. Наиболее известны однопараметрическая модель Г. Раша, двух- и трехпараметрические модели А. Бирнбаума.

    Георг Раш разместил на одной шкале и уровень подготовленности тестируемого и уровень трудности задания, введя для них общую единицу измерения – логит. Один логит трудности задания равен натуральному логарифму отношения доли неправильных ответов на это задание к доле правильных ответов .

    Несмотря на то, что IRT получила в последнее время широкое распространение, она, тем не менее, обладает множеством недостатков. В частности, при тестировании учебных достижений отмечаются значительные расхождения между расчетными значениями и эмпирическими данными. Доказана также высокая корреляция (около 0,9) между результатами, полученными по модели Раша и результатами, полученными классическими методами . Этот факт позволяет нам без ущерба точности вычислений пользоваться методами классической теории тестов для характеристики трудности тестовых заданий.

    Хотя классическая формула расчета трудности задания достаточно удобна для исполнения и последующей трактовки полученных результатов, на наш взгляд, она не лишена некоторого субъективизма: трудность задания напрямую зависит от выборки тестируемых. В связи с этим рассмотрим еще один взгляд на оценку уровня трудности тестового задания, который, хотя и не является широко распространенным, но представляет для нас определенный интерес.

    Чтобы подойти к сущности латентного параметра «трудность», обратимся к классификации уровней усвоения знаний, принятых в педагогической литературе. Можно заметить вполне объективное возрастание степени трудности усвоения для каждого последующего уровня усвоения знаний. Таким образом, мы можем сделать вывод о существовании прямой зависимости между уровнями усвоения и уровнями трудности заданий, соответствующих каждому уровню усвоения. Это позволяет нам отождествлять такие понятия как «уровень трудности» и «уровень усвоения» применительно к тестовым заданиям. Взяв за основу классификацию В.П. Беспалько , мы выделяем четыре уровня трудности: «ученический», типовой, эвристический, творческий.

    В настоящее время в педагогике широко используются экспертные методы. Поэтому заслуживает внимание экспертное оценивание уровня трудности тестовых заданий как ещё один из вариантов оценки показателя трудности. Например, в работе А.П. Иванова приводится описание подобной оценки, когда до начала тестового эксперимента нескольким экспертам предлагается оценить трудность заданий всех вариантов теста в баллах. Для получения экспертной оценки автор приводит перечень из восьми факторов с соответствующими критериями оценивания от 1 до 5 баллов по каждому.

    В хорошо составленном тесте на трудность задания не должна влиять ни форма, ни сама организация тестирования. Показатель трудности зависит только от содержания и уровня подготовленности тестируемых. Правда, встречается мнение, что на степень трудности задания оказывает влияние месторасположение этого задания в структуре теста. В этом случае рекомендуется использовать несколько вариантов теста, отличающихся последовательностью расположения заданий . В.С. Аванесов полагает основным принципом разработки содержания педагогических тестов возрастающую трудность тестовых заданий . По его мнению, только после определения степени трудности, задание имеет шанс стать тестовым. До этого оно остается просто заданием в тестовой форме.

    Включение в тест большого числа заданий средней трудности повышает его надежность, но, приводит к снижению его содержательной валидности. Тест, состоящий из легких заданий, проверяющих минимальные знания, не может дать представления о реальном уровне знаний. Подбор тестовых заданий высокой степени трудности может способствовать усилению мотивации в учебе, но может повлиять и в обратную сторону. Таким образом, тесты из трудных заданий тоже искажают результаты тестирования. Кроме того, содержание теста должно варьироваться в зависимости от уровня подготовленности групп учащихся. Трудность теста для слабых студентов заметно отличается от уровня трудности теста, предлагаемого сильным студентам.

    По А. Анастази и С. Урбиной выбор уровня трудности задания зависит от назначения теста, от того как предполагается использовать тестовые показатели. Для предметно-ориентированных тестов трудность заданий должна быть на уровне 0,8-0,9. Определяя по уровню трудности задания его информативность, авторы показывают, что наиболее информативно задание со средним уровнем трудности, равным 0,50.

    Таким образом, можно сделать вывод, что наибольшей дифференцирующей способностью обладают задания со средним уровнем трудности. И, если целью тестирования является дифференциация тестируемых, сравнительная оценка их уровня знаний, то из теста следует исключать наиболее простые и наиболее трудные задания. Если же назначение теста определить, овладел ли обучаемый в достаточной мере определённым набором компетенций, необходимым для перехода к следующему этапу обучения, то в нём могут быть как самые лёгкие, так и самые трудные задания.

    Библиографический список

    1. Аванесов В.С. Применение заданий в тестовой форме в новых образовательных технологиях // Школьные технологии. – 2007. – № 3. – С. 146–163.

    2. Анастази А., Урбина С. Психологическое тестирование. – СПб. : Питер, 2002. – 688 с.

    3. Беспалько В.П. Слагаемые педагогической технологии. – М.: Педагогика, 1989. – 192 с.

    4. Иванов А.П. Систематизация знаний по математике в профильных классах с использованием тестов. – М.: Физматкнига, 2004. – 416 с.

    5. Ингенкамп К. Педагогическая диагностика. – М.: Педагогика, 1991. – 240 с.

    6. Ким В.С. Анализ результатов тестирования в процессе Rasch measurement // Педагогические измерения. – 2005. – № 4. – С. 39–45.

    7. Rasch G. Probabilistic Models for Some Intelligence and Attainment Tests. – Chicago & London, 1980. – 199 p.

    В предыдущей статье было рассмотрено девять принципов разработки содержания педагогических тестов. Сегодня мы продолжаем рассмотрение десятого принципа - возрастающая трудность тестовых заданий.

    Если педагогический тест определить кратко как систему заданий возрастающей трудности, то станет понятно, что трудность заданий является важнейшим, скажем так, тест образующим показателем. Немало руководителей школ считают, что их учителя в состоянии "придумать" за короткое время могут сколько угодно "тестов"; я сам читал приказ по школе, где учителям предписывалось в течение трех дней представить завучу "тесты". На самом же деле можно придумать сколько угодно заданий в тестовой форме (а это ещё не тесты). Их нельзя включать в настоящий тест до тех пор, пока не станет известной мера трудности, проверяемая опытным путем. Из этого требования становится понятной обязательность предварительной эмпирической проверки каждого задания, до начала тестирования. В процессе проверки многие задания (обычно больше половины) не выдерживают предъявляемых к ним требований и потому не включаются в тест. Первое требование к тестовым заданиям: в тесте задания должны различаться по уровню трудности, что вытекает из данного ранее определения теста и рассматриваемого принципа.

    Внимательный читатель вероятно уже уловил различия в лексике трех как бы "незаметно" введенных здесь основных понятий теории тестов: педагогического теста, задания в тестовой форме и тестового задания. Требования к первому из них уже было рассмотрено в статье "Определение педагогического теста" (УШ № 30, август 1999г.).

    Требования ко второму понятию лучше ввести сейчас, сделав это хотя бы кратко перечислив их, для того чтобы не отвлечься от основной темы статьи. К заданиям в тестовой форме предъявляются следующие требования:

    • правильность содержания
    • логическая форма высказывания;
    • правильность формы;
    • краткость;
    • наличие определенного места для ответов;
    • правильность расположения элементов задания;
    • одинаковость правил оценки ответов;
    • одинаковость инструкции для всех испытуемых;
    • адекватность инструкции форме и содержанию задания.

    Подробное истолкование этих требований последует в следующих статьях, а сейчас хотелось бы обратить внимание читателя на то, что здесь нет требования известной трудности задания, в то время как к тесту и к тестовому заданию такое требование предъявляется. Из размышления над этим и ранее опубликованным материалом можно сделать два вывода. Первый - что в тесте нет места заданиям с неизвестной мерой трудности. И второй - что не все предлагаемые задания в тестовой форме могут стать тестовыми заданиями: это разные понятия. В первом понятии самыми существенными являются требования содержания и формы. К тестовым же заданиям в первую очередь предъявляется требование известной трудности, то, что явно не требуется у заданий в тестовой форме. Задания имеют шанс стать тестовыми только после опытной, скажем строже, эмпирической проверки меры их трудности, на типичных группах испытуемых.

    Показатель трудности теста и тестовых заданий является содержательным и формальным одновременно. Содержательным показателем, потому что в хорошем тесте трудность может зависеть только от содержания и от уровня подготовленности самих испытуемых, в то время как в плохом тесте на результаты начинают заметно влиять форма заданий (особенно если она не адекватна содержанию), плохая организация тестирования, если имеются возможности списывания, утечки информации. Особого упоминания в этой связи заслуживает спорная практика нацеленной подготовки к централизованному тестированию.

    Формальная составляющая сторона показателя трудности возникает при рассмотрении тестирования как процесса противоборства каждого испытуемого с каждым предлагаемым ему заданием. Получаемый при этом исход полезно рассматривать как результат такого противоборства. При упрощенном истолковании каждого случая противоборства испытуемого с очередным заданием обычно рассматриваются только два исхода: победа испытуемого при правильном решении задания, где он получает один балл, или поражение, за что даётся ноль баллов. Оценка результата противоборства зависит от соотношения уровня знания тестируемого к уровню трудности задания, от избранной единицы измерения знаний и от заранее принятого правила (конвенции) - что считать "победой" испытуемого и допустима ли ничья, если говорить языком спорта.

    Принцип возрастающей трудности используется при изложении содержания многих учебников и пособий, особенно по тем учебным дисциплинам, которые построены по кумулятивному принципу, что означает: знание последующих элементов курса в явном виде зависит от знания предыдущих учебных элементов. Такое построение присуще учебникам по математике, логике, иностранным языкам, статистике, техническим и многим другим наукам. В них ранее изученные понятия активно используются в последующих темах. Поэтому изучать такие дисциплины нужно только с самого начала, и без пробелов.

    Большинство авторов, особенно зарубежных, не делают различий между понятиями "трудность" и "сложность". Многие разработчики тестов - то же. Однако есть работы, в которых эти понятия определяются различно. Например, А.Н.Захаров и А.М.Матюшкин отмечают, что степень трудности учебного задания не совпадает с его сложностью. Степень сложности учебного материала характеризуется реальной (объективной) насыщенностью учебного задания и формой его изложения, а степень трудности всегда предполагает соотнесение подлежащего усвоению учебного материала с ранее усвоенным учебным материалом и интеллектуальными возможностями учащихся (1).

    Л.Н. Ланда объясняет трудность учебной задачи тем, что учащиеся часто не знают тех операций, которые надо производить, чтобы найти решение. Если систему операций для решения некоторого класса задач назвать методом решения, то, по его мнению, трудность связана с незнанием метода, с незнанием, как нужно думать в процессе решения, как и в какой последовательности надо действовать с условиями задачи (2). Возникающие затруднения объясняются тем, что педагог часто старается дать знания о содержании изучаемого и значительно меньше заботится о том, как надо думать, рассуждать (там же). Подобное истолкование пересекается с идеей о связи сложности задания с числом операций, которые необходимо совершить для достижения успеха. Эти определения трудности и сложности являются, по большей части, психологическими; они полезны при психологическом анализе содержания тестовых заданий.

    Традиционной мерой трудности каждого задания долгие годы была доля правильных ответов в группе испытуемых, изображаемая символом pj, где индекс j указывает на номер интересующего задания (1, 2 и т. д.). Например, если правильные ответы испытуемых на третье задание теста оценивать одним баллом, а неправильные - нулем, то значение показателя p3 можно найти из элементарного отношения

    где R3 означает число правильных ответов на данное задание, а N - общее число испытуемых в группе. Общая формула расчета доли правильных ответов на любое задание (j) имеет соответственно вид

    Показатель pj. долго использовался в качестве меры трудности в так называемой классической теории тестов (3). Позже была осознана содержащаяся в ней смысловая неточность: ведь увеличение значения pj указывает не на возрастание трудности, а, наоборот, на возрастание легкости, если можно использовать такое слово. Поэтому в последние годы с показателем трудности заданий стали ассоциировать противоположную статистику - долю неправильных ответов (qj). Эта доля вычисляется из отношения числа неправильных ответов (Wj- от англ слова Wrong - неправильный) к числу испытуемых (N):

    Естественным образом принимается, что pj + qj = 1. В классической теории тестов многие годы рассматривались только эмпирические показатели трудности. В новых вариантах психологических и педагогических теорий тестов больше внимание стало уделяться характеру умственной деятельности учащихся в процессе выполнения тестовых заданий различных форм (4).

    Содержание теста не может быть только легким, средним или трудным. Здесь в полной мере проявляется известная мысль о зависимости результатов применяемого метода. Легкие задания теста создают только видимость наличия знаний у учащихся, потому что ими проверяются минимальные знания. В этой связи можно заметить, что ориентация федерального органа управления образованием на проверку минимального уровня знаний не дает, и не может, даже по определению, дать представление о реальном уровне знаний, т.е. дать ту информацию, которая давно уже нужна обществу и органам управления. Искажает результаты тестирования и подбор заведомо трудных заданий, в результате чего у большинства школьников оказываются заниженные баллы. Ориентация на трудные задания нередко рассматривается как средство усиления мотивации к учебе. Однако это средство действует неоднозначно. Одних трудные задания могут подтолкнуть к учебе, других - оттолкнуть от нее. Подобная ориентация искажает результаты и в итоге, снижает качество педагогического измерения. Если тест построен строго из заданий возрастающей трудности, то этим открывается путь к созданию одной из самых интересных шкал измерения - шкалы Л. Гутмана.

    При определении теста уже отмечалось, что все задания теста, хотелось бы подчеркнуть, независимо от содержания тем, разделов и от учебных дисциплин, располагаются в порядке возрастающей трудности. Распространенная, до недавнего времени, рекомендация включать в тест больше заданий средней трудности, оправдана с точки зрения определения надежности измерения по формулам т.н. классической теории тестов. Существующие в этой теории методы оценки надежности теста дают снижение надежности при включении в тест легких и трудных заданий. В то же время увлечение заданиями одной только средней трудности приводит к серьезной деформации содержания теста: последний теряет способность нормально отображать содержание изучаемой дисциплины, в которой всегда есть легкий и трудный материал. Таким образом, в погоне за теоретически высокой надежностью теряется содержательная валидность тестовых результатов. Стремление же поднять валидность результатов теста нередко сопровождается снижением их точности.

    Если тестируется слабая, по подготовленности, группа учащихся, то оказывается, что трудные задания теста просто не работают, потому что ни один учащийся не может правильно на них ответить. Такие задания из дальнейшей обработки данных изымаются. В адаптивных контролирующих системах они не предлагаются. Содержание теста для слабых учащихся будет заметно отличаться от содержания теста для сильных учащихся. У последних, наоборот, не работают легкие задания, так как все знающие испытуемые на легкие задания отвечают правильно. Таким образом, содержание традиционного теста существенным образом варьирует в зависимости от уровня подготовленности тех групп учащихся, на измерение знаний которых нацелен тест.

    Оптимальное отображение содержания учебного материала в тестовые задания требуемого уровня трудности предполагает возможность выбора подходящей формы. Содержание теста выражается в одной из четырех основных форм заданий. Это: 1) задания с выбором одного или нескольких правильных ответов из числа предложенных; 2) задания открытой формы, где ответ испытуемый дописывает сам, в отведенном для этого месте; 3) задания на установление соответствия, и 4) задания на установление правильной последовательности действий.

    Характеристика тестовых заданий

    Сбор и статистическая обработка результатов тестирования

    Для удобства обработки тестовых данных результаты заносятся в специальную таблицу – матрицу тестовых результатов. Работа с матрицей результатов тестирования представлена в практическом занятии 2 (с. 33).

    По результатам апробационного тестирования определяются характеристики тестовых заданий – трудность, дискриминативность и валидность задания.

    Трудность задания в классической теории тестов определяется через соотношение количества испытуемых, справившихся с данным заданием, и общего количества испытуемых, т.е. трудность задания – это доля учащихся, которые справились с заданием .


    Трудность задания вычисляется по формуле

    где p j - доля правильных ответов на j-ое задание; Y j - количество испытуемых, выполнивших j - ое задание верно, N - число испытуемых в группе, j - номер задания. Или в процентах, P j – трудность j – ого задания в процентах: .

    В хорошо сбалансированном по трудности тесте есть несколько самых трудных заданий со значением . Есть несколько самых легких с . Остальные задания по значениям p занимают промежуточное положение между крайними ситуациями и имеют в основном трудность 60 - 70 % в критериально-ориентированном тесте и 40-60 % в нормативно-ориентированном.

    Дискриминативность тестового задания

    Дискриминативность (дифференцирующая способность, различающая способность) задания – это способность задания дифференцировать испытуемых по уровню достижений, на сильных и слабых . Если задание одинаково выполняется и слабыми, и сильными, то можно говорить о низкой дискриминативности задания. Если задание выполняется сильными испытуемыми, а слабые дают отрицательный результат, то мы имеем высокую дискриминативность.

    Высокая дискриминативность тестовых заданий важна для нормативно-ориентированных тестов, основная цель которых - ранжирование учащихся по уровню достижений.

    Если индекс дискриминативности выше нуля (больше 0,3 считается удовлетворительным), а еще лучше стремится к 1, то это свидетельствует о том, что задание обладает хорошим (максимальным) дифференцирующим эффектом.

    Для оценки дискриминативности задания будем использовать метод крайних групп , расчет по формуле:

    Где – индекс дискриминативности для j-ого задания теста; (P 1) j – процент учеников, правильно выполнивших j-ое задание в подгруппе из 27% лучших учеников по результатам выполнения теста; (P 0) j – процент учеников, правильно выполнивших j-ое задание в подгруппе из 27% худших учеников по результатам выполнения теста.

    Индекс дискриминативности изменяется в пределах [-1; 1]. Максимального значения он достигает в том случае, когда все ученики из подгруппы сильных верно выполняют данное задание, а из подгруппы слабых это задание не выполняет верно никто. В этом случае задание будет обладать максимальным дифференцирующим эффектом. Нулевого значения индекс дискриминативности достигает тогда, когда в обеих подгруппах доли учеников, справившихся с заданием равны. Соответственно дифференцирующего эффекта нет вообще. Значение меньше 0 будет в ситуации, когда данное задание теста слабые ученики выполняют успешнее, чем сильные. Естественно, что задания, у которых индекс дискриминативности равен или ниже нуля необходимо удалить из теста (табл. 6).



    С помощью подсчета значений бисериальной или точечно-бисериальной корреляции также оцениваетсявалидность отдельных заданий теста. В целом задание можно считать валидным, если r pbis близко к 0,5. Оценка валидности задания позволяет судить о том, насколько задание пригодно. Если цель – дифференциация учеников по уровню подготовленности, то валидные задания должны четко отделить хорошо подготовленных от слабо подготовленных учеников тестируемой группы. Значения r pbis близкие к нулю, указывают на низкую дифференцирующую способность заданий теста. Все задания у которых r pbis <0, подлежат удалению из теста, так как на эти задания верно отвечают слабые ученики, а сильные либо ошибаются либо пропускают это задание.

    Таблица 6

    № задания P j для всех испытуемых Группа Индекс r дис
    P j для слабой P j для сильной
    21,0 6,5 32,0 0,26
    94,0 90,0 97,0 0,065
    64,0 42,0 97,0 0,55
    59,0 68,0 58,0 -0,097
    27,0 16,0 29,0 0,13
    70,0 29,0 94,0 0,65
    30,0 13,0 42,0 0,29
    12,0 9,7 16,0 0,065
    33,0 16,0 52,0 0,35
    73,0 42,0 90,0 0,48

    Анализ качества дистракторов в заданиях закрытой формы

    Одно из важнейших требований, которое предъявляется к заданиям закрытой формы – это правдоподобность дистракторов равноценная вероятность выбора дистрактора при неправильном ответе. Оценка качества дистрактора называется дистракторным анализом.

    Дистракторный анализ предполагает подсчет долей испытуемых, выбравших каждый дистрактор. В идеальном варианте каждый дистрактор должен выбираться в равной доле от всех неправильных ответов. В таблице 7 показано идеальное распределение долей.

    Таблица 7

    № задания 1 ответ 2 ответ* 3 ответ 4 ответ
    j 0,1 0,7 0,1 0,1

    В таблице 8 показано, что правильно выполнили задание (выбрали 2-й ответ) 70 % испытуемых. Остальные 30 %, которые дали неправильные ответы, равномерно выбрали 1, 3, 4 ответы, т.е. в задании были даны равновероятные дистракторы.

    Рассказать друзьям