Оценка надежности теста


Наиболее широко употребляемое определение надежности основывается на выявлении связи между дисперсией серии измерений, полученных в результате анализа результатов тестирования, и дисперсией безошибочных измерений. К сожалению, “безошибочные измерения” – это термин сугубо теоретический; на практике сравнить результаты теста с эталонными не представляется возможным.

В практическом смысле под надежностью понимают постоянство или устойчивость результатов измерений.

Если определенный измерительный инструмент надежен, то при повторных измерениях, проводимых тем же инструментом и другим человеком, результат не изменится. И наоборот, ненадежные измерительные инструменты дают различные результаты измерений, зависящие от самых различных обстоятельств.

Надежность – это общее требование, предъявляемое к измерениям любого типа при любых условиях. В организациях многие измерения проводятся в форме тестов, таких как отборочные тесты при приеме на работу, тесты способностей с целью определения потребностей в обучении и тесты компетентности для определения пригодности человека к повышению по службе.

Существует несколько способов оценки того, насколько надежные результаты измерений дает данный тест. Чаще всего используются три метода. Все они часто дают различные результаты, потому что в каждом расчете присутствуют свои источники ошибок. Поэтому оценки надежности, как и сами результаты тестов, следует рассматривать только как оценки существующего положения дел. На практике, как правило, исследователь предпочитает один метод оценки надежности теста другому, учитывая ряд факторов, в том числе и то, какой источник ошибок наиболее приемлем с точки зрения конкретной поставленной цели.

Оценка надежности теста методом повторного тестирования Одним из наиболее часто используемых инструментов проверки надежности теста является процедура повторного тестирования. С помощью этой процедуры вычисляется коэффициент корреляции между двумя переменными – результатами измерений, полученными при двукратном тестировании одних и тех же людей с использованием одного и того же теста, но в разное время. Полученный в результате коэффициент обозначается буквой r, как и все прочие коэффициенты корреляции, но его называют коэффициентом устойчивости. Чем ближе его значение к 1.00, тем больше уверенность в надежности результатов теста.

С точки зрения исследователя, процедура повторного тестирования проста и занимает немного времени. Испытуемым она, вероятно, нравится меньше, поскольку им приходится проходить тест дважды. Как подчеркивают Смит и Джордж, важным аспектом тестирования является мотивация испытуемых хорошо справиться с тестом. Возможно, что при повторном тестировании испытуемые чувствуют нетерпение или скуку, за счет чего в результаты вносится дополнительная погрешность.

При исследовании надежности теста методом повторного тестирования в промежутке между первым и вторым тестированием могут произойти также и другие события. Если это слишком короткое время, то на коэффициент устойчивости могут повлиять такие факторы, как запоминание вопросов теста или полученный при первом тестировании опыт, а также снижение интереса испытуемых к тесту. Если между первым и вторым тестированием проходит слишком много времени, то испытуемые могут измениться в каком-либо релевантном тесту отношении (они могут подготовиться, накопить опыт, изучить материал и так далее).

Неодинаковые реакции испытуемых на первое тестирование вносят дополнительную ошибку в оценку надежности теста. По этой причине данный метод наиболее полезен для оценки надежности тестов, предназначенных для оценки умений, которые не имеют отношения к памяти и вряд ли улучшатся в результате непродолжительной практики во время первого тестирования. В качестве примеров таких тестов можно привести тесты на остроту слуха, на умение решать проблемы и на тонкую моторику.

Оценка надежности теста методом проверки внутренней согласованности Некоторые проблемы, связанные с мотивацией, памятью и полученным опытом, возникающие при оценке надежности методом повторного тестирования, можно обойти путем использования метода проверки внутренней согласованности теста. При этом проверяется согласованность ответов на отдельные вопросы теста, а не постоянство результатов, полученных при тестировании в разное время. Один из часто применяемых подходов заключается в том, что несколько испытуемых проходят тестирование раз, после чего тест делят на две части, результаты которых подсчитываются отдельнo. У каждого испытуемого теперь по два результата, и их используют для расчета коэффициента корреляции.

Обычно деление теста на две части производится следующим образом: в одну половину включают вопросы с нечетными, а в другую – с четными номерами. Полученный коэффициент корреляции r между двумя наборами “результатов” называется коэффициентом внутренней согласованности или иногда – разделительным коэффициентом.

Оценка надежности теста методом эквивалентных форм Кроме метода проверки внутренней согласованности можно воспользоваться альтернативной процедурой, которая основана на использовании двух различных тестов.

Если в основе обоих тестов лежит один и тот же материал, и они эквивалентны по форме и степени сложности, можно провести оценку надежности с помощью процедуры использования эквивалентных форм. Каждому испытуемому предлагаются оба теста и вычисляется коэффициент корреляции между полученными результатами (r), который называется коэффициентом эквивалентности. В этом названии содержится указание на главный недостаток этого метода – трудность конструирования эквивалентных форм теста. Тест считается надежным, если при использовании одного и того же измерительного инструмента получаются одинаковые результаты. Если же разные формы теста не эквивалентны, то не используется один и тот же измерительный инструмент, и, соответственно, оценка надежности будет занижена.

Конструирование эквивалентных форм теста может быть трудным и занимающим много времени делом. Кроме того, перед тем как разные формы теста можно будет применить для оценки надежности теста, они должны быть проверены на эквивалентность с использованием другой выборки. Однако после того как тест показал свою адекватность и надежность, может оказаться полезным наличие под рукой эквивалентных форм теста.

Например, если тестирование производится в группе, то можно устранить один из потенциальных источников ошибок измерения, предложив разные формы теста испытуемым, сидящим друг рядом с другом.



Категория: управление. Дата публикации: 28 Февраль, 2010.