Виды стандартизации психодиагностических методик

Виды стандартизации психодиагностических методик

6. Стандартизация и испытания диагностических моделей

Результат тестирования испытуемого хi, вычисленный с помощью диагностической модели yi=у(хi), обычно называют первичной тестовой оценкой или, часто, «сырым» баллом. Для лучшего понимания этого результата в ряду других результатов производится его дальнейшее искусственное преобразование, основанное на анализе эмпирического распределения тестовых оценок в репрезентативной выборке испытуемых. Процедура такого преобразования носит название стандартизации.

Известно три основных вида стандартизации первичных тестовых оценок: 1) приведение к нормальному виду; 2) приведение к стандартной форме; 3) квантильная стандартизация /Мельников В. М. и др., 1985/.

Приведение распределения тестовых оценок к нормальному виду.

Существуют два главных обстоятельства, которыми объясняется целесообразность искусственного приведения распределения первичных тестовых оценок к нормальному виду. Во-первых, значительная часть процедур классической математической статистики разработана для случайных величин с гауссовым нормальным распределением. И, во-вторых, это дает возможность описывать диагностические нормы в компактной форме.

Для определения способа преобразования у обычно рассматриваются гистограммы распределения первичных тестовых оценок. Они позволяют выявлять лево- и правостороннюю асимметрию, положительный или отрицательный эксцесс и другие отклонения от нормальности. В психологических исследованиях нередко встречаются логарифмические нормальные распределения «сырых» баллов. В этом случае приближение распределения к гауссовой форме достигается путем логарифмирования у. Напротив, для нормализации кривых распределений с пологой левой ветвью и крутой правой нередко применяются тригонометрические и степенные преобразования «сырых» баллов.

Применение компьютеров позволяет автоматизировать подбор и подгонку требуемого преобразования первичных тестовых оценок из заданного класса аналитических функций. Также компьютеры дают возможность достаточно просто реализовывать трудоемкую в ручном исполнении процедуру перехода к нормально распределенным оценкам путем новой оцифровки выходного тестового показателя. Эта процедура обычно одновременно используется для приведения тестовых оценок к стандартной форме и будет подробно рассмотрена ниже.

Преобразование тестовых оценок в стандартную форму.

Под стандартной формой понимают линейное преобразование нормальной (или искусственно нормализованной) тестовой оценки следующего вида

где Zi — стандартная тестовая оценка i-го испытуемого;

yi
— нормальная оценка i-го испытуемого;

ту
и σу — среднее арифметическое значение и среднеквадратическое отклонение у.

Стандартные Z-оценки распределены по нормальному закону с нулевым средним и единичной дисперсией. Это полезно для проведения сравнительного анализа стандартных оценок различных психодиагностических показателей. Но так как Z-оценки могут принимать дробные и отрицательные значения, что неудобно для восприятия, на практике чаще используются взвешенные стандартные оценки (Vi)

где а и b — константы центрирования и пропорциональности соответственно. Параметр а имеет смысл в данном случае среднего арифметического значения взвешенной стандартной оценки V, a b интерпретируется как среднеквадратическое отклонение V.

В психодиагностике наиболее популярны следующие значения констант центрирования и пропорциональности (Общая психодиагностика, 1987):

3. Шкала «стэнайнов» (целочисленные значения от 1 до 9 — стандартная девятка) — а=5.0, b=2.

4. Шкала «стэнов» (стандартная десятка) — а=5.5, b=2. Как указывалось ранее, компьютеры позволяют достаточно просто осуществить нелинейную нормализацию сырых тестовых оценок у и перейти к взвешенным стандартным оценкам в любой из приведенных выше шкал. Процедура такого перехода заключается в новой оцифровке у и может выглядеть, например, следующим образом. Для любой отметки выбранной стандартной шкалы V известен ее процентильный ранг PR(Vk)=С. Он равен площади под кривой теоретического нормального распределения со средним а и среднеквадратическим отклонением b, вычисленной для значений V<Vk и умноженной на 100. По гистограмме эмпирического распределения сырых тестовых баллов ищется точка yi, которой соответствует такой же процентильный ранг PR(yi)=C. После этого отметке yi присваивается новое значение Vk. Так производится перенос всех значений V на у.

Квантильная стандартизация.

Примером квантильной стандартизации служит процентильная стандартизация, когда отметке «сырой» шкалы у присваивается новое значение ее процентильного ранга PR(у). Квантиль является общим понятием, частными случаями которого могут быть, например, кроме процентилей, квартили, квинтели и децили. Три квартильные отметки (Q1, Q2, Q3) разбивают эмпирическое распределение тестовых оценок на 4 части (кварты) таким образом, что 25% испытуемых располагаются ниже Q1, 50% — ниже Q2 и 75% — ниже Q3. Четыре квинтеля (K1, К2, Кз, К4) делят выборку аналогичным образом на 5 частей с шагом 20% и девять децилей (D1, . D9) разбивают выборку на десять частей с шагом 10%.

Номер соответствующего квантиля используется в качестве новой преобразованной тестовой оценки. Квантильная шкала отличается тем, что ее построение никак не связано с видом распределения первичных тестовых оценок, которое может быть нормальным или иметь любую другую форму. Единственным условием для ее построения является возможность ранжирования испытуемых по величине у. Квантильные ранги имеют прямоугольное распределение, то есть в каждом интервале квантильнои шкалы содержится одинаковая доля обследованных лиц /Кулагин Б. В., 1984/. Стандартизация тестовых оценок путем их перевода в квантильную шкалу стирает различия в особенностях распределения психодиагностических показателей, так как сводит любое распределение к прямоугольному. Поэтому с позиции теории измерений квантильные шкалы относятся к шкалам порядка: они дают информацию, у кого из испытуемых сильнее выражено тестируемое свойство, но ничего не позволяют сказать о том, насколько или во сколько раз сильнее.

Построенная диагностическая модель может считаться психодиагностическим тестом только после прохождения всесторонних испытаний на предмет оценки психометрических свойств. Основными психометрическими свойствами психодиагностических методик, кроме стандартизированности, являются надежность и валидность /Анастази А., 1982; Гайда В. К. и др., 1982; Гильбух Ю. 3., 1982; 1986; Кулагин Б. В., 1984; Общая психодиагностика, 1987; Бурлачук Л. Ф. и др., 1989/.

Надежность теста — это характеристика методики, отражающая точность психодиагностических измерений, а также устойчивость результатов теста к действию посторонних случайных факторов /Бурлачук Л. Ф. и др., 1989/.

Результат психологического исследования обычно подвержен влиянию большого количества неучитываемых факторов (например, эмоциональное состояние и утомление, если они не входят в круг исследуемых характеристик, освещенность, температура и другие особенности помещения, в котором проводится тестирование, уровень мотивированности испытуемых и т. д.). Поэтому любая эмпирически полученная оценка по тесту yi представляется как сумма истинной оценки у¥ и ошибки измерения ε: yi¥ + е . В целях анализа надежности вводится понятие «параллельных тестов», которыми называются тесты, в одинаковой мере измеряющие данное свойство посредством одних и тех же действий и операций /Кулагин Б. В., 1984/. Это понятие является обобщенным, так как параллельными тестами могут быть и параллельные формы и повторные обследования испытуемых одной и той же методикой. Если принять допущения, что измеряемые у индивидуумов свойства мало изменяются во времени, а ошибки полностью случайны и несистематичны, то параллельные тесты дают результаты с одинаковыми средними значениями, среднеквадратическими отклонениями, интеркорреляциями и корреляциями с другими переменными.

Коэффициент надежности Ryy определяется как корреляция параллельных тестов, которая, в свою очередь, равна отношению

где σ 2 у¥ — дисперсия истинной оценки, а σ 2 у — дисперсия эмпирической оценки.

Корреляция параллельных тестов с какой-либо другой переменной z определяется соотношением

где Ry¥z — корреляция истинных оценок i>у¥ с переменной z. Эта формула показывает, что корреляция теста с любой внешней переменной ограничивается коэффициентом надежности. Например, если корреляция истинной оценки у¥ с переменной z (Ry¥z) равна 1,0, а коэффициент надежности (Ryy) равен 0,70, то эмпирическая корреляция (Ryz) составит 0,84.

Коэффициент надежности связан со стандартной ошибкой измерения (σε — среднеквадратическое отклонение ошибок измерения ε)

Отсюда следует, что при увеличении коэффициента надежности Ryy уменьшается ошибка σε.

Корреляция эмпирических и истинных оценок Ryy¥ называется индексом надежности и определяется соотношением

Существует три основных подхода к оценке надежности тестов, которые различаются факторами, принимаемыми за ошибки измерения.

Тест-ретест надежность. Коэффициент надежности (Ryy) измеряется с помощью повторного обследования одних и тех же испытуемых через определенное время и равен коэффициенту корреляции результатов двух тестирований. Ошибки измерения в данном случае обусловлены различиями в состоянии испытуемых, организации и условиях повторных обследований, запоминанием ответов, приобретением навыков работы с тестом и др. Тест-ретест надежность называют также надежность — устойчивость.

Надежность параллельных форм теста. Коэффициент надежности равен корреляции параллельных форм теста. Ошибки измерения в данном случае, кроме вышеуказанных факторов, связаны с различиями в характере действий и операций, присущих параллельным формам теста. Высокое значение коэффициента корреляции, помимо высокой надежности результатов сравниваемых тестов, указывает на эквивалентность содержания этих тестов. Поэтому коэффициент надежности для параллельных форм теста носит еще одно название — эквивалентная надежность.

Надежность как гомогенность тестов. В данном случае надежность оценивается путем вычисления интеркорреляций частей или элементов методики, рассматриваемых как отдельные параллельные тесты. Такой подход справедлив для оценки тестов, при построении которых использовалась диагностическая модель, основанная на критерии автоинформативности системы исходных признаков (на принципе внутренней согласованности тестовых заданий). Наиболее распространена процедура расщепления теста на две части: в одну входят, например, результаты четных заданий, а в другую — нечетных. Для определения надежности целого теста применяют формулу Спирмена — Брауна:

Читайте также:  Предпосылки международной стандартизации учета

где R — корреляция между половинами теста.

С учетом того, что тест, построенный по принципу внутренней согласованности заданий, можно расщеплять на части разными способами, в психометрике для оценки надежности не редко используется коэффициент Кронбаха

где а — обозначение коэффициента Кронбаха;
k — число заданий теста;
σ 2 i — дисперсия i-ro пункта теста;
σ 2 у —дисперсия целого теста.

Если ответы на каждый пункт теста являются дихотомическими переменными, то применяется аналогичная коэффициенту Кронбаха формула Кьюдера — Ричардсона

где KR20 — традиционное обозначение данного коэффициента надежности;
pi — доля 1-го варианта ответа на i-й вопрос;
qi = ( 1 — pi) — доля второго варианта ответа на i-и вопрос.

Известны другие коэффициенты надежности для гомогенных тестов. Большинство критериев, положенных в основу этих коэффициентов, опираются на тот факт, что матрица интеркорреляций заданий надежного теста имеет ранг, близкий к единице. Например, применяется коэффициент, получивший название тета-надежности теста /Общая психодиагностика, 1987/:

где k — количество пунктов теста.

l1 — наибольшее собственное число, соответствующее 1-й главной компоненте матрицы интеркорреляций пунктов теста.

Приведенные выше формулы могут использоваться только тогда, когда каждый испытуемый работает со всеми элементами теста. Это относится к методикам, которые не имеют ограничений во времени. Независимо от выполнения данного условия часто производится оценка надежности отдельных пунктов психодиагностического теста.

Надежность отдельных пунктов теста. Ретестовая надежность теста в целом зависит от устойчивости ответов испытуемых на отдельные пункты теста. Для проверки этой устойчивости вычисляется корреляция ответов испытуемых на проверяемый пункт с ответами при повторном тестировании. Для дихотомических пунктов обычно используется коэффициент φ и пункт считается недостаточно устойчивым, если φ< 0,5 .

Также нередко производится проверка так называемой дискриминативности заданий теста /Бурлачук Л. Ф. и др., 1989/, под которой понимается способность отдельных пунктов дифференцировать обследуемых относительно «максимального» или «минимального» результата теста в целом. Процедура проверки надежности пунктов направлена на повышение внутренней согласованности теста и соответствует описанному ранее методу контрастных групп. В качестве меры надежности пункта может использоваться коэффициент φ. Кроме того, часто применяется точечный бисериальный коэффициент корреляции rрв, который в данном случае называют коэффициентом (индексом) дискриминации.

В отличие от надежности валидность — мера соответствия тестовых оценок представлениям о сущности свойств или их роли в той или иной деятельности /Кулагин Б. В., 1984/. Выделяют три основных вида валидности — содержательную, эмпирическую (критериальную) и конструктную (концептуальную).

Содержательная валидность характеризует степень репрезентативности содержания заданий теста измеряемой области психических свойств /Бурлачук Л. Ф. и др., 1989/. Традиционно эта характеристика имеет наибольшее значение для тестов, исследующих деятельность, близкую или совпадающей с реальной (чаще всего учебной или профессиональной). Так как данная деятельность нередко складывается из разнородных факторов (проявления способностей личности, комплекс необходимых знаний и навыков, специфические способности), то подбор заданий, охватывающих главные аспекты изучаемого феномена, является одной из важнейших задач формирования адекватной модели тестируемой деятельности. Валидность по содержанию закладывается в тест уже при подборе заданий будущей методики. Этот вопрос рассмотрен выше, когда речь шла о формировании исходного множества диагностических признаков. Заключение о содержательной валидности, как правило, производится экспертами, которые выносят суждение о том, насколько охватывает данный тест декларируемые свойства и явления.

Следует отличать содержательную валидность от очевидной, лицевой, внешней валидности, которая является таковой с точки зрения испытуемого. Очевидная валидность означает то впечатление о предмете измерения, которое формируется у испытуемых при знакомстве с инструкцией и материалом теста. Она тоже играет заметную роль в тестировании, поскольку в первую очередь определяет отношение испытуемых к обследованию. Поэтому очевидную валидность иногда называют доверительной валидностью. В некоторых случаях содержательная и внешняя валидность совпадают, в других —очевидная валидность используется для маскировки истинных целей исследования.

Эмпирическая валидность — совокупность характеристик валидности теста, полученных с помощью сравнительного статистического анализа. Показатель эмпирической валидности выражается количественной мерой статистической связи между результатами тестирования и внешними по отношению к ним критериям оценки диагностируемого свойства. В качестве таких критериев могут выступать уже рассмотренные ранее экспертные оценки, экспериментальные и «жизненные» критерии. Эмпирическая валидность чаще всего выражается коэффициентом корреляции результатов тестирования у с критериальным показателем z. Известно, что корреляция двух переменных зависит от их надежности:

Источник



Процедура стандартизации. Виды стандартных нормализованных шкал в психодиагностике

Основное требование, предъявляемое к разрабатываемой методике – это стандартизация. Стандартизация психодиагностических методик позволяет сопоставить полученные данные у различных испытуемых и между различными шкалами методики. В рамках психодиагностического исследования стандартизация — это единообразие процедуры проведения и критериев оценки теста. Стандартизация состоит из нормализации шкал теста и унификации системы интерпретации результатов.

Критерии предъявляемые к выборке стандартизации:

• выборка создается случайным образом;

• выборка должна быть достаточной по величине, включать не менее 500 испытуемых;

• выборка включает пропорциональное количество представителей различных слоев генеральной совокупности;

• выборка должна обладать таким же распределение частот суммированных балов, как и генеральная совокупность.

Нормализация показателей теста осуществляется путем математически преобразований сырых шкальных значений в нормализованные, и позволяет оценить результаты обследования как высокие, низкие или средние. Тестовые нормы получаются путем испытания всей генеральной совокупности, для которой создается тест. Однако такое обследование практически не осуществимо, и лишает смысла дальнейшее использование теста. Поэтому нормирование теста проводится на ограниченной части генеральной совокупности — выборке стандартизации. Эта выборка должна быть репрезентативной по отношению к генеральной совокупности, т.е. содержать представителей со всем спектром особенностей исследуемого признака.

Результат тестирования испытуемого хi, вычисленный с помощью диагностической модели yi=у(хi), обычно называют первичной тестовой оценкой или, часто, «сырым» баллом. Для лучшего понимания этого результата в ряду других результатов производится его дальнейшее искусственное преобразование, основанное на анализе эмпирического распределения тестовых оценок в репрезентативной выборке испытуемых. Процедура такого преобразования носит название стандартизации.

Известно три основных вида стандартизации первичных тестовых оценок: 1) приведение к нормальному виду; 2) приведение к стандартной форме; 3) квантильная стандартизация.

На этапе разработки теста, а также любого другого метода проводится процедура стандартизации, которая включает три этапа.

Первый этап стандартизации психологического теста состоит в создании единообразной процедуры тестирования. Она включает определение следующих моментов диагностической ситуации:

условия тестирования (помещение, освещение и др. внешние факторы). Очевидно, что объем кратковременной памяти лучше измерять (например, с помощью субтеста повторения цифровых рядов в тесте Векслера), когда нет внешних раздражителей, таких как посторонние звуки, голоса и т.д.

Содержание инструкции и особенности ее предъявления (тон голоса, паузы, скорость речи и т.д.). Например, в тесте «10 слов» каждое слово должно предъявляться через определенный интервал времени в секундах.

Наличие стандартного стимульного материала. Например, достоверность полученных результатов существенно зависит от того, предлагаются ли респонденту изготовленные самодельные карты Г.Роршаха или стандартные – с определенной цветовой гаммой и цветовыми оттенками.

Временные ограничения выполнения данного теста. Например, для выполнения теста Равена взрослому респонденту дается 20 минут.

Стандартный бланк для выполнения данного теста. Использование стандартного бланка облегчает процедуру обработки.

Учет влияния ситуационных переменных на процесс и результат тестирования. Под переменными подразумевается состояние испытуемого (усталость, перенапряжение и т.д.), нестандартные условия тестирования (плохое освещение, отсутствие вентиляции и др.), прерывание тестирования.

Учет влияния поведения диагноста на процесс и результат тестирования. Например, одобрительно-поощряющее поведение экспериментатора во время тестирования может восприниматься респондентом как подсказка «правильного ответа» и др.

Учет влияния опыта респондента в тестировании. Естественно, что респондент, который уже не в первый раз проходит процедуру тестирования, преодолел чувство неизвестности и выработал определенное отношение к тестовой ситуации. Например, если респондент уже выполнял тест Равена, то, скорее всего, не стоит предлагать ему его во второй раз.

Второй этап стандартизации психологического теста состоит в создании единообразной оценки выполнения теста: стандартной интерпретации полученных результатов и предварительной стандартной обработки. Этот этап предполагает также сравнение полученных показателей с нормой выполнения этого теста для данного возраста (например, в тестах интеллекта), пола и т.д. (см. ниже).

Третий этап стандартизации психологического теста состоит в определении норм выполнения теста [10].

Источник

Методики стандартизации (обзор)

Методики стандартизации являются средствами либо комплексом средств, при помощи которых выполняются принципы и достигаются функции стандартизации. Назначением стандартизации является урегулирование требований и методик для неоднократного применения.

В преддверии выполнения каждой функции в области стандартизации, производится анализ массива находящихся в распоряжении данных, производя выбор самых главных специфических показателей. В связи с этим простейшей методикой стандартизации считается систематизация, которая представлена назначением объектов изучения в согласованной последовательности. Целиком систематизация образует систему, удобную для применения. Целиком систематизация создаёт структура, которая очень удобна в использовании.

Читайте также:  Карта стандартизации

Систематизация является условием плавной трансформации к классификации. Классификация же в свою очередь представляет собой положение принципов, объектов и величин соответственно конкретным и более специфическим показателям, и содержится в научном и подтвержденном логически подходе. Итоги деятельности в сфере классификации продукции и сервиса отражён в российских классификаторах, которые контролируют состав производимого товара либо сервиса в области различных отраслей по разным классификационным разделам и определённым названиям продукции.

Не нашли что искали?

Просто напиши и мы поможем

Классификация и систематизация идут параллельно с кодировкой данных. Кодировка производится по типу группировки по соответственным условиям категорий или предметов категорий, в то же время назначение кода, позволяющее произвести изменения небольшим количеством обозначений либо ключами название данных предметов информации.

Кодирование предоставляет возможность распознавания информации более коротким путём либо с меньшим количеством усилий. Кодировка воздействует на увеличение продуктивной подготовки, сохранения, регистрации и отработки данных. Количество символов кода возможно выяснить соответственно его структуре, по той причине, что он имеет зависимость от количества кодируемых показателей.

Основные методики стандартизации

На сегодняшний день действует две методики стандартизации, которые осуществляются практически параллельно. Данными методиками являются селекция предметов стандартизации и симплификация данных предметов. Селекция является процедурой, состоящей в отборе предметов стандартизации, которые признаны соответствующими для дальнейшей разработки и производства на промышленных и прочих предприятиях.

Симплификацию является процедурой, которая состоит в организации и образовании конкретных предметов стандартизации, признанных соответствующими для дальнейшей разработки и производства на промышленных и прочих предприятиях.

Селекция и симплификация выполняются предварительно классификации и ранжированию предметов стандартизации, в том числе специализированному исследованию по перспективе использования предметов стандартизации и их сопоставлению. Типизация предметов стандартизации также является методикой стандартизации.

Типизация является процедурой в сфере разработки и внедрения образцов либо стандартных моделей, технологических требований, структур, а также видов документации. Избранные предметы стандартизации подвергаются техническим изменениям, с целью увеличения качественных показателей и концентрации на их универсальности.

Эффективность типизации обуславливается исполнением опробованных задач в сфере создания подготовительных производственных процессов продукции, а также уменьшения себестоимости данных процессов, упрощением обстоятельств эксплуатации. Оптимизация предметов стандартизации является внедрением основных приемлемых характеристик, а также обладанием комплексом значений выгодности и качественных параметров.

Методические основы стандартизации

Рассматривая методических основ стандартизации, необходимо обратить внимание, что к данным основам относится параметрическая стандартизацию, агрегатирование и унификация. Параметрическая стандартизация указывает параметры изделий в роли количественных характеристик их свойств. Более значительные показатели представляются свойствами, способными устанавливать предназначение продукции и сервиса.

Сложно разобраться самому?

Попробуй обратиться за помощью к преподавателям

К данным показателям относятся различные значения высоты, ширины, скорости, веса и прочие показатели. Данные показатели наделены способностью характеризовать производительность разнообразной техники и аппаратуры. Каждое изделие возможно охарактеризовать конкретным видом и рядом показателей. Параметрический ряд является комплектом указываемых величин показателей.

Стандартизация параметрических рядов заключается в:

  • выборе и основе;
  • целесообразности номенклатуры;
  • количестве показателей.

Решение параметрических рядов возможно осуществить благодаря математическим методикам. К примеру, в сфере образования ряда обуви либо одежды возможно провести метрические исследования отдельно женской и мужской части общества, различных категорий по возрасту, проживающих на различной территории страны. Данная информация в дальнейшем обрабатывается благодаря методикам статистической математики.

Унификация изделий является процедурой в сфере целесообразного уменьшения числа видов агрегатов и деталей однотипных действий.

Основа единообразия заключается в классификации и ранжировании, симплификации, оптимизации и типизации по объектам изготовленной продукции. Единообразие концентрировано на усовершенствовании технических и эксплуатационных параметров, уменьшения издержек, увеличении автоматизирования производственных процессов.

Агрегатирование иметь своей составной частью методики разработки и внедрения аппаратуры, техники и механизмов из определённых типичных частей и деталей, унифицированных и неоднократно используемых при разработке разной продукции. Агрегатирование выполняется благодаря геометрической функциональной взаимной заменимости.

Источник

Конструирование психодиагностических тестов: традиционные математические модели и алгоритмы (продолжение)

6. Стандартизация и испытания диагностических моделей

Результат тестирования испытуемого хi, вычисленный с помощью диагностической модели yi=у(хi), обычно называют первичной тестовой оценкой или, часто, «сырым» баллом. Для лучшего понимания этого результата в ряду других результатов производится его дальнейшее искусственное преобразование, основанное на анализе эмпирического распределения тестовых оценок в репрезентативной выборке испытуемых. Процедура такого преобразования носит название стандартизации.

Известно три основных вида стандартизации первичных тестовых оценок: 1) приведение к нормальному виду; 2) приведение к стандартной форме; 3) квантильная стандартизация /Мельников В. М. и др., 1985/.

Приведение распределения тестовых оценок к нормальному виду.

Существуют два главных обстоятельства, которыми объясняется целесообразность искусственного приведения распределения первичных тестовых оценок к нормальному виду. Во-первых, значительная часть процедур классической математической статистики разработана для случайных величин с гауссовым нормальным распределением. И, во-вторых, это дает возможность описывать диагностические нормы в компактной форме.

Для определения способа преобразования у обычно рассматриваются гистограммы распределения первичных тестовых оценок. Они позволяют выявлять лево- и правостороннюю асимметрию, положительный или отрицательный эксцесс и другие отклонения от нормальности. В психологических исследованиях нередко встречаются логарифмические нормальные распределения «сырых» баллов. В этом случае приближение распределения к гауссовой форме достигается путем логарифмирования у. Напротив, для нормализации кривых распределений с пологой левой ветвью и крутой правой нередко применяются тригонометрические и степенные преобразования «сырых» баллов.

Применение компьютеров позволяет автоматизировать подбор и подгонку требуемого преобразования первичных тестовых оценок из заданного класса аналитических функций. Также компьютеры дают возможность достаточно просто реализовывать трудоемкую в ручном исполнении процедуру перехода к нормально распределенным оценкам путем новой оцифровки выходного тестового показателя. Эта процедура обычно одновременно используется для приведения тестовых оценок к стандартной форме и будет подробно рассмотрена ниже.

Преобразование тестовых оценок в стандартную форму.

Под стандартной формой понимают линейное преобразование нормальной (или искусственно нормализованной) тестовой оценки следующего вида

где Zi — стандартная тестовая оценка i-го испытуемого;

yi
— нормальная оценка i-го испытуемого;

ту
и σу — среднее арифметическое значение и среднеквадратическое отклонение у.

Стандартные Z-оценки распределены по нормальному закону с нулевым средним и единичной дисперсией. Это полезно для проведения сравнительного анализа стандартных оценок различных психодиагностических показателей. Но так как Z-оценки могут принимать дробные и отрицательные значения, что неудобно для восприятия, на практике чаще используются взвешенные стандартные оценки (Vi)

где а и b — константы центрирования и пропорциональности соответственно. Параметр а имеет смысл в данном случае среднего арифметического значения взвешенной стандартной оценки V, a b интерпретируется как среднеквадратическое отклонение V.

В психодиагностике наиболее популярны следующие значения констант центрирования и пропорциональности (Общая психодиагностика, 1987):

3. Шкала «стэнайнов» (целочисленные значения от 1 до 9 — стандартная девятка) — а=5.0, b=2.

4. Шкала «стэнов» (стандартная десятка) — а=5.5, b=2. Как указывалось ранее, компьютеры позволяют достаточно просто осуществить нелинейную нормализацию сырых тестовых оценок у и перейти к взвешенным стандартным оценкам в любой из приведенных выше шкал. Процедура такого перехода заключается в новой оцифровке у и может выглядеть, например, следующим образом. Для любой отметки выбранной стандартной шкалы V известен ее процентильный ранг PR(Vk)=С. Он равен площади под кривой теоретического нормального распределения со средним а и среднеквадратическим отклонением b, вычисленной для значений V<Vk и умноженной на 100. По гистограмме эмпирического распределения сырых тестовых баллов ищется точка yi, которой соответствует такой же процентильный ранг PR(yi)=C. После этого отметке yi присваивается новое значение Vk. Так производится перенос всех значений V на у.

Квантильная стандартизация.

Примером квантильной стандартизации служит процентильная стандартизация, когда отметке «сырой» шкалы у присваивается новое значение ее процентильного ранга PR(у). Квантиль является общим понятием, частными случаями которого могут быть, например, кроме процентилей, квартили, квинтели и децили. Три квартильные отметки (Q1, Q2, Q3) разбивают эмпирическое распределение тестовых оценок на 4 части (кварты) таким образом, что 25% испытуемых располагаются ниже Q1, 50% — ниже Q2 и 75% — ниже Q3. Четыре квинтеля (K1, К2, Кз, К4) делят выборку аналогичным образом на 5 частей с шагом 20% и девять децилей (D1, . D9) разбивают выборку на десять частей с шагом 10%.

Номер соответствующего квантиля используется в качестве новой преобразованной тестовой оценки. Квантильная шкала отличается тем, что ее построение никак не связано с видом распределения первичных тестовых оценок, которое может быть нормальным или иметь любую другую форму. Единственным условием для ее построения является возможность ранжирования испытуемых по величине у. Квантильные ранги имеют прямоугольное распределение, то есть в каждом интервале квантильнои шкалы содержится одинаковая доля обследованных лиц /Кулагин Б. В., 1984/. Стандартизация тестовых оценок путем их перевода в квантильную шкалу стирает различия в особенностях распределения психодиагностических показателей, так как сводит любое распределение к прямоугольному. Поэтому с позиции теории измерений квантильные шкалы относятся к шкалам порядка: они дают информацию, у кого из испытуемых сильнее выражено тестируемое свойство, но ничего не позволяют сказать о том, насколько или во сколько раз сильнее.

Читайте также:  Стандартизация протоколов что это

Построенная диагностическая модель может считаться психодиагностическим тестом только после прохождения всесторонних испытаний на предмет оценки психометрических свойств. Основными психометрическими свойствами психодиагностических методик, кроме стандартизированности, являются надежность и валидность /Анастази А., 1982; Гайда В. К. и др., 1982; Гильбух Ю. 3., 1982; 1986; Кулагин Б. В., 1984; Общая психодиагностика, 1987; Бурлачук Л. Ф. и др., 1989/.

Надежность теста — это характеристика методики, отражающая точность психодиагностических измерений, а также устойчивость результатов теста к действию посторонних случайных факторов /Бурлачук Л. Ф. и др., 1989/.

Результат психологического исследования обычно подвержен влиянию большого количества неучитываемых факторов (например, эмоциональное состояние и утомление, если они не входят в круг исследуемых характеристик, освещенность, температура и другие особенности помещения, в котором проводится тестирование, уровень мотивированности испытуемых и т. д.). Поэтому любая эмпирически полученная оценка по тесту yi представляется как сумма истинной оценки у¥ и ошибки измерения ε: yi¥ + е . В целях анализа надежности вводится понятие «параллельных тестов», которыми называются тесты, в одинаковой мере измеряющие данное свойство посредством одних и тех же действий и операций /Кулагин Б. В., 1984/. Это понятие является обобщенным, так как параллельными тестами могут быть и параллельные формы и повторные обследования испытуемых одной и той же методикой. Если принять допущения, что измеряемые у индивидуумов свойства мало изменяются во времени, а ошибки полностью случайны и несистематичны, то параллельные тесты дают результаты с одинаковыми средними значениями, среднеквадратическими отклонениями, интеркорреляциями и корреляциями с другими переменными.

Коэффициент надежности Ryy определяется как корреляция параллельных тестов, которая, в свою очередь, равна отношению

где σ 2 у¥ — дисперсия истинной оценки, а σ 2 у — дисперсия эмпирической оценки.

Корреляция параллельных тестов с какой-либо другой переменной z определяется соотношением

где Ry¥z — корреляция истинных оценок i>у¥ с переменной z. Эта формула показывает, что корреляция теста с любой внешней переменной ограничивается коэффициентом надежности. Например, если корреляция истинной оценки у¥ с переменной z (Ry¥z) равна 1,0, а коэффициент надежности (Ryy) равен 0,70, то эмпирическая корреляция (Ryz) составит 0,84.

Коэффициент надежности связан со стандартной ошибкой измерения (σε — среднеквадратическое отклонение ошибок измерения ε)

Отсюда следует, что при увеличении коэффициента надежности Ryy уменьшается ошибка σε.

Корреляция эмпирических и истинных оценок Ryy¥ называется индексом надежности и определяется соотношением

Существует три основных подхода к оценке надежности тестов, которые различаются факторами, принимаемыми за ошибки измерения.

Тест-ретест надежность. Коэффициент надежности (Ryy) измеряется с помощью повторного обследования одних и тех же испытуемых через определенное время и равен коэффициенту корреляции результатов двух тестирований. Ошибки измерения в данном случае обусловлены различиями в состоянии испытуемых, организации и условиях повторных обследований, запоминанием ответов, приобретением навыков работы с тестом и др. Тест-ретест надежность называют также надежность — устойчивость.

Надежность параллельных форм теста. Коэффициент надежности равен корреляции параллельных форм теста. Ошибки измерения в данном случае, кроме вышеуказанных факторов, связаны с различиями в характере действий и операций, присущих параллельным формам теста. Высокое значение коэффициента корреляции, помимо высокой надежности результатов сравниваемых тестов, указывает на эквивалентность содержания этих тестов. Поэтому коэффициент надежности для параллельных форм теста носит еще одно название — эквивалентная надежность.

Надежность как гомогенность тестов. В данном случае надежность оценивается путем вычисления интеркорреляций частей или элементов методики, рассматриваемых как отдельные параллельные тесты. Такой подход справедлив для оценки тестов, при построении которых использовалась диагностическая модель, основанная на критерии автоинформативности системы исходных признаков (на принципе внутренней согласованности тестовых заданий). Наиболее распространена процедура расщепления теста на две части: в одну входят, например, результаты четных заданий, а в другую — нечетных. Для определения надежности целого теста применяют формулу Спирмена — Брауна:

где R — корреляция между половинами теста.

С учетом того, что тест, построенный по принципу внутренней согласованности заданий, можно расщеплять на части разными способами, в психометрике для оценки надежности не редко используется коэффициент Кронбаха

где а — обозначение коэффициента Кронбаха;
k — число заданий теста;
σ 2 i — дисперсия i-ro пункта теста;
σ 2 у —дисперсия целого теста.

Если ответы на каждый пункт теста являются дихотомическими переменными, то применяется аналогичная коэффициенту Кронбаха формула Кьюдера — Ричардсона

где KR20 — традиционное обозначение данного коэффициента надежности;
pi — доля 1-го варианта ответа на i-й вопрос;
qi = ( 1 — pi) — доля второго варианта ответа на i-и вопрос.

Известны другие коэффициенты надежности для гомогенных тестов. Большинство критериев, положенных в основу этих коэффициентов, опираются на тот факт, что матрица интеркорреляций заданий надежного теста имеет ранг, близкий к единице. Например, применяется коэффициент, получивший название тета-надежности теста /Общая психодиагностика, 1987/:

где k — количество пунктов теста.

l1 — наибольшее собственное число, соответствующее 1-й главной компоненте матрицы интеркорреляций пунктов теста.

Приведенные выше формулы могут использоваться только тогда, когда каждый испытуемый работает со всеми элементами теста. Это относится к методикам, которые не имеют ограничений во времени. Независимо от выполнения данного условия часто производится оценка надежности отдельных пунктов психодиагностического теста.

Надежность отдельных пунктов теста. Ретестовая надежность теста в целом зависит от устойчивости ответов испытуемых на отдельные пункты теста. Для проверки этой устойчивости вычисляется корреляция ответов испытуемых на проверяемый пункт с ответами при повторном тестировании. Для дихотомических пунктов обычно используется коэффициент φ и пункт считается недостаточно устойчивым, если φ< 0,5 .

Также нередко производится проверка так называемой дискриминативности заданий теста /Бурлачук Л. Ф. и др., 1989/, под которой понимается способность отдельных пунктов дифференцировать обследуемых относительно «максимального» или «минимального» результата теста в целом. Процедура проверки надежности пунктов направлена на повышение внутренней согласованности теста и соответствует описанному ранее методу контрастных групп. В качестве меры надежности пункта может использоваться коэффициент φ. Кроме того, часто применяется точечный бисериальный коэффициент корреляции rрв, который в данном случае называют коэффициентом (индексом) дискриминации.

В отличие от надежности валидность — мера соответствия тестовых оценок представлениям о сущности свойств или их роли в той или иной деятельности /Кулагин Б. В., 1984/. Выделяют три основных вида валидности — содержательную, эмпирическую (критериальную) и конструктную (концептуальную).

Содержательная валидность характеризует степень репрезентативности содержания заданий теста измеряемой области психических свойств /Бурлачук Л. Ф. и др., 1989/. Традиционно эта характеристика имеет наибольшее значение для тестов, исследующих деятельность, близкую или совпадающей с реальной (чаще всего учебной или профессиональной). Так как данная деятельность нередко складывается из разнородных факторов (проявления способностей личности, комплекс необходимых знаний и навыков, специфические способности), то подбор заданий, охватывающих главные аспекты изучаемого феномена, является одной из важнейших задач формирования адекватной модели тестируемой деятельности. Валидность по содержанию закладывается в тест уже при подборе заданий будущей методики. Этот вопрос рассмотрен выше, когда речь шла о формировании исходного множества диагностических признаков. Заключение о содержательной валидности, как правило, производится экспертами, которые выносят суждение о том, насколько охватывает данный тест декларируемые свойства и явления.

Следует отличать содержательную валидность от очевидной, лицевой, внешней валидности, которая является таковой с точки зрения испытуемого. Очевидная валидность означает то впечатление о предмете измерения, которое формируется у испытуемых при знакомстве с инструкцией и материалом теста. Она тоже играет заметную роль в тестировании, поскольку в первую очередь определяет отношение испытуемых к обследованию. Поэтому очевидную валидность иногда называют доверительной валидностью. В некоторых случаях содержательная и внешняя валидность совпадают, в других —очевидная валидность используется для маскировки истинных целей исследования.

Эмпирическая валидность — совокупность характеристик валидности теста, полученных с помощью сравнительного статистического анализа. Показатель эмпирической валидности выражается количественной мерой статистической связи между результатами тестирования и внешними по отношению к ним критериям оценки диагностируемого свойства. В качестве таких критериев могут выступать уже рассмотренные ранее экспертные оценки, экспериментальные и «жизненные» критерии. Эмпирическая валидность чаще всего выражается коэффициентом корреляции результатов тестирования у с критериальным показателем z. Известно, что корреляция двух переменных зависит от их надежности:

Источник