Валидность теста в психологии это: Валидность психологических тестов, или Всегда ли можно доверять тестам?

Содержание

Валидность психологических тестов, или Всегда ли можно доверять тестам?

Многие из нас в этой жизни хотя бы несколько раз проходили тесты по психологии. Кто-то это делал из любопытства, случайно наткнувшись в Интернете на «заманушку» вроде «узнайте свой тип личности». Кто-то серьезно подошел к вопросу профориентации и заранее решил объективно оценить свои склонности к выбранной профессии или же подумать о профессии, исходя из выявленных способностей.

А кому-то предложили пройти тестирование на приеме у психолога или психотерапевта, к которому пришлось обратиться, чтобы подправить здоровье или найти выход из затруднительной жизненной ситуации. В итоге отношение к тестам по психологии у всех разное, от глубокого интереса и желания проходить больше тестов, хороших и разных, до резкого неприятия и обобщений наподобие «это все ерунда».

Где же правда и есть ли какой-то толк от психологических тестов в реальности? Правда, как всегда, где-то посередине, а ответ на вопрос «Есть ли какой-то толк?» нужно искать в таком понятии, как «валидность психологических тестов».

Вы и сами всегда сумеете докопаться до истины, если пройдете нашу программу «Когнитивистика». А понимать людей на невербальном уровне безо всякого тестирования вы научитесь на программе «Профайлинг». Прохождение программ может занять пару месяцев, а пока мы предлагаем вам поговорить про надежность и валидность психологических тестов и их пригодность для определения различных психологических характеристик человека.

Валидность психологического теста: что это такое?

Для начала уточним, что означает понятие «валидность психологического теста», и попытаемся объяснить это простыми словами. Итак, валидностью психологического теста называется способность теста определять и измерять те показатели, для определения и измерения которых данный тест разработан.

Условно говоря, тестом на определение типов личности не стоит пытаться определить степень эмоционального выгорания человека. Аналогично тому, как тестами по английскому языку не стоит пытаться определить уровень знаний по математике, или тестами по математике за 11-й класс не нужно определять уровень знаний программы за 9 классов.

Помимо этого, есть еще один важный момент. Тесты по психологии имеют разное назначение. Мы начали с того, что разным людям приходится сталкиваться с психологическими тестами при разных обстоятельствах. Кем-то движет любопытство и желание узнать, условно говоря, «кто я такой». А кому-то жизненно важно докопаться до причин своего неблагополучного психологического состояния и найти пути выхода из него.

Понятно, что для удовлетворения любопытства и диагностики психологического состояния нужны не только разные тесты, но и разная направленность тестирования, разная степень детализации вопросов и, само собой, разная степень точности измерений. Психологический тест – это практически всегда измерение. Кто проходил, тот знает, что результат обычно представляют в баллах, очках, процентах. Проще говоря, в неких исчисляемых единицах.

Разумеется, при любом измерении возможны неточности или погрешности. Если вы просто любопытствуете, являетесь ли вы сангвиником или, скорее, флегматиком, разные тесты могут дать разный результат, а истина, как всегда, может оказаться где-то посередине. Это нормально, потому что людей, у которых были бы выражены исключительно черты сангвиника или флегматика и совсем не было бы качеств, присущих, к примеру, меланхоликам, не так много.

Да и сам факт, что ваше любопытство не будет удовлетворено в полной мере и заставит вас либо искать другие тесты, либо забросить затею с тестированием, вряд ли может иметь какие-то далеко идущие последствия для душевного здоровья.

А вот если психотерапевту приходится иметь дело с пограничным расстройством и нужно понять, требуется ли пациенту медикаментозное лечение или можно ограничиться психотерапевтическими сеансами, здесь точность измерений различных параметров при тестировании обретает принципиально важное значение.

Более глубоко вникнуть в тему и содержание понятия валидности психологических тестов позволяют узкоспециальные научные издания [И. Кондаков, 2007]. А также публикации в специализированных журналах по психологи [Х. Гессман, Е. Шеронов, 2013]. А мы продолжим тему и поговорим о типах валидности психологических тестов.

Типы валидности психологических тестов

Итак, мы уже разобрались, что валидность включает в себя множество разных аспектов. Теперь посмотрим, какие бывают типы валидности и что они означают.

Основные типы валидности:

Практическая валидность – возможность достижения с помощью тестирования конкретной цели (поставить диагноз, сделать прогноз, выдать рекомендации).
Прогностическая валидность как разновидность практической – возможность прогнозировать род той или иной деятельности в исполнении испытуемого.
Совпадающая валидность как разновидность практической – диагностика наличия у человека некоего качества или характеристики в текущий момент времени.
Оценочная валидность – корреляция между результатами теста и мнением экспертов.
Валидность генерализации, она же репрезентативность – на какие категории людей или ситуаций можно распространить результаты исследования.
Валидность критерия – складывается из понятия «совместная валидность» и «предиктивная валидность».
Совместная валидность – существует ли связь между результатом теста и прочими проявлениями свойства.
Предиктивная валидность – насколько итог теста позволяет прогнозировать развитие исследуемого качества.
Относительная валидность – соответствие результатам аналогичных тестов, предназначенным для измерения аналогичных показателей.
Эмпирическая валидность – соответствие выбранной методики тестирования опыту и знаниям человека.
Дискриминантная валидность – разновидность эмпирической, подразумевающая статистическую независимость тестовых показателей, направленных на измерение несвязанных характеристик.

Если почему-либо все вышеизложенное кажется сложным, заметим, что это не совсем так. Мы уже начали говорить, к примеру, об эмпирической валидности, только более простыми словами. В частности, когда сказали, что нельзя измерять уровень знаний за 9 класс тестами за программу средней школы. Тест за программу 11 классов не будет соответствовать опыту и знаниям школьника, полученным за 9 лет учебы.

Можно объяснить простыми словами и понятие оценочной валидности или степени корреляции между показателями, полученными испытуемым, и оценками экспертов. Так, если во время ЕГЭ школьник получает баллы намного выше или намного ниже, чем текущие и итоговые оценки в школе, выставляемые учителями (экспертами), есть все основания заподозрить, что тест не является валидным.

Это совсем общий пример, потому что в наших реалиях в этой ситуации можно заподозрить еще и коррупционную составляющую, когда высокие оценки ставят за деньги и потихоньку «гнобят» тех, чьи родители не могут оплатить вожделенные баллы. Итоги ЕГЭ пока что купить сложнее, поэтому такие вещи как раз и всплывают во время независимого тестирования. Но принцип, думается, понятен.

Точно так можно объяснить попроще понятие дискриминантной валидности. Например, корреляция между результатами теста на скорость чтения и теста на уровень мотивации будет крайне низкой, потому что способность к скорочтению мало связана с мотивацией, разве что с частным случаем мотивации научиться быстро читать. А вот если путем тестирования выявить ценностные ориентиры человека, тогда до выявления факторов, усиливающих мотивацию человека к каким-либо действиям, останется один шаг.

Для тех, кому и эти объяснения кажутся скучными и запутанными, поясним суть понятия «валидность психологического теста» совсем простым примером. Когда-то давно, в эпоху до изобретения мини-камер видеонаблюдения и GPS-трекеров, была популярной шутка про эксперимент ученых, исследовавших жизнь бродячих собак. Ученые закрепили на голове у собак видеокамеру и выяснили, что 90% всего времени собаки пытаются избавиться от камеры у себя на голове, а 10% времени убегают от ученых, которые их ловят, чтобы поменять разрядившийся аккумулятор.

Разумеется, в естественных условиях «рабочий день» бродячей собаки выглядит совсем иначе, потому что в естественных условиях у нее нет на голове мешающей камеры. Поэтому релевантность полученных в результате такого эксперимента данных стремится к нулю, а дело тут в неправильно выбранном методе исследования. Это, еще раз уточним, шутка, однако она весьма наглядно демонстрирует важность правильного выбора метода оценки тех или иных характеристик. Иначе валидность психологического теста будет низкой.

Желающим узнать больше о разных типах валидности можем рекомендовать научное исследование Validity of psychological assessment: Validation of inferences from persons’ responses and performances («Валидность психологической оценки: проверка выводов, сделанных на основе ответов и действий людей») [S. Messick, 1995].

Заметим, что исследования типологии валидности психологических тестов ведутся уже много десятилетий. Одной из первых серьезных работ в данном направлении стала статья Convergent and discriminant validation by the multitrait-multimethod matrix («Конвергентная и дискриминантная проверка по матрице мультипризнаков-мультиметодов») [D. Campbell, D. Fiske, 1959].

Это для тех, кто хочет знать больше, а мы далее обсудим, какие факторы влияют на валидность психологического теста. Если речь идет про валидность и надежность психологического теста, контрольная работа, план научной статьи, содержание публикации всегда включают в себя пункт, касающийся факторов, влияющих на валидность теста.

Факторы, влияющие на валидность психологического теста

Как вы уже поняли, составление психологических тестов, способных измерить требуемую характеристику, задача не такая уж простая. Достаточно посмотреть «Справочное руководство по конструированию тестов» объемом почти в 300 страниц, чтобы увидеть, сколько важных факторов нужно учесть при этом [П. Клайн, 1994]. Если кратко, формирование теста с высокой валидностью должно пройти несколько этапов и соответствовать ряду критериев:

Четкое указание категории лиц, на которых рассчитан тест.
Внятный список характеристик, качеств, знаний, прочих параметров, которые призван определить тест.
Наличие внешней экспертизы на предмет полноты и обоснованности определяемых параметров.
Задания и вопросы, адекватные поставленной задаче.
Внешняя экспертиза составленных заданий и вопросов на предмет соответствия поставленной задаче.

Только после этого можно приступать к формированию окончательного варианта теста. Тогда есть все шансы поднять валидность психологического теста настолько, чтобы можно было полностью доверять полученным результатам.

Еще важнее при составлении теста не допустить грубых ошибок, сразу снижающих валидность теста. Какие же факторы нужно учесть, чтобы достичь максимальной валидности теста? Для начала следует помнить, что испытуемый – живой человек со своими взглядами, убеждениями и предрассудками, почти всегда склонный к конформному социально ожидаемому поведению и стремящийся получить групповое подкрепление своему мнению. И браться за составление теста, исходя из понимания данных факторов.

Топ-7 факторов, ухудшающих валидность психологического теста:

Стремление давать социально ожидаемые ответы и желание представить себя в лучшем свете, поэтому вопросы следует составлять так, чтобы социально ожидаемый ответ не был очевиден.
Конформность и стремление соглашаться, выбирая положительный ответ, поэтому вопросы следует формулировать и чередовать так, чтобы сплошные «да» не могли нивелировать результат исследования.
Преднамеренно отрицательный ответ, если это позволяет выделиться, получить награду, оказаться в центре внимания, поэтому вопросы не должны провоцировать протестные ответы.
Культурное смещение, когда одно и то же качество, термин, понятие могут иметь разное наполнение для разных культур и религий. Это важно иметь в виду, если тест планируется использовать в мультикультурной и полиэтничной среде.
Гендерное смещение, когда одно и то же явление по-разному воспринимается и оценивается мужчинами и женщинами.
Тестовое смещение, когда тест, пригодный для абсолютного большинства людей, может оказаться не пригодным для оценки людей, ведущих принципиально иной образ жизни (например, жителей глухих горных аулов или регионов Крайнего Севера).

Смещение в предпосылках, когда составитель теста экстраполирует свои взгляды и оценки на всех, кто будет проходить тест, и считает, что они будут давать ответы, исходя из тех же взглядов и оценок.

Многие факторы взаимосвязаны между собой. Например, гендерное смещение, когда одно и то же явление по-разному воспринимается и оценивается мужчинами и женщинами, может спровоцировать смещение в предпосылках, когда тест составляет мужчина и думает, что женщины будут воспринимать составленные им вопросы точно так же, как и мужчины.

И, наконец, еще один аспект, который хотелось бы обсудить в контексте темы валидности психологических тестов. Очень часто в специальной литературе можно увидеть, что такие понятия, как валидность и надежность психологического теста употребляются вместе. Что такое «надежность психологического теста» и как она связана с валидностью? Давайте разбираться.

Валидность и надежность психологического теста: как они соотносятся?

Для начала уточним, что такое надежность психологического теста. Под надежностью теста подразумевается стабильность и воспроизводимость результатов, полученных в результате применения теста в аналогичных обстоятельствах.

Например, если психологический тест применяется для групп, одинаковых по возрастному, гендерному и социальному составу, результат должен быть примерно одинаковым с отклонением в пределах статистической погрешности. Для групп, отличающихся по гендерным и возрастным признакам, культурно-образовательному уровню результаты могут отличаться, и это нормально.

Надежность психологического теста может считаться достаточно высокой, если измерения дают относительно стабильные результаты для одного и того же человека при повторном тестировании. Или же результат, отличный от первоначального с учетом корреляционного коэффициента, если наличествуют факторы, способные объективно повлиять на исследуемые характеристики.

Так, например, отслеживают прогресс в ходе психотерапевтических процедур, потому что психокоррекция – дело небыстрое, однако при правильно подобранной методике прогресс всегда заметен. Надежный тест позволяет с высокой степенью достоверности установить, насколько верно подобрано лечение и/или комплекс психотерапевтических процедур.

Правда, у повторной или ретестовой проверки имеются некоторые издержки. Например, у человека может меняться настроение или самочувствие, а под их влиянием в разное время вероятны разные ответы на одни и те же вопросы. Кроме того, испытуемый может запомнить «правильные» или социально ожидаемые ответы на те или иные вопросы теста, и при повторном тестировании стараться «подстроиться» под них и представить себя в лучшем свете. Поэтому некоторые отклонения, связанные собственно с процессом тестирования, всегда возможны.

Итак, как же соотносятся валидность и надежность психологического теста? В идеале, тест должен быть и надежным, и валидным. В реальности это не всегда так. Мы уже приводили самый простой шутливый пример с исследованием поведения бродячих собак. Тест не валидный, однако, при этом обладает высокой степенью воспроизводимости. Практически каждый пес, которому на голову крепят посторонний предмет, пытается от него избавиться. Так что если бы требовалось составить валидный тест на исследование реакции на посторонний предмет на голове животного, можно считать, что такой тест уже готов.

Так или иначе, валидность и надежность психологического теста – это связанные понятия. Валидность подразумевает однозначность получаемых результатов и достоверность измерения того или иного психологического свойства, качества, характеристики. Надежность – это, если можно так выразиться, «устойчивость процедуры относительно объекта исследования». Надежность, как мы уже разобрались, не всегда предполагает валидность, однако валидность предполагает надежность.

Это самое главное, что следует знать о соотношении надежности и валидности. Всем, кто хочет разобраться в теме более глубоко, можем порекомендовать статью Reliability & Validity in Psychology: Definitions & Differences («Надежность и валидность в психологии: определения и различия») [D. Cloud, 2021].

Также весьма интересен в этом плане материал Psychometric Properties of a Test: Reliability, Validity and Norming («Психометрические свойства теста: надежность, валидность и нормирование») [N. Muralidharan, 2018]. Мы же в который раз на страницах нашего блога напоминаем, что никакой результат даже самого надежного и полностью валидного теста не может быть приговором и тем более основанием для постановки диагноза.

Если вас что-то беспокоит в вашем душевном или физическом состоянии, лучшим вариантом будет консультация высококвалифицированного психолога. Хорошим шагом на пути к самосовершенствованию и улучшению собственных психологических характеристик станут наши программы «Самопознание», «Когнитивистика» и «Профайлинг», набор на которые продолжается в настоящее время.

Мы желаем вам спокойствия и душевного равновесия во всех ваших жизненных обстоятельствах. И просим ответить на вопрос по теме статьи:

Ключевые слова:1Когнитивистика, 1Профайлинг

Валидность теста

15.06.2020

Существует достаточно много разных способов доказательства валидности теста. О них и пойдет речь далее.

Тест называется валидным, если он измеряет то, для измерения чего предназначен.

Очевидная валидность — описывает представление о тесте, сложившееся у испытуемого. Тест должен восприниматься обследуемым как серьезный инструмент познания его личности, чем-то схожий с вызывающим уважение и в какой-то мере трепет медицинским диагностическим инструментарием. Очевидная валидность приобретает особое значение в современных условиях, когда представление о тестах в общественном сознании формируется многочисленными публикациями в популярных газетах и журналах того, что можно назвать квазитестами, с помощью которых читателю предлагается определить все, что угодно: от интеллекта до совместимости с будущим супругом.

Конкурентная валидность оценивается по корреляции разработанного теста с другими, валидность которых относительно измеряемого параметра установлена. П. Клайн отмечает, что данные о конкурентной валидности полезны тогда, когда есть неудовлетворительно работающие тесты для измерения некоторых переменных, а новые создаются для того, чтобы улучшить качество измерения. В самом деле, если уже существует эффективный тест, то для чего нужен такой же новый?

Прогностическая валидность устанавливается с помощью корреляции между показателями теста и некоторым критерием, характеризующим измеряемое свойство, но в более позднее время. Например, прогностическая валидность какого-либо теста интеллекта может быть показана корреляцией его показателей, полученных у испытуемого в возрасте 10 лет, с академической успеваемостью в период окончания средней школы. Л. Кронбах считает прогностическую валидность наиболее убедительным доказательством того, что тест измеряет именно то, для чего он был предназначен. Основная проблема, с которой сталкивается исследователь, пытающийся установить прогностическую валидность своего теста, состоит в выборе внешнего критерия. В особенной степени чаще всего это касается измерения личностных переменных, где подбор внешнего критерия — чрезвычайно сложная задача, решение которой требует немалой изобретательности. Несколько проще обстоит дело при определении внешнего критерия для когнитивных тестов, однако и в этом случае исследователю приходится «закрывать глаза» на многие проблемы. Так, академическая успеваемость традиционно используется в качестве внешнего критерия при валидизации тестов интеллекта, но в то же время хорошо известно, что успехи в обучении далеко не единственное свидетельство высокого интеллекта.

Инкрементная валидность имеет ограниченное значение и относится к случаю, когда один тест из батареи тестов может иметь низкую корреляцию с критерием, но не перекрываться другими тестами из этой батареи. В этом случае данный тест обладает инкрементной валидностью. Это может быть полезно при проведении профотбора с помощью психологических тестов.

Дифференциальная валидность может быть проиллюстрирована на примере тестов интересов. Тесты интересов обычно коррелируют с академической успеваемостью, но по-разному для разных дисциплин. Значение дифференциальной валидности, так же как и инкрементной, ограничено.

Содержательная валидность определяется через подтверждение того, что задания теста отражают все аспекты изучаемой области поведения. Обычно она определяется у тестов достижений (смысл измеряемого параметра полностью ясен!), которые, как уже указывалось, тестами собственно психологическими не являются. На практике для определения содержательной валидности подбираются эксперты, которые указывают, какая область (области) поведения наиболее важна, например, для музыкальных способностей, а затем, исходя из этого, генерируются задания теста, которые вновь оценивают эксперты.

Конструктная валидность теста демонстрируется полным, насколько это возможно, описанием переменной, для измерения которой предназначается тест. По сути дела, конструктная валидность включает в себя все подходы к определению валидности, которые были перечислены выше. Кронбах и Мил (Cronbach & Meehl, 1955), которые ввели в психодиагностику понятие конструктной валидности, пытались решить проблему отбора критериев при валидизации теста. Они подчеркивали, что во многих случаях ни один отдельно взятый критерий не может служить для валидизации отдельного теста. Можно считать, что решение вопроса о конструктной валидности теста представляет собой поиск ответа на два вопроса:

существует ли реально некоторое свойство;
надежно ли измеряет данный тест индивидуальные различия по этому свойству.

Вполне понятно, что с конструктной валидностью связана проблема объективности в интерпретации результатов по изучению конструктной валидности, однако эта проблема общепсихологическая и выходит за рамки валидности.

Из вышесказанного следует, что не существует какого-либо единичного показателя, с помощью которого устанавливается валидность психологического теста. В отличие от показателей надежности и дискриминативности, нельзя осуществить точные статистические расчеты, подтверждающие валидность методики. Тем не менее разработчик должен представить весомые доказательства в пользу валидности теста, что потребует от него психологических знаний и интуиции.

Ключевые слова: Тесты

Источник: Бурлачук Л. Ф. Психодиагностика: Учебник для вузов. — СПб.: Питер, 2006. — 351 с: ил

Материалы по теме
Методология тестирования Добреньков В.И., Методы социологического исследования
Проективные методики или «объективные тесты»? Бурлачук Л. Ф. Психодиагностика: Учебник для вузов. — СПб.: Питер, 2006. — 351 с: ил
Классификация тестов в управлении персоналом Добреньков В.И., Методы социологического исследования
Шкала в психологии. Виды шкал и их характеристика Экспериментальная психология: Курс лекций. Авторы-составители О.В. Боголюбова, Е.В. Дьяченко…
Тест-опросник Леонгарда-Шмишека Петруня О.Э., Юридическая психология
Современные психологические тесты онлайн – возможность протестировать себя прямо сейчас . ..
Самостоятельный тест уровня интеллекта …
Возникновение тестирования …

Материалы по теме

Методология тестирования

Добреньков В.И., Методы социологического исследования

Проективные методики или «объективные тесты»?

Бурлачук Л. Ф. Психодиагностика: Учебник для вузов. — СПб.: Питер, 2006. — 351 с: ил

Классификация тестов в управлении персоналом

Добреньков В.И., Методы социологического исследования

Шкала в психологии. Виды шкал и их характеристика

Экспериментальная психология: Курс лекций. Авторы-составители О.В. Боголюбова, Е.В. Дьяченко…

Тест-опросник Леонгарда-Шмишека

Петруня О.Э., Юридическая психология

Современные психологические тесты онлайн – возможность протестировать себя прямо сейчас

. ..

Самостоятельный тест уровня интеллекта

…

Возникновение тестирования

…

Надежность и валидность измерения – Методы исследования в психологии – 2-е канадское издание

Глава 5: Психологическое измерение

Определить надежность, включая различные типы и способы их оценки.
Определить достоверность, включая различные типы и способы их оценки.
Опишите виды доказательств, которые будут иметь отношение к оценке надежности и обоснованности конкретной меры.

Опять же, измерение включает в себя присвоение баллов отдельным лицам, чтобы они отражали некоторые характеристики людей. Но откуда исследователи узнают, что баллы на самом деле отражают характеристику, особенно когда речь идет о таком конструкте, как интеллект, самооценка, депрессия или объем оперативной памяти? Ответ заключается в том, что они проводят исследование с использованием меры, чтобы подтвердить, что оценки имеют смысл, исходя из их понимания измеряемой конструкции. Это чрезвычайно важный момент. Психологи не просто предполагают , что их меры работают. Вместо этого они собирают данные, чтобы продемонстрировать , что они работают. Если их исследование не показывает, что мера работает, они перестают ее использовать.

В качестве неформального примера представьте, что вы сидите на диете уже месяц. Ваша одежда кажется более свободной, и несколько друзей спрашивали, похудели ли вы. Если бы в этот момент ваши весы в ванной показывали, что вы потеряли 10 фунтов, это имело бы смысл, и вы продолжали бы пользоваться весами. Но если бы оно указывало на то, что вы набрали 10 фунтов, вы бы правильно заключили, что оно сломано, и либо починили бы его, либо избавились от него. При оценке метода измерения психологи учитывают два основных аспекта: надежность и валидность.

относится к согласованности показателя. Психологи рассматривают три типа согласованности: во времени (надежность повторного тестирования), между элементами (внутренняя согласованность) и между разными исследователями (межэкспертная надежность).

Надежность повторных испытаний
Когда исследователи измеряют конструкт, который, по их мнению, неизменен во времени, полученные ими баллы также должны быть постоянными во времени. насколько это действительно так. Например, обычно считается, что интеллект неизменен во времени. Человек, который очень умен сегодня, будет очень умным на следующей неделе. Это означает, что любая хорошая мера интеллекта должна дать этому человеку примерно такие же оценки на следующей неделе, как и сегодня. Ясно, что мера, которая дает крайне противоречивые оценки во времени, не может быть очень хорошей мерой конструкции, которая должна быть последовательной.
Оценка надежности повторного тестирования требует одновременного использования показателя для группы людей, повторного использования его для той же группы людей позднее, а затем просмотра двух наборов оценок. Обычно это делается путем графического отображения данных на диаграмме рассеяния и вычисления r Пирсона. На рис. 5.2 показана корреляция между двумя наборами оценок нескольких студентов университета по шкале самооценки Розенберга, проведенных два раза с интервалом в неделю. Коэффициент Пирсона для этих данных равен +,9.5. В целом считается, что корреляция между тестом и повторным тестом +,80 или выше указывает на хорошую надежность.
Рисунок 5.2. Корреляция между двумя наборами оценок нескольких студентов колледжа по шкале самооценки Розенберга, полученных два раза в неделю с интервалом 90 002 Опять же, высокая корреляция между тестом и повторным тестированием имеет смысл, когда предполагается, что измеряемый конструкт непротиворечив на протяжении время, что имеет место для интеллекта, самооценки и личностных параметров Большой пятерки. Но другие конструкции не считаются стабильными во времени. Например, сама природа настроения такова, что оно меняется. Таким образом, мера настроения, которая показала низкую корреляцию между тестами и повторными тестами в течение месяца, не должна вызывать беспокойства.
Внутренняя согласованность
Второй вид надежности – это постоянство ответов людей по пунктам измерения, состоящего из нескольких пунктов. В целом предполагается, что все пункты таких показателей отражают одну и ту же базовую конструкцию, поэтому баллы людей по этим пунктам должны коррелировать друг с другом. По шкале самооценки Розенберга люди, согласные с тем, что они достойные люди, должны склонны соглашаться с тем, что они обладают рядом хороших качеств. Если ответы людей на разные элементы не коррелируют друг с другом, то больше не имеет смысла утверждать, что все они измеряют одну и ту же лежащую в основе конструкцию. Это верно как для поведенческих и физиологических показателей, так и для показателей самоотчетов. Например, люди могут сделать серию ставок в смоделированной игре в рулетку, чтобы измерить уровень своего стремления к риску. Этот показатель будет внутренне непротиворечивым в той мере, в какой ставки отдельных участников были неизменно высокими или низкими в ходе испытаний.
Как и надежность повторных испытаний, внутреннюю согласованность можно оценить только путем сбора и анализа данных. Один из подходов – просмотреть файл . Это включает в себя разделение элементов на два набора, таких как первая и вторая половины элементов или элементы с четными и нечетными номерами. Затем для каждого набора элементов вычисляется оценка, и проверяется взаимосвязь между двумя наборами оценок. Например, на Рисунке 5.3 показана корреляция с разделением пополам между баллами нескольких студентов университетов по четным пунктам и их баллами по нечетным пунктам Шкалы самооценки Розенберга. Пирсон r для этих данных +,88. Половинная корреляция +,80 или выше обычно считается хорошей внутренней согласованностью.
Рис. 5.3. Корреляция с разделением пополам между оценками нескольких студентов колледжа по четным пунктам и их оценками по нечетным пунктам шкалы самооценки Розенберга статистика называется (греческая буква альфа). Концептуально α является средним значением всех возможных корреляций разделения пополам для набора элементов. Например, существует 252 способа разделить набор из 10 предметов на два набора по пять. α Кронбаха будет средним из 252 разделенных пополам корреляций. Обратите внимание, что это не то, как на самом деле вычисляется α, но это правильный способ интерпретации значения этой статистики. Опять же, значение +,80 или выше обычно считается показателем хорошей внутренней согласованности.
Межоценочная надежность
Многие поведенческие показатели требуют значительных суждений со стороны наблюдателя или оценщика. насколько разные наблюдатели последовательны в своих суждениях. Например, если вы заинтересованы в измерении социальных навыков студентов университета, вы можете сделать видеозаписи их общения с другим студентом, которого они встречают впервые. Затем вы можете попросить двух или более наблюдателей посмотреть видео и оценить уровень социальных навыков каждого учащегося. В той мере, в какой каждый участник действительно обладает определенным уровнем социальных навыков, который может быть обнаружен внимательным наблюдателем, оценки разных наблюдателей должны сильно коррелировать друг с другом. Межэкспертная надежность также могла быть измерена в исследовании Бандуры с куклой Бобо. В этом случае оценки наблюдателями того, сколько актов агрессии совершил конкретный ребенок во время игры с куклой Бобо, должны были иметь высокую положительную корреляцию. Надежность между экспертами часто оценивается с использованием коэффициента Кронбаха, когда суждения количественные, или аналогичного статистического показателя, называемого коэновским κ (греческая буква каппа), когда они категоричны.
– это степень, в которой оценки меры представляют переменную, для которой они предназначены. Но как исследователи делают это суждение? Мы уже рассмотрели один фактор, который они учитывают, — надежность. Когда мера имеет хорошую надежность повторного тестирования и внутреннюю согласованность, исследователи должны быть более уверены в том, что оценки представляют то, что они должны представлять. Однако это должно быть нечто большее, потому что мера может быть чрезвычайно надежной, но не иметь никакой достоверности. В качестве абсурдного примера представьте себе человека, который считает, что длина указательного пальца человека отражает его самооценку, и поэтому пытается измерить самооценку, поднося линейку к указательным пальцам людей. Хотя эта мера будет иметь чрезвычайно хорошую надежность при повторном тестировании, она будет абсолютно недействительной. Тот факт, что указательный палец одного человека на сантиметр длиннее, чем у другого, ничего не говорит о том, у кого из них выше самооценка.
Обсуждения валидности обычно делят ее на несколько различных «типов». Но хороший способ интерпретировать эти типы состоит в том, что они представляют собой другие виды доказательств — в дополнение к надежности — которые следует принимать во внимание при оценке достоверности меры. Здесь мы рассматриваем три основных вида: валидность лица, валидность содержания и валидность критерия.
Проверка лица
— это степень, в которой метод измерения выглядит «на первый взгляд» для измерения интересующей конструкции. Большинство людей ожидает, что анкета самооценки будет включать вопросы о том, считают ли они себя достойным человеком и считают ли они себя хорошими качествами. Таким образом, анкета, включающая такие пункты, будет иметь хорошую внешнюю валидность. С другой стороны, метод измерения самооценки по длине пальца, по-видимому, не имеет ничего общего с самооценкой и, следовательно, имеет низкую кажущуюся валидность. Хотя кажущаяся валидность может быть оценена количественно — например, когда большая выборка людей оценивает меру с точки зрения того, измеряет ли она то, для чего предназначена, — ее обычно оценивают неформально.
Лицевая валидность — это в лучшем случае очень слабое доказательство того, что метод измерения измеряет то, что он должен измерять. Одна из причин заключается в том, что он основан на интуитивных представлениях людей о человеческом поведении, которые часто ошибочны. Также верно и то, что многие общепризнанные меры в психологии работают достаточно хорошо, несмотря на то, что им не хватает внешней достоверности. Миннесотский многофазный личностный опросник-2 (MMPI-2) измеряет многие личностные характеристики и расстройства, предлагая людям решить, применимо ли к ним каждое из более чем 567 различных утверждений, причем многие утверждения не имеют никакого очевидного отношения к конструкту, который они измеряют. . Например, пункты «Мне нравятся детективы или детективы» и «Вид крови не пугает и не вызывает у меня тошноты» измеряют подавление агрессии. В данном случае интерес представляют не буквальные ответы участников на эти вопросы, а то, соответствует ли шаблон ответов участников на ряд вопросов ответам людей, склонных подавлять свою агрессию.
Проверка содержимого
— это степень, в которой мера «покрывает» интересующую конструкцию. Например, если исследователь концептуально определяет тестовую тревожность как активацию симпатической нервной системы (ведущую к нервным переживаниям) и негативные мысли, то его мера тестовой тревожности должна включать пункты, касающиеся как нервных переживаний, так и негативных мыслей. Или учтите, что отношения обычно определяются как включающие мысли, чувства и действия по отношению к чему-либо. Согласно этому концептуальному определению, человек позитивно относится к физическим упражнениям в той мере, в какой он или она позитивно мыслит об упражнениях, чувствует себя хорошо во время упражнений и действительно занимается ими. Таким образом, чтобы иметь хорошую содержательную валидность, мера отношения людей к физическим упражнениям должна отражать все три аспекта. Как и внешняя валидность, содержательная валидность обычно не оценивается количественно. Вместо этого он оценивается путем тщательной проверки метода измерения на соответствие концептуальному определению конструкции.
Критерий достоверности
– это степень, в которой оценки людей по какому-либо показателю коррелируют с другими переменными (известными как ), с которыми можно было бы ожидать их корреляции. Например, результаты людей по новому показателю тестовой тревожности должны иметь отрицательную корреляцию с их успеваемостью на важном школьном экзамене. Если бы было обнаружено, что баллы людей на самом деле отрицательно коррелируют с их успеваемостью на экзамене, то это было бы доказательством того, что эти баллы действительно отражают тревожность людей перед экзаменами. Но если бы было обнаружено, что люди получают одинаковые результаты на экзамене независимо от их оценки тревожности во время теста, это поставило бы под сомнение достоверность измерения.
Критерием может быть любая переменная, которая, как есть основания полагать, должна коррелировать с измеряемым конструктом, и обычно их будет много. Например, можно было бы ожидать, что показатели тревожности при тестировании будут отрицательно коррелировать с успеваемостью на экзамене и оценками за курс и положительно коррелировать с общей тревожностью и кровяным давлением во время экзамена. Или представьте, что исследователь разрабатывает новую меру физического риска. Баллы людей по этому показателю должны коррелировать с их участием в «экстремальных» видах деятельности, таких как катание на сноуборде и скалолазание, количеством полученных ими штрафов за превышение скорости и даже количеством переломов костей, которые они получили за эти годы. Когда критерий измеряется одновременно с конструктом, валидность критерия оценивается как 9.0075 ; однако, когда критерий измеряется в какой-то момент в будущем (после того, как конструкт был измерен), он упоминается как (поскольку баллы по показателю «предсказали» будущий результат).
Критерии могут также включать другие меры той же конструкции. Например, можно было бы ожидать, что новые показатели тестовой тревожности или принятия физического риска будут положительно коррелировать с существующими показателями тех же конструктов. Это известно как .
Для оценки конвергентной валидности требуется сбор данных с использованием показателя. Исследователи Джон Качиоппо и Ричард Петти сделали это, когда создали свою шкалу самооценки потребности в познании, чтобы измерить, насколько люди ценят мышление и участвуют в нем (Cacioppo & Petty, 19).82) ^[1] . В серии исследований они показали, что баллы людей положительно коррелируют с их баллами по стандартизированному тесту успеваемости и что их баллы отрицательно коррелируют с их баллами по показателю догматизма (что представляет собой тенденцию к послушанию). За годы, прошедшие с момента ее создания, шкала потребности в познании использовалась буквально в сотнях исследований, и было показано, что она коррелирует с широким спектром других переменных, включая эффективность рекламы, интерес к политике и решения присяжных. (Петти, Бриньоль, Лёрш и Маккаслин, 2009 г.) ^[2] .
Дискриминантная достоверность
, с другой стороны, – это степень, в которой баллы по показателю , а не коррелируют с показателями переменных, которые концептуально различны. Например, самооценка — это общее отношение к себе, которое довольно стабильно во времени. Это не то же самое, что настроение, то есть то, насколько хорошо или плохо человек себя чувствует в данный момент. Таким образом, оценки людей по новому показателю самооценки не должны сильно коррелировать с их настроением. Если бы новая мера самооценки была сильно коррелирована с мерой настроения, можно было бы утверждать, что новая мера на самом деле не измеряет самооценку; вместо этого он измеряет настроение.
Создавая Шкалу потребности в познании, Качиоппо и Петти также предоставили доказательства дискриминантной валидности, показав, что баллы людей не коррелируют с некоторыми другими переменными. Например, они обнаружили лишь слабую корреляцию между потребностью людей в познании и мерой их когнитивного стиля — степенью, в которой они склонны мыслить аналитически, разбивая идеи на более мелкие части или целостно с точки зрения «большой картины». Они также не обнаружили корреляции между потребностью людей в познании и показателями их тестовой тревожности и их тенденцией реагировать социально желательными способами. Все эти низкие корреляции свидетельствуют о том, что показатель отражает концептуально отличный конструкт.
Исследователи-психологи не просто предполагают, что их измерения работают. Вместо этого они проводят исследования, чтобы показать, что они работают. Если они не могут показать, что они работают, они перестают их использовать.
Существует два различных критерия, по которым исследователи оценивают свои измерения: надежность и достоверность. Надежность — это согласованность во времени (надежность при повторном тестировании), между элементами (внутренняя согласованность) и между исследователями (надежность между разными группами). Валидность — это степень, в которой оценки действительно представляют переменную, для которой они предназначены.
Обоснованность — это суждение, основанное на различных видах доказательств. Соответствующее свидетельство включает в себя надежность показателя, охватывает ли он интересующий конструкт и коррелируют ли полученные с его помощью оценки с другими переменными, с которыми они, как ожидается, будут коррелировать, и не коррелируют с переменными, которые концептуально различны.
Надежность и валидность измерения определяется не каким-либо одним исследованием, а последовательностью результатов нескольких исследований. Оценка надежности и валидности является непрерывным процессом.
Практика: попросите нескольких друзей заполнить шкалу самооценки Розенберга. Затем оцените его внутреннюю согласованность, построив диаграмму рассеяния, чтобы показать корреляцию разделения пополам (четные и нечетные элементы). Вычислите также Pearson r , если знаете как.
Обсуждение: Вспомните последний экзамен в колледже, который вы сдавали, и подумайте об экзамене как о психологической мере. Как вы думаете, для измерения какой конструкции он предназначался? Прокомментируйте его внешний вид и действительность содержания. Какие данные вы могли бы собрать, чтобы оценить их надежность и валидность критериев?
Качиоппо, Дж. Т., и Петти, Р. Э. (1982). Потребность в познании. Журнал личности и социальной психологии, 42 , 116–131. ↵
Петти, Р. Э., Бриньоль, П., Лёрш, К., и Маккаслин, М. Дж. (2009). Потребность в познании. В MR Leary & RH Hoyle (Eds.), Справочник по индивидуальным различиям в социальном поведении (стр. 318–329). Нью-Йорк, штат Нью-Йорк: Guilford Press. ↵
Валидность психолого-педагогических тестов | Рафаэль Вальдес Соуза Бастос
Как убедиться, что ваши измерения психологических характеристик достоверны
Фото Celpax на Unsplash
В физике у нас часто есть инструмент, который существует физически и измеряет физические свойства. Например, инструмент, измеряющий длину, использует это свойство (то есть длину) для измерения длины другого объекта. Поэтому нет необходимости доказывать, что это свойство конгруэнтно такому же свойству измеряемого объекта.
Однако в некоторых случаях это не так однозначно. Например, если мы измеряем скорость с помощью эффекта Доплера, где инструментом является приближение/расстояние спектральных линий галактических огней. В этом случае у нас возникает проблема достоверности инструмента, потому что нам нужно знать, правда ли, что расстояние между спектральными линиями связано со скоростью. Для этого надо доказать эмпирически. Валидность распространена в областях знаний, в которых используются косвенные меры. То же самое, что происходит с эффектом Доплера, очень распространено в психосоциальных науках (например, в психологии, образовании), особенно если мы используем концепцию латентной черты (например, счастья, беспокойства, влечения).
С психологической точки зрения мы можем думать о скрытой черте (или конструкции) как о характеристике, которая находится у нас в голове. Эти характеристики, такие как чья-то личность, не могут быть оценены прямыми средствами. Вместо этого мы измеряем поведение человека и делаем вывод, что оно исходит из одного и того же места (т. е. характеристики нашего мозга).
Конечно, у нас есть много способов измерить латентные черты, самый распространенный способ — анкеты/опросы, где люди отвечают, например, по шкале от 1 (полностью согласен) до 5 (полностью не согласен). Допустим, мы собираемся измерить самоэффективность на рабочем месте. Мы разрабатываем элементы на основе определения самоэффективности, а дальше что? Как мы можем узнать, что означают результаты наших тестов? Является ли самоэффективность единым фактором или ее можно разделить на несколько аспектов? Это роль поиска достоверности, чтобы правильно измерить то, что мы хотим.
1900–1950: гегемония достоверности содержания
В то время в моде были теории личности. Большинство теорий (таких как психоаналитическая, гештальт и феноменология) в целом имели мало эмпирических рассуждений. В этом контексте тесты личностных черт считались действительными, поскольку содержание тестов соответствовало содержанию черт, определенных теоретически.
1950–1970: Преобладание валидности критерия
Бихевиоризм оказал большое влияние на психологию и, конечно же, на психометрию. Тесты были сделаны как образец поведения, который должен был предсказать другое поведение или будущее поведение. Эти тесты были валидны, если они точно предсказывали поведение в будущем (или в другом случае), становясь новым путем валидности (называемым валидностью критерия). Неважно, почему тест предсказал поведение, лишь бы они его предсказывали, и этого было достаточно для его достоверности. Как мы можем себе представить, это был побег от размышлений о теории, чтобы сосредоточиться на статистике. Вместо создания теста для измерения латентного признака элементы были выбраны из набора элементов, которые выглядело как , они ссылались на то, что хотели измерить, используя, в основном, статистический анализ для решения своих проблем.
1970 — Сегодня: рост конструктной валидности
После статьи Кронбаха и Миля 1955 г. о тринитарной модели валидности (содержание, критерий и конструкт) произошло изменение в способе мышления о валидности. Теория вернулась в игру из-за таких факторов, как:
Желание разработать теорию личности и интеллекта на эмпирических основаниях, используя факторный анализ.
Исследования познавательных процессов.
Исследования информационных процессов.
Неудовлетворенность результатами тестирования Использование в учебных и рабочих ситуациях.
Влияние теории отклика предметов.
Акцент в отношении валидности психологических инструментов был сделан на конструктной валидности. Итак, содержание и валидность критерия — это просто аспекты валидности конструкции.
классическое определение валидности: «когда тест измеряет то, что предполагается измерять, что тест измеряет и насколько хорошо он измеряет». Однако классическое определение делает тесты похожими на действительные или недействительные. Чтобы изменить эту дихотомическую парадигму, действующее определение валидности — это «степень, в которой теория и фактические данные подтверждают интерпретацию результатов тестов. Таким образом, для каждого контекста/цели использования тестов и для каждой предполагаемой интерпретации необходимо, чтобы результаты тестов имели доказательства достоверности». Теперь мы можем сказать, что каждая мера имеет свою собственную степень достоверности.
Доказательства на основе содержимого
Собирать данные о представлении элементов теста, выясняя, являются ли они образцами области, которую они хотят измерить. Набор пунктов оценивается по его объему с учетом оценки предлагаемого построения. Как правило, это делается на основе оценки специалистов, где они оценивают важность элементов с учетом их связи с оцениваемыми аспектами. Можно использовать некоторые статистические тесты, такие как процент согласия и коэффициент Каппа.
Пример: В представленной статье Bastos et al. (2021) создали меру самоощущения предрассудков и дискриминации для различных социальных групп. Авторы использовали следующую процедуру для поиска достоверности на основе содержания:
Обзор литературы о существующих мерах предрассудков и дискриминации.
Предубеждение о себе определяется как представление о том, что человек является жертвой негативного отношения к себе, основанного на его социальной группе; и самовоспринимаемая дискриминация как представление о том, что человек является жертвой негативного и неоправданного поведения по отношению к себе на основании своей социальной группы.
На основе этих определений и предыдущих измерений авторы разработали новые элементы для других социальных групп.
После создания предметов они отправляли их экспертам (то есть психологам и специалистам по психометрии), чтобы они могли их оценить.
Основываясь на степени согласия, авторы выбрали девять пунктов для последующего анализа.
Доказательства, основанные на процессах реагирования
Собирать данные о психических процессах, связанных с выполнением заданных задач. Обычно речь идет об индивидуальном процессе реакции, и исследователи спрашивают оцениваемого человека о когнитивном пути, использованном для достижения данного результата. В качестве примера мы можем видеть, что Noble et al. (2014) искали такую достоверность в своем исследовании. Они обнаружили, что у изучающих английский язык (ELL) были более низкие результаты в тестах с высокими ставками по сравнению с не изучающими английский язык. На основе интервью они обнаружили, что
Взаимодействие учащихся ELL со специфическими лингвистическими особенностями тестовых заданий часто приводило к альтернативным интерпретациям заданий, что приводило к неправильным ответам.
Доказательства на основе внутренней структуры
Собирать данные о структуре корреляции элементов, оценивая один и тот же конструкт. Статистические тесты, которые часто используются, — это исследовательский факторный анализ (EFA), подтверждающий факторный анализ (CFA), исследовательское моделирование структурных уравнений.
В качестве примера можно использовать Selau et al. (2020) бумага. Авторы хотели измерить умственную отсталость детей в возрасте от 7 до 15 лет. Они исследовали внутреннюю структуру шкалы с помощью EFA и CFA следующей структуры:
Изображение автора.
Где элементы делятся на социальные, концептуальные и практические факторы, которые объясняются фактором более высокого порядка, называемым адаптивной функцией.
Данные, основанные на их связи с внешними переменными
Соберите данные о характере корреляции между результатами теста и другими переменными, измеряющими ту же или разные конструкции. Обычно для получения такой валидности исследователи используют корреляцию результатов теста с другими переменными. Этот тип валидности может быть:
Свидетельство способности инструмента прогнозировать оцениваемую конструкцию.
Когда у нас есть тесты, которые измеряют одно и то же конструируют , мы ожидаем, что они тесно связаны.
Когда у нас есть тесты, которые измеряют связанных конструкций , мы ожидаем, что они умеренно связаны.
Когда у нас есть тесты, измеряющие различных конструкций , мы ожидаем, что они не связаны между собой.
Беймер и др. (2021) разработали шкалу восприятия стоимости студентами колледжей. Они соотнесли элементы шкалы с представлениями и ценностями учащихся. Они ожидали (и обнаружили), что «затраты» отрицательно коррелируют с «ожиданиями» и «стоимостью» (вы можете увидеть определение каждой переменной в их статье).
Доказательства, основанные на последствиях тестирования
Изучите преднамеренные или непреднамеренные социальные последствия использования теста, чтобы проверить, дает ли его использование желаемый эффект в зависимости от причины, по которой он был создан. Тесты имеют этот тип валидности, если они используются по той же причине, для которой они были созданы. Хотя вы не можете предсказать, что люди будут делать с разработанным вами инструментом, необходимо обсудить обязанности авторов инструмента.
В качестве примера мы можем подумать о показателях IQ. Его целью является измерение интеллекта людей. Однако мы можем видеть, что иногда в истории IQ использовался для оправдания расизма.
Мы видим, что существует много шагов, чтобы гарантировать, что наша мера психологических черт имеет степень достоверности. Следуя этим процедурам, мы с большей уверенностью можем делать выводы о связи между психологическими чертами и другими переменными. На практике люди часто ищут только три типа достоверности: содержание, внутреннюю структуру и отношения с другими переменными. Я думаю, что есть две причины, почему это происходит:
Сложность поиска достоверности на основе процесса реагирования и последствий тестирования. Чтобы найти достоверность на основе процесса ответа, исследователи должны вкладывать больше времени и денег, опрашивая достаточное количество участников. Искать достоверность, основанную на последствиях тестирования, сложно. От авторов требуется думать и предсказывать его использование в ближайшем и отдаленном будущем, а некоторые последствия могут быть (почти) невозможными предсказать.
Авторы не считают своей работой поиск этих двух типов достоверности, потому что они оба: а) не считают своей обязанностью то, что люди делают со своей работой; б) считают, что их мера великолепна и не имеет недостатков, что может быть правдой, но есть много вещей, которые нужно рассмотреть, прежде чем сделать такой вывод, и эта вещь гарантирует, что некоторые другие предубеждения не влияют на результаты.
В заключение я ожидаю, что теперь вы немного больше убеждены в том, что психологические и образовательные исследования имеют свою степень достоверности, основанную на эмпирических и теоретических основаниях. Я ожидаю, что за всем было легко следить, спасибо, что читали до сих пор.
Не стесняйтесь обращаться ко мне по телефону
Gmail: rafavsbastos@gmail.