Валидность теста в психологии это: Валидность психологических тестов, или Всегда ли можно доверять тестам?

Содержание

Валидность психологических тестов, или Всегда ли можно доверять тестам?

Многие из нас в этой жизни хотя бы несколько раз проходили тесты по психологии. Кто-то это делал из любопытства, случайно наткнувшись в Интернете на «заманушку» вроде «узнайте свой тип личности». Кто-то серьезно подошел к вопросу профориентации и заранее решил объективно оценить свои склонности к выбранной профессии или же подумать о профессии, исходя из выявленных способностей.

А кому-то предложили пройти тестирование на приеме у психолога или психотерапевта, к которому пришлось обратиться, чтобы подправить здоровье или найти выход из затруднительной жизненной ситуации. В итоге отношение к тестам по психологии у всех разное, от глубокого интереса и желания проходить больше тестов, хороших и разных, до резкого неприятия и обобщений наподобие «это все ерунда».

Где же правда и есть ли какой-то толк от психологических тестов в реальности? Правда, как всегда, где-то посередине, а ответ на вопрос «Есть ли какой-то толк?» нужно искать в таком понятии, как «валидность психологических тестов».

Вы и сами всегда сумеете докопаться до истины, если пройдете нашу программу «Когнитивистика». А понимать людей на невербальном уровне безо всякого тестирования вы научитесь на программе «Профайлинг». Прохождение программ может занять пару месяцев, а пока мы предлагаем вам поговорить про надежность и валидность психологических тестов и их пригодность для определения различных психологических характеристик человека.

Валидность психологического теста: что это такое?

Для начала уточним, что означает понятие «валидность психологического теста», и попытаемся объяснить это простыми словами. Итак, валидностью психологического теста называется способность теста определять и измерять те показатели, для определения и измерения которых данный тест разработан.

Условно говоря, тестом на определение типов личности не стоит пытаться определить степень эмоционального выгорания человека. Аналогично тому, как тестами по английскому языку не стоит пытаться определить уровень знаний по математике, или тестами по математике за 11-й класс не нужно определять уровень знаний программы за 9 классов.

Помимо этого, есть еще один важный момент. Тесты по психологии имеют разное назначение. Мы начали с того, что разным людям приходится сталкиваться с психологическими тестами при разных обстоятельствах. Кем-то движет любопытство и желание узнать, условно говоря, «кто я такой». А кому-то жизненно важно докопаться до причин своего неблагополучного психологического состояния и найти пути выхода из него.

Понятно, что для удовлетворения любопытства и диагностики психологического состояния нужны не только разные тесты, но и разная направленность тестирования, разная степень детализации вопросов и, само собой, разная степень точности измерений. Психологический тест – это практически всегда измерение. Кто проходил, тот знает, что результат обычно представляют в баллах, очках, процентах. Проще говоря, в неких исчисляемых единицах.

Разумеется, при любом измерении возможны неточности или погрешности. Если вы просто любопытствуете, являетесь ли вы сангвиником или, скорее, флегматиком, разные тесты могут дать разный результат, а истина, как всегда, может оказаться где-то посередине. Это нормально, потому что людей, у которых были бы выражены исключительно черты сангвиника или флегматика и совсем не было бы качеств, присущих, к примеру, меланхоликам, не так много.

Да и сам факт, что ваше любопытство не будет удовлетворено в полной мере и заставит вас либо искать другие тесты, либо забросить затею с тестированием, вряд ли может иметь какие-то далеко идущие последствия для душевного здоровья.

А вот если психотерапевту приходится иметь дело с пограничным расстройством и нужно понять, требуется ли пациенту медикаментозное лечение или можно ограничиться психотерапевтическими сеансами, здесь точность измерений различных параметров при тестировании обретает принципиально важное значение.

Более глубоко вникнуть в тему и содержание понятия валидности психологических тестов позволяют узкоспециальные научные издания [И. Кондаков, 2007]. А также публикации в специализированных журналах по психологи [Х. Гессман, Е. Шеронов, 2013]. А мы продолжим тему и поговорим о типах валидности психологических тестов.

Типы валидности психологических тестов

Итак, мы уже разобрались, что валидность включает в себя множество разных аспектов. Теперь посмотрим, какие бывают типы валидности и что они означают.

Основные типы валидности:

Практическая валидность – возможность достижения с помощью тестирования конкретной цели (поставить диагноз, сделать прогноз, выдать рекомендации).
Прогностическая валидность как разновидность практической – возможность прогнозировать род той или иной деятельности в исполнении испытуемого.
Совпадающая валидность как разновидность практической – диагностика наличия у человека некоего качества или характеристики в текущий момент времени.
Оценочная валидность – корреляция между результатами теста и мнением экспертов.
Валидность генерализации, она же репрезентативность – на какие категории людей или ситуаций можно распространить результаты исследования.
Валидность критерия – складывается из понятия «совместная валидность» и «предиктивная валидность».
Совместная валидность – существует ли связь между результатом теста и прочими проявлениями свойства.
Предиктивная валидность – насколько итог теста позволяет прогнозировать развитие исследуемого качества.
Относительная валидность – соответствие результатам аналогичных тестов, предназначенным для измерения аналогичных показателей.
Эмпирическая валидность – соответствие выбранной методики тестирования опыту и знаниям человека.
Дискриминантная валидность – разновидность эмпирической, подразумевающая статистическую независимость тестовых показателей, направленных на измерение несвязанных характеристик.

Если почему-либо все вышеизложенное кажется сложным, заметим, что это не совсем так. Мы уже начали говорить, к примеру, об эмпирической валидности, только более простыми словами. В частности, когда сказали, что нельзя измерять уровень знаний за 9 класс тестами за программу средней школы. Тест за программу 11 классов не будет соответствовать опыту и знаниям школьника, полученным за 9 лет учебы.

Можно объяснить простыми словами и понятие оценочной валидности или степени корреляции между показателями, полученными испытуемым, и оценками экспертов. Так, если во время ЕГЭ школьник получает баллы намного выше или намного ниже, чем текущие и итоговые оценки в школе, выставляемые учителями (экспертами), есть все основания заподозрить, что тест не является валидным.

Это совсем общий пример, потому что в наших реалиях в этой ситуации можно заподозрить еще и коррупционную составляющую, когда высокие оценки ставят за деньги и потихоньку «гнобят» тех, чьи родители не могут оплатить вожделенные баллы. Итоги ЕГЭ пока что купить сложнее, поэтому такие вещи как раз и всплывают во время независимого тестирования. Но принцип, думается, понятен.

Точно так можно объяснить попроще понятие дискриминантной валидности. Например, корреляция между результатами теста на скорость чтения и теста на уровень мотивации будет крайне низкой, потому что способность к скорочтению мало связана с мотивацией, разве что с частным случаем мотивации научиться быстро читать. А вот если путем тестирования выявить ценностные ориентиры человека, тогда до выявления факторов, усиливающих мотивацию человека к каким-либо действиям, останется один шаг.

Для тех, кому и эти объяснения кажутся скучными и запутанными, поясним суть понятия «валидность психологического теста» совсем простым примером. Когда-то давно, в эпоху до изобретения мини-камер видеонаблюдения и GPS-трекеров, была популярной шутка про эксперимент ученых, исследовавших жизнь бродячих собак. Ученые закрепили на голове у собак видеокамеру и выяснили, что 90% всего времени собаки пытаются избавиться от камеры у себя на голове, а 10% времени убегают от ученых, которые их ловят, чтобы поменять разрядившийся аккумулятор.

Разумеется, в естественных условиях «рабочий день» бродячей собаки выглядит совсем иначе, потому что в естественных условиях у нее нет на голове мешающей камеры. Поэтому релевантность полученных в результате такого эксперимента данных стремится к нулю, а дело тут в неправильно выбранном методе исследования. Это, еще раз уточним, шутка, однако она весьма наглядно демонстрирует важность правильного выбора метода оценки тех или иных характеристик. Иначе валидность психологического теста будет низкой.

Желающим узнать больше о разных типах валидности можем рекомендовать научное исследование Validity of psychological assessment: Validation of inferences from persons’ responses and performances («Валидность психологической оценки: проверка выводов, сделанных на основе ответов и действий людей») [S. Messick, 1995].

Заметим, что исследования типологии валидности психологических тестов ведутся уже много десятилетий. Одной из первых серьезных работ в данном направлении стала статья Convergent and discriminant validation by the multitrait-multimethod matrix («Конвергентная и дискриминантная проверка по матрице мультипризнаков-мультиметодов») [D. Campbell, D. Fiske, 1959].

Это для тех, кто хочет знать больше, а мы далее обсудим, какие факторы влияют на валидность психологического теста. Если речь идет про валидность и надежность психологического теста, контрольная работа, план научной статьи, содержание публикации всегда включают в себя пункт, касающийся факторов, влияющих на валидность теста.

Факторы, влияющие на валидность психологического теста

Как вы уже поняли, составление психологических тестов, способных измерить требуемую характеристику, задача не такая уж простая. Достаточно посмотреть «Справочное руководство по конструированию тестов» объемом почти в 300 страниц, чтобы увидеть, сколько важных факторов нужно учесть при этом [П. Клайн, 1994]. Если кратко, формирование теста с высокой валидностью должно пройти несколько этапов и соответствовать ряду критериев:

Четкое указание категории лиц, на которых рассчитан тест.
Внятный список характеристик, качеств, знаний, прочих параметров, которые призван определить тест.
Наличие внешней экспертизы на предмет полноты и обоснованности определяемых параметров.
Задания и вопросы, адекватные поставленной задаче.
Внешняя экспертиза составленных заданий и вопросов на предмет соответствия поставленной задаче.

Только после этого можно приступать к формированию окончательного варианта теста. Тогда есть все шансы поднять валидность психологического теста настолько, чтобы можно было полностью доверять полученным результатам.

Еще важнее при составлении теста не допустить грубых ошибок, сразу снижающих валидность теста. Какие же факторы нужно учесть, чтобы достичь максимальной валидности теста? Для начала следует помнить, что испытуемый – живой человек со своими взглядами, убеждениями и предрассудками, почти всегда склонный к конформному социально ожидаемому поведению и стремящийся получить групповое подкрепление своему мнению. И браться за составление теста, исходя из понимания данных факторов.

Топ-7 факторов, ухудшающих валидность психологического теста:

Стремление давать социально ожидаемые ответы и желание представить себя в лучшем свете, поэтому вопросы следует составлять так, чтобы социально ожидаемый ответ не был очевиден.
Конформность и стремление соглашаться, выбирая положительный ответ, поэтому вопросы следует формулировать и чередовать так, чтобы сплошные «да» не могли нивелировать результат исследования.
Преднамеренно отрицательный ответ, если это позволяет выделиться, получить награду, оказаться в центре внимания, поэтому вопросы не должны провоцировать протестные ответы.
Культурное смещение, когда одно и то же качество, термин, понятие могут иметь разное наполнение для разных культур и религий. Это важно иметь в виду, если тест планируется использовать в мультикультурной и полиэтничной среде.
Гендерное смещение, когда одно и то же явление по-разному воспринимается и оценивается мужчинами и женщинами.
Тестовое смещение, когда тест, пригодный для абсолютного большинства людей, может оказаться не пригодным для оценки людей, ведущих принципиально иной образ жизни (например, жителей глухих горных аулов или регионов Крайнего Севера).

Смещение в предпосылках, когда составитель теста экстраполирует свои взгляды и оценки на всех, кто будет проходить тест, и считает, что они будут давать ответы, исходя из тех же взглядов и оценок.

Многие факторы взаимосвязаны между собой. Например, гендерное смещение, когда одно и то же явление по-разному воспринимается и оценивается мужчинами и женщинами, может спровоцировать смещение в предпосылках, когда тест составляет мужчина и думает, что женщины будут воспринимать составленные им вопросы точно так же, как и мужчины.

И, наконец, еще один аспект, который хотелось бы обсудить в контексте темы валидности психологических тестов. Очень часто в специальной литературе можно увидеть, что такие понятия, как валидность и надежность психологического теста употребляются вместе. Что такое «надежность психологического теста» и как она связана с валидностью? Давайте разбираться.

Валидность и надежность психологического теста: как они соотносятся?

Для начала уточним, что такое надежность психологического теста. Под надежностью теста подразумевается стабильность и воспроизводимость результатов, полученных в результате применения теста в аналогичных обстоятельствах.

Например, если психологический тест применяется для групп, одинаковых по возрастному, гендерному и социальному составу, результат должен быть примерно одинаковым с отклонением в пределах статистической погрешности. Для групп, отличающихся по гендерным и возрастным признакам, культурно-образовательному уровню результаты могут отличаться, и это нормально.

Надежность психологического теста может считаться достаточно высокой, если измерения дают относительно стабильные результаты для одного и того же человека при повторном тестировании. Или же результат, отличный от первоначального с учетом корреляционного коэффициента, если наличествуют факторы, способные объективно повлиять на исследуемые характеристики.

Так, например, отслеживают прогресс в ходе психотерапевтических процедур, потому что психокоррекция – дело небыстрое, однако при правильно подобранной методике прогресс всегда заметен. Надежный тест позволяет с высокой степенью достоверности установить, насколько верно подобрано лечение и/или комплекс психотерапевтических процедур.

Правда, у повторной или ретестовой проверки имеются некоторые издержки. Например, у человека может меняться настроение или самочувствие, а под их влиянием в разное время вероятны разные ответы на одни и те же вопросы. Кроме того, испытуемый может запомнить «правильные» или социально ожидаемые ответы на те или иные вопросы теста, и при повторном тестировании стараться «подстроиться» под них и представить себя в лучшем свете. Поэтому некоторые отклонения, связанные собственно с процессом тестирования, всегда возможны.

Итак, как же соотносятся валидность и надежность психологического теста? В идеале, тест должен быть и надежным, и валидным. В реальности это не всегда так. Мы уже приводили самый простой шутливый пример с исследованием поведения бродячих собак. Тест не валидный, однако, при этом обладает высокой степенью воспроизводимости. Практически каждый пес, которому на голову крепят посторонний предмет, пытается от него избавиться. Так что если бы требовалось составить валидный тест на исследование реакции на посторонний предмет на голове животного, можно считать, что такой тест уже готов.

Так или иначе, валидность и надежность психологического теста – это связанные понятия. Валидность подразумевает однозначность получаемых результатов и достоверность измерения того или иного психологического свойства, качества, характеристики. Надежность – это, если можно так выразиться, «устойчивость процедуры относительно объекта исследования». Надежность, как мы уже разобрались, не всегда предполагает валидность, однако валидность предполагает надежность.

Это самое главное, что следует знать о соотношении надежности и валидности. Всем, кто хочет разобраться в теме более глубоко, можем порекомендовать статью Reliability & Validity in Psychology: Definitions & Differences («Надежность и валидность в психологии: определения и различия») [D. Cloud, 2021].

Также весьма интересен в этом плане материал Psychometric Properties of a Test: Reliability, Validity and Norming («Психометрические свойства теста: надежность, валидность и нормирование») [N. Muralidharan, 2018]. Мы же в который раз на страницах нашего блога напоминаем, что никакой результат даже самого надежного и полностью валидного теста не может быть приговором и тем более основанием для постановки диагноза.

Если вас что-то беспокоит в вашем душевном или физическом состоянии, лучшим вариантом будет консультация высококвалифицированного психолога. Хорошим шагом на пути к самосовершенствованию и улучшению собственных психологических характеристик станут наши программы «Самопознание», «Когнитивистика» и «Профайлинг», набор на которые продолжается в настоящее время.

Мы желаем вам спокойствия и душевного равновесия во всех ваших жизненных обстоятельствах. И просим ответить на вопрос по теме статьи:

Ключевые слова:1Когнитивистика, 1Профайлинг

Валидность психологических тестов. Виды валидности.

К основным психометрическим характеристикам тестов относятся, в первую очередь, валидность и надежность.

Валидность – это свойство теста измерять именно то, для чего он предназначен.

Например, мы можем определить что «знание математики» соответствует высоким баллам, полученным по математическим тестам. Но если все задания состоят из простых арифметических задач, то тест будет определять, насколько человек быстро считает. Таким образом, важно понимание того насколько рабочее определение измеряемой величины соответствует концептуальному определению. Достичь абсолютной валидности нельзя. Можно лишь пытаться максимально улучшить валидность в каждом конкретном случае, исходя из критериев, значимых для этого случая.

Существуют разные

типы и виды валидности:

Практическая валидность характеризует тест не столько со стороны его психологического содержания, сколько с точки зрения его ценности в отношении достижения определенной практической цели (прогнозирования, диагностики). Выделяют подтипы практической валидности: прогностическая и совпадающая. Тест с высокой прогностической валидностью позволяет сделать прогноз, насколько успешно испытуемый будет выполнять определенную деятельность впоследствии. Тест с высокой совпадающей валидностью позволяет ответить на вопрос: «Какова вероятность того, что индивид Х обладает свойством У в настоящий момент времени?» Валидность по объему отражает степень, в какой объем теста выборочно репрезентирует тот класс ситуаций или учебного материала, относительно которого должны быть сделаны выводы и показывает, в каком объеме, в какой мере знание чего-либо отражено в методике. Оценочная валидность выражает степень корреляции (соответствия) между показателями, полученными испытуемыми по данному методу, и оценками измерительного свойства со стороны экспертов. Например, при валидизации (проверке теста на валидность) тестов оценки знаний школьников в качестве экспертов обычно выступают учителя. Внешняя валидность означает, что впечатление, которое создается при знакомстве с сугубо внешней стороной тестирования, соответствует заявленному содержанию метода. Это наименее важный аспект валидности, так как требует дополнительной проверки валидности другими методами. В некоторых случаях исследователи специально ухудшают внешнюю валидность, например, для измерения социально нежелательных характеристик (таких как расизм). Внутренняя валидность – это необходимое условие возможности интерпретации результатов теста, она спрашивает: «Не изменились ли условия эксперимента в данном случае?» Факторы ухудшающие внутреннюю валидность: 1. История: некое событие произошло между первым и вторым измерением в дополнение к экспериментальным переменным. 2. Развитие: процесс внутри испытуемых, как функция от времени (не специфический к частным событиям), например, взросление, усиление чувства голода, усталость и т.д. 3. Тестирование: эффект первого тестирования влияет на баллы второго. 4. Инструменты: изменение в наблюдателях или способах получения баллов могут влиять на наблюдаемые величины.5. Статистическая регрессия: в случае, если работа идет с группами, отобранными на основе экстремальных значений балов.6. Выбор: смещение, возникающее в результате дифференцированного выбора респондентов в пары для сравнения. 7. Выбывание: дифференциальная потеря респондентов из сравниваемых групп.Валидность генерализации (репрезентативность), задает вопрос о том, на кого мы можем распространить результаты эксперимента. Факторы ухудшающие репрезентативную валидность: 1. Реагирующий или взаимодействующий эффект тестирования: значения первого теста могут возрасти.2. Эффект взаимодействия смещения выбора и экспериментальных переменных.3. Эффект экспериментальной подготовки, который будет препятствовать распространению результата на людей, которые тестируются в не-экспериментальном окружении.4. Эффект многократной обработки, когда эффект предыдущих тестов не стирается. Валидность критерия состоит из двух частей:Совместная валидность: «Есть ли какая-либо связь между мерой и другими проявлениями свойства, которого этот тест должен измерить?».Предиктивная валидность: «Предсказывает ли тест уровень развития данной конкретной способности?»

Относительная валидность: важно знать насколько результаты данного теста соответствуют результатам аналогичных тестов, которые измеряют то же или близкое свойство. Дискриминантная валидность: важно показать, что мера не измерят то, что не предполагалось измерять, то есть дискриминантна. Например, можно говорить о дискриминантной валидности, если есть низкая корреляция между результатами теста на скорость чтения и теста на определяющие факторы мотивации, так как способность к чтению не имеет отношения к мотивации.

Источники плохой валидности:1. Плохая надежность теста2. Ответы на вопросы = психологическая ориентация или предубеждения против данного ответа:2.1. Уступчивость: тенденция соглашаться, то есть говорить «Да». Следует составлять вопросы.2.2.Социальная желательность: тенденция показывать себя в лучшем свете. Следует составлять тесты, где социальная желательность не очень заметна.2.3. Ухудшение: намеренно говорить «Нет», если это принесет какую-нибудь «награду» (например, внимание, компенсацию, социальную помощь и т.д.).3. Смещение:1.1 Культурное смещение: имеет ли данное свойство одинаковое значение в разных культурах? Как различные вопросы интерпретируются людьми разных культур? Содержание теста (внешняя валидность) может быть разной для людей разных культур. 1.2 Смещение по половому признаку также может быть возможным.1.3 Тестовое смещение:1.3.1 Смещение в измерениях возникает, если тест делает систематическую ошибку в измерении данного свойства. Например, считается, что многие тесты IQ хороши для основной средней массы населения, но не для представителей национальных меньшинств, ведущих отличный образ жизни. Если тест проводится методом интервью, то возникает смещение в направлении хорошо выглядящих экзаменуемых.1.3.2Смещение в предпосылках возникает, когда тест делает систематическую ошибку в предсказании некоторого значения или критерия. Также тест может быть хорош только для некоторых групп людей. Например, тест, составленный мужчинами, может не очень хорошо оценивать значение данной характеристики у женщин.

Поможем написать любую работу на аналогичную тему

Реферат
Валидность психологических тестов. Виды валидности.
От 250 руб
Контрольная работа
Валидность психологических тестов. Виды валидности.
От 250 руб
Курсовая работа
Валидность психологических тестов. Виды валидности.
От 700 руб

Получить выполненную работу или консультацию специалиста по вашему учебному проекту

Узнать стоимость

Валидность это в психологии, виды валидности, понятие

Валидность – это один из базовых критериев в психодиагностике тестов, методик, определяющий их качество, близкое к понятию достоверности. Применяется, когда нужно узнать насколько хорошо методика измеряет именно то, на что она ориентирована, соответственно то, насколько лучше отображается исследуемое качество, тем большая валидность данной методики.

Вопрос о валидности возникает сперва в процессе разработки материала, потом после применения теста или методики, если необходимо узнать, соответствует ли степень выраженности определяемой характеристики личности и методом измерения этого свойства.

Понятие валидности выражается корреляцией результатов, которые получились в результате применения теста или методики с другими характеристиками, которые также исследуются, и ее можно также аргументировать комплексно, с помощью разных приемов и критериев. Используются разные виды валидности: концептуальная, конструктивная, критериальная, содержательная валидности, со свойственными методами установления их степени достоверности. Иногда критерий достоверности является обязательным требованием к проверке психодиагностических методов, если они вызывают сомнения.

Чтобы психологическое исследование имело реальную ценность, оно должно быть не только валидным, а еще и надежным одновременно. Надежность позволяет экспериментатору быть уверенным в том, что исследуемое значение очень близко к истинному показателю. А валидный критерий важен тем, что он указывает, что изучается именно то, что экспериментатор предполагает. Важно обратить внимание на тот факт, что данный критерий может предположить надежность, но надежность предположить валидность не может. Надежные значения могут быть не валидными, но валидные обязаны быть надежными, в этом вся суть успешного исследования, тестирования.

Валидность это в психологии

В психологии понятие валидности обозначает уверенность экспериментатора в том, что он измерял именно то, что хотел с помощью определенной методики, показывает меру соответствия результатов и самой методики относительно поставленных задач. Валидное измерение – это то значение, которое измеряет именно то, для чего было создано. Например, методика, направлена на определение темперамента, должна измерять именно темперамент, а не нечто другое.

Валидность в экспериментальной психологии очень важный аспект, является важным показателем, который обеспечивает достоверность результатов, и с ним иногда больше всего возникает проблем. Совершенный эксперимент должен обладать безупречной валидностью, то есть он должен демонстрировать, что экспериментальный эффект вызван модификациями независимой переменной и полностью соответствовать действительности. Полученные результаты без ограничений можно обобщать. Если речь идет о степени данного критерия, то предполагается, что результаты будут соответствовать поставленным задачам.

Проверка на валидность осуществляется тремя способами.

Оценивание содержательной валидности, проводится, чтобы узнать уровень соответствия использованной методики и реальной действительности, в которой выражается исследуемое свойство в методике. Существует здесь также такой компонент, как очевидная, еще ее называют лицевая валидность, она характеризует степень соответствия теста к ожиданиям оцениваемых. В большинстве методик считается очень важным, чтобы участник оценки видел очевидную связь содержания процедуры оценки и действительности того объекта оценки.

Оценивание конструктной валидности исполняется для получения степени обоснованности, что тест реально вычисляет те конструкты, которые заданные и научно обоснованные.

В конструктной валидности имеются два направления. Первый называется конвергентной валидизацией, с его помощью проверяется ожидаемая связь результатов методики с характеристиками из других методик, которые измеряют исходные свойства. Если для измерения какой-то характеристики необходимо несколько методик, то рациональным решением было бы проведение экспериментов минимум двух методик, чтобы при сопоставлении результатов обнаружив высокую положительную корреляцию, можно было утверждать о валидном критерии.

Конвергентная валидизация определяет вероятность вариации оценки теста с ожиданиями. Второй подход, называется дискриминантная валидизация, в ней заключается, что методика не должна измерять никаких характеристик, с которой теоретически не должно быть корреляции.

Проверка на валидность, также бывает критериальной, она, руководствуясь статистическими методами, определяет степень соответствия результатов к заранее определенным внешним критериям. Такими критериями могут быть: непосредственные меры, независимые от результатов методики или значение социально-организационных значимых показателей деятельности. В критериальной валидности также выделяют прогностическую, она применяется при потребности прогнозирования поведения. И если получается, что этот прогноз осуществляется со временем, значит методика прогностически валидна.

Валидность теста это

Тест – это стандартизованное задание в результате применения, которого получаются данные о психофизиологическом состоянии человека и его личностные свойства, его знания, способности и навыки.

Валидность и надежность тестов – это два показателя, которые определяют их качество.

Валидность теста определяет степень соответствия исследуемого качества, характеристики, психологического свойства к тесту, с помощью которого они определяются.

Валидность теста является показателем его эффективности и применяемости к измерению необходимой характеристики. Самые качественные тесты имеют 80% валидности. При валидизации следует учитывать, что от контингента испытуемых и их характеристик, будет зависеть качество результатов. Получается, что один тест может быть как высоко достоверным, так и совсем невалидным.

Существует несколько подходов к определению валидности теста.

При измерении сложного психологического явления, которое имеет иерархическую структуру и его невозможно исследовать, применяя всего один тест, применяют конструктивную валидность. Она определяет точность исследования сложных, структурированных психологических явлений, качеств личности, измеряемых с помощью тестирования.

Валидность за критерием – это такой критерий теста, за которым определяется исследуемое психологическое явление в настоящий момент и прогнозирование особенностей этого явления в будущем. Для этого результаты, полученные при тестировании соотносятся со степенью развития измеряемого качества на практике, оценка специфических способностей в определенной деятельности. Если валидность теста имеет значение минимум 0,2 то применение такого теста является оправданным.

Содержательная валидность – это критерий теста, который применяется для определения соответствия области его измеряемых психологических конструктов, демонстрирует все полноту множества измеряемых показателей.

Прогностическая валидность – критерий, за которым можно предсказать характер развития исследуемого качества в будущем. Такой критерий качества теста очень ценный, если смотреть с практической стороны, но могут быть сложности, поскольку исключается неравномерность развития данного качества в разных людей.

Надежность теста – это критерий теста, который измеряет уровень стабильности результатов, полученных после тестирования, при повторном исследовании. Определяется путем вторичного тестирования спустя определенное количество времени и расчета корреляционного коэффициента результатов, полученных после первого и после второго тестирования. Также важно, учитывать особенности самой процедуры проведения тестов и социально-психологической структуры выборки. Один и тот же тест может иметь разную надежность, зависимо от пола, возраста, социального статуса исследуемых. Поэтому надежность может иногда иметь неточности, ошибки, которые истекают из самого процесса исследования, поэтому ищутся пути, как уменьшить влияние определенных факторов на тестирование. Можно утверждать о надежности теста, если она составляет значение 0,8-0,9.

Валидность и надежность тестов очень важны, потому что определяют тест, как измерительный инструмент. Когда надежность и валидность неизвестны, тест считается неприменяемым для применения.

В измерении надежности и валидность имеет место также этический контекст. Это особенно важно, когда результаты тестирования имеют значимость в использовании их для принятия жизненно важных решений людей. Одних людей принимают на работу, других отсеивают, одни студенты проходят в учебные заведения, а другие должны еще доучиться сначала, кому-то определяется психиатрический диагноз и лечение, а кто-то здоров – это все говорит о том, что подобные решения принимаются на основании изучения оценки поведения или специальных способностей. Например, человек ищущий работу, должен пройти тестирование, и его оценки есть решающими показателями при приеме на работу, узнает, что тест был не в меру валидным и надежным, он очень разочаруется.

Валидность методики это

Валидность методики определяет соответствие того, что изучается данной методикой, тому для изучения чего именно она предназначена.

Например, если психологическая методика, которая основана на осведомленном самоотчете, назначена для исследования некого качества личности, такого качества, которое не может быть верно, оцененным самим человеком, то такая методика не будет валидной.

В большинстве случаев ответы, которые дает испытуемый на вопросы о наличии или отсутствии развитости в нем этого качества, может выражать то, как сам испытуемый воспринимает себя, или каким бы ему хотелось быть в глазах других людей.

Валидность также является основным требованием к психологической методике изучения психологических конструктов. Существует масса разных видов данного критерия, и нет пока единственного мнения о том, как правильно назвать эти виды и неизвестно каким именно видам методика обязана соответствовать. Если же методика оказывается невалидной внешне или внутренне, не рекомендуется ее использовать. Существуют два подхода к валидизации методики.

Теоретический подход выявляется в том, чтобы показать насколько действительно методика измеряет именно то качество, которое, как придумал исследователь, и обязана измерять. Это доказывается через составление с родственными показателями и теми, где связей не могло бы быть. Поэтому для подтверждения теоретического валидного критерия нужно определить степень связей с родственной методикой, имеется в виду конвергентный критерий и отсутствие такой связи с методиками, которые имеют иную теоретическую базу (дискриминантная валидность).

Оценивание валидности методики может быть количественной или качественной. За прагматическим подходом оценивается эффективность и практическая значимость методики, и для ее проведения используется независимый критерий извне, как показатель встречаемости данного качества в повседневной жизни. Таким критерием, например, может быть успеваемость (для методик на достижения, тестов на интеллект), субъективные оценки (для личностных методик), специфические способности, рисование, моделирование (для методик специальных особенностей).

Для доказательства валидности внешних критериев, выделяется четыре типа: критерии исполнения – это критерии такие, как количество выполненных заданий, время, потраченное на обучение; субъективные критерии получают вместе с опросниками, интервью или анкетами; физиологические – частота пульса, давление, физические симптомы; критерии случайности – используются, когда к цели имеет касательство или влияние определенного случая или обстоятельств.

При выборе методики исследования имеет теоретическое и практическое значение определение охвата изучаемых характеристик, как важной составляющей валидности. Информация, которая содержится в названии методики практически всегда не является достаточной для суждения об области ее применения. Это просто имя методики, но под ним всегда кроется еще много чего. Хорошим примером будет методика корректурной пробы. Здесь в сферу изучаемых свойств включаются концентрация внимания, устойчивость и психомоторная скорость процессов. Такая методика дает оценку выраженности этих качеств в личности, хорошо соотноситься со значениями, полученными из других методов и обладает хорошей валидностью. Вместе с тем полученные в результате проведения корректурной пробы значения подвержены большему влиянию других факторов, относительно которых методика будет неспецифичной. Если применить корректурную пробу, чтобы измерить их, то валидность будет невысокая. Выходит,что определяя область применения методики, валидный критерий отображает уровень обоснованности результатов исследования. При небольшом количестве сопровождающих факторов, которые имеют влияние на результаты, достоверность оценок, полученных в методике будет выше. Еще достоверность результатов определяется с помощью набора измеряемых свойств, их важностью при осуществлении диагностики сложной деятельности, существенностью отображения в материале методики предмета измерения. Например, для удовлетворения требований достоверности и надежности, методика, назначенная на профотбор, должна иметь анализ большого круга различных показателей, которые наиболее важные при достижении успеха в профессии.

Виды валидности

Валидный критерий бывает нескольких видов, в зависимости на что именно он направлен.

Внутренняя валидность определяет насколько определенное экспериментально воздействие стало причиной изменений в данном эксперименте.

Внутренняя валидность определяется отношениями между независимыми и зависимыми переменными, и проходит через особенные процедуры, в результате которых определяется достоверность выводов в данном исследовании. О внутреннем критерии говорится, когда достоверно известно о зависимости причинно-следственного типа между независимыми и зависимыми переменными.

Валидность исследования определяется влиянием неконтролируемых ситуативных факторов на изучаемое явление, если оно высокое, то данный критерий будет низким. Высокая внутренняя валидность исследования является признаком качественного исследования.

Внешняя валидность обобщает вывод популяции, ситуации и других независимых переменных. От того, насколько высокая и хорошая внешняя валидность зависит возможность переноса результатов, полученных в исследовании на реальную жизнь.

Очень часто внешняя и внутренняя валидизации противоречат друг другу, потому что если увеличивается одна валидность, то это значение может повлиять на показатели другой. Самым лучшим вариантом считается выбор экспериментальных планов, которые обеспечивали бы два вида данного критерия. Особенно это важно в случае исследований, в которых важным есть распространение результатов в определенных практических ситуациях.

Содержательная валидность применима к тем тестам, в которых полностью моделируется определенная деятельность, в первую очередь, аспекте связанным с предметом. Выходит, что в самом содержании методики отражаются основные стороны психологического конструкта. Если эта характеристика имеет сложную структуру, то в самой методике должны присутствовать все входящие в него элементы. Определяется такой валидный критерий с помощью систематического контроля за содержанием, должен показывать полноту охвата всей выборки за измеряемыми параметрами. Исходя из этого должна быть проведена эмпирическая проверка методики в соответствии с ее гипотезами. Каждое задание или вопрос в назначенной области, должен иметь равные шансы на включение его к заданиям теста.

Эмпирическая валидность определяется через статистическую корреляцию, то есть считается корреляция баллов по тесту и показателей внешнего параметра, избранного как критерий валидности.

Конструктная валидность относится к теоретическому конструкту, как отдельному и включается к поиску факторов, которые объясняют поведение человека при выполнении теста или методики.

Прогностический тип валидности определяется за счет наличия очень надежного внешнего критерия, хотя информация о нем собирается через определенное время после окончания испытания. Таким внешним критерием может быть способность личности к определенному виду деятельности, для которой он был отобран за результатами психодиагностических измерений. Точность прогнозирования в этом валидном критерии находится в противоположной зависимости от времени, которое давалось для прогнозирования. И чем больше времени проходит после исследования, тем еще больше факторов будут учитываться для оценивания прогностической значимости теста. Хотя учесть абсолютно все имеющиеся факторы практически невозможно.

Ретроспективная валидность определяется за критерием, который отражает события или сстояние свойства в прошлом времени. Она может использоваться для получений знаний о предсказательных аспектах методики. Очень часто в таких тестах сопоставляют оценки развития способности в их прошлом значении и на данный момент, вычесляется насколько эффективнее стали результаты.

Экологическая валидность показывает, что некий организм в силу наследственных, генетически обусловленных или приобретенных особенностей является подготовленным к демонстрированию разнообразных форм поведения во всевозможных контекстах или в разных средах обитания. Действия организма могут быть успешными в одном времени и месте, но не настолько успешными или совсем не иметь успеха в другое время, и другом месте.

Экологическая валидность подтверждается, если результаты исследования имеют место подтверждения или должного применения их в полевых исследованиях. Проблемой лабораторных исследований есть адекватная переносимость полученных результатов на условия реальной жизни, на повседневную деятельность индивида, которая длится естественным путем. Но это тоже не является конечным подтверждением результатов, как экологически валидных, потому что предполагает генерализацию также на другие условия и обстоятельства. Часто исследования обвиняются в невысоком, экологическом валидном критерии, но вся причина бывает заключается в невозможности повторить исследование в реальной жизни.

Автор: Практический психолог Ведмеш Н.А.
Спикер Медико-психологического центра «ПсихоМед»

Валидность психолого-педагогических тестов | Рафаэль Вальдесе Соуза Бастос

Как убедиться, что ваши измерения психологических характеристик достоверны

Фото Celpax на Unsplash

В физике у нас часто есть инструмент, который существует физически и измеряет физические свойства. Например, инструмент, измеряющий длину, использует это свойство (то есть длину) для измерения длины другого объекта. Поэтому нет необходимости доказывать, что это свойство конгруэнтно такому же свойству измеряемого объекта.

Однако в некоторых случаях это не так однозначно. Например, если мы измеряем скорость с помощью эффекта Доплера, где инструментом является приближение/расстояние спектральных линий галактических огней. В этом случае у нас возникает проблема валидности инструмента, потому что нам нужно знать, правда ли, что расстояние между спектральными линиями связано со скоростью. Для этого надо доказать эмпирически. Валидность распространена в областях знаний, в которых используются косвенные меры. То же самое, что происходит с эффектом Доплера, очень распространено в психосоциальных науках (например, в психологии, образовании), особенно если мы используем концепцию латентной черты (например, счастья, беспокойства, влечения).

С психологической точки зрения мы можем думать о скрытой черте (или конструкции) как о характеристике, которая находится у нас в голове. Эти характеристики, такие как чья-то личность, не могут быть оценены прямыми средствами. Вместо этого мы измеряем поведение человека и делаем вывод, что оно исходит из одного и того же места (т. е. характеристики нашего мозга).

Конечно, у нас есть много способов измерить латентные черты, самый распространенный способ — анкеты/опросы, где люди отвечают, например, по шкале от 1 (полностью согласен) до 5 (полностью не согласен). Допустим, мы собираемся измерить самоэффективность на рабочем месте. Мы разрабатываем элементы на основе определения самоэффективности, а дальше что? Как мы можем узнать, что означают результаты наших тестов? Является ли самоэффективность единым фактором или ее можно разделить на несколько аспектов? Это роль поиска достоверности, чтобы правильно измерить то, что мы хотим.

1900–1950: гегемония достоверности содержания

В то время в моде были теории личности. Большинство теорий (таких как психоаналитическая, гештальт и феноменология) в целом имели мало эмпирических рассуждений. В этом контексте тесты личностных черт считались действительными, поскольку содержание тестов соответствовало содержанию черт, определенных теоретически.

1950–1970: Преобладание валидности критерия

Бихевиоризм оказал большое влияние на психологию и, конечно же, на психометрию. Тесты были сделаны как образец поведения, который должен был предсказать другое поведение или будущее поведение. Эти тесты были валидны, если они точно предсказывали поведение в будущем (или в другом случае), становясь новым путем валидности (называемым валидностью критерия). Неважно, почему тест предсказал поведение, лишь бы они его предсказывали, и этого было достаточно для его достоверности. Как мы можем себе представить, это был побег от размышлений о теории, чтобы сосредоточиться на статистике. Вместо создания теста для измерения латентного признака элементы были выбраны из набора элементов, которые выглядело как , они ссылались на то, что хотели измерить, используя, в основном, статистический анализ для решения своих проблем.

1970 — Сегодня: рост конструктной валидности

После статьи Кронбаха и Миля 1955 г. о тринитарной модели валидности (содержание, критерий и конструкт) произошло изменение в способе мышления о валидности. Теория вернулась в игру из-за таких факторов, как:

Желание разработать теорию личности и интеллекта на эмпирических основаниях, используя факторный анализ.
Исследования познавательных процессов.
Исследования информационных процессов.
Неудовлетворенность результатами тестирования Использование в учебных и рабочих ситуациях.
Влияние теории отклика предметов.

Основное внимание в отношении валидности психологических инструментов уделялось конструктной валидности. Итак, содержание и валидность критерия — это просто аспекты валидности конструкции.

Классическое определение валидности: «когда тест измеряет то, что предполагается измерять, что тест измеряет и насколько хорошо он измеряет». Однако классическое определение делает тесты похожими на действительные или недействительные. Чтобы изменить эту дихотомическую парадигму, действующее определение валидности — это «степень, в которой теория и фактические данные подтверждают интерпретацию результатов тестов. Таким образом, для каждого контекста/цели использования тестов и для каждой предполагаемой интерпретации необходимо, чтобы результаты тестов имели доказательства достоверности». Теперь мы можем сказать, что каждая мера имеет свою собственную степень достоверности.

Доказательства, основанные на содержании

Собирать данные о представлении элементов теста, выясняя, являются ли они образцами предметной области, которую они хотят измерить. Набор пунктов оценивается по его объему с учетом оценки предлагаемого построения. Как правило, это делается на основе оценки специалистов, где они оценивают важность элементов с учетом их связи с оцениваемыми аспектами. Можно использовать некоторые статистические тесты, такие как процент согласия и коэффициент Каппа.

Пример: В представленной статье Bastos et al. (2021) создали меру самоощущения предрассудков и дискриминации для различных социальных групп. Авторы использовали следующую процедуру для поиска достоверности на основе содержания:

Обзор литературы о существующих мерах предрассудков и дискриминации.
Предубеждение о себе определяется как представление о том, что человек является жертвой негативного отношения к себе, основанного на его социальной группе; и самовоспринимаемая дискриминация как представление о том, что человек является жертвой негативного и неоправданного поведения по отношению к себе на основании своей социальной группы.
На основе этих определений и предыдущих измерений авторы разработали новые элементы для других социальных групп.
После создания предметов они отправляли их экспертам (то есть психологам и специалистам по психометрии), чтобы они могли их оценить.
На основании доли согласия авторы выбрали девять пунктов для последующего анализа.

Доказательства, основанные на процессах реагирования

Собирать данные о психических процессах, связанных с выполнением заданных задач. Обычно речь идет об индивидуальном процессе реакции, и исследователи спрашивают оцениваемого человека о когнитивном пути, использованном для достижения данного результата. В качестве примера мы можем видеть, что Noble et al. (2014) искали такую достоверность в своем исследовании. Они обнаружили, что у изучающих английский язык (ELL) были более низкие результаты в тестах с высокими ставками по сравнению с не изучающими английский язык. На основе интервью они обнаружили, что

Взаимодействие учащихся ELL со специфическими лингвистическими особенностями тестовых заданий часто приводило к альтернативным интерпретациям заданий, что приводило к неправильным ответам.

Доказательства на основе внутренней структуры

Сбор данных о структуре корреляции элементов, оценивающих один и тот же конструкт. Статистические тесты, которые часто используются, — это исследовательский факторный анализ (EFA), подтверждающий факторный анализ (CFA), исследовательское моделирование структурных уравнений.

В качестве примера можно использовать Selau et al. (2020) бумага. Авторы хотели измерить умственную отсталость детей в возрасте от 7 до 15 лет. Они исследовали внутреннюю структуру шкалы с помощью EFA и CFA следующей структуры:

Изображение автора.

Где элементы делятся на социальные, концептуальные и практические факторы, которые объясняются фактором более высокого порядка, называемым адаптивной функцией.

Данные, основанные на их связи с внешними переменными

Соберите данные о характере корреляции между результатами теста и другими переменными, измеряющими ту же или разные конструкции. Обычно для получения такой валидности исследователи используют корреляцию результатов теста с другими переменными. Этот тип валидности может быть:

Свидетельство способности инструмента прогнозировать оцениваемую конструкцию.
Когда у нас есть тесты, которые измеряют одно и то же конструируют , мы ожидаем, что они тесно связаны.
Когда у нас есть тесты, измеряющие связанных конструкции , мы ожидаем, что они умеренно связаны.
Когда у нас есть тесты, измеряющие различных конструкции , мы ожидаем, что они не связаны между собой.

Беймер и др. (2021) разработали шкалу восприятия стоимости студентами колледжей. Они соотнесли элементы шкалы с представлениями и ценностями учащихся. Они ожидали (и обнаружили), что «затраты» отрицательно коррелируют с «ожиданиями» и «стоимостью» (вы можете увидеть определение каждой переменной в их статье).

Доказательства, основанные на последствиях тестирования

Изучить преднамеренные или непреднамеренные социальные последствия использования теста, чтобы проверить, дает ли его использование желаемый эффект в зависимости от причины, по которой он был создан. Тесты имеют этот тип валидности, если они используются по той же причине, для которой они были созданы. Хотя вы не можете предсказать, что люди будут делать с разработанным вами инструментом, необходимо обсудить обязанности авторов инструмента.

В качестве примера мы можем подумать о показателях IQ. Его целью является измерение интеллекта людей. Однако мы можем видеть, что иногда в истории IQ использовался для оправдания расизма.

Мы видим, что существует много шагов, чтобы гарантировать, что наша мера психологических черт имеет степень достоверности. Следуя этим процедурам, мы с большей уверенностью можем делать выводы о связи между психологическими чертами и другими переменными. На практике люди часто ищут только три типа достоверности: содержание, внутреннюю структуру и отношения с другими переменными. Я думаю, что есть две причины, почему это происходит:

Сложность поиска достоверности на основе процесса реагирования и последствий тестирования. Чтобы найти достоверность на основе процесса ответа, исследователи должны вкладывать больше времени и денег, опрашивая достаточное количество участников. Искать достоверность, основанную на последствиях тестирования, сложно. От авторов требуется думать и предсказывать его использование в ближайшем и отдаленном будущем, а некоторые последствия могут быть (почти) невозможными предсказать.
Авторы не считают своей работой поиск этих двух типов достоверности, потому что они оба: а) не считают своей обязанностью то, что люди делают со своей работой; б) считают, что их мера великолепна и не имеет недостатков, что может быть правдой, но есть много вещей, которые нужно рассмотреть, прежде чем сделать такой вывод, и эта вещь гарантирует, что некоторые другие предубеждения не влияют на результаты.

В заключение я ожидаю, что теперь вы немного больше убеждены в том, что психологические и педагогические исследования имеют свою степень достоверности, основанную на эмпирических и теоретических основаниях. Я ожидаю, что за всем было легко следить, спасибо, что читали до сих пор.

Не стесняйтесь обращаться ко мне по телефону

Gmail: rafavsbastos@gmail. com
Веб-сайт для консультаций и партнерства: rafavsbastos.wixsite.com/website
LinkedIn: linkedin.com/in/rafael-valdece-sousa-bastos/

М. Н. Баптиста и А. Э. де Вильмор-Амарал, Compêndio de avaliação psicológica, 2019, Editora Vozes.

L. Pasquali, Psicometria: teoria dos testes na psicologia e na educação, 2017, Editora Vozes Limitada.

Р. В. С. Бастос, Ф. К. Новаес, Дж. К. Нативидаде, Шкала самовосприятия предрассудков и дискриминации: свидетельство достоверности и других психометрических свойств, 2021 г., Рукопись представлена на рецензирование.

Надежность и достоверность измерений – Методы исследования в психологии – 2-е канадское издание

Глава 5: Психологическое измерение

Определение надежности, включая различные типы и способы их оценки.
Определите достоверность, включая различные типы и способы их оценки.
Опишите виды доказательств, которые могут иметь отношение к оценке надежности и достоверности конкретной меры.

Опять же, измерение включает в себя присвоение баллов отдельным лицам, чтобы они отражали некоторые характеристики людей. Но откуда исследователи узнают, что баллы на самом деле отражают характеристику, особенно когда речь идет о таких понятиях, как интеллект, самооценка, депрессия или объем рабочей памяти? Ответ заключается в том, что они проводят исследование с использованием меры, чтобы подтвердить, что оценки имеют смысл, исходя из их понимания измеряемой конструкции. Это чрезвычайно важный момент. Психологи не просто предполагают, что их меры работают. Вместо этого они собирают данные, чтобы продемонстрировать , что они работают. Если их исследование не показывает, что мера работает, они перестают ее использовать.

В качестве неформального примера представьте, что вы сидите на диете уже месяц. Ваша одежда кажется более свободной, и несколько друзей спрашивали, похудели ли вы. Если бы в этот момент ваши весы в ванной показывали, что вы потеряли 10 фунтов, это имело бы смысл, и вы продолжали бы пользоваться весами. Но если бы оно указывало на то, что вы набрали 10 фунтов, вы бы правильно заключили, что оно сломано, и либо починили бы его, либо избавились от него. При оценке метода измерения психологи учитывают два основных аспекта: надежность и валидность.

относится к согласованности показателя. Психологи рассматривают три типа согласованности: во времени (надежность повторного тестирования), между элементами (внутренняя согласованность) и между разными исследователями (межэкспертная надежность).

Надежность повторных испытаний
Когда исследователи измеряют конструкт, который, по их мнению, неизменен во времени, полученные ими баллы также должны быть постоянными во времени. насколько это действительно так. Например, обычно считается, что интеллект неизменен во времени. Человек, который очень умен сегодня, будет очень умным на следующей неделе. Это означает, что любая хорошая мера интеллекта должна дать этому человеку примерно такие же оценки на следующей неделе, как и сегодня. Ясно, что мера, которая дает крайне противоречивые оценки во времени, не может быть очень хорошей мерой конструкции, которая должна быть последовательной.
Оценка надежности повторного тестирования требует одновременного использования показателя для группы людей, повторного использования его для той же группы людей в более позднее время, а затем просмотра двух наборов оценок. Обычно это делается путем графического отображения данных на диаграмме рассеяния и вычисления r Пирсона. На рис. 5.2 показана корреляция между двумя наборами оценок нескольких студентов университета по шкале самооценки Розенберга, проведенных два раза с интервалом в неделю. Коэффициент Пирсона для этих данных равен +,9.5. В целом считается, что корреляция между тестом и повторным тестом +,80 или выше указывает на хорошую надежность.
Рисунок 5.2. Корреляция между двумя наборами оценок нескольких студентов колледжа по шкале самооценки Розенберга, полученных два раза в неделю с интервалом 90 002 Опять же, высокая корреляция между тестом и повторным тестированием имеет смысл, когда предполагается, что измеряемый конструкт непротиворечив на протяжении время, что имеет место для интеллекта, самооценки и личностных параметров Большой пятерки. Но другие конструкции не считаются стабильными во времени. Например, сама природа настроения такова, что оно меняется. Таким образом, мера настроения, которая показала низкую корреляцию между тестами и повторными тестами в течение месяца, не должна вызывать беспокойства.
Внутренняя согласованность
Второй вид надежности – это постоянство ответов людей по пунктам измерения, состоящего из нескольких пунктов. В целом предполагается, что все пункты таких показателей отражают одну и ту же базовую конструкцию, поэтому баллы людей по этим пунктам должны коррелировать друг с другом. По шкале самооценки Розенберга люди, согласные с тем, что они достойные люди, должны быть склонны соглашаться с тем, что они обладают рядом хороших качеств. Если ответы людей на разные элементы не коррелируют друг с другом, то больше не имеет смысла утверждать, что все они измеряют одну и ту же лежащую в основе конструкцию. Это верно как для поведенческих и физиологических показателей, так и для показателей самоотчетов. Например, люди могут сделать серию ставок в смоделированной игре в рулетку, чтобы измерить уровень своего стремления к риску. Этот показатель будет внутренне непротиворечивым в той мере, в какой ставки отдельных участников были неизменно высокими или низкими в ходе испытаний.
Как и надежность повторных испытаний, внутреннюю согласованность можно оценить только путем сбора и анализа данных. Один из подходов – просмотреть файл . Это включает в себя разделение элементов на два набора, таких как первая и вторая половины элементов или элементы с четными и нечетными номерами. Затем для каждого набора элементов вычисляется оценка, и проверяется взаимосвязь между двумя наборами оценок. Например, на Рисунке 5.3 показана корреляция с разделением пополам между баллами нескольких студентов университетов по четным пунктам и их баллами по нечетным пунктам Шкалы самооценки Розенберга. Пирсон r для этих данных +,88. Половинная корреляция +,80 или выше обычно считается хорошей внутренней согласованностью.
Рис. 5.3. Корреляция с разделением пополам между оценками нескольких студентов колледжа по четным пунктам и их оценками по нечетным пунктам шкалы самооценки Розенберга статистика называется (греческая буква альфа). Концептуально α является средним значением всех возможных корреляций разделения пополам для набора элементов. Например, существует 252 способа разделить набор из 10 предметов на два набора по пять. α Кронбаха будет средним из 252 разделенных пополам корреляций. Обратите внимание, что это не то, как на самом деле вычисляется α, но это правильный способ интерпретации значения этой статистики. Опять же, значение +,80 или выше обычно считается показателем хорошей внутренней согласованности.
Межоценочная надежность
Многие поведенческие показатели требуют значительных суждений со стороны наблюдателя или оценщика. насколько разные наблюдатели последовательны в своих суждениях. Например, если вы заинтересованы в измерении социальных навыков студентов университета, вы можете сделать видеозаписи их общения с другим студентом, которого они встречают впервые. Затем вы можете попросить двух или более наблюдателей посмотреть видео и оценить уровень социальных навыков каждого учащегося. В той мере, в какой каждый участник действительно обладает определенным уровнем социальных навыков, который может быть обнаружен внимательным наблюдателем, оценки разных наблюдателей должны сильно коррелировать друг с другом. Межэкспертная надежность также могла быть измерена в исследовании Бандуры с куклой Бобо. В этом случае оценки наблюдателями того, сколько актов агрессии совершил конкретный ребенок во время игры с куклой Бобо, должны были иметь высокую положительную корреляцию. Надежность между экспертами часто оценивается с использованием коэффициента Кронбаха, когда суждения количественные, или аналогичного статистического показателя, называемого коэновским κ (греческая буква каппа), когда они категоричны.
– это степень, в которой оценки меры представляют переменную, для которой они предназначены. Но как исследователи делают это суждение? Мы уже рассмотрели один фактор, который они учитывают, — надежность. Когда мера имеет хорошую надежность при повторном тестировании и внутреннюю согласованность, исследователи должны быть более уверены в том, что оценки представляют то, что они должны представлять. Однако это должно быть нечто большее, потому что мера может быть чрезвычайно надежной, но не иметь никакой достоверности. В качестве абсурдного примера представьте себе человека, который считает, что длина указательного пальца человека отражает его самооценку, и поэтому пытается измерить самооценку, поднося линейку к указательным пальцам людей. Хотя эта мера будет иметь чрезвычайно хорошую надежность при повторном тестировании, она будет абсолютно недействительной. Тот факт, что указательный палец одного человека на сантиметр длиннее, чем у другого, ничего не говорит о том, у кого из них выше самооценка.
Обсуждения валидности обычно делят ее на несколько различных «типов». Но хороший способ интерпретировать эти типы состоит в том, что они представляют собой другие виды доказательств — в дополнение к надежности — которые следует принимать во внимание при оценке достоверности меры. Здесь мы рассматриваем три основных вида: валидность лица, валидность содержания и валидность критерия.
Проверка подлинности
— это степень, в которой метод измерения выглядит «на первый взгляд» для измерения интересующей конструкции. Большинство людей ожидает, что анкета самооценки будет включать вопросы о том, считают ли они себя достойным человеком и считают ли они себя хорошими качествами. Таким образом, анкета, включающая такие пункты, будет иметь хорошую внешнюю валидность. С другой стороны, метод измерения самооценки по длине пальца, по-видимому, не имеет ничего общего с самооценкой и, следовательно, имеет низкую кажущуюся валидность. Хотя кажущаяся валидность может быть оценена количественно — например, когда большая выборка людей оценивает меру с точки зрения того, измеряет ли она то, для чего предназначена, — ее обычно оценивают неформально.
Лицевая валидность — это в лучшем случае очень слабое доказательство того, что метод измерения измеряет то, что он должен измерять. Одна из причин заключается в том, что он основан на интуитивных представлениях людей о человеческом поведении, которые часто ошибочны. Также верно и то, что многие общепризнанные меры в психологии работают достаточно хорошо, несмотря на то, что им не хватает внешней достоверности. Миннесотский многофазный личностный опросник-2 (MMPI-2) измеряет многие личностные характеристики и расстройства, предлагая людям решить, применимо ли к ним каждое из более чем 567 различных утверждений, причем многие из утверждений не имеют какой-либо очевидной связи с конструктом, который они измеряют. . Например, пункты «Мне нравятся детективы или детективы» и «Вид крови меня не пугает и не вызывает тошноты» измеряют подавление агрессии. В данном случае интерес представляют не буквальные ответы участников на эти вопросы, а то, соответствует ли характер ответов участников на ряд вопросов ответам людей, склонных подавлять свою агрессию.
Проверка содержимого
— это степень, в которой мера «покрывает» интересующую конструкцию. Например, если исследователь концептуально определяет тестовую тревожность как активацию симпатической нервной системы (ведущую к нервным переживаниям) и негативные мысли, то его мера тестовой тревожности должна включать пункты, касающиеся как нервных переживаний, так и негативных мыслей. Или учтите, что отношения обычно определяются как включающие мысли, чувства и действия по отношению к чему-либо. Согласно этому концептуальному определению, человек позитивно относится к физическим упражнениям в той мере, в какой он или она позитивно мыслит об упражнениях, чувствует себя хорошо во время упражнений и действительно занимается ими. Таким образом, чтобы иметь хорошую содержательную валидность, мера отношения людей к физическим упражнениям должна отражать все три аспекта. Как и внешняя валидность, содержательная валидность обычно не оценивается количественно. Вместо этого он оценивается путем тщательной проверки метода измерения на соответствие концептуальному определению конструкции.
Критерий достоверности
– это степень, в которой оценки людей по какому-либо показателю коррелируют с другими переменными (известными как ), с которыми можно было бы ожидать их корреляции. Например, результаты людей по новому показателю тестовой тревожности должны иметь отрицательную корреляцию с их успеваемостью на важном школьном экзамене. Если бы было обнаружено, что баллы людей на самом деле отрицательно коррелируют с их успеваемостью на экзамене, то это было бы доказательством того, что эти баллы действительно отражают тревожность людей перед экзаменами. Но если бы было обнаружено, что люди получают одинаковые результаты на экзамене независимо от их оценки тревожности во время теста, это поставило бы под сомнение достоверность измерения.
Критерием может быть любая переменная, которая, как есть основания полагать, должна быть коррелирована с измеряемым конструктом, и обычно их будет много. Например, можно было бы ожидать, что показатели тревожности при тестировании будут отрицательно коррелировать с успеваемостью на экзамене и оценками за курс и положительно коррелировать с общей тревожностью и кровяным давлением во время экзамена. Или представьте, что исследователь разрабатывает новую меру физического риска. Баллы людей по этому показателю должны коррелировать с их участием в «экстремальных» видах деятельности, таких как катание на сноуборде и скалолазание, количеством штрафов за превышение скорости, которые они получили, и даже количеством сломанных костей, которые они получили за эти годы. Когда критерий измеряется одновременно с конструктом, валидность критерия оценивается как 9.0215 ; однако, когда критерий измеряется в какой-то момент в будущем (после того, как конструкт был измерен), он упоминается как (поскольку баллы по показателю «предсказали» будущий результат).
Критерии могут также включать другие меры той же конструкции. Например, можно было бы ожидать, что новые показатели тестовой тревожности или принятия физического риска будут положительно коррелировать с существующими показателями тех же конструктов. Это известно как .
Для оценки конвергентной валидности требуется сбор данных с использованием показателя. Исследователи Джон Качиоппо и Ричард Петти сделали это, когда создали свою шкалу самооценки потребности в познании, чтобы измерить, насколько люди ценят мышление и участвуют в нем (Cacioppo & Petty, 19). 82) ^[1] . В серии исследований они показали, что баллы людей положительно коррелируют с их баллами по стандартизированному тесту успеваемости и что их баллы отрицательно коррелируют с их баллами по показателю догматизма (что представляет собой тенденцию к послушанию). За годы, прошедшие с момента ее создания, шкала потребности в познании использовалась буквально в сотнях исследований, и было показано, что она коррелирует с широким спектром других переменных, включая эффективность рекламы, интерес к политике и решения присяжных. (Петти, Бриньоль, Лёрш и Маккаслин, 2009 г.) ^[2] .
Дискриминантная достоверность
, с другой стороны, – это степень, в которой баллы меры , а не коррелируют с мерами переменных, которые концептуально различны. Например, самооценка — это общее отношение к себе, которое довольно стабильно во времени. Это не то же самое, что настроение, то есть то, насколько хорошо или плохо человек себя чувствует в данный момент. Таким образом, оценки людей по новому показателю самооценки не должны сильно коррелировать с их настроением. Если бы новая мера самооценки была сильно коррелирована с мерой настроения, можно было бы утверждать, что новая мера на самом деле не измеряет самооценку; вместо этого он измеряет настроение.
Создавая Шкалу потребности в познании, Качиоппо и Петти также предоставили доказательства дискриминантной валидности, показав, что баллы людей не коррелируют с некоторыми другими переменными. Например, они обнаружили лишь слабую корреляцию между потребностью людей в познании и мерой их когнитивного стиля — степенью, в которой они склонны мыслить аналитически, разбивая идеи на более мелкие части или целостно с точки зрения «большой картины». Они также не обнаружили корреляции между потребностью людей в познании и показателями их тестовой тревожности и их тенденцией реагировать социально желательными способами. Все эти низкие корреляции свидетельствуют о том, что показатель отражает концептуально отличный конструкт.
Исследователи-психологи не просто предполагают, что их измерения работают. Вместо этого они проводят исследования, чтобы показать, что они работают. Если они не могут показать, что они работают, они перестают их использовать.
Существует два различных критерия, по которым исследователи оценивают свои измерения: надежность и достоверность. Надежность — это согласованность во времени (надежность при повторном тестировании), между элементами (внутренняя согласованность) и между исследователями (надежность между разными группами). Валидность — это степень, в которой оценки действительно представляют переменную, для которой они предназначены.
Обоснованность — это суждение, основанное на различных видах доказательств. Соответствующее свидетельство включает в себя надежность показателя, охватывает ли он интересующий конструкт и коррелируют ли полученные с его помощью оценки с другими переменными, с которыми они, как ожидается, будут коррелировать, и не коррелируют с переменными, которые концептуально различны.
Надежность и валидность меры определяется не каким-либо одним исследованием, а последовательностью результатов нескольких исследований. Оценка надежности и валидности является непрерывным процессом.
Практика: попросите нескольких друзей заполнить шкалу самооценки Розенберга. Затем оцените его внутреннюю согласованность, построив диаграмму рассеяния, чтобы показать корреляцию разделения пополам (четные и нечетные элементы). Вычислите также Pearson r , если знаете как.
Обсуждение: Вспомните последний экзамен в колледже, который вы сдавали, и подумайте об экзамене как о психологической мере. Как вы думаете, для измерения какой конструкции он предназначался? Прокомментируйте его внешний вид и действительность содержания. Какие данные вы могли бы собрать, чтобы оценить их надежность и валидность критериев?
Качиоппо, Дж. Т., и Петти, Р. Э. (1982). Потребность в познании. Журнал личности и социальной психологии, 42 , 116–131. ↵
Петти, Р. Э., Бриньоль, П., Лёрш, К., и Маккаслин, М. Дж. (2009). Потребность в познании. В MR Leary & RH Hoyle (Eds.), Справочник по индивидуальным различиям в социальном поведении (стр. 318–329). Нью-Йорк, штат Нью-Йорк: Guilford Press. ↵
Что такое валидность и ее определение, история, типы?
надежность_ и валидность CareerShodh
rotiability_and_vality 2 By CareerShodh
Содержание
1 Значение валидности
2 Определение достоверности
3 История достоверности или развитие концепции валидности 9029
3 История валидности. 3.2 2-й этап развития действительности
3.3 3-й Текущий этап развития действительности
4 Коэффициент валидности
5 Тестовая валидность
6 Типы тестовой валидности
7 Лицевая валидность (не чистый тип валидности)
7.1 1. Валидность содержания или описание процедур валидации
7.1.1 Особая процедура разработки валидности содержания
00249 7. 2 1. Недостаточная репрезентативность конструкции
7.3 2. Нерелевантная конструкция дисперсии
80030
8.2 2. Одновременная достоверность, связанные с достоверностью,
9 3. Достоверность конструкции
10 Два типа достоверности конструкции от Campbell & Fiske (1959)
10.1 1. Конвергентный валидность
10.2 2. Divergent OR
11 Экспериментальная валидность
11.1 Внутренняя валидность
11.2 2. Внешняя валидность
12 Справочники по валидности и типам валидности
Значение валидности
Валидность относится к вопросу: « Измеряет ли тест то, что он должен измерять»?
Слово «действительный» происходит от латинского «validus», что означает «сильный». Валидность – это точность теста или эксперимента.
Концепция валидности, данная Келли ( 1927) и определяющая валидность как «тест действителен, если он измеряет то, что, по его утверждению, измеряет».
Логически обоснованность — это свойство аргумента, основанного на факте: «истинность предпосылок гарантирует истинность вывода».
Проверка достоверности относится к значению и полезности результатов проверки.
Валидность оценки – это степень, в которой она измеряет то, что она должна измерять.
Более конкретно, валидность относится к степени приемлемости определенного вывода или интерпретации, основанной на тесте.
Валидность теста означает, что измеряет тест и насколько хорошо он работает?
Экс – Сознание.
Актуальная концепция ?
Аспекты концепции ?
Определение валидности
«Валидность — это степень, в которой доказательства и теория подтверждают интерпретацию результатов теста, связанную с использованием теста».
«Показатель валидности показывает степень, в которой тест измеряет то, что измеряется по сравнению с принятым критерием» – Фримен
История валидности или развитие концепций валидности
1 ^st Срок действия –
Первое использование тестов было для оценки того, чему человек научился. Сейчас конечно конец.
Пример. Экзамены в конце семестра.
Для теста достижения – сравнение его содержимого с
Домен контента, предназначенный для оценки.
Все еще актуально/ применимо.
2-й этап развития достоверности
Переход к предсказанию.
Как люди поведут себя в данной ситуации — сейчас и в будущем?
Здесь валидность теста означает коэффициент корреляции между результатами теста и прямыми и независимыми измерениями этого критерия.
– 2 основные тенденции
Усиление теоретической ориентации.
Тесная связь между психологической теорией и проверкой посредством эмпирической и экспериментальной проверки гипотез
Эти тенденции признали значение конструкции.
Конструкция –
Широкая категория
Получена из общего признака, присущего непосредственно наблюдаемому поведению.
Теоретические объекты, непосредственно не наблюдаемые
Это приводит к введению конструктивной валидности как фундаментальной и всеобъемлющей
Коэффициент валидности
Это отношение между тестом и критерием обычно выражается как корреляция.
Этот коэффициент говорит о том, насколько тест действителен для утверждения критерия.
Коэффициенты достоверности в диапазоне от 0,30 до 0,40 обычно считаются высокими.
Коэффициент достоверности статистически значим или не значим не имеет значения.
Вопросы, вызывающие озабоченность при интерпретации коэффициентов достоверности.
Ищите изменения в причинах отношений.
Логика проверки критерия предполагает, что причины взаимосвязи между тестом и критерием все еще будут существовать во время использования теста.
Что означает критерий? Исследования валидности, связанные с критериями, вообще ничего не значат, если критерий не является валидным и надежным.
Типы достоверности по Careershodh
Проверка достоверности
Проверка достоверности — это показатель того, насколько много значения можно придать набору результатов проверки.
Типы проверки достоверности
Существует три типа доказательств:
(1) Construct Validity -Construct-related
(2) Criterion Validity -Criterion-related
(3) Content Validity – Content-related
Face достоверность (не чистый тип достоверности)
Лицевая действительность — это простейшая форма достоверности.
Внешняя достоверность — это просто видимость того, что мера имеет силу.
Пункты, утверждения или вопросы должны быть разумно связаны с предполагаемой целью теста.
Лицевая достоверность будет использоваться для тестов способностей и тестов достижений.
Например, любой школьный/колледжский тест будет иметь эту юридическую силу.
Например – Если шкала для измерения тревожности
Пункты, утверждения или вопросы для проверки достоверности теста на тревожность будут –
«Мой желудок расстраивается, когда я думаю о сдаче анализов»
«Мое сердце начинает колотиться быстро, когда я думаю о результатах».
Если они ответят «да» на оба вопроса, можем ли мы заключить, что человек встревожен?
Нет! – Валидность требует доказательств для обоснования выводов.
Лицевая валидность вовсе не является валидностью, потому что она не дает доказательств в поддержку выводов, сделанных на основе результатов тестов.
Внешняя валидность — это когда тест измеряет определенный критерий; это не гарантирует, что тест действительно измеряет явления в этом факторе.
Но очень важно быть честным; для теста, который «выглядит» как действительный.
Эти выступления могут помочь мотивировать тестируемых, демонстрируя актуальность.
1. Содержание Валидность или описание процедуры проверки
Он оценивает, насколько мера представляет каждый отдельный элемент конструкции или указанной концепции.
Это систематическая проверка содержимого теста для определения того, охватывает ли он репрезентативную выборку всех измерений/областей, подлежащих измерению.
Эта процедура оценивания используется при разработке тестов для измерения того, насколько хорошо человек овладел навыком.
Домены, разделы, типы и т. д. должны быть полностью описаны заранее.
Содержание должно быть определено широко, чтобы включать основные цели — применение принципов, интерпретацию данных, фактическое знание и т. д.
Валидность зависит от реакции человека на тест в рассматриваемой области поведения, а не от внешнего вида содержания элемента.
Конкретная процедура разработки Содержание Валидность
Выбор подходящих пунктов/утверждений/вопросов
Систематическое изучение программ курсов, учебников
Консультации профильных экспертов (SME)
Спецификация теста – области содержания, цели/процесс обучения, важность отдельных тем, количество пунктов
Обсуждение проверки содержания должно быть в руководстве по тестированию.
Эмпирическая процедура определения валидности содержимого должна охватывать общие баллы и баллы по элементам.
Дополнительная процедура для определения достоверности содержания должна выполнять анализ типов ошибок.
При установлении достоверности содержания следует учитывать адекватность представления концептуальной области, для охвата которой предназначен тест.
Традиционно доказательство валидности содержания вызывало наибольшую озабоченность при тестировании в образовательных целях.
Уникальная особенность достоверности содержания заключается в том, что она является логической, а не статистической. Как лицо достоверности.
Для установления достоверности содержания требуется хорошая логика, интуитивные навыки и настойчивость.
Две новые концепции в развитии валидности содержания-
1. Недопредставленность конструкции
Недопредставленность конструкции описывает неспособность зафиксировать важные компоненты конструкции.
Например, если тест на математические знания включает алгебру, но не геометрию, достоверность теста будет под угрозой из-за недопредставленности конструкции.
2. Нерелевантная для конструкции дисперсия
Нерелевантная для конструкции дисперсия возникает, когда на баллы влияют факторы, нерелевантные для конструкции.
Например, на тест интеллекта может повлиять понимание прочитанного, тревога при тестировании или болезнь.
Применение проверки достоверности содержания –
Проверка достоверности содержания может подходить для образовательного теста, теста достижений, отбора сотрудников и классификации оценки сотрудников.
Содержимое Валидность не подходит для проверки способностей и личности.
Ограничения действия содержания –
Например, многие учащиеся плохо справляются с тестами из-за тревожности или проблем с чтением
соответствует определенному критерию.
Критерий — это стандарт, с которым сравнивается тест.
Например, можно использовать тест, чтобы предсказать, у каких помолвленных пар будет успешный брак, а какие разведутся.
. свидетельства достоверности критерия, известного как свидетельство прогностической достоверности.
SAT/GRE , включая его количественные и вербальные подтесты, является переменной-предиктором, а средний балл колледжа (GPA) является критерием.
Тесты на пригодность , которые принимают работодатели, компании являются еще одним примером прогностической достоверности.
Цель теста — предсказать вероятность успешного выполнения критерия, т. е. достижения высокого среднего балла в колледже.
2. Параллельная валидность Доказательства валидности, связанные с одновременной валидностью
Параллельная валидность имеет место, когда меры критерия получены одновременно с результатами теста.
Когда мера сравнивается с другой мерой того же типа, они будут связаны.
Показывает, насколько точно результаты теста оценивают текущее состояние человека по данному критерию.
Параллельная валидность исходит из оценки одновременной связи между тестом и критерием, например, между тестом на неспособность к обучению и успеваемостью в школе.
Параллельное свидетельство валидности применяется, когда тест и критерий могут быть измерены одновременно.
Например, по тесту на депрессию , тест должен иметь параллельную валидность, если он измеряет текущие уровни депрессии, испытываемые человеком, прошедшим тест.
Применение параллельной валидности
Большинство психологических тестов используют эту валидность.
Параллельное действие в основном используется в промышленном секторе .
3. Конструктивная валидность
Конструктивная валидность определяет, насколько тест или эксперимент соответствует заявленным.
Тест, созданный для измерения депрессии, он должен измерять только этот конкретный конструкт, а не тесно связанные идеалы, такие как стресс или тревога.
Конструктивная валидность — это если тест демонстрирует связь между баллами и предсказанием теоретического признака, понятия, атрибута и т. д.
К середине 1950-х годов исследователи пришли к выводу, что для большинства социальных и психологические характеристики, которые они хотели измерить.
Например- меры интеллекта, любви, любопытства или психического здоровья.
Все эти тесты должны иметь конструктную валидность.
Не было критерия интеллекта, потому что это гипотетическая конструкция .
Конструкт определяется как нечто, построенное путем ментального синтеза.
Интеллект как конструкт не существует как отдельная вещь, которую мы можем потрогать или ощутить, поэтому его нельзя использовать в качестве объективного критерия.
Валидность конструкции может быть установлена с помощью ряда действий, в которых исследователь одновременно определяет некоторую конструкцию и разрабатывает инструменты для ее измерения.
Т. Кэмпбелл и Фиске (1959) представили важный набор логических соображений для установления доказательств конструктной валидности. Они различали два типа доказательств, необходимых для осмысленного теста: конвергентные и дивергентные/дискриминантные. 1. Конвергентная валидность
Когда мера хорошо коррелирует с другими тестами, которые, как считается, измеряют ту же конструкцию, получают конвергентные доказательства валидности.
В каждом случае баллы за тест связаны с баллами по какому-либо другому показателю.
Однако не существует критерия для определения того, что мы пытаемся измерить.
Конвергентная валидность достигается одним из двух способов .-
Мы показываем, что тест измеряет те же вещи, что и другие тесты, используемые для той же цели.
Мы демонстрируем определенные взаимосвязи, которых можно ожидать, если тест действительно выполняет свою работу.
2 . Дивергентная или дискриминантная валидность
Тесты на то, что конструкции не должны иметь никакой связи, на самом деле не имеют никакой связи.
Он показывает, что мера не включает лишних элементов и что тест измеряет что-то отличное от других тестов.
Экспериментальная валидность
Обоснованность дизайна экспериментальных исследований является центральной частью научного метода и проблемой исследовательской этики. Без достоверного дизайна невозможно сделать достоверные научные выводы.
Типы экспериментальной валидности
Внутренняя валидность
Внутренняя валидность — это мера, которая подтверждает, что исследовательский план эксперимента тщательно следует принципу причины и следствия.
Индуктивная оценка степени достоверности выводов о могут быть установлены причинно-следственные отношения (например, причина и следствие) на основе используемых показателей, условий исследования и всего плана исследования.
Другими словами, существует причинно-следственная связь между независимой и зависимой переменной.
Внутреннюю валидность можно улучшить, регулируя внешние переменные, используя стандартизированные инструкции, уравновешивая и устраняя характеристики спроса и эффекты исследователя.
2. Внешняя действительность
Внешняя валидность связана с обобщением: в какой степени эффект в исследовании может быть обобщен на популяции, условия, переменные лечения и переменные измерения?
Внешняя валидность касается степени, в которой (внутренне значимые) результаты исследования могут считаться верными для других случаев, например, для разных людей, мест или времени.
Внешнюю валидность можно повысить, поставив эксперименты в более естественной обстановке и используя случайную выборку для выбора участников.
Внешняя валидность обычно делится на два различных типа:
Популяционная валидность — другие люди
Историческая валидность — с течением времени
Экологическая валидность — степень, в которой результаты исследования могут быть применены к реальным жизненным обстоятельствам вне наборов исследований
Оба основных элемента при оценке прочности экспериментального дизайна.