Каким типом валидности не должна обладать методика: Проблемы валидности психодиагностических методик. Виды валидности. Эмпирические способы определения валидности.

Содержание

Психометрические критерии тестов: валидность и ее типы

Главная
Государственный экзамен по специальности Психология личности (бакалавриат)
Психодиагностика

1 Понятие валидности

2 Типы валидности

К числу основных критериев оценки психодиагностических методик относится надежность и валидность. Большой вклад в разработку этих понятии внесли зарубежные психологи (А. Анастази, Е. Гизелли, Дж. Гилфорд, Л. Кронбах, Р. Торндайк и Е. Хаген и др.).

В критерии качества теста наряду с репрезентативностью (фр. показательностью – свойством выборки стандартизации представлять характеристики всей популяции) относятся валидность и надежность.

1 Валидность (от англ.

valid – пригодный). По А. Анастази, валидность – критерий качества теста, указывающий, «что тест измеряет и насколько хорошо он это делает». Русскоязычными синонимами валидности являются достоверность, обоснованность, адекватность. Чем валиднее тест, тем лучше в нем отображается то качество(свойство), ради которого он создался. Н-р, валидность измерения интеллекта зависит от теоретического(авторского) понятия «интеллект», от состава тестовых задач, соответствующей теоретической концепции, от эмпирических критериев (стаж, образование, профессия и т.д.).

2 Выделяются два типа валидности: непосредственная (или первичная) и производная (или вторичная).

Внутри непосредственной валидности выделяют:

а) внешнюю валидность. Ее наличие означает, что впечатление, которое создается у неспециалистов при знакомстве со стимульным материалом и внешней стороной процесса тестирования, соответствует объявленному содержанию теста.

Внешняя валидность может находиться в разных отношениях к подлинному психологическому содержанию теста. В одних случаях (например, при тестировании умственных способностей) внешняя валидность соответствует этому содержанию. В других случаях (в личностных тестах) она помогает маскировать подлинное содержание теста – испытуемый должен поверить в другое, мнимое содержание, указанное в инструкции. Тем самым предупреждается возникновение установки на выдачу фальсифицированных, в том числе социально нормативных ответов.

б)имманентная (внутренняя, содержательная) валидность.Валидизация производится на основе применения «внутренних» критериев. В качестве таковых выступают признаки, указанные в определении психического свойства, отражающегося в содержании теста. Наличие этих (и только их) признаков устанавливается путем анализа всех основных компонентов теста (стимульного материала, процедуры тестирования, системы выставления «сырых» баллов). При этом не используются какие-либо сложные математико-статистические процедуры, а разработчик ограничивается наблюдением за поведением испытуемых, их интервьюированием, оценками экспертов, выполняющих данный тест.

Производная, или вторичная валидность характеризуется сопоставлением тестовых методик с каким-либо внешним критерием:

а) оценочная валидность основана на вычислении коэффициента корреляции между оценками по тесту и показателями оценочных суждений (рейтинга) экспертов. В качестве экспертов выступают лица, имеющие достаточно длительное и тесное общение с испытуемыми.

б) конструктивная валидность указывает на то, что здесь речь идет о теоретической конструкции, о конструкте, посредством которого результаты тестов могут быть проверены на валидность. Значение конструктной валидности заключается в теоретическом объяснении того, что измеряет данный тест. Н-р, мы хотим с помощью теста измерить чувство страха перед экзаменами. Степень валидности этого измерения можно определить лишь в том случае, если проверить возможность подтверждения позитивных или негативных реакций, предсказываемых теоретически. В частности, 1) падает ли под влиянием временного фактора успеваемость учащегося, испытывающего чувство страха перед экзаменами, особенно сильно;2)отличается ли в подобных ситуациях реакция лиц с сильно развитым интеллектом от реакции интеллектуально менее развитых людей;3)можно ли подтвердить появление сопутствующих явлений (пот, дрожь) и т.д.

в) конвергентная (сходящаяся) и дискриминантная (разделяющая) валидность связаны с конструктной валидностью. Наиболее оптимальной ситуацией при создании нового теста является та, когда для измерения данного свойства в психологии уже имеется процедура с известной валидностью. В этом случае разработчик ищет корреляцию между баллами двух тестов.Если эта корреляция оказывается высокой, то говорят, что новый тест обладает конвергентной валидностью по отношению к старому, или тесты конвергируют друг с другом. Если он оказывается более компактным и экономичным в проведении и подсчете, то обычно применяют его. Н-р, если создается тест интеллекта, то часто результаты по нему сравнивают со шкалой Векслера или другими методиками.

От критерия конвергентности неотделима проверка теста по принципу дискриминантной валидности. Если созданный психологический конструкт адекватно отражает психическую реальность, то корреляция между конвергентными тестами будет выше, корреляции между каждым из этих тестов и измерителями любых других свойств.

Конвергентная и дискриминантная валидность проявляются и в следующем. Измеряемое психическое свойство имеет не одно, как правило, а несколько внешних поведенческих проявлений, которые естественно должны высоко коррелировать друг с другом. В связи с этим создание адекватного конструкта должно означать, что его автор в состоянии предсказать, какие именно внешние проявления данного психического свойства будут «конвергировать» друг с другом.

г) практическая валидность рассматривается в двух видах: прогностическая и совпадающая.

Они характеризуют тест с точки зрения его ценности в отношении достижения определенной практической цели (прогнозирования, классификации, диагностики). Количественно эти виды валидности определяются путем вычисления коэффициента корреляции между оценками представителей стандартизации по тесту, с одной стороны, и показателями их учебной или профессиональной деятельности, принятыми в качестве внешнего критерия, с другой.

Прогностическая валидность– это степень соответствия теста задаче прогнозирования успешности, с которой испытуемый будет выполнять определенную деятельность в будущем. Н-р, необходимо составить прогноз об успеваемости учащихся в вузе. Прогноз должен быть выполнен к концу обучения в начальной школе в форме результатов тестирования. По происшествии определенного времени, накануне окончания вуза, определяется успеваемость и устанавливается взаимосвязь с прогностическими данными.

Совпадающая валидность применяется при решении задач классификации испытуемых или диагностики имеющихся у них недостатков.

Таким образом, если тест, обладающий прогностической валидностью, позволяет ответить на вопрос, «Какова вероятность того, что индивид Х со временем приобретет свойство У?», то наличие у теста совпадающей валидности позволяет получить ответ на вопрос: «Какова вероятность того, что индивид Х обладает свойством У?».

Различные виды и типы валидности являются по отношению друг к другу не альтернативными, а взаимодополняющими. Следовательно, что эффективная тестовая методика может быть создана только на основе системного подхода. Вначале необходимо обеспечить валидность содержательно-теоретического типа (имманентную – для тестов с простым содержанием и оценочную или конструктивную – для тестов с более сложным содержанием). Затем, основываясь на данных о психологическом содержании теста, выяснить его соответствие тем или иным практическим целям(прогностическим или диагностическим). Наконец, на 3-ем этапе принимаются меры для придания тесту внешней валидности.

28. Текущая и эмпирическая валидности. Психодиагностика

ВикиЧтение

Психодиагностика
Лучинин Алексей Сергеевич

Содержание

28. Текущая и эмпирическая валидности

Текущая валидность (диагностическая, конкурентная) – характеристика теста, отражающая его способность различать испытуемых на основании диагностического признака, являющегося объектом исследования в данной методике. В более узком значении текущая валидность – установление соответствия результатов валидизируемого теста независимому критерию, отражающему состояние исследуемого тестом качества в момент проведения исследования.

Вместе с прогностической валидностью текущая валидность входит в комплекс сведений критериальной валидности методики. Основной процедурой определения текущей валидности является корреляционный анализ связи результатов теста с критериальными характеристиками исследуемого свойства. Распространенным способом характеристики диагностической эффективности методики является сравнение контрастных групп. Текущая валидность может определяться на основании сопоставления оценок, заключений по валидизируемому тесту с результатами другой методики, валидность которой является установленной.

Своеобразным показателем текущей валидности является комплекс сведений о том, насколько удобен, экономичен тест по сравнению с получением информации об исследуемом качестве из других источников (наблюдение, анализ объективных данных, экспертная оценка). Критерий текущей валидности является одним из ведущих при характеристике валидности любой психодиагностической методики. Однако наиболее высоким требованиям текущей валидности должны отвечать клинические тесты, служащие для уточнения дифференциального диагноза, скрининговые методики, тесты достижений, психометрические тесты интеллекта и ряд других.

Валидность эмпирическая – совокупность характеристик валидности теста, полученных сравнительным статистическим способом оценивания. Имеет отношение главным образом к области критериальной валидности и двум ее видам: валидности текущей и валидности прогностической.

Если при определении содержательной валидности оценка теста проводится с помощью различных качественных процедур получения информации описательными методами с использованием экспертных оценок и других источников информации, то эмпирическая валидность измеряется всегда с помощью статистического коррелирования. Проводится корреляционный анализ связи двух рядов значений – оценок теста и показателей по внешнему параметру изучаемого свойства. Конкретные процедуры определения эмпирической валидности связаны с комплексом коэффициентов валидности.

Данный текст является ознакомительным фрагментом.

21. Определения валидности. Важнейшие составляющие валидности

21. Определения валидности. Важнейшие составляющие валидности Валидность (англ. valid – «действительный, пригодный, имеющий силу») – комплексная характеристика методики (теста), включающая сведения об области исследуемых явлений и репрезентативности диагностической

22. Основные типы валидности. Понятие «комплекса валидности». Обоснование необходимости периодической валидизации психодиагностических методик

22. Основные типы валидности. Понятие «комплекса валидности». Обоснование необходимости периодической валидизации психодиагностических методик Классификация типов валидности в достаточной мере условна, так как нередко для различных критериев валидности применяются

27. Синтетическая и инкрементная валидности

27. Синтетическая и инкрементная валидности Синтетическая валидность. Более эффективным с точки зрения практической направленности теста (его адекватности как средства диагноза и прогноза реальной деятельности) является соотнесение результатов с критериальными

32.

Критерий валидности. Основное психометрическое неравенство. Типы критериев валидности

32. Критерий валидности. Основное психометрическое неравенство. Типы критериев валидности Соответствие теста измеряемому психическому свойству называется валидностью теста. На валидность теста негативно влияют случайные факторы, поэтому в психометрике принято

1. ЭМПИРИЧЕСКАЯ МЕТАФИЗИКА

1. ЭМПИРИЧЕСКАЯ МЕТАФИЗИКА Процесс индивидуации нередко выражается в символических образах метафизического характера. Такие образы способны создавать проблемы для эмпирического психотерапевта, не склонного доверять грандиозным недоказуемым представлениям о жизни,

Глава 5. Оценка валидности утверждений

Глава 5. Оценка валидности утверждений Оценка валидности утверждений (иногда обозначаемая аббревиатурой ОВУ) на сегодняшний день является наиболее популярной методикой для оценки правдоподобности утверждений, представленных в устной форме. Эта методика была

Эмпирическая валидизация социально — когнитивной теории

Эмпирическая валидизация социально — когнитивной теории Социально — когнитивная теория Бандуры дала толчок большому количеству исследований, подвергающих проверке ее основные концепции и принципы. Эти исследования значительно расширили наши знания о том, как

Эмпирическая валидизация концепций когнитивной теории

Эмпирическая валидизация концепций когнитивной теории В какой мере теория личностных конструктов обладает эмпирическими доказательствами валидности своих основных концепций? Этому вопросу был посвящен литературный обзор, сделанный свыше 25 лет назад Бонариусом (Bonarius,

Эмпирическая валидизация концепций гуманистической теории

Эмпирическая валидизация концепций гуманистической теории Неудивительно, что попытки, направленные на эмпирическое подтверждение гуманистического направления в теории личности, сконцентрировались почти исключительно на самоактуализации. Хотя Маслоу представил

Эмпирическая валидизация концепций феноменологической теории

Эмпирическая валидизация концепций феноменологической теории Теория Роджерса имеет отношение не только к проблеме личности, но также к психотерапии и изменению поведения человека. Практически все эмпирические исследования, которые проводил Роджерс, были нацелены на

Причины искажения валидности

Причины искажения валидности Как мы увидели, конечной целью планирования исследования всегда является достижение валидных выводов об изучаемом феномене. Неудачный исследовательский план ставит валидность под сомнение, не устраняя спорных моментов и ограничивая

Глава 5. Оценка валидности утверждений

Глава 5. Оценка валидности утверждений Оценка валидности утверждений (иногда обозначаемая аббревиатурой ОВУ) на сегодняшний день является наиболее популярной методикой для оценки правдоподобности утверждений, представ-, ленных в устной форме. Эта методика была

§ 2. Взаимосвязь трех уровней психической деятельности человека: бессознательного, подсознательного и сознательного. Текущая организация сознания — внимание

§ 2. Взаимосвязь трех уровней психической деятельности человека: бессознательного, подсознательного и сознательного. Текущая организация сознания — внимание Психическая деятельность человека, его психика функционируют одновременно на трех взаимосвязанных уровнях:

Глава 10 Текущая реальность

Глава 10 Текущая реальность Реальность вам не враг Как-то лев встретил в лесу обезьяну и решил, что не стоит упускать возможность лишний раз продемонстрировать, кто в джунглях хозяин.– Эй, ты, мартышка, – прорычал лев.– Да, сэр, – дрожащим голосом отозвалась

глава девятнадцатая. энергия, текущая через губы, соски и гениталии

глава девятнадцатая. энергия, текущая через губы, соски и гениталии Губы, соски и гениталии связаны внутренним энергетическим циклом. Стимулируя эти области и способствуя их расслаблению, вы сумеете усилить циркуляцию энергии партнера. Не стоит подолгу

4 типа валидности в дизайне исследования (+3 дополнительных пункта)

Выводы, которые вы делаете из своего исследования (будь то анализ опроса, фокус-группы, план эксперимента или другие методы исследования), полезны только в том случае, если они достоверны .

Насколько «верны» эти результаты? Насколько хорошо они представляют то, что вы на самом деле пытаетесь изучать? Валидность используется для определения того, измеряет ли исследование то, что оно намеревалось измерить, и для приближения к правдивости результатов.

К сожалению, исследователи иногда создают свои собственные определения, когда дело доходит до того, что считается достоверным.

В количественных исследованиях проверка достоверности и надежности является данностью.
Однако некоторые качественные исследователи зашли так далеко, что предположили, что валидность не применима к их исследованиям, даже если они признают необходимость некоторых квалификационных проверок или измерений в своей работе.

Это неправильно. Валидность всегда важна, даже если ее сложнее определить в качественном исследовании.

Пренебрегать валидностью означает ставить под сомнение надежность своей работы и ставить под сомнение доверие других к ее результатам. Даже когда в исследованиях используются качественные показатели, их необходимо рассматривать с использованием показателей надежности и валидности, чтобы поддерживать достоверность результатов.

Что такое валидность в исследованиях?

Валидность — это то, как исследователи говорят о степени соответствия результатов действительности. Методы исследования, количественные или качественные, представляют собой методы изучения реального явления. Под валидностью понимается то, какую часть этого явления они измеряют по сравнению с тем, сколько «шума» или несвязанной информации фиксируют результаты.

Валидность и надежность определяют разницу между «хорошими» и «плохими» исследовательскими отчетами. Качество исследований зависит от приверженности тестированию и повышению достоверности, а также надежности результатов ваших исследований.

Любое значимое исследование касается того, является ли то, что измеряется, тем, что должно быть измерено, и рассматривает способы, которыми на наблюдения влияют обстоятельства, в которых они сделаны.

Основа наших выводов играет важную роль в рассмотрении более широких существенных вопросов любого данного исследования.

По этой причине мы собираемся рассмотреть различные типы валидности, которые были сформулированы как часть законной исследовательской методологии.

Вот 7 основных типов валидности в исследованиях:

Лицевая валидность
Действительность содержимого
Действительность конструкции
Внутренняя действительность
Внешняя действительность
Достоверность статистического заключения
Валидность, связанная с критериями

1.

Лицевая действительность

Лицевая достоверность — это то, насколько достоверными кажутся ваши результаты на основе того, как они выглядят. Это наименее научный метод достоверности, поскольку он не определяется количественно с помощью статистических методов.

Фактическая действительность не является действительностью в техническом смысле этого термина. Он связан с тем, кажется ли нам, что мы измеряем то, что заявляем.

Здесь мы смотрим на то, насколько достоверной выглядит мера на поверхности, и делаем на ее основе субъективные суждения.

Например,

Представьте, что вы проводите опрос, который кажется действительным для респондента, и вопросы выбираются, потому что они кажутся действительными для администратора.
Администратор спрашивает группу случайных людей, неподготовленных наблюдателей, кажутся ли им вопросы актуальными

В исследованиях никогда не бывает достаточно полагаться только на личные суждения — и для того, чтобы делать приемлемые выводы, необходимы более количественные методы проверки достоверности. Существует множество инструментов измерения, которые следует учитывать, поэтому кажущаяся достоверность полезна в тех случаях, когда вам нужно отличить один подход от другого.

Внешней достоверности никогда нельзя доверять саму по себе.

2. Валидность содержания

Валидность содержания заключается в том, охватывает ли мера, используемая в исследовании, все содержание базовой конструкции (то, что вы пытаетесь измерить).

Это также субъективная мера, но в отличие от внешней достоверности мы спрашиваем, охватывает ли содержание меры всю область содержания. Если бы исследователь хотел измерить интроверсию, он должен был бы сначала решить, что представляет собой релевантную область содержания для этой черты.

Достоверность содержания считается субъективной формой измерения, поскольку она по-прежнему опирается на восприятие людей для измерения конструктов, которые в противном случае было бы трудно измерить.

Достоверность контента отличается (и становится полезной) благодаря использованию экспертов в данной области или лиц, принадлежащих к целевой группе. Это исследование можно сделать более объективным за счет использования строгих статистических тестов.

Например, у вас может быть исследование достоверности содержания, которое информирует исследователей о том, как элементы, используемые в опросе, представляют предметную область, насколько они понятны и в какой степени они поддерживают теоретическую факторную структуру, оцененную с помощью факторного анализа.

3. Конструктивная валидность

Конструкт представляет собой совокупность поведений, которые значимым образом связаны для создания образа или идеи, придуманной для исследовательской цели. Конструктивная валидность — это степень, в которой ваше исследование измеряет конструкт (по сравнению с вещами, находящимися вне конструкта).

Депрессия — это конструкт, представляющий черту личности, проявляющуюся в поведении, таком как чрезмерная сонливость, потеря аппетита, трудности с концентрацией внимания и т. д.

Существование конструкции проявляется при наблюдении за набором связанных индикаторов. Любой один признак может быть связан с несколькими конструкциями. У человека с трудностями концентрации внимания может быть синдром дефицита внимания. но не депрессия.

Конструктивная валидность — это степень, в которой выводы могут быть сделаны на основе операционализации (связывания понятий с наблюдениями) в вашем исследовании и конструктов, на которых эти операционализации основаны. Чтобы установить достоверность конструкции, вы должны сначала предоставить доказательства того, что ваши данные подтверждают теоретическую структуру.

Вы также должны показать, что контролируете операционализацию конструкции, другими словами, показать, что ваша теория имеет некоторое соответствие с реальностью.

Конвергентная валидность — степень, в которой операция похожа на другие операции, на которые она теоретически должна быть похожа.
Дискриминационная валидность — если шкала адекватно дифференцирует себя или не различает группы, которые должны различаться или не отличаться на основании теоретических причин или предыдущих исследований.
Номологическая сеть — представление конструктов, представляющих интерес для исследования, их наблюдаемых проявлений и взаимосвязей между ними. Согласно Кронбаху и Милу, номологическая сеть должна быть разработана для показателя, чтобы он имел конструктную достоверность 90 010.
Матрица мультипризнаков и мультиметодов — шесть основных соображений при проверке валидности конструкции согласно Кэмпбеллу и Фиске. Это включает в себя оценки конвергентной валидности и дискриминационной валидности. Другие — это единица метода признаков, мультиметод/признак, действительно другая методология и характеристики признаков.

4. Внутренняя достоверность

Внутренняя достоверность относится к степени, в которой независимая переменная может быть точно установлена для получения наблюдаемого эффекта.

Если влияние зависимой переменной обусловлено только независимыми переменными, то достигается внутренняя достоверность. Это степень, в которой можно манипулировать результатом.

Другими словами, внутренняя валидность — это то, как вы можете сказать, что ваше исследование «работает» в исследовательской среде. Влияет ли переменная, которую вы изменяете, на изучаемую переменную в данном исследовании?

5. Внешняя валидность

Внешняя валидность относится к степени, в которой результаты исследования могут быть обобщены за пределы выборки. То есть вы можете применить свои выводы к другим людям и настройкам.

Думайте об этом как о степени обобщения результата. Насколько хорошо результаты исследования применимы к остальному миру?

Лабораторная среда (или другая исследовательская среда) представляет собой контролируемую среду с меньшим количеством переменных. Внешняя валидность относится к тому, насколько верны результаты даже при наличии всех этих других переменных.

6. Достоверность статистического вывода

Достоверность статистического вывода – это определение того, существует ли взаимосвязь или ковариация между причинно-следственными переменными.

Этот тип валидности требует:

Обеспечение надлежащих процедур отбора проб
Соответствующие статистические тесты
Методы надежных измерений

Степень достоверности или правдоподобности заключения.

7. Критериальная валидность

Валидность, связанная с критериями (также называемая инструментальной валидностью), является мерой качества ваших методов измерения. Точность меры демонстрируется путем сравнения ее с мерой, достоверность которой уже известна.

Другими словами, если ваш показатель имеет высокую корреляцию с другими показателями, достоверность которых известна благодаря предыдущим исследованиям.

Чтобы это работало, вы должны знать, что критерий был хорошо измерен. И знайте, что подходящие критерии не всегда существуют.

Что вы делаете, так это проверяете эффективность вашей операционализации по критериям.

Критерии, которые вы используете в качестве стандарта суждения, учитывают различные подходы, которые вы бы использовали:

Прогностическая достоверность — способность операционализации предсказывать то, что она теоретически может предсказать. Степень, в которой мера предсказывает ожидаемые результаты.
Параллельная валидность — способность операционализации различать группы, на которые она теоретически должна быть способна. Именно здесь тест хорошо коррелирует с мерой, которая была проверена ранее.

Когда мы смотрим на достоверность данных опроса, мы спрашиваем, представляют ли данные то, что, по нашему мнению, они должны представлять.

Мы зависим от склада ума и отношения респондента, чтобы предоставить нам достоверные данные.

Другими словами, мы рассчитываем, что они ответят на все вопросы честно и добросовестно. Мы также зависим от того, смогут ли они ответить на вопросы, которые мы задаем. Когда задаются вопросы, которые респондент не может понять или понять, тогда данные не говорят нам о том, что, по нашему мнению, они делают.

9 Типы валидности в исследованиях (2023)

Валидность относится к тому, действительно ли тест или эксперимент делает то, для чего он предназначен.

Действительность находится в спектре. Например:

Низкая валидность: Большинство людей теперь знают, что стандартный тест IQ на самом деле не измеряет интеллект и не предсказывает успех в жизни.
Высокая достоверность: В отличие от этого, стандартный тест на беременность имеет точность около 99%, что означает очень высокую достоверность и, следовательно, очень надежный тест.

Существует множество способов определения достоверности. Большинство из них определены ниже.

Типы валидности

1. Лицевая валидность

Лицевая валидность относится к тому, «появляется» ли шкала для измерения того, что она должна измерять. То есть кажутся ли вопросы логически связанными с изучаемым конструктом.

Например, личностная шкала, измеряющая эмоциональный интеллект, должна содержать вопросы о самосознании и эмпатии. В нем не должно быть вопросов по математике или химии.

Один из распространенных способов оценить лицевую достоверность — это попросить группу экспертов изучить шкалу и оценить ее пригодность в качестве инструмента для измерения конструкции. Если эксперты согласны с тем, что шкала измеряет то, для измерения чего она была разработана, то говорят, что шкала имеет внешнюю валидность.

Если шкала или тест не имеют валидности, то люди, которые их проходят, не будут серьезными.

Конбах объясняет это следующим образом:

«Когда пациент теряет веру в лекарство, которое прописывает его врач, оно теряет большую часть своей способности улучшать его здоровье. Он может пропускать дозы и, в конце концов, может решить, что врачи не могут ему помочь, и полностью отказаться от лечения. По тем же причинам при выборе теста необходимо учитывать, насколько полезным он покажется участнику, который его выполняет, и другим непрофессионалам, которые увидят результаты» 9.0198 (Кронбах, 1970, стр. 182).

2.

Валидность содержания
Валидность содержания относится к тому, измеряет ли тест или шкала все компоненты данной конструкции. Например, если имеется пять измерений эмоционального интеллекта (EQ), то шкала, измеряющая EQ, должна содержать вопросы, касающиеся каждого измерения.
Подобно внешней валидности, содержательную валидность можно оценить, попросив экспертов в предметной области (SME) изучить тест. Если эксперты согласны с тем, что тест включает элементы, оценивающие каждую область конструкции, то тест имеет содержательную валидность.
Например, математическая часть SAT содержит вопросы, требующие навыков во многих областях математики: арифметике, алгебре, геометрии, исчислении и многих других. Поскольку есть вопросы, которые оценивают каждый тип математики, тест имеет содержательную валидность.
Разработчик теста может попросить SME оценить достоверность конструкции теста. Если все МСП дают тесту высокие оценки, то он имеет конструкционную валидность.
3. Конструктивная валидность
Конструктивная валидность — это степень, в которой инструмент измерения действительно оценивает то, для оценки чего он был разработан.
Существует два основных метода оценки конструктной валидности: конвергентная и дискриминантная валидность.
Конвергентная валидность предполагает проведение двух тестов, предназначенных для измерения одной и той же конструкции, и проведение их на выборке участников. Чем выше корреляция между двумя тестами, тем сильнее валидность конструкции.
С разной валидностью два теста, которые измеряют совершенно разные конструкции, применяются к одной и той же выборке участников. Поскольку тесты измеряют разные конструкции, между ними должна быть очень низкая корреляция.
4. Внутренняя валидность
Внутренняя валидность относится к тому, являются ли результаты эксперимента следствием манипулирования независимыми или лечебными переменными. Например, исследователь хочет изучить, как температура влияет на готовность помочь, поэтому участники исследования ждут в комнате.
Есть разные комнаты, в одной установлена нормальная температура, в одной умеренно теплая, в другой очень теплая.
На следующем этапе исследования участников просят сделать пожертвование в местную благотворительную организацию, прежде чем они примут участие в остальной части исследования. Результаты показали, что по мере повышения температуры в помещении пожертвования уменьшались.
На первый взгляд кажется, что исследование имеет внутреннюю достоверность: комнатная температура влияет на донорство. Однако, хотя в эксперименте участвовали три разные комнаты с разной температурой, каждая комната была разного размера. Самая маленькая комната была самой теплой, а комната с нормальной температурой была самой большой.
Теперь мы не знаем, повлияли ли на пожертвования комнатная температура или размер комнаты. Таким образом, исследование имеет сомнительную внутреннюю валидность.
Другим способом оценки внутренней валидности является оценка межэкспертной надежности, которая помогает повысить как валидность, так и надежность исследования.
5. Внешняя валидность
Внешняя валидность относится к тому, распространяются ли результаты исследования на реальный мир или другие ситуации. Многие психологические исследования проходят в университетской лаборатории. Поэтому сеттинг не очень реалистичен.
Это создает большую проблему в отношении внешней валидности. Можем ли мы сказать, что то, что происходит в лаборатории, будет таким же, как и в реальном мире?
Например, исследование внимательности включает в себя исследователя, случайным образом назначающего разных участников исследования использовать одно из трех приложений для осознанности на своих телефонах дома каждую ночь в течение 3 недель. По истечении трех недель их уровень стресса измеряется с помощью высокотехнологичного оборудования ЭЭГ.
Это исследование имеет внешнюю валидность, поскольку участники использовали настоящие приложения и находились дома, когда использовали эти приложения. Приложения и домашняя обстановка реалистичны, поэтому исследование имеет внешнюю валидность.
6. Параллельная валидность
Параллельная валидность — это метод оценки валидности, который включает сравнение нового теста с уже существующим тестом или уже установленным критерием.
Например, недавно разработанный тест по математике для SAT необходимо будет утвердить, прежде чем предлагать его тысячам учащихся. Таким образом, новая версия теста проводится выборке математических специальностей колледжа вместе со старой версией теста.
Результаты двух тестов сравниваются путем вычисления корреляции между ними. Чем выше корреляция, тем сильнее параллельная валидность нового теста.
7. Прогностическая валидность
Прогностическая валидность относится к тому, связаны ли результаты одного теста с выполнением заданного критерия. То есть может ли балл человека по тесту предсказать его результаты по критерию?
Например, ИТ-компании необходимо нанять десятки программистов для предстоящего проекта. Но проведение собеседований с сотнями соискателей занимает много времени и не очень точно определяет квалифицированных программистов.
Итак, компания разрабатывает тест, который содержит задачи программирования, аналогичные требованиям нового проекта. Компания оценивает прогностическую достоверность теста, предлагая своим нынешним программистам пройти тест, а затем сравнить их результаты с их ежегодными оценками производительности.
Результаты показывают, что программисты с высокими оценками также очень хорошо справились с тестом. Следовательно, тест имеет прогностическую валидность.
Теперь, когда новые кандидаты проходят тест, компания может предсказать, насколько хорошо они будут работать в будущем. Люди, которые хорошо справятся с тестом на предикторную переменную, будут , скорее всего, хорошо справляются со своей работой.
8. Обоснованность статистического заключения
Обоснованность статистического заключения относится к тому, подтверждаются ли выводы, сделанные авторами исследования, статистическими процедурами.
Например, применялся ли в исследовании правильный статистический анализ, применялись ли адекватные процедуры отбора проб, использовались ли в исследовании достоверные и надежные инструменты измерения?
Если все ответы на эти вопросы «да», то исследование имеет статистическую достоверность вывода. Однако если некоторые или все ответы «нет», то выводы исследования ставятся под сомнение.
Использование неправильного статистического анализа или выводы, основанные на очень малых размерах выборки, делают результаты сомнительными. Если результаты основаны на ошибочных процедурах, то выводы не могут быть признаны действительными.
9. Валидность критерия
Валидность критерия иногда называют прогностической валидностью. Это относится к тому, насколько хорошо оценки на одном измерительном устройстве связаны с оценками в данной области производительности (критерий).
Например, насколько хорошо результаты SAT предсказывают средний балл колледжа? Или в какой степени показатели потребительского доверия связаны с экономикой?
Примером низкой валидности критерия является то, как плохие спортивные результаты на комбайне НФЛ фактически предсказывают результаты на поле в игровой день. Есть десятки тестов, через которые проходят спортсмены, но около 99% из них никак не связаны с тем, насколько хорошо они выступают в играх.
Однако питание и физические упражнения тесно связаны с долголетием (критерий). Эти построения имеют критериальную валидность, поскольку сотни исследований показали, что питание и физические упражнения напрямую связаны с более продолжительной и здоровой жизнью.
Заключение
Существует так много типов достоверности, потому что точность измерения абстрактных понятий трудно различить. Среди экспертов также может возникнуть путаница и разногласия по поводу определения конструктов и того, как их следует измерять.
По этим причинам социологи потратили много времени на разработку различных методов оценки достоверности своих измерительных инструментов. Иногда это открывает пути для улучшения методов, а иногда показывает ошибочность попыток предсказать будущее на основе ошибочных процедур оценки.
Ссылки
Кук, Т. Д. и Кэмпбелл, Д. Т. (1979) Квазиэксперимент: вопросы проектирования и анализа полевых настроек. Хоутон Миффлин, Бостон.
Коэн, Р. Дж., и Свердлик, М. Э. (2005). Психологическое тестирование и оценка: введение в тесты и измерения (6-е изд.). Нью-Йорк: Макгроу-Хилл.
Кронбах, Л. Дж. (1970). Основы психологического тестирования . Нью-Йорк: Харпер и Роу.
Кронбах, Л.Дж., и Мил, П.Е. (1955) Конструктивная валидность в психологических тестах. Психологический бюллетень , 52 , 281-302.
Симмс, Л. (2007). Классические и современные методы построения психологических шкал. Компас социальной психологии и психологии личности, 2 (1), 414–433. https://doi.org/10.1111/j.1751-9004.2007.00044.x
Дэйв Корнелл (доктор философии)
+ посты
Доктор Корнелл работает в сфере образования более 20 лет. Его работа включала разработку сертификатов учителей для Тринити-колледжа в Лондоне и обучение без отрыва от работы для правительств штатов в Соединенных Штатах.