Валидность — Блог Викиум
Илья Павлов
Автор Викиум
Валидность — важнейший аспект экспериментальной психологии. Это свидетельство того, что, применяя определённую методику, специалист измерил именно то, что планировал.
Валидной считается методика, результаты которой соответствуют задачам, поставленным перед исследованием. Например, методика, разработанная для того, чтобы определить темперамент человека, должна измерять именно его, а не иные психические свойства.
Принципиальную важность валидности невозможно переоценить. Ведь именно от неё зависит достоверность проводимых тестов. Совершенный эксперимент невозможен, если методика не обладает идеальной валидностью.
Как проверить валидность?
Существует три способа, позволяющих определить, насколько методика валидна:
- Содержательная сторона
Проверка выявляет, насколько методика соответствует действительности, в которой реализуется изучаемое свойство.
- Конструктная валидность
Если методика валидна, она будет проверять научно обоснованные конструкты. Здесь же можно пойти по двум направлениям. Конвергентная валидность требует сопоставления нескольких методик, проверяющих идентичные показатели. Если между результатами будет наблюдаться корреляция, методику можно считать валидной.
При дискриминантном подходе проверяют, диагностирует ли методика только заданные характеристики и не затрагивает ли те, с которыми нет зависимости у исходных параметров.
- Критериальная проверка
Здесь используются статистические методы. Чтобы протестировать валидность, проверяют, соответствуют ли результаты испытания заранее заданным критериям.
Рассматривая критериальную валидность, также говорят о прогностической составляющей.
Такие методики применяют, когда хотят предсказать поведение. Если прогноз, сделанный с помощью методики, со временем оправдывается, экспериментальный комплекс получает статус прогностически валидного.Надёжность и валидность
Критерии надёжности рассматриваются с формальной точки зрения, тогда как содержательная сторона не учитывается.
Валидность, наоборот, обращает внимание на содержательные результаты теста. Оценивается их соответствие существующим феноменам психологии.
Надёжная методика не тождественна валидной. Например, тест, оценивающий инициативность, может продемонстрировать высокие показатели надёжности и ретестовости элементов. Однако фактически результаты будут свидетельствовать о значительной силе воли, но с точки зрения содержания инициативности не подтвердят.
Таким образом, надёжность теста является высокой, а валидность — низкой.
Внутренняя валидность и пример её нарушения
Внутренняя валидность — одна из разновидностей данного феномена. Чтобы понять её принцип, стоит рассмотреть пример, который отразит её нарушение.
Допустим, лаборатория хочет протестировать лекарство, способствующее росту. Для этого экспериментаторы отбирают несколько подростков тринадцати лет, измеряют параметры роста и дают детям лекарство.
Спустя два года снова производятся замеры, которые отражают увеличение показателей. Однако на основании изменившихся данных нельзя сделать вывод о том, что причиной перемен оказалось именно лекарство.
Нарушение внутренней валидности заключается в неучтенных факторах, которые влияют на результат исследования. В данном случае речь идёт о естественных процессах взросления. Корректный эксперимент должен был предусмотреть и их.
Методика определения определения поведения людей в различных ситуациях тоже может быть валидной или нет. Курс Викиум «Профайлинг» научит «читать людей» по невербальным признакам, выявлять скрытые намерения собеседника и прогнозировать действия оппонента.
6. Виды валидности:
Очевидная (внешняя валидность) — отражает, насколько по внешнему впечатлению от методики можно определить её направленность.
Конкурентная валидность — характеризует, как результаты, полученные по данной методике, коррелируют с результатами по другим тестам.
Прогностическая валидность — отражает, как задания данной методики коррелируют с каким-либо поздним временным критерием.
Валидность по внешнему критерию — показывает, как задания методики коррелируют с каким-либо внешним критерием.
Содержательная валидность — определяет, насколько задания теста отражают все аспекты исследуемой области поведения.
Конструктная валидность.Предполагает полное описание измеряемой переменной, выдвижение системы гипотез о связях ее с другими переменными, эмпирическое подтверждение (неопровержение) этих гипотез.
7. Процедура эмпирической валидизации.
Организация выборки при эмпирической валидизации зависит от временного статуса критерия. Если этот критерий — событие в прошлом (ретроспективная валидизация), то к участию в психодиагностическом обследовании достаточно привлечь только тех испытуемых, которые оказались на экстремальных полюсах по этому критерию. В результате применяется метод экстремальных (контрастных) групп. Коррелирование с суммарным баллом по тесту оценивается с помощью бисериального коэффициента по формуле (3.2.17). При этом в статусе дихотомической переменной (на месте отдельного пункта) оказывается сам критерий валидности: x— сумма баллов по тесту, полученных «высокой» группой по критерию; — стандартная ошибка критерия, связанная с численностью «высокой» (р) и «низкой» (q) групп.
8. Провести теоретическую валидизацию методики – это показать, действительно ли методика измеряет именно то свойство, качество, которое она, по замыслу исследователя, должна измерять. Так, например, если какой-то тест разрабатывался для того, чтобы диагностировать умственное развитие школьников, надо проанализировать, действительно ли он измеряет именно это развитие, а не какие-то другие особенности(например, личность, характер и т. п.). Таким образом, для теоретической валидизации кардинальной проблемой является отношение между психическими явлениями и их показателями, посредством которых эти психические явления пытаются познать. Она показывает, что замысел автора и результаты методики совпадают.
9. Приводится 12 факторов, угрожающих валидности различных экспериментальных планов. Каждый фактор будет подробнее описан при обсуждении тех планов, в которых его действие проявляется наиболее отчетливо, и этот список будет завершен после обсуждения 10 из 16 планов. Основным при составлении этого списка было различение внутренней и внешней валидности.
Внутренняя валидность — это тот минимум, без которого не может быть интерпретирован ни один эксперимент: действительно ли именно это экспериментальное воздействие привело к изменениям в данном эксперименте? Внешняя валидность относится к возможности обобщения вывода: на какие популяции, ситуации, другие независимые переменные, параметры воздействия и переменные измерения могут быть распространены результаты эксперимента.
Несомненно, что оба типа критериев являются важными, хотя часто они находятся в противоречии в том смысле, что увеличение валидности одного типа может угрожать валидности другого типа. Хотя внутренняя валидность есть условие sine qua non и хотя проблема внешней валидности, как и проблема индуктивного вывода, никогда не может быть полиостью решена, очевидно, что нашим идеалом является выбор таких экспериментальных планов, которые обеспечивают оба типа валидности. Это особенно важно для педагогических исследований, где весьма желательным является распространение данных на практические ситуации определенного характера. Различия и взаимоотношения между этими двумя видами валидности станут яснее после рассмотрения примеров при обсуждении конкретных типов эксперимента.Далее будут представлены восемь различных классов внешних переменных, относящихся к внутренней валидности. Если эти переменные не контролируются в экспериментальном плане, то они могут дать эффекты, которые смешиваются с эффектом экспериментального воздействия.
1) фона (history) — конкретных событий, которые происходят между первым и вторым измерением наряду с экспериментальным воздействием;
2) естественного развития (maturation) — изменений испытуемых, являющихся следствием течения времени per se (не связанных с конкретными событиями), например взросление, усиление голода, усталости и т. п.;
3) эффекта тестирования (testing) — влияния выполнения заданий, применяемых для измерения, на результаты повторного испытания;
4) инструментальной погрешности, нестабильности измерительного инструмента (instrumentation), при которой изменения в калибровке инструмента или изменения, характеризующие наблюдателя или оценочные показатели, могут вызвать изменения в результатах измерения;
5) статистической регрессии (statistical regression), имеющей место тогда, когда группы отбираются на основе крайних показателей и оценок;
6) отбора испытуемых (selection) — неэквивалентности групп по составу, вызывающей появление систематической ошибки в результатах;
7) отсева в ходе эксперимента (experimental mortality) — неравномерности выбывания испытуемых из сравниваемых групп;
8) взаимодействий фактора отбора с естественным развитием и др. , которые в ряде квазиэкспериментальных планов с несколькими группами (таких, как план 10) ошибочно принимаются за эффект экспериментальной переменной.
К факторам, ставящим под угрозу внешнюю валидность, или репрезентативность эксперимента, относятся:
9) реактивный эффект, или эффект взаимодействия тестирования, — возможное уменьшение или увеличение сензитивности, или восприимчивости, испытуемых к экспериментальному воздействию под влиянием предварительного тестирования. Результаты лиц, прошедших предварительное тестирование, будут нерепрезентативны по отношению к тем, кто не подвергался предварительному тестированию, то есть тем, из кого состоит генеральная совокупность, из которых были отобраны испытуемые;
10) эффекты взаимодействия фактора отбора и экспериментального воздействия;
11) условия организации эксперимента, вызывающие реакцию испытуемых на эксперимент, которая не позволяет распространить полученные данные о влиянии экспериментальной переменной на лиц, подвергающихся такому же воздействию в неэкспериментальных условиях;
12) взаимная интерференция экспериментальных воздействий, нередко возникающая, когда одни и те же испытуемые подвергаются нескольким воздействиям, поскольку влияние более ранних воздействий, как правило, не исчезает. Это относится особенно к планам экспериментов с одной группой (планы типа 8 и 9).10. Диагностическая методика отличается от любой исследовательской тем, что она стандартизирована.
10.Стандартизация (по Анастази) – это единообразие процедуры проведения и оценки выполнения теста. Таким образом, стандартизация рассматривается в двух планах: как выработка единых требований к процедуре эксперимента и как определение единого критерия оценки результатов диагностических испытаний. Стандартизация процедуры эксперимента подразумевает унификацию инструкций, бланков обследования, способов регистрации результатов, условий проведения обследования.
11.Требования к проведению теста
1. инструкции следует сообщать испытуемым одинаковым образом, как правило, письменно; в случае устных указаний они даются в разных группах одними и теми же сло-вами, понятными для всех, в одинаковой манере;
2. ни одному испытуемому не следует давать никаких преимуществ перед другими;
3. в процессе теста не следует давать отдельным испытуемым дополнительные пояснения;
4. тест с разными группами следует проводить в одинаковое по возможности время дня, в сходных условиях;
5. временные ограничения в выполнении заданий для всех испытуемых должны быть одинаковыми и так далее.
12. Отдельно следует остановиться на классификации диагностических процедур по такому критерию, как характер оценки. Совершенно естественно, что практически любой вид психологической диагностики можно рассматривать как процедуру экспертизы, то есть «рассмотрение какого-либо вопроса экспертами для вынесения заключения», «исследование какого-либо вопроса, требующего специальных знаний с представлением мотивированного заключения» (Толковый словарь русского языка, 1995). Конечной целью любой экспертизы является ответ на поставленный заказчиком вопрос, который оформляется в виде экспертного заключения. Вопросы, решаемые экспертным исследованием, определяются на основе реальных потребностей практики. Основными форм
13. Выборка стандартизации — множество испытуемых, на котором собираются диагностические нормы и проводится стандартизация диагностической шкалы.
Всякая большая совокупность людей, которую хотели бы исследовать или относительно которых собираются делать выводы, называется генеральной совокупностью.
14. В общих чертах стандартизация диагностической методики, ориентированной на норму, осуществляется путем ее проведения на большой представительной выборке испытуемых, которая ничем не отличается от той, для которой данная методика предназначена. На этой группе испытуемых, называемой выборкой стандартизации, разрабатываются нормы, указывающие не только средний уровень выполнения, но и его относительную вариативность выше и ниже среднего уровня. В результате можно оценить разные степени успешности или неуспешности в выполнении диагностической пробы. Это позволяет определить положение конкретного испытуемого относительно выборки стандартизации.
Для вычисления статистической нормы психологи-диагносты обратились к давно применяемым в биологии приемам математической статистики.
Рассмотрим пример.
На призывной пункт явилось несколько тысяч молодых людей.
Допустим, что все они примерно одного возраста. Что мы получим при измерении их роста? Обычно оказывается, что большинство почти одного роста, совсем немного будет людей очень маленького и очень высокого роста. Остальные же распределятся симметрично, уменьшаясь по количеству от среднего максимума в ту и другую сторону. Распределение рассматриваемых величин — это нормальное распределение (или распределение по нормальному закону, кривая распределения Гаусса). Математики показали, что для описания такого распределения достаточно знать два показателя — среднюю арифметическую и так называемое стандартное отклонение, которое получается путем несложных вычислений. Назовем среднюю арифметическую х, а стандартное отклонение ? (сигма малая). При нормальном распределении все изучаемые величины практически находятся в пределах х + 5 ?.
Рассмотрим как определялась статистическая норма для тестов Стэн-форд-Бине. В группу испытуемых входили 4498 человек от 2,5 до 18 лет. Усилия стэнфордских психологов были направлены на то, чтобы распределение полученных по каждому возрасту данных о выполнении тестов было близко к нормальному. Этого результата удалось добиться далеко не сразу; в некоторых случаях ученым приходилось заменять одни задания другими. В конце концов эта работа была закончена, и были подготовлены тесты по каждому возрасту со средней арифметической, равной 100, и со стандартным отклонением, равным 16. Принимается, что результаты в пределах х ± ? показывают границы наиболее характерной, представительной части распределения, границы нормы для данного возраста. При ? = 16 и х = 100 эти границы нормы будут от 84 до 116. Интерпретируется это так: результаты испытуемых, которые не выходят за эти границы, находятся в пределах нормы. Те, чьи результаты менее 84, находятся ниже нормы, а те, чьи результаты более 116, — выше нормы. Нередко этот же прием применяют и для дальнейшей классификации. Тогда результаты в пределах от х — ? до х — 2 ? интерпретируются как «несколько ниже нормы», а от х — 2 ? до х — З ? — как «значительно ниже нормы». Соответственно классифицируются результаты, находящиеся выше нормы.
15. В психодиагностике существует и другой подход к оценке результатов диагностических испытаний. В нашей стране под руководством К. М. Гуревича разрабатываются тесты, в которых в качестве точки отсчета выступает не статистическая норма, а независимый от результатов испытания, объективно заданный социально-психологический норматив.
Социально-психологический норматив реализуется в совокупности заданий, составляющих тест. Следовательно, сам тест в полном его объеме и является таким нормативом. Все сопоставления индивидуальных или групповых результатов тестирования проводятся с тем максимумом, который представляется в тесте (а это полный набор знаний). В качестве критерия оценки выступает показатель, отражающий степень близости результатов к нормативу. Имеется разработанная схема представления групповых количественных данных.
Для анализа данных относительно их близости к социально-психологическому нормативу, условно рассматриваемому как 100 %-ное выполнение всего теста, все испытуемые подразделяются по результатам тестирования на 5 подгрупп:
1) наиболее успешные — 10%; 2) близкие к успешным — 20 %; 3) средние по успешности — 40 %; 4) мало успешные — 20 %; 5) наименее успешные — 10%.
Для каждой из подгрупп подсчитывается средний процент правильно выполненных заданий. Строится система координат, где по оси абсцисс идут номера подгрупп, по оси ординат — процент выполненных каждой из подгрупп заданий. После нанесения соответствующих точек вычерчивается график, отражающий приближение каждой из подгрупп к социально-психологическому нормативу. Такая обработка проводится по результатам как теста в целом, так и каждого субтеста в отдельности.
Срок действия | Психология | tutor2u
Исследуйте психологию
Учебные заметки
- Уровень:
- AS, A-уровень
- Плата:
- AQA, Edexcel, OCR, IB
Последнее обновление 22 марта 2021 г.
Поделиться :
Валидность относится к тому, действительно ли мера измеряет то, что, по ее утверждению, измеряет . Некоторые ключевые типы валидности рассматриваются ниже.
Лицевая достоверность
Лицевая достоверность является мерой того, выглядит ли субъективно многообещающе то, что инструмент измеряет то, что он должен измерять
- например. Можно заметить, что люди с более высокими баллами на экзаменах получают более высокие баллы по опроснику IQ; вы не можете быть уверены, что они напрямую связаны, но на первый взгляд кажется, что результаты экзаменов являются разумным показателем показателей IQ, поэтому ваша мера показывает хорошую внешнюю достоверность.
Внутренняя валидность
Внутренняя валидность является мерой того, зависят ли полученные результаты исключительно от изменений в переменной, с которой манипулируют (т. е. независимой переменной) в причинно-следственной связи. Два ключевых типа внутренней валидности:
- Конструктивная валидность – спрашивает, успешно ли мера измеряет концепцию , для которой она предназначена (например, измеряет ли опрос IQ или что-то родственное, но принципиально отличное?).
- Параллельная валидность — спрашивает, согласуется ли мера с ранее существовавшими мерами, которые проверены для проверки той же [или очень похожей] концепции (оценивается путем сопоставления мер друг с другом).
Внутреннюю валидность можно оценить на основе того, успешно ли контролируются или исключаются посторонние (т. е. нежелательные) переменные, которые также могут повлиять на результаты; чем больше контроль над такими переменными, тем больше уверенность в том, что можно найти причину и следствие, относящиеся к исследуемому конструкту.
Внешняя валидность
Внешняя валидность — это мера того, могут ли данные быть обобщены на другие ситуации за пределами исследовательской среды, в которой они были первоначально собраны. Два основных типа внешней валидности:
- Временная валидность — это высокая когда результаты исследований успешно применяются в течение времени (некоторые переменные в прошлом могут больше не иметь значения сейчас или в будущем).
- напр. Изменения в отношении к гендерным ролям с течением времени могут снизить временную достоверность данных прошлых экспериментов применительно к современным исследованиям.
- Экологическая валидность – можно ли обобщить данные на реальный мир , исходя из условий, в которых проводится исследование, и задействованных процедур.
- напр. Лабораторные исследования могут обеспечить высокую степень контроля над посторонними переменными, которые в противном случае варьировались бы в естественной среде, поэтому результаты могут считаться слишком «искусственными» и, следовательно, иметь низкую экологическую достоверность.
- Однако мыши, например, могут вести себя одинаково в лаборатории и в дикой природе, поэтому лабораторные эксперименты, возможно, по-прежнему сохраняют здесь высокую экологическую достоверность.
- напр. Лабораторные исследования могут обеспечить высокую степень контроля над посторонними переменными, которые в противном случае варьировались бы в естественной среде, поэтому результаты могут считаться слишком «искусственными» и, следовательно, иметь низкую экологическую достоверность.
Внешняя валидность эксперимента может быть оценена и улучшена путем повторения исследования в разное время и в разных местах и получения аналогичных результатов. Например, уверенность в обобщаемости [и, в свою очередь, внешней валидности] результатов повышается, когда исследования успешно воспроизводятся в разных культурах.
Доля :
Вам также может понравиться
Наши предметы
Исследовать
Контакты
© 2002-2023 Tutor2u Limited. Регистрационный номер компании: 04489574. Регистрационный номер НДС 816865400.
НаверхЧто такое валидность? — Чалли
14 ноября 2019 г.
Когда люди говорят о психологических тестах, они часто спрашивают, действителен ли тест или нет. Что именно это означает? Что означает, что тест имеет валидность?
Ответ: Валидность – это степень, в которой тест измеряет то, что, по его утверждению, должен измерять. Очень важно, чтобы тест был валидным, чтобы его результаты можно было точно применить и интерпретировать.
Валидность теста определяется не одной статистикой, а совокупностью исследований, демонстрирующих взаимосвязь между тестом и поведением, для измерения которого он предназначен. Существует три подхода к получению доказательств достоверности.
- Срок действия содержания
Валидность содержания — это степень, в которой инструмент или показатель оценивает все критические аспекты работы (задачи, обязанности и необходимые знания, навыки и способности), а не только некоторые из них. Например, тест на пилота должен измерять способность человека взлетать, летать и приземляться на самолете (все необходимое для успешного пилота), а не только способность человека управлять самолетом.
Проверка подлинности лица часто считается подкатегорией достоверности содержания. Лицевая валидность — это степень, в которой тест выглядит как , он измеряет то, что должен измерять. В то время как высокая лицевая достоверность может показаться выгодной с точки зрения приемлемости для пользователя, более низкая лицевая достоверность обеспечивает большую точность в прогнозировании поведения на работе из-за неспособности испытуемых манипулировать результатами (например, отвечать на вопросы так, как они считают более благоприятным).
- Валидность, связанная с критериями
Считается, что тест имеет валидность, связанную с критерием, если он продемонстрировал свою эффективность в прогнозировании критерия, такого как успех в роли, измеряемый достижением квоты.
Существует два разных типа:
— Параллельно: Происходит, когда меры критерия получаются одновременно с результатами теста.