Надежность в психологии это определение: надежность | это… Что такое надежность?

Содержание

Надежность психологического теста | это… Что такое Надежность психологического теста?

Надёжностью называется один из критериев качества теста, его устойчивость по отношению к погрешностям измерения. Различают два вида надёжности — надёжность как устойчивость и надёжность как внутреннюю согласованность.

Содержание

1 Надёжность как устойчивость
2 Надёжность как внутренняя согласованность
3 См. также
- 3.1 Надежность и валидность
4 Литература

Надёжность как устойчивость

Устойчивость результатов теста или ретестовая надежность (англ — test-retest reliability) – возможность получения одинаковых результатов у испытуемых в различных случаях.

Устойчивость определяется с помощью повторного тестирования (ретеста):

В данном методе предлагается провести несколько замеров с некоторым промежутком времени (от недели до года) одним и тем же тестом. Если корреляция между результатами различных замеров будет высокой, следовательно, тест достаточно надежный. Наименьшим удовлетворительным значением для ретестовой надежности является 0,7. Однако надежность не всех тестов можно проверять этим методом, так как оцениваемое качество, явление или эффект могут быть сами по себе нестабильны (например, наше настроение, которое может меняться от одного замера к следующему). Еще один недостаток повторного тестирования – это эффект привыкания. Испытуемые уже знакомы с этим тестом, а может быть, даже помнят большую часть своих ответов после предыдущего заполнения.

В связи с выше сказанным возможно исследование надежности психодиагностических методик с использованием параллельных форм, при которых конструируются эквивалентные или параллельные наборы заданий. Получается, что испытуемые выполняют совершенно другой тест при аналогичных условиях. Однако, имеются трудности в доказательстве того, что обе формы являются действительно эквивалентными.

Несмотря на это, на практике параллельные формы тестов оказываются полезными в установлении надежности тестов.

Надёжность как внутренняя согласованность

Внутренняя согласованность(англ. — self-consistent) определяется связью каждого конкретного элемента теста с общим результатом, тем, насколько каждый элемент входит в противоречие с остальными, насколько каждый отдельный вопрос измеряет признак, на который направлен весь тест. Чаще всего тесты, разрабатываются таким образом, чтобы у них была высокая степень внутренней согласованности, а связи с тем, что если одна переменная измеряется частью теста, то тогда в других частях, если они не согласованы с первой, эта же переменная измеряться не может. Таким образом, чтобы тест был валидным, необходимо, чтобы он был согласован.

Если все вопросы являются согласованными в высокой степени, они сильно коррелируют, и, следовательно, надежный тест будет измерять только лишь сравнительно «узкую» переменную с малыми отклонениями. По рассуждениям Кэттелла, максимум валидности существует, когда все задания теста не коррелируют друг с другом, а каждое из них имеет положительную корреляцию с критерием. Однако, такой тест будет характеризоваться низкой надежностью по внутренней согласованности.

Для проверки внутренней согласованности применяются:

Метод расщепления или метод автономных частей
Метод эквивалентных бланков
Альфа Кронбаха

Метод расщепления (Split-half reliability)

Этот метод заключается в расщеплении/разделении теста на две равные части (например, четные и нечетные вопросы, первая и вторая половина), а затем находится корреляция между ними. Если корреляция высокая, тест можно считать надежным.

Метод эквивалентных бланков

МЭБ состоит в применении двух сопоставимых друг с другом форм теста для большой выборки (например, формы L и M для измерения в шкале интеллекта Стэнфорда-Бине) Результаты, полученные при выполнении двух форм, сравнивают и высчитывают корреляцию. Если коэффициент корреляции высокий, следовательно, тест надежен. Недостаток этого метода в том, что он подразумевает такой длительный и трудоемкий процесс, как создание двух эквивалентных форм.

Альфа Кронбаха

В этом методе, предложенном Ли Кронбахом, сравнивается разброс каждого элемента с общим разбросом всей шкалы. Если разброс результатов теста меньше, чем разброс результатов для каждого отдельного вопроса, следовательно, каждый отдельный вопрос направлен на исследование одного и того же признака, свойства или явления. Они вырабатывают значение, которое можно считать истинным. Если такое значение выработать нельзя, то есть получается случайный разброс при ответе на вопросы, тест не надежен и коэффициент альфа Кронбаха будет равен 0. Если же все вопросы измеряют один и тот же признак, то тест надежен и коэффициент альфа Кронбаха в этом случае будет равен 1.

α Кронбаха определяется как

где N — число элементов в шкале, — дисперсия общего тестового балла, и — дисперсия элемента i.

См. также

Помимо надежности тестов, есть так же надежность наблюдения – межнаблюдательская надежность. МН – это процент совпадения результатов наблюдения экспертов друг с другом.

Надежность и валидность

Надежность показывает, что результаты проводимого исследования близки к истине, а валидность показывает, что результаты действительно относятся к тому явлению, которое изучается исследователем. Валидное исследование автоматически является надежным, однако обратное следствие не обязательно. Надежное исследование может и не быть валидным.

Литература

Пол Клайн. «Справочное руководство по конструированию тестов», Киев, 1994.

Надежность психологического теста | это… Что такое Надежность психологического теста?

Содержание

1 Надёжность как устойчивость
2 Надёжность как внутренняя согласованность
3 См. также
- 3.1 Надежность и валидность
4 Литература

Надёжность как устойчивость

Устойчивость определяется с помощью повторного тестирования (ретеста):

Еще один недостаток повторного тестирования – это эффект привыкания. Испытуемые уже знакомы с этим тестом, а может быть, даже помнят большую часть своих ответов после предыдущего заполнения.

Надёжность как внутренняя согласованность

Чаще всего тесты, разрабатываются таким образом, чтобы у них была высокая степень внутренней согласованности, а связи с тем, что если одна переменная измеряется частью теста, то тогда в других частях, если они не согласованы с первой, эта же переменная измеряться не может. Таким образом, чтобы тест был валидным, необходимо, чтобы он был согласован.

Однако существует и противоположная точка зрения. Кэттелл говорит о том, что высокая внутренняя согласованность на самом деле является противоположностью валидности: каждый вопрос должен затрагивать меньшую область или иметь более узкое значение, чем критерий, подвергающийся измерению. Если все вопросы являются согласованными в высокой степени, они сильно коррелируют, и, следовательно, надежный тест будет измерять только лишь сравнительно «узкую» переменную с малыми отклонениями. По рассуждениям Кэттелла, максимум валидности существует, когда все задания теста не коррелируют друг с другом, а каждое из них имеет положительную корреляцию с критерием.

Однако, такой тест будет характеризоваться низкой надежностью по внутренней согласованности.

Для проверки внутренней согласованности применяются:

Метод расщепления или метод автономных частей
Метод эквивалентных бланков
Альфа Кронбаха

Метод расщепления (Split-half reliability)

Метод эквивалентных бланков

Альфа Кронбаха

α Кронбаха определяется как

где N — число элементов в шкале, — дисперсия общего тестового балла, и — дисперсия элемента i.

См. также

Надежность и валидность

Литература

Пол Клайн. «Справочное руководство по конструированию тестов», Киев, 1994.

Что такое надежность Психология | BetterHelp

Пытаетесь найти специалиста по психическому здоровью?

Подберитесь к лицензированному терапевту здесь

Психология надежности

Психология определения надежности относится к способности исследования или теста давать одинаковые результаты после проведения более чем одного раза. Другими словами, если результаты теста или исследования снова и снова оказываются одинаковыми или близкими к одинаковым, они считаются надежными. Если бы один и тот же тест был предложен одному и тому же участнику в двух разных случаях и результаты оказались бы разными, этому тесту было бы трудно доверять. Этот тест будет признан ненадежным. Конечно, каждое исследование отличается от других, потому что в нем участвуют люди, ситуации и предметы, которые различаются в индивидуальном порядке, но если результаты близки, тест считается надежным.

Например, если общим симптомом среди 500 участников исследования об агорафобии оказывается тревога, можно достоверно заключить, что существует сильная корреляция между фобиями и тревогой. Возможно, из этих 500 человек 470 сообщают о беспокойстве, а 30 — нет. Среди большинства испытуемых было зарегистрировано достаточно случаев беспокойства, чтобы исследование, как говорят, дало надежный результат.

Однако, поскольку тест надежен, это не гарантирует, что он эффективен при измерении того, что он должен измерять. Можно полагаться на то, что некоторые тесты дадут неточные результаты. Эти тесты могут быть полезны в своем роде, доказывая, что им не хватает качества, чтобы продолжать их проводить, потому что они не дают результатов, которые ищут исследователи. В этом случае исследователи знают, что нужно вернуться к чертежной доске и придумать разные аспекты для тестирования или разные способы тестирования одних и тех же аспектов.

Использование коэффициента корреляции для определения надежности

Надежность в области психологии относится к данным, собранным в результате проведения тестов, таких как тесты интеллекта и оценки поведения. Каждый раз, когда исследователь заинтересован в сборе данных или задает участникам серию вопросов, он должен быть уверен, что инструменты, которые он использует для сбора этих данных, надежны. В противном случае учеба не более чем пустая трата времени каждого.

Надежность теста определяется путем расчета так называемого «коэффициента корреляции» между оценочными баллами, полученными в результате повторного проведения теста. Коэффициент корреляции работает как процент. Если коэффициент корреляции теста составляет 0,80 и более, тест можно считать надежным. Это все равно, что сказать, что если по крайней мере 80 процентов собранных данных доказывают, что между измеряемыми понятиями существует корреляция, то тест считается надежным.

Интересно, что тест не обязательно должен иметь идеальный коэффициент корреляции 1,0 (или, другими словами, 100 процентов), чтобы считаться надежным. Это связано с тем, что даже самые тщательно разработанные тесты никогда не могут быть идеальными. Такие факторы, как плохие вопросы и плохое форматирование, могут повлиять на результаты теста и снизить коэффициент корреляции теста. Кроме того, повторное задавание испытуемым одних и тех же вопросов может повлиять на их ответы и в конечном итоге исказить результаты теста.

Пытаетесь найти специалиста по психическому здоровью?

Найдите здесь лицензированного терапевта

Внутренняя и внешняя надежность

Определение надежности в психологии можно разделить на два типа надежности: внутренняя надежность и внешняя надежность. Внутренняя надежность относится к согласованности результатов в нескольких экземплярах одного и того же теста, например, в примере с фобиями и тревогой, представленном выше. Внешняя надежность, с другой стороны, относится к тому, насколько хорошо результаты варьируются в сходных, но разных обстоятельствах.

Ниже приведены некоторые примеры тестов, которые проводятся поверх других тестов, чтобы определить, можно ли считать результаты этих тестов надежными.

Примеры тестов

Метод повторного тестирования

Метод повторного тестирования используется для определения внешней надежности путем установления того, остается ли тест надежным с течением времени. Тесты этого рода включают анкеты и психометрические тесты.

Как правило, при повторном тестировании участникам сначала дают один и тот же тест в двух разных случаях. Если в обеих попытках получены одинаковые результаты или, по крайней мере, достаточно близкие попытки, то можно сказать, что тест имеет внешнюю надежность. Недостатком является то, что, поскольку вам нужно убедиться, что между двумя сеансами тестирования проходит достаточно времени, получение результатов занимает больше времени, чем обычно.

Надежность между экспертами

Надежность между экспертами используется для того, чтобы гарантировать, что исследователи, проводящие субъективные оценки, находятся на одной странице. У всех разные стандарты при проведении измерений. Ключевым моментом является установление уровня консенсуса между этими исследователями для создания необходимой степени беспристрастности. Установив, согласны ли исследователи друг с другом, они могут затем прийти к более определенному выводу при анализе собранных ими данных.

Межэкспертная надежность измеряется двумя методами: Ро Спирмена и Каппа Коэна. Каппа Коэна измеряет, насколько хорошо исследователи согласны друг с другом по результатам, которые не зависят от определенного порядка, по сравнению с тем, как они согласились бы, если бы они оценивали данные случайным образом. Ро Спирмена используется в исследованиях, в которых исследователи зависят от непрерывной информации в серии или заданном порядке, например, при принятии решения оценить факторы по шкале от 1 до 10. Ро Спирмена проясняет потенциальную корреляцию между оценками, полученными исследователями.

Метод разделения пополам

Метод разделения пополам измеряет, насколько хорошо каждая часть теста вносит свой вклад в его общее целое в отношении измерения надежности экземпляра. Он называется «разделить пополам», потому что результаты одной половины теста сравниваются с результатами другой половины.

Тесты можно разделить разными способами. Исследователи могут сравнить первую половину со второй половиной или даже измерить сходство между нечетными и четными вопросами. Если обе половины теста дают одинаковые результаты, говорят, что тест имеет внутреннюю надежность. Следовательно, метод разделения пополам может использоваться для повышения надежности теста. Однако метод разделения пополам может быть реализован только в тестах, состоящих из длинных вопросников, в которых все вопросы измеряют аспекты одной и той же концепции. Если тест измеряет разные концепции, то метод разделения пополам не будет действителен, поскольку он определяет, обладает ли тест внутренней надежностью.

Например, предположим, что 100 субъектам была предоставлена анкета, чтобы определить, какие симптомы чаще всего связаны с депрессией. Затем к этому тесту можно применить метод разделения пополам, чтобы определить его надежность, поскольку он измеряет только одно понятие: депрессию. С другой стороны, тест, используемый для сравнения симптомов депрессии с финансовым положением испытуемых, будет сосредоточен на объединении двух совершенно разных концепций. Следовательно, метод разделения пополам не будет подходящим методом проверки надежности этого исследования.

Важность установления надежности

Установление надежности в психологическом тестировании имеет решающее значение. Это связано с тем, что без этого состояния людей не могут быть точно диагностированы и, как следствие, им не будет предоставлено надлежащее лечение.

Время проведения теста также может повлиять на его надежность, особенно при реализации метода повторного тестирования. Если исследователи не будут ждать достаточно долго между тестами, то участники могут вспомнить информацию из первого теста, которая может повлиять на их ответы на второй. И наоборот, если время между тестами слишком велико, ситуации участников могут измениться до такой степени, что это может повлиять на результаты.

Например, если испытуемым является депрессия и ее последствия, некоторые участники могли начать лечить свое состояние лекарствами между первым и вторым тестами. Такое лечение может исказить результаты второго теста, если участники сообщают об уменьшении симптомов, что приводит к облегчению их депрессии. Если симптомы больше не подлежат изучению, то результаты теста скомпрометированы.

Повышение надежности

Иногда, несмотря на использование метода повторного тестирования или метода разделения пополам, тест или исследование оказываются просто ненадежными. Существуют способы устранения неполадок для повышения надежности теста. Во-первых, исследователи могут перепроверить, определены ли проверяемые категории.

Например, если исследователи наблюдают возможную связь между депрессией и агрессивным поведением, у каждого исследователя может быть свое представление о том, что представляет собой агрессивное поведение. Следовательно, исследователи не смогли бы аналогичным образом классифицировать поведенческие черты, и тест был бы признан ненадежным. Однако установление с самого начала четких категорий, таких как классификация толчка или удара ногой как агрессивного поведения, гарантирует, что все будут регистрировать данные одинаковым образом и что тест окажется надежным.

Если тест невозможно сохранить, можно предпринять шаги для обеспечения более эффективного проведения тестирования в будущем. Например, исследователи должны установить и уточнить свои методы сбора данных и убедиться, что все согласны с этими методами, прежде чем отправиться в поле и провести свои тесты.

Участие в исследовании

Если вы хотите стать участником исследования, вы можете обратиться к одному из наших консультантов на сайте BetterHelp.com. Помимо оказания терапевтической поддержки пациентам по всему миру, мы также можем найти и связать вас с исследованиями, участие в которых вам было бы наиболее интересно.

Источники

https://www.simplypsychology.org/reliability.html
https://study.com/academy/lesson/reliability-in-psychology-definition-lesson-quiz. html
https: //study.com/academy/lesson/inter-rater-reliability-in-psychology-definition-formula-quiz.html

4.2 Надежность и достоверность измерений – методы исследования в психологии

Цели обучения

Определение надежности , включая различные типы и способы их оценки.
Определите достоверность, включая различные типы и способ их оценки.
Опишите виды доказательств, которые могут иметь отношение к оценке надежности и достоверности конкретной меры.

Опять же, измерение включает в себя присвоение баллов отдельным лицам, чтобы они представляли некоторые характеристики людей. Но откуда исследователи узнают, что баллы на самом деле отражают характеристику, особенно когда речь идет о таком конструкте, как интеллект, самооценка, депрессия или объем рабочей памяти? Ответ заключается в том, что они проводят исследование с использованием меры, чтобы подтвердить, что оценки имеют смысл, исходя из их понимания измеряемой конструкции. Это чрезвычайно важный момент. Психологи не просто предполагает, что их меры работают. Вместо этого они собирают данные, чтобы продемонстрировать , что они работают. Если их исследование не показывает, что мера работает, они перестают ее использовать.

В качестве неформального примера представьте, что вы уже месяц сидите на диете. Ваша одежда кажется более свободной, и несколько друзей спрашивали, похудели ли вы. Если бы в этот момент ваши весы в ванной показывали, что вы потеряли 10 фунтов, это имело бы смысл, и вы продолжали бы пользоваться весами. Но если бы оно указывало на то, что вы набрали 10 фунтов, вы бы правильно заключили, что оно сломано, и либо починили бы его, либо избавились от него. При оценке метода измерения психологи учитывают два основных аспекта: надежность и валидность.

Надежность
Надежность относится к постоянству меры. Психологи рассматривают три типа согласованности: во времени (надежность повторного тестирования), между элементами (внутренняя согласованность) и между разными исследователями (межэкспертная надежность).
Надежность при повторном тестировании
Когда исследователи измеряют конструкт, который, по их мнению, является постоянным во времени, полученные ими баллы также должны быть постоянными во времени. Надежность при повторных испытаниях насколько это действительно так. Например, обычно считается, что интеллект неизменен во времени. Человек, который очень умен сегодня, будет очень умным на следующей неделе. Это означает, что любая хорошая мера интеллекта должна дать этому человеку примерно такие же оценки на следующей неделе, как и сегодня. Ясно, что мера, которая дает крайне противоречивые оценки во времени, не может быть очень хорошей мерой конструкции, которая должна быть последовательной.
Оценка надежности повторных испытаний требует использования меры для группы людей в один момент времени, повторного использования ее для той же группы людей позднее, а затем изучения корреляции испытаний и повторных испытаний между двумя наборами баллов. Обычно это делается путем графического отображения данных на диаграмме рассеяния и вычисления коэффициента корреляции. На рис. 4.2 показана корреляция между двумя наборами оценок нескольких студентов университета по шкале самооценки Розенберга, проведенных два раза с интервалом в неделю. Коэффициент корреляции для этих данных равен +,9.5. В целом считается, что корреляция между тестом и повторным тестом +,80 или выше указывает на хорошую надежность.
Рис. 4.2. Корреляция между двумя наборами оценок нескольких студентов колледжа по шкале самооценки Розенберга, полученных два раза в неделю с разницей быть последовательным во времени, как в случае с интеллектом, самооценкой и личностными параметрами Большой пятерки. Но другие конструкции не считаются стабильными во времени. Например, сама природа настроения такова, что оно меняется. Таким образом, мера настроения, которая показала низкую корреляцию между тестами и повторными тестами в течение месяца, не должна вызывать беспокойства.
Внутренняя согласованность
Другим видом надежности является внутренняя согласованность , которая представляет собой согласованность ответов людей по элементам измерения, состоящего из нескольких элементов. В целом предполагается, что все пункты таких показателей отражают одну и ту же базовую конструкцию, поэтому баллы людей по этим пунктам должны коррелировать друг с другом. Согласно шкале самооценки Розенберга, люди, согласные с тем, что они достойные люди, должны, как правило, соглашаться с тем, что они обладают рядом хороших качеств. Если ответы людей на разные элементы не коррелируют друг с другом, то больше не имеет смысла утверждать, что все они измеряют одну и ту же лежащую в основе конструкцию. Это верно как для поведенческих и физиологических показателей, так и для показателей самоотчетов. Например, люди могут сделать серию ставок в смоделированной игре в рулетку, чтобы измерить уровень своего стремления к риску. Этот показатель будет внутренне непротиворечивым в той мере, в какой ставки отдельных участников были неизменно высокими или низкими в ходе испытаний.
Как и надежность повторных испытаний, внутреннюю согласованность можно оценить только путем сбора и анализа данных. Один из подходов заключается в рассмотрении корреляции с разделением пополам . Это включает в себя разделение элементов на два набора, таких как первая и вторая половины элементов или элементы с четными и нечетными номерами. Затем для каждого набора элементов вычисляется оценка, и проверяется взаимосвязь между двумя наборами оценок. Например, на рис. 4.3 показана корреляция пополам между баллами нескольких студентов университетов по четным пунктам и их баллами по нечетным пунктам шкалы самооценки Розенберга. Коэффициент корреляции для этих данных составляет +,88. Половинная корреляция +,80 или выше обычно считается хорошей внутренней согласованностью.
Рис. 4.3 Разделенная пополам корреляция между баллами нескольких студентов колледжа по четным пунктам и их баллами по нечетным пунктам шкалы самооценки Розенберга психология — это статистика, называемая α Кронбаха (греческая буква альфа). Концептуально α является средним значением всех возможных корреляций разделения пополам для набора элементов. Например, существует 252 способа разделить набор из 10 предметов на два набора по пять. α Кронбаха будет средним из 252 разделенных пополам корреляций. Обратите внимание, что это не то, как на самом деле вычисляется α, но это правильный способ интерпретации значения этой статистики. Опять же, значение +,80 или выше обычно считается показателем хорошей внутренней согласованности.
Надежность между оценщиками
Многие поведенческие показатели требуют значительных суждений со стороны наблюдателя или оценщика. Межэкспертная надежность – это степень, в которой разные наблюдатели последовательны в своих суждениях. Например, если вы заинтересованы в измерении социальных навыков студентов университета, вы можете сделать видеозаписи их общения с другим студентом, которого они встречают впервые. Затем вы можете попросить двух или более наблюдателей посмотреть видео и оценить уровень социальных навыков каждого учащегося. В той мере, в какой каждый участник на самом деле обладает определенным уровнем социальных навыков, который может быть обнаружен внимательным наблюдателем, оценки разных наблюдателей должны сильно коррелировать друг с другом. Межэкспертная надежность также могла быть измерена в исследовании Бандуры с куклой Бобо. В этом случае оценки наблюдателями того, сколько актов агрессии совершил конкретный ребенок во время игры с куклой Бобо, должны были иметь высокую положительную корреляцию. Надежность между экспертами часто оценивается с использованием коэффициента Кронбаха, когда суждения количественные, или аналогичного статистического показателя, называемого коэновским κ (греческая буква каппа), когда они категоричны.
Валидность
Валидность – это степень, в которой оценки показателя представляют переменную, для которой они предназначены. Но как исследователи делают это суждение? Мы уже рассмотрели один фактор, который они учитывают, — надежность. Когда мера имеет хорошую надежность повторного тестирования и внутреннюю согласованность, исследователи должны быть более уверены в том, что оценки представляют то, что они должны представлять. Однако это должно быть нечто большее, потому что мера может быть чрезвычайно надежной, но не иметь никакой достоверности. В качестве абсурдного примера представьте себе человека, который считает, что длина указательного пальца человека отражает его самооценку, и поэтому пытается измерить самооценку, поднося линейку к указательным пальцам людей. Хотя эта мера будет иметь чрезвычайно хорошую надежность при повторном тестировании, она будет абсолютно недействительной. Тот факт, что указательный палец одного человека на сантиметр длиннее, чем у другого, ничего не говорит о том, у кого из них выше самооценка.
Обсуждения валидности обычно делят ее на несколько различных «типов». Но хороший способ интерпретировать эти типы состоит в том, что они представляют собой другие виды доказательств — в дополнение к надежности — которые следует принимать во внимание при оценке достоверности меры. Здесь мы рассматриваем три основных вида: валидность лица, валидность содержания и валидность критерия.
Лицевая валидность
Лицевая валидность — это степень, в которой метод измерения выглядит «на лицо» для измерения интересующей конструкции. Большинство людей ожидает, что анкета самооценки будет включать вопросы о том, считают ли они себя достойным человеком и считают ли они себя хорошими качествами. Таким образом, анкета, включающая такие пункты, будет иметь хорошую внешнюю валидность. С другой стороны, метод измерения самооценки по длине пальца, по-видимому, не имеет ничего общего с самооценкой и, следовательно, имеет низкую кажущуюся валидность. Хотя кажущаяся валидность может быть оценена количественно — например, когда большая выборка людей оценивает меру с точки зрения того, измеряет ли она то, для чего предназначена, — ее обычно оценивают неформально.
Лицевая валидность в лучшем случае является очень слабым доказательством того, что метод измерения измеряет то, что он должен измерять. Одна из причин заключается в том, что он основан на интуитивных представлениях людей о человеческом поведении, которые часто ошибочны. Также верно и то, что многие общепризнанные меры в психологии работают достаточно хорошо, несмотря на то, что им не хватает внешней достоверности. Миннесотский многофазный личностный опросник-2 (MMPI-2) измеряет многие личностные характеристики и расстройства, предлагая людям решить, применимо ли к ним каждое из более чем 567 различных утверждений, причем многие утверждения не имеют никакого очевидного отношения к конструкту, который они измеряют. . Например, пункты «Мне нравятся детективы или детективы» и «Вид крови не пугает и не вызывает у меня тошноты» измеряют подавление агрессии. В данном случае интерес представляют не буквальные ответы участников на эти вопросы, а то, соответствует ли шаблон ответов участников на ряд вопросов ответам людей, склонных подавлять свою агрессию.
Валидность содержания
Валидность содержания – это степень, в которой мера «покрывает» интересующую конструкцию. Например, если исследователь концептуально определяет тестовую тревожность как активацию симпатической нервной системы (ведущую к нервным переживаниям) и негативные мысли, то его мера тестовой тревожности должна включать пункты, касающиеся как нервных переживаний, так и негативных мыслей. Или учтите, что отношения обычно определяются как включающие мысли, чувства и действия по отношению к чему-либо. Согласно этому концептуальному определению, человек позитивно относится к физическим упражнениям в той мере, в какой он или она позитивно мыслит об упражнениях, чувствует себя хорошо во время упражнений и действительно занимается ими. Таким образом, чтобы иметь хорошую содержательную валидность, мера отношения людей к физическим упражнениям должна отражать все три аспекта. Как и внешняя валидность, содержательная валидность обычно не оценивается количественно. Вместо этого он оценивается путем тщательной проверки метода измерения на соответствие концептуальному определению конструкции.
Валидность критерия
Валидность критерия — это степень, в которой оценки людей по какому-либо показателю коррелируют с другими переменными (известными как критерии ), с которыми можно было бы ожидать их корреляции. Например, результаты людей по новому показателю тестовой тревожности должны иметь отрицательную корреляцию с их успеваемостью на важном школьном экзамене. Если бы было обнаружено, что баллы людей на самом деле отрицательно коррелируют с их успеваемостью на экзамене, то это было бы доказательством того, что эти баллы действительно отражают тревожность людей перед экзаменами. Но если бы было обнаружено, что люди получают одинаковые результаты на экзамене независимо от их оценки тревожности во время теста, это поставило бы под сомнение достоверность измерения.
Критерием может быть любая переменная, которая, как есть основания полагать, должна коррелировать с измеряемым конструктом, и обычно их будет много. Например, можно было бы ожидать, что показатели тревожности при тестировании будут отрицательно коррелировать с успеваемостью на экзамене и оценками за курс и положительно коррелировать с общей тревожностью и кровяным давлением во время экзамена. Или представьте, что исследователь разрабатывает новую меру физического риска. Баллы людей по этому показателю должны коррелировать с их участием в «экстремальных» видах деятельности, таких как катание на сноуборде и скалолазание, количеством штрафов за превышение скорости, которые они получили, и даже количеством сломанных костей, которые они получили за эти годы. Когда критерий измеряется одновременно с конструктом, валидность критерия оценивается как 9.0111 одновременное действие ; однако, когда критерий измеряется в какой-то момент в будущем (после того, как конструкт был измерен), он упоминается как прогностическая валидность (поскольку баллы по показателю «предсказали» будущий результат).
Критерии могут также включать другие показатели той же конструкции. Например, можно было бы ожидать, что новые показатели тестовой тревожности или принятия физического риска будут положительно коррелировать с существующими установленными показателями тех же конструктов. Это известно как конвергентная действительность .
Оценка конвергентной валидности требует сбора данных с использованием меры. Исследователи Джон Качиоппо и Ричард Петти сделали это, когда создали свою шкалу самооценки потребности в познании, чтобы измерить, насколько люди ценят мышление и вовлечены в него (Cacioppo & Petty, 1982) ^[1] . В серии исследований они показали, что баллы людей положительно коррелируют с их баллами по стандартизированному тесту успеваемости и что их баллы отрицательно коррелируют с их баллами по показателю догматизма (что представляет собой тенденцию к послушанию). За годы, прошедшие с момента ее создания, шкала потребности в познании использовалась буквально в сотнях исследований, и было показано, что она коррелирует с широким спектром других переменных, включая эффективность рекламы, интерес к политике и решения присяжных. (Петти, Бриньоль, Лёрш и Маккаслин, 2009 г.) ^[2] .
Дискриминантная валидность
Дискриминантная валидность , с другой стороны, представляет собой степень, в которой баллы меры , а не коррелируют с мерами переменных, которые концептуально различны. Например, самооценка — это общее отношение к себе, которое довольно стабильно во времени. Это не то же самое, что настроение, то есть то, насколько хорошо или плохо человек себя чувствует в данный момент. Таким образом, оценки людей по новому показателю самооценки не должны сильно коррелировать с их настроением. Если бы новая мера самооценки была сильно коррелирована с мерой настроения, можно было бы утверждать, что новая мера на самом деле не измеряет самооценку; вместо этого он измеряет настроение.
Создавая Шкалу потребности в познании, Качиоппо и Петти также предоставили доказательства дискриминантной валидности, показав, что баллы людей не коррелируют с некоторыми другими переменными. Например, они обнаружили лишь слабую корреляцию между потребностью людей в познании и мерой их когнитивного стиля — степенью, в которой они склонны мыслить аналитически, разбивая идеи на более мелкие части или целостно с точки зрения «большой картины». Они также не обнаружили корреляции между потребностью людей в познании и показателями их тестовой тревожности и их тенденцией реагировать социально желательными способами. Все эти низкие корреляции свидетельствуют о том, что показатель отражает концептуально отличный конструкт.
Ключевые выводы
Исследователи-психологи не просто предполагают, что их измерения работают. Вместо этого они проводят исследования, чтобы показать, что они работают. Если они не могут показать, что они работают, они перестают их использовать.
Существует два различных критерия, по которым исследователи оценивают свои измерения: надежность и достоверность. Надежность — это согласованность во времени (надежность при повторном тестировании), между элементами (внутренняя согласованность) и между исследователями (надежность между разными группами). Валидность — это степень, в которой оценки действительно представляют переменную, для которой они предназначены.
Обоснованность — это суждение, основанное на различных типах доказательств. Соответствующее свидетельство включает в себя надежность показателя, охватывает ли он интересующий конструкт и коррелируют ли полученные с его помощью оценки с другими переменными, с которыми они должны коррелировать, и не коррелируют с переменными, которые концептуально различны.