Что такое надежность в психологии и почему это важно? • BUOM
1 июля 2021 г.
Исследователи используют множество методов для оценки и повышения надежности своей работы и постоянно переоценивают свои процессы для обеспечения эффективности. Надежность в психологии помогает исследователям последовательно проводить тесты и исследования. Если вы хотите, чтобы результаты ваших исследований и психологических тестов были более надежными, вы можете узнать больше о надежности в психологии. В этой статье мы обсудим, что такое надежность в психологии, почему это важно, методы, которые исследователи используют для оценки надежности тестов и исследований, а также советы по повышению надежности в вашей собственной работе.
Что такое надежность в психологии?
Надежность в психологии — это последовательность выводов или результатов психологического исследования. Если выводы или результаты остаются одинаковыми или похожими при нескольких попытках, исследователь часто считает их надежными. Поскольку обстоятельства и участники могут меняться в ходе исследования, при проведении оценок исследователи обычно учитывают корреляцию, а не точность. Они считают тест или исследование надежным, если замечают высокую положительную корреляцию между результатами и выводами.
Надежность отличается от валидности, аналогичная концепция часто сочетается с надежностью, когда исследователи оценивают свою работу. В то время как надежность относится к способности повторять тест или исследование и каждый раз получать почти одинаковые результаты, валидность включает в себя то, насколько хорошо метод исследования измеряет поведение, которое, как утверждает исследователь, он делает. Надежность и валидность играют важную и взаимосвязанную роль в получении точных ресурсов, но они требуют отдельных оценок, поскольку одно может быть очевидным без другого.
Программы для Windows, мобильные приложения, игры — ВСЁ БЕСПЛАТНО, в нашем закрытом телеграмм канале — Подписывайтесь:)
Пример: Доктор Джонс оценил разработанный им тест, применяя его к новой группе участников. Он отметил высокую положительную корреляцию между результатами первой тестовой группы и результатами второй, поэтому сделал вывод о достоверности теста. Он также точно измерил, как поведенческая психология влияет на людей на рабочем месте, как он и предполагал при ее создании. Это также делает тест действительным.
Почему надежность важна в психологии?
Надежность важна, потому что она определяет ценность психологического теста или исследования. Если результаты теста остаются стабильными, когда исследователи проводят исследование, его надежность обеспечивает ценность для области психологии и других областей, в которых он имеет значение, таких как образование или бизнес. Низкая надежность предупреждает исследователей о том, что они должны изменить определенные аспекты своего текущего теста или исследования или провести новый тест, чтобы повысить его ценность.
Способы оценки надежности в психологических исследованиях и тестировании
Вот несколько методов, которые исследователи используют для оценки надежности своих исследований и тестов:
Внутренняя надежность
Внутренняя надежность относится к тому, насколько хорошо ресурс поддерживает согласованность внутри себя. Для измерения внутренней надежности, которая применяется конкретно к тестам, исследователи часто используют метод разделения пополам. Этот процесс включает в себя разделение теста пополам перед его проведением участнику и сравнение результатов каждой половины. Если исследователь обнаруживает, что каждая часть теста дает одинаковые результаты, тест имеет внутреннюю надежность. Исследователи могут разделить тест пополам, используя несколько методов, таких как разделение первой и второй половины, группировка случайных вопросов или разделение вопросов с четными и нечетными номерами.
Пример. Доктор Смит создал экзамен по определенной психологической концепции для студентов своего колледжа. Тест содержал 100 вопросов по одной и той же теме. Чтобы оценить надежность теста, он разделил его на две части и дал половине студентов первую половину теста, а другой половине студентов вторую половину теста. Обе группы студентов показали одинаковые результаты, что подтверждает надежность экзамена.
Внешняя надежность
Внешняя надежность — это способность теста давать одинаковые результаты как с течением времени, так и от каждого человека, который его проходит. Он включает в себя два метода: тест-ретест и межрейтинговый. Тест-ретест измеряет, насколько хорошо тест остается стабильным после многократного использования. Если тест остается стабильным, он сохраняет свою надежность. Надежность между оценщиками, известная как надежность между наблюдателями при измерении надежности научных исследований, проверяет, записывают ли разные оценщики или наблюдатели одни и те же данные на основе протокола определенного теста или исследования.
Пример: Бетти, Рон и Джейн — судьи по гимнастике. Поскольку мнения о выступлениях гимнасток различаются, они используют стандартизированную систему подсчета очков, чтобы гарантировать, что они выносят оценки, используя один и тот же протокол. Если система показывает, что судьи используют и интерпретируют данные сходным образом, система подсчета баллов имеет межэкспертную надежность.
Советы по повышению надежности психологических исследований и тестов
Исследователи используют результаты оценок для повышения надежности своих тестов и исследований. Вот несколько советов, которые вы можете использовать, чтобы повысить надежность ваших собственных ресурсов по психологии:
Определитесь с методом измерения
Тест требует определенной методики измерения, чтобы оценить его надежность. При выборе типа измерения вы можете рассмотреть существующие методы или создать свои собственные. Исследователи часто выбирают существующие методы, которые использовали другие исследователи, потому что это экономит их время и усилия, необходимые для разработки собственных. Другие, однако, предпочитают создавать собственные методики измерений, более точно отражающие цель и задачу их работы, или тестировать новый процесс. Например, определите, хотите ли вы использовать такие методы, как межрейтинговый, тест-ретест или другие методы.
Постоянно измеряйте свои исследования
Исследователи-психологи, которые вносят продолжительный вклад в эту область, часто разрабатывают исследования и процедуры тестирования, которые подвергаются строгой и последовательной оценке, прежде чем их коллеги признают их ценными. Рассмотрите возможность создания процедуры для оценки надежности ваших ресурсов. Например, оценка ваших исследований после каждого использования в разных средах может помочь вам найти любые потенциальные недостатки и быстро устранить их для повышения надежности.
Будьте внимательны к среде тестирования
Внешние факторы, такие как среда тестирования или исследования, могут повлиять на результаты, что также может повлиять на надежность. Например, работа или тестирование в местах с отвлекающими факторами или высокой или низкой температурой могут повлиять на способность человека концентрироваться и использовать учебные ресурсы по назначению. Стрессовые ситуации также могут исказить данные. Отметив эти обстоятельства, вы сможете определить, как они влияют на надежность вашего психологического теста или исследования.
Надёжность психологического теста — Психологос
Надёжностью называется один из критериев качества теста, его устойчивость по отношению к погрешностям измерения. Различают два вида надёжности — надёжность как устойчивость и надёжность как внутреннюю согласованность.
Надёжность как устойчивость
Устойчивость результатов теста – возможность получения одинаковых результатов у испытуемых в различных случаях.
Устойчивость определяется с помощью повторного тестирования (ретеста):
В данном методе предлагается провести несколько замеров с некоторым промежутком времени (от недели до года) одним и тем же тестом. Если корреляция между результатами различных замеров будет высокой, следовательно, тест достаточно надежный. Однако надежность не всех тестов можно проверять этим методом, так как оцениваемое качество, явление или эффект могут быть сами по себе нестабильны (например, наше настроение, которое может меняться от одного замера к следующему). Еще один недостаток МР – это эффект привыкания. Испытуемые уже знакомы с этим тестом, а может быть, даже помнят большую часть своих ответов после предыдущего заполнения.
Надёжность как внутренняя согласованность
Внутренняя согласованность определяется связью каждого конкретного элемента теста с общим результатом, тем, насколько каждый элемент входит в противоречие с остальными, насколько каждый отдельный вопрос измеряет признак, на который направлен весь тест.
Для проверки внутренней согласованности применяются:
- Метод расщепления или метод автономных частей
- Метод эквивалентных бланков
- Альфа Кронбаха
Метод расщепления (Split-half reliability)
Этот метод заключается в расщеплении/разделении теста на две равные части (например, четные и нечетные вопросы, первая и вторая половина), а затем находится корреляция между ними. Если корреляция высокая, тест можно считать надежным.
Метод эквивалентных бланков
МЭБ состоит в применении двух сопоставимых друг с другом форм теста для большой выборки (например, формы L и M для измерения в шкале интеллекта Стэнфорда-Бине)
Результаты, полученные при выполнении двух форм, сравнивают и высчитывают корреляцию. Если коэффициент корреляции высокий, следовательно, тест надежен. Недостаток этого метода в том, что он подразумевает такой длительный и трудоемкий процесс, как создание двух эквивалентных форм.
Альфа Кронбаха
В этом методе, предложенном Ли Кронбахом, сравнивается разброс каждого элемента с общим разбросом всей шкалы. Если разброс результатов теста меньше, чем разброс результатов для каждого отдельного вопроса, следовательно, каждый отдельный вопрос направлен на исследование одного и того же признака, свойства или явления. Они вырабатывают значение, которое можно считать истинным. Если такое значение выработать нельзя, то есть получается случайный разброс при ответе на вопросы, тест не надежен и коэффициент альфа Кронбаха будет равен 0. Если же все вопросы измеряют один и тот же признак, то тест надежен и коэффициент альфа Кронбаха в этом случае будет равен 1.
Помимо надежности тестов, есть также надежность наблюдения – межнаблюдательская надежность. МН – это процент совпадения результатов наблюдения экспертов друг с другом.
Надежность и валидность
Надежность показывает, что результаты проводимого исследования близки к истине, а валидность показывает, что результаты действительно относятся к тому явлению, которое изучается исследователем. Валидное исследование автоматически является надежным, однако обратное следствие не обязательно. Надежное исследование может и не быть валидным.
Надежность в исследованиях: определения, измерения и примеры 0014
Обновлено
Сол Маклеод, доктор философии
Преподаватель, исследователь
Бакалавр (с отличием) психологии, магистр, доктор философии, Университет Манчестера
Сол Маклеод, доктор философии, является квалифицированным преподавателем психологии с более чем 18-летним опытом работы в и высшее образование.
Узнайте о нашем редакционном процессе. ), психология, магистр психологии образования
Оливия Гай- Эванс — писатель и помощник редактора журнала Simply Psychology. Ранее она работала в сфере здравоохранения и образования.
Узнайте о нашем редакционном процессе
Термин «надежность» в психологических исследованиях относится к последовательности количественного исследования или измерительного теста.
Например, если человек взвешивается в течение дня, он ожидает увидеть аналогичные показания. Весы, которые каждый раз измеряли вес по-разному, были бы мало полезны.
Ту же аналогию можно применить к рулетке, которая каждый раз измеряет дюймы по-разному. Это не будет считаться надежным.
Если результаты исследований воспроизводятся последовательно, они надежны. Для оценки степени надежности можно использовать коэффициент корреляции. Если тест надежен, он должен показывать высокую положительную корреляцию.
Конечно, маловероятно, что каждый раз будут получены одни и те же результаты, так как участники и ситуации меняются. Тем не менее, сильная положительная корреляция между одними и теми же результатами испытаний указывает на надежность.
Существует два типа надежности – внутренняя и внешняя надежность.
- Внутренняя надежность оценивает согласованность результатов по элементам теста.
- Внешняя надежность относится к степени, в которой мера варьируется от одного использования к другому.
Оценка надежности
Метод разделения пополам
Метод разделения пополам позволяет оценить внутреннюю согласованность теста, такого как психометрические тесты и опросники. Там он измеряет степень, в которой все части теста в равной степени влияют на то, что измеряется.
Это делается путем сравнения результатов одной половины теста с результатами другой половины. Тест можно разделить пополам несколькими способами, например, на первую половину и вторую половину или по нечетным и четным числам. Если две половины теста дают одинаковые результаты, это означает, что тест обладает внутренней надежностью.
С помощью этого метода можно повысить надежность теста. Например, любые вопросы в отдельных частях теста с низкой корреляцией (например, r = 0,25) должны быть либо удалены, либо переписаны.
Метод разделения пополам — это быстрый и простой способ установить надежность. Однако он может быть эффективен только с большими анкетами, в которых все вопросы измеряют один и тот же конструкт. Это означает, что он не подходит для тестов, измеряющих различные конструкции.
Например, в Миннесотском многофазном опроснике личности есть подшкалы, измеряющие различные виды поведения, такие как депрессия, шизофрения, социальная интроверсия. Поэтому метод разделения пополам не был подходящим методом для оценки надежности этого личностного теста.
Повторное тестирование
Метод повторного тестирования оценивает внешнюю согласованность теста. Примеры соответствующих тестов включают анкеты и психометрические тесты. Он измеряет стабильность теста во времени.
Типичная оценка включает проведение одного и того же теста в двух разных случаях. Если получаются такие же или похожие результаты, то устанавливается внешняя достоверность. Недостатки метода повторного тестирования заключаются в том, что получение результатов занимает много времени.
Бек и др. (1996) изучили ответы 26 амбулаторных пациентов на два отдельных сеанса терапии с интервалом в одну неделю, они обнаружили корреляцию 0,93, что свидетельствует о высокой надежности теста-покоя в опроснике депрессии.
Это пример того, почему необходима надежность в психологических исследованиях. Если бы не надежность таких тестов, у некоторых людей не могли бы быть успешно диагностированы такие расстройства, как депрессия, и, следовательно, им не была бы назначена соответствующая терапия.
Время проведения теста важно; если продолжительность слишком короткая, то участники могут вспомнить информацию из первого теста, что может привести к искажению результатов.
В качестве альтернативы, если продолжительность слишком велика, вполне возможно, что участники могли каким-то важным образом измениться, что также может привести к искажению результатов.
Межэкспертная надежность
Метод повторного тестирования оценивает внешнюю согласованность теста. Это относится к степени, в которой разные оценщики дают согласованные оценки одного и того же поведения. Межэкспертная надежность может быть использована для интервью.
Обратите внимание, что это также можно назвать надежностью между наблюдателями, когда речь идет об наблюдательных исследованиях. Здесь исследователи независимо наблюдают за одним и тем же поведением (во избежание предвзятости) и сравнивают свои данные. Если данные схожи, то они надежны.
Если оценки наблюдателей существенно не коррелируют, надежность можно повысить следующим образом:
- Обучение наблюдателей методам наблюдения и обеспечение того, чтобы все с ними соглашались.
- Обеспечение работы категорий поведения. Это означает, что они были объективно определены.
Например, если два исследователя наблюдают за «агрессивным поведением» детей в детском саду, у них обоих будет свое субъективное мнение относительно того, что включает в себя агрессия.
В этом сценарии маловероятно, что они зафиксируют такое же агрессивное поведение, и данные будут ненадежными.
Однако, если бы они операционализировали категорию поведения агрессии, это было бы более объективно и облегчило бы идентификацию того, когда происходит конкретное поведение.
Например, в то время как «агрессивное поведение» субъективно и не операционализировано, «навязывание» объективно и операционализировано. Таким образом, исследователи могли просто подсчитать, сколько раз дети толкают друг друга в течение определенного промежутка времени.
Ссылки
Бек, А.Т., Стир, Р.А., и Браун, Г.К. (1996). Руководство по инвентаризации депрессии Бека The Psychological Corporation. Сан-Антонио , Техас.
Хэтэуэй, С. Р., и МакКинли, Дж. К. (1943). Руководство по Миннесотскому многофазному опроснику личности . Нью-Йорк: Психологическая корпорация.
- ЭЛЕКТРОННАЯ ПОЧТА
- ПЕЧАТЬ
Оливия Гай Эванс
Бакалавр (с отличием), психология, магистр, психология образования
Заместитель главного редактора журнала Simply Psychology
Оливия Гай-Эванс — писатель и заместитель главного редактора журнала Simply Psychology. Ранее она работала в сфере здравоохранения и образования.
Сол Маклеод, доктор философии
Преподаватель, исследователь
Бакалавр (с отличием) психологии, магистр, доктор философии, Университет Манчестера
Сол Маклеод, доктор философии, является квалифицированным преподавателем психологии с более чем 18-летним опытом работы в и высшее образование.
Определение надежности
Надежность — это степень согласованности измерения. Тест будет надежным, если он дает один и тот же повторяющийся результат в одних и тех же условиях.
Откройте для себя еще 21 статью по этой теме
Не пропустите эти статьи по теме:
- Валидность и надежность
- Типы действительности
- Валидность содержания
- Валидность конструкции 9006 8
- Внешняя валидность
Говоря повседневным языком, мы используйте слово надежный, чтобы обозначить, что что-то надежно и что оно будет вести себя предсказуемо каждый раз. Мы можем говорить о футболисте как о надежном игроке, имея в виду, что он показывает хорошие результаты от игры к игре.
В науке идея аналогична, но определение намного уже. Достоверность есть свойство любой меры, инструмента, теста, а иногда и всего эксперимента. Это оценка того, сколько случайных ошибок может быть в оценках вокруг истинной оценки.
Например, вы можете попробовать взвесить миску муки на кухонных весах. Надежные весы будут показывать одни и те же показания снова и снова, независимо от того, сколько раз вы взвешиваете чашу. Здесь и там могут быть небольшие погрешности — вы можете заметить, что некоторые показания отличаются всего на долю грамма — но в целом весы надежны. Если весы показывали 1 кг, а через минуту показывали 1,5 кг, погрешность стала настолько большой, что серьезно подорвалась надежность прибора.
Когда мы говорим об инструментах, это не обязательно означает физический инструмент, такой как масс-спектрометр или полоска для определения pH. Образовательный тест, анкета или присвоение количественных оценок поведению также являются инструментами.
Другой способ взглянуть на надежность – рассматривать ее как способ максимизировать присущую эксперименту повторяемость или согласованность. Чтобы сохранить надежность, исследователь будет использовать как можно больше групп повторных выборок, чтобы уменьшить вероятность того, что аномальная группа выборок исказит результаты. Это немного похоже на взвешивание миски несколько раз и использование среднего значения.
Надежность может быть определена статистически путем расчета коэффициента корреляции. Если тест надежен, он должен показывать высокую положительную корреляцию между повторными оценками. Если вы используете три повторных образца для каждой манипуляции, и один из них дает результаты, совершенно отличные от других, вероятно, что-то не так с экспериментом.
Для большинства экспериментов с природными явлениями результаты следуют нормальному распределению, и всегда есть шанс, что ваша группа образцов даст результаты на одном из крайних значений. Использование нескольких групп выборок сгладит эти крайности и даст более точный разброс результатов. Но если ваши результаты продолжают сильно отличаться, то, вероятно, что-то не так с самим дизайном. В этом случае весь эксперимент равен внешне ненадежный.
Хороший план эксперимента позволит исследователям получить множество повторных образцов. Но другие исследователи также должны иметь возможность проводить точно такие же эксперименты с аналогичным оборудованием в аналогичных условиях и получать точно такие же результаты. Если не могут, то конструкция внешне ненадежна.
Хорошим примером неправильного применения определения надежности является случай холодного синтеза 1989 года. Флейшманн и Понс объявили миру, что им удалось генерировать тепло при нормальных температурах вместо огромных и дорогих торов. используется в большинстве исследований ядерного синтеза.
Это объявление потрясло мир, но исследователи из многих других учреждений не смогли повторить эксперимент. Неясно, солгали исследователи или действительно ошиблись, но принять их результаты было невозможно, поскольку они были ненадежны.
Внутренние тесты надежности и личности
Если вы когда-либо заполняли длинную анкету, вы могли заметить, что некоторые вопросы кажутся тонкими вариациями друг друга. В личностном тесте могут быть «Мне нравится планировать свои действия заранее», «Я спонтанный» и «Мне нравится плыть по течению» как три отдельных пункта, которые кажутся очень похожими.
Причина, по которой некоторые тесты делают это, заключается в повышении их внутренней надежности. Внутренняя надежность связана с согласованностью отдельных элементов меры. Тест является внутренне непротиворечивым, если каждый элемент в равной степени способствует общей измеряемой конструкции.
Если вы физик или химик, повторные эксперименты должны раз за разом давать точно или почти точно такие же результаты. Маловероятно, что поведение атомов фосфора, молекул ДНК или природных сил, таких как гравитация, изменится.
Экологи и социологи, с другой стороны, понимают, что добиться одинаковых результатов в повторных экспериментах практически невозможно. Сложные системы, человеческое поведение и биологические организмы подвержены гораздо большему количеству случайных ошибок и вариаций.
В то время как любой экспериментальный план должен пытаться устранить смешанные переменные и естественные вариации, в этих дисциплинах всегда будут некоторые несоответствия.
Ключ к проведению хорошего эксперимента — убедиться, что ваши результаты максимально надежны; если кто-нибудь повторит эксперимент, статистические тесты смогут сравнить результаты, и ученый сможет сделать надежную оценку статистической надежности.
Надежность и достоверность часто путают; термины описывают два взаимосвязанных, но совершенно разных понятия. Очень просто:
Валидность: действительно ли тест измеряет то, что должен?
Надежность: всегда ли тест дает один и тот же результат в одних и тех же условиях?
Эту разницу лучше всего описать на примере:
Исследователь разрабатывает новый тест, который измеряет IQ быстрее, чем стандартный тест IQ:
- Если тест постоянно дает 135 баллов, а истинный IQ кандидата равен 120, тест надежен, но недействителен.
- Если новый тест дает кандидату 87, 65, 143 и 102 балла, то тест не является надежным ИЛИ действительным. Он не измеряет то, что должен, и делает это непоследовательно!
- Если оценки равны 100, 111, 132 и 150, то валидность и надежность также низкие. Однако распределение этих оценок немного лучше, чем выше, поскольку оно окружает истинную оценку, а не полностью ее пропускает. Такой тест, вероятно, страдает от крайней случайной ошибки.
- Если тест исследователя стабильно дает 118 баллов, то это довольно близко, и тест можно считать и действительным, и надежным. Чем ближе к 120, тем больше достоверность, и чем меньше разница между оценками повторения, тем выше надежность. Тест, который обычно занижает IQ на два балла, может быть столь же полезен, как и более достоверный тест, поскольку сама ошибка настолько надежна.
Надежность является важным компонентом валидности, но сама по себе не является достаточной мерой валидности. Тест может быть надежным, но недействительным, тогда как тест не может быть достоверным, но ненадежным. Тест, который крайне ненадежен, по сути, также недействителен. Ванные весы, которые измеряют ваш вес в один день как 5000 кг, а на следующий день как 2 кг, не являются ненадежными, они просто измеряют не то, для чего предназначены.
Существует несколько методов оценки надежности приборов.
Как проверить внутреннюю надежность
В социальных науках и психологии проверка внутренней надежности по существу представляет собой сравнение инструмента с самим собой.
Метод разделения пополам
Как определить, одинаково ли влияет каждый элемент инвентаризации на конечный результат? Одним из методов является метод разделения пополам, который разрезает тест на две части и сравнивает эти части друг с другом. Тест можно разделить несколькими способами: например, первая и вторая половина или нечетные элементы против четных.
Методы разделения пополам можно применять только к тестам, измеряющим одну конструкцию – например, субшкалу экстраверсии в личностном тесте. В психометрии используются методы разделения пополам для выявления элементов теста, которые не сильно коррелируют с другими, а затем удаляются или улучшаются эти элементы.
Внутренняя согласованность
Тест на внутреннюю согласованность сравнивает две разные версии одного и того же прибора, чтобы убедиться в наличии корреляции и в том, что они в конечном итоге измеряют одно и то же.
Например, представьте, что экзаменационная комиссия хочет проверить надежность своего нового экзамена по математике и выбирает группу тестируемых студентов. Для каждого раздела экзамена, такого как исчисление, геометрия, алгебра и тригонометрия, они фактически задают два вопроса, предназначенных для измерения способностей студента в этой конкретной области.
Если имеется высокая внутренняя согласованность, т. е. результаты по двум наборам вопросов схожи, то каждая версия теста, вероятно, будет надежной. Метод тестирования-повторного тестирования включает в себя два отдельных введения одного и того же прибора, в то время как внутренняя согласованность измеряет две разные версии одновременно. Исследователи могут использовать внутреннюю согласованность для разработки двух эквивалентных тестов, которые впоследствии будут применяться в одной и той же группе.
Статистическая формула под названием Альфа Кронбаха проверяет надежность и сравнивает различные пары вопросов. К счастью, современные компьютерные программы позаботятся о деталях, избавив исследователей от необходимости самостоятельно выполнять расчеты.
Как проверить внешнюю надежность
Существует два распространенных способа установить внешнюю надежность: метод повторного тестирования и межэкспертный метод.
Метод повторного тестирования
Метод повторного тестирования является простейшим методом проверки внешней надежности и включает тестирование одних и тех же испытуемых один раз, а затем повторное тестирование с последующим измерением корреляции между этими результатами. Например, повторный тест через месяц должен дать те же результаты, что и исходный, если это надежный тест.
Одной из трудностей этого метода является время между тестами. Этот метод предполагает, что за это время ничего не изменилось. Если тесты проводятся слишком близко друг к другу, участники могут легко запомнить материал и получить более высокие баллы во втором туре. Но если их ввести слишком далеко друг от друга, в картину могут вмешаться другие переменные: сами участники могут измениться настолько, что их оценки во второй партии не будут действительно сопоставимы с первыми. Чтобы предотвратить эффекты обучения или новизны, исследователи могут провести второй тест, который отличается от первого, но эквивалентен ему.
Межрейтинговые методы
Любой, кто смотрел шоу American Idol или кулинарное соревнование, поймет принцип межрейтинговой надежности. Здесь измеряется производительность, но с коллегией судей в роли «инструмента».
Примером могут служить экзамены по ролевой игре по клинической психологии, когда учащиеся оцениваются по результатам пробного занятия. Другой пример — оценка портфолио фоторабот или эссе для конкурса.
Однако процессы, которые полагаются на экспертную оценку производительности или навыков, подвержены ошибкам своего рода. Надежность между оценщиками — это мера согласия двух или более оценщиков в их соответствующих оценках, то есть степень согласия между судьями.
Принцип прост: если несколько экспертов-оценщиков согласны с оценкой производительности, эта оценка показывает высокую надежность. Если, однако, судьи имеют совершенно разные оценки этого выступления, их оценки показывают низкую надежность. Важно отметить, что надежность является характеристикой оценок, а не оцениваемой производительности.
Надежность — одна из основ науки
Как мы видели, понимание определения надежности чрезвычайно важно для любого ученого, но для социологов, биологов и психологов оно является важнейшей основой любого плана исследования. В психометрии, например, измеряемые конструкты сначала необходимо изолировать, прежде чем их можно будет измерить.