Надежность психологического теста | это… Что такое Надежность психологического теста?
Надёжностью называется один из критериев качества теста, его устойчивость по отношению к погрешностям измерения. Различают два вида надёжности — надёжность как устойчивость и надёжность как внутреннюю согласованность.
Содержание
|
Надёжность как устойчивость
Устойчивость результатов теста или ретестовая надежность (англ — test-retest reliability) – возможность получения одинаковых результатов у испытуемых в различных случаях.
Устойчивость определяется с помощью повторного тестирования (ретеста):
В данном методе предлагается провести несколько замеров с некоторым промежутком времени (от недели до года) одним и тем же тестом. Если корреляция между результатами различных замеров будет высокой, следовательно, тест достаточно надежный. Наименьшим удовлетворительным значением для ретестовой надежности является 0,7. Однако надежность не всех тестов можно проверять этим методом, так как оцениваемое качество, явление или эффект могут быть сами по себе нестабильны (например, наше настроение, которое может меняться от одного замера к следующему). Еще один недостаток повторного тестирования – это эффект привыкания. Испытуемые уже знакомы с этим тестом, а может быть, даже помнят большую часть своих ответов после предыдущего заполнения.
В связи с выше сказанным возможно исследование надежности психодиагностических методик с использованием параллельных форм, при которых конструируются эквивалентные или параллельные наборы заданий. Получается, что испытуемые выполняют совершенно другой тест при аналогичных условиях. Однако, имеются трудности в доказательстве того, что обе формы являются действительно эквивалентными.
Несмотря на это, на практике параллельные формы тестов оказываются полезными в установлении надежности тестов.Надёжность как внутренняя согласованность
Внутренняя согласованность(англ. — self-consistent) определяется связью каждого конкретного элемента теста с общим результатом, тем, насколько каждый элемент входит в противоречие с остальными, насколько каждый отдельный вопрос измеряет признак, на который направлен весь тест. Чаще всего тесты, разрабатываются таким образом, чтобы у них была высокая степень внутренней согласованности, а связи с тем, что если одна переменная измеряется частью теста, то тогда в других частях, если они не согласованы с первой, эта же переменная измеряться не может. Таким образом, чтобы тест был валидным, необходимо, чтобы он был согласован.
Однако существует и противоположная точка зрения. Кэттелл говорит о том, что высокая внутренняя согласованность на самом деле является противоположностью валидности: каждый вопрос должен затрагивать меньшую область или иметь более узкое значение, чем критерий, подвергающийся измерению.
Для проверки внутренней согласованности применяются:
- Метод расщепления или метод автономных частей
- Метод эквивалентных бланков
- Альфа Кронбаха
- Метод расщепления (Split-half reliability)
Этот метод заключается в расщеплении/разделении теста на две равные части (например, четные и нечетные вопросы, первая и вторая половина), а затем находится корреляция между ними. Если корреляция высокая, тест можно считать надежным.
- Метод эквивалентных бланков
МЭБ состоит в применении двух сопоставимых друг с другом форм теста для большой выборки (например, формы L и M для измерения в шкале интеллекта Стэнфорда-Бине) Результаты, полученные при выполнении двух форм, сравнивают и высчитывают корреляцию. Если коэффициент корреляции высокий, следовательно, тест надежен. Недостаток этого метода в том, что он подразумевает такой длительный и трудоемкий процесс, как создание двух эквивалентных форм.
- Альфа Кронбаха
В этом методе, предложенном Ли Кронбахом, сравнивается разброс каждого элемента с общим разбросом всей шкалы. Если разброс результатов теста меньше, чем разброс результатов для каждого отдельного вопроса, следовательно, каждый отдельный вопрос направлен на исследование одного и того же признака, свойства или явления. Они вырабатывают значение, которое можно считать истинным. Если такое значение выработать нельзя, то есть получается случайный разброс при ответе на вопросы, тест не надежен и коэффициент альфа Кронбаха будет равен 0. Если же все вопросы измеряют один и тот же признак, то тест надежен и коэффициент альфа Кронбаха в этом случае будет равен 1.
α Кронбаха определяется как
,
где N — число элементов в шкале, — дисперсия общего тестового балла, и — дисперсия элемента i.
См. также
Помимо надежности тестов, есть так же надежность наблюдения – межнаблюдательская надежность. МН – это процент совпадения результатов наблюдения экспертов друг с другом.
Надежность и валидность
Надежность показывает, что результаты проводимого исследования близки к истине, а валидность показывает, что результаты действительно относятся к тому явлению, которое изучается исследователем. Валидное исследование автоматически является надежным, однако обратное следствие не обязательно. Надежное исследование может и не быть валидным.
Литература
Пол Клайн. «Справочное руководство по конструированию тестов», Киев, 1994.
Надежность психологического теста | это… Что такое Надежность психологического теста?
Надёжностью называется один из критериев качества теста, его устойчивость по отношению к погрешностям измерения. Различают два вида надёжности — надёжность как устойчивость и надёжность как внутреннюю согласованность.
Содержание
|
Надёжность как устойчивость
Устойчивость результатов теста или ретестовая надежность (англ — test-retest reliability) – возможность получения одинаковых результатов у испытуемых в различных случаях.
Устойчивость определяется с помощью повторного тестирования (ретеста):
В данном методе предлагается провести несколько замеров с некоторым промежутком времени (от недели до года) одним и тем же тестом. Если корреляция между результатами различных замеров будет высокой, следовательно, тест достаточно надежный. Наименьшим удовлетворительным значением для ретестовой надежности является 0,7. Однако надежность не всех тестов можно проверять этим методом, так как оцениваемое качество, явление или эффект могут быть сами по себе нестабильны (например, наше настроение, которое может меняться от одного замера к следующему).
Еще один недостаток повторного тестирования – это эффект привыкания. Испытуемые уже знакомы с этим тестом, а может быть, даже помнят большую часть своих ответов после предыдущего заполнения.В связи с выше сказанным возможно исследование надежности психодиагностических методик с использованием параллельных форм, при которых конструируются эквивалентные или параллельные наборы заданий. Получается, что испытуемые выполняют совершенно другой тест при аналогичных условиях. Однако, имеются трудности в доказательстве того, что обе формы являются действительно эквивалентными. Несмотря на это, на практике параллельные формы тестов оказываются полезными в установлении надежности тестов.
Надёжность как внутренняя согласованность
Внутренняя согласованность(англ. — self-consistent) определяется связью каждого конкретного элемента теста с общим результатом, тем, насколько каждый элемент входит в противоречие с остальными, насколько каждый отдельный вопрос измеряет признак, на который направлен весь тест.
Однако существует и противоположная точка зрения. Кэттелл говорит о том, что высокая внутренняя согласованность на самом деле является противоположностью валидности: каждый вопрос должен затрагивать меньшую область или иметь более узкое значение, чем критерий, подвергающийся измерению. Если все вопросы являются согласованными в высокой степени, они сильно коррелируют, и, следовательно, надежный тест будет измерять только лишь сравнительно «узкую» переменную с малыми отклонениями. По рассуждениям Кэттелла, максимум валидности существует, когда все задания теста не коррелируют друг с другом, а каждое из них имеет положительную корреляцию с критерием.
Однако, такой тест будет характеризоваться низкой надежностью по внутренней согласованности.Для проверки внутренней согласованности применяются:
- Метод расщепления или метод автономных частей
- Метод эквивалентных бланков
- Альфа Кронбаха
- Метод расщепления (Split-half reliability)
Этот метод заключается в расщеплении/разделении теста на две равные части (например, четные и нечетные вопросы, первая и вторая половина), а затем находится корреляция между ними. Если корреляция высокая, тест можно считать надежным.
- Метод эквивалентных бланков
МЭБ состоит в применении двух сопоставимых друг с другом форм теста для большой выборки (например, формы L и M для измерения в шкале интеллекта Стэнфорда-Бине) Результаты, полученные при выполнении двух форм, сравнивают и высчитывают корреляцию. Если коэффициент корреляции высокий, следовательно, тест надежен. Недостаток этого метода в том, что он подразумевает такой длительный и трудоемкий процесс, как создание двух эквивалентных форм.
- Альфа Кронбаха
В этом методе, предложенном Ли Кронбахом, сравнивается разброс каждого элемента с общим разбросом всей шкалы. Если разброс результатов теста меньше, чем разброс результатов для каждого отдельного вопроса, следовательно, каждый отдельный вопрос направлен на исследование одного и того же признака, свойства или явления. Они вырабатывают значение, которое можно считать истинным. Если такое значение выработать нельзя, то есть получается случайный разброс при ответе на вопросы, тест не надежен и коэффициент альфа Кронбаха будет равен 0. Если же все вопросы измеряют один и тот же признак, то тест надежен и коэффициент альфа Кронбаха в этом случае будет равен 1.
α Кронбаха определяется как
,
где N — число элементов в шкале, — дисперсия общего тестового балла, и — дисперсия элемента i.
См. также
Помимо надежности тестов, есть так же надежность наблюдения – межнаблюдательская надежность. МН – это процент совпадения результатов наблюдения экспертов друг с другом.
Надежность и валидность
Надежность показывает, что результаты проводимого исследования близки к истине, а валидность показывает, что результаты действительно относятся к тому явлению, которое изучается исследователем. Валидное исследование автоматически является надежным, однако обратное следствие не обязательно. Надежное исследование может и не быть валидным.
Литература
Пол Клайн. «Справочное руководство по конструированию тестов», Киев, 1994.
Надежность и валидность | Тестовое товарищество
Надежность и валидность
Ведущий консультант Test Partnership Бен Швенке объясняет надежность и чем она отличается от валидности.
1:03 Быстро понять надежность и достоверность.В контексте психометрического тестирования надежность и валидность связаны, но в конечном итоге являются отдельными конструкциями. Проще говоря, надежность связана с точностью, правильностью и воспроизводимостью результатов психометрических тестов.
Валидность, однако, отвечает на вопрос «действительно ли эта оценка измеряет конструкцию, на которую она претендует?». В результате надежность требуется для достоверности, но не обязательно наоборот. Например, если учащийся выполняет психометрическую оценку 10 раз и каждый раз получает один и тот же балл, можно сказать, что оценка показывает «надежность».
Тем не менее, требуется дополнительное исследование, чтобы определить, имеют ли значение сами показатели, и измерить психологический конструкт, для измерения которого они предназначены.
Надежность:
С точки зрения классической теории тестирования существует две основные формы надежности: надежность повторного тестирования и внутренняя согласованность. Надежность повторного тестирования включает оценку группы участников два или более раз и оценку различий между каждой попыткой. Если результаты значительно различаются между попытками, тесту не хватает надежности. Если результаты тестов в целом схожи (не обязательно идентичны), то можно сказать, что тест надежен. Внутренняя согласованность относится к отношениям между отдельными элементами теста и общей оценкой. При внутренне непротиворечивых тестах высокие баллы по каждому конкретному пункту должны коррелировать с более высоким баллом в общей оценке. И наоборот, низкие баллы по каждому конкретному пункту должны отрицательно коррелировать с общим баллом. Это говорит о том, что каждый вопрос в отдельности измеряет один и тот же психологический конструкт, предполагая, что оценка надежна.
Валидность:
Валидность относится к тому, измеряет ли психометрическая оценка предполагаемую психологическую конструкцию. Хотя валидность требует надежности, поскольку ненадежные тесты вообще ничего не могут измерить, надежность не гарантирует валидности. Существуют различные формы валидности, в том числе:
- Лицевая валидность: Независимо от того, кажется ли оценка измеряющей предполагаемую психологическую конструкцию.
- Срок действия содержимого: Измеряет ли оценка все аспекты конкретной психологической конструкции.
- Конвергентная валидность: Положительно коррелируют ли баллы по тесту с другим аналогичным тестом, предназначенным для измерения той же конструкции.
- Дивергентная валидность: Отрицательно или совсем не коррелируют ли баллы по тесту с другим тестом, предназначенным для измерения несвязанного конструкта.
- Критерий достоверности: Способна ли оценка предсказывать реальные результаты, которые, как предполагается, связаны с этим конкретным конструктом, т. е. эффективностью работы, эффективностью обучения, удержанием сотрудников и т. д.
Чтобы показать, что тест «действителен», требуется несколько форм проверки, особенно для новых оценок и менее устоявшихся психологических конструкций. В рамках процесса исследований и разработок психометрических оценок психометристы проводят множество исследований, изучающих надежность и достоверность оценки, представляя результаты в техническом руководстве или статье в академическом журнале.
Другие видео
Конструктивная валидность
Конструктивная валидность связана с тем, относится ли конкретная психометрическая оценка…
Трудолюбие
Трудолюбие — черта характера, определяющая трудолюбие…
Sten Score
Sten – это стандартизированные баллы 1-10, обычно используемые в психометрических тестах…
Просмотреть все видео
Просмотрите нашу библиотеку видео и учебных материалов. Ведущий консультант Бен Швенке…
ИмяZopim
Mouseflow
КатегорияСлужба поддержки
Аналитика и мониторинг производительности
Взаимодействие пользователя с веб-сайтом
Я подтверждаю, что мне исполнилось 16 лет, и даю согласие на сбор вышеуказанных данных.
Отказ от файлов cookie
Надежность и валидность: смысл, проблемы и важность
Представьте, что вы играете в боулинг однажды вечером и каждый раз, когда вы делаете ход, вы пропускаете все кегли. Хотя вы не набрали ни одного очка за всю ночь, у вас все еще есть надежный результат из-за ваших постоянных потерь. Это всего лишь один пример того, как что-то может быть надежным, но не действительным. Если бы вы сбивали все кегли каждый раз, когда поднимались вверх, это показывало бы и надежность, и валидность, потому что вы постоянно достигали цели, намеченной для игры.
В научном методе психологических исследований и надежность, и валидность имеют важное значение при использовании любых инструментов измерения или тестов. В этом тексте будут даны определения обоих терминов, указаны их различия и рассмотрены общие вопросы в научных исследованиях, касающиеся надежности и валидности.
- Что такое надежность и валидность?
- Какие проблемы с надежностью и достоверностью?
- Как надежность и достоверность используются в исследованиях?
- Каковы примеры надежности и валидности?
На первый взгляд может показаться, что эти термины имеют очень простые определения; однако каждое из их значений может быть все более запутанным и значимым с точки зрения психологических исследований . Обе концепции имеют основополагающее значение для понимания при изучении экспериментов и научного метода.
НадежностьС точки зрения научных исследований надежность определяется наличием стабильного и постоянного результата после повторного измерения (Jackson, 2014). Чтобы представить это в перспективе, подумайте о любой форме психологического исследования, использующего тесты для измерения конкретных результатов. Тест, который считается надежным , будет показывать одинаковые результаты каждый раз, когда его проводят. Эти c постоянство и надежность повышают ценность тестов, используемых в исследованиях. 9. Другими словами, допустимый тест или инструмент измеряет точных единиц, которые, по его заявлению, измеряют . Есть примеры действительности в повседневной жизни. Подумайте о водительских правах и о том, что они действительны только в том случае, если вся информация о водителе верна и точна. В психологических исследованиях тест может рассматриваться только как действителен , если результат точен тому, что тест утверждает для измерения.
Фг. 1 Надежность и валидность, commons.wikimedia.org
Проблемы с надежностью и валидностью
В области психологических методов исследования любые ошибки в надежности и валидности теста или эксперимента очень пагубно влияют на ценность исследования. Прежде чем опубликовать любую научную статью, журнал или эксперимент, результаты должны сначала соответствовать стандартам надежности и достоверности. К сожалению, случаи несоблюдения этих стандартов могут привести к неэтичным исследованиям и ложным или вводящим в заблуждение утверждениям.
Талидомид Трагедия
В 1950-х и 60-х годах талидомид считался лекарством от тошноты у беременных женщин; однако это вызвало серьезные врожденные нарушения у младенцев (Kim, 2011).
Это всего лишь один разрушительный пример того, что может произойти, если определенные стандарты обучения будут скомпрометированы. Эти знаменательные моменты в истории научных исследований сделали акцент на важность надежности и достоверности в сфере научных исследований.
Ошибки в надежности
Существуют распространенные ошибки, допускаемые в методах психологических исследований, которые могут повлиять на надежность исследования. Эти типы проблем включают в себя:
Ошибка метода
Ошибка метода может возникнуть из-за действий экспериментатора или тестовой атмосферы.
Вопросы об ошибке метода включают:
Ошибка признака
Из ошибок признака проблем надежности связаны с реальными субъектами экспериментов.
Вопросы, заданные об ошибке признака, включают:
Представьте, что проводится тест для измерения атлетизма в различных спортивных командах; однако в тот же день у одной из тестируемых команд было пищевое отравление. Это может помешать надежности результатов.
Ошибки в достоверности
Подобно проблемам надежности, определенные типы ошибок в исследованиях могут также поставить под угрозу 9 эксперимента.0026 годность. Некоторые из этих ошибок известны:
Созревание
Созревание может повлиять на достоверность результатов длительных исследований. Может ли течение времени повлиять на первоначальное выполнение теста? Как это может повлиять на участника или тестируемого в течение отведенного времени?
Предубеждения
Предубеждения , которые могут возникнуть при отборе участников, могут отрицательно повлиять на достоверность исследования. Когда выбор участников происходит с предубеждением, возможность обобщения результатов исследования среди населения становится недоступной.
Эффекты взаимодействия
Эффекты взаимодействия могут повлиять на достоверность в случаях, когда в одном исследовании участвуют предварительные тесты или несколько тестов. Применение предварительного теста может помешать другому последующему измерению или тесту.
Рассмотрим тест, целью которого является измерение понимания прочитанного. Тестируемого просят прочитать пять статей за один сеанс. Каждая часть состоит из десяти страниц. На достоверность результатов в отношении их понимания могут повлиять факторы, вызванные применением нескольких длинных статей.
Как видите, многие вопросы могут повлиять на ценность и достоверность любого научного исследования или исследования. Анализ ошибок, которые могут снизить надежность и достоверность исследования, является одним из самых приоритетных направлений научного метода.
Надежность и достоверность исследований
Научный метод применяется во всех аспектах научных исследований и исследований. В этом процессе используются строгие эмпирические методы для получения надежного и достоверного результата . Есть несколько примеров надежности и валидности в методах исследования психологии . Оценка этих примеров поможет вам лучше понять тип надежности и валидности для каждой ситуации в психологическом исследовании.
Примеры надежности и достоверности
Существует четыре типа надежности в психологии исследований, каждый из которых указывает уровни согласованности в различных ситуациях. Три типа валидности измеряют правдивость и точность тестов разными способами.
Надежность тестирования/повторного тестирования
Этот тип надежности в исследованиях проверяет согласованность результатов во времени путем проведения одного и того же теста более одного раза.
Надежность альтернативных форм
Используя несколько форм аналогичных тестов , исследователь может указать, является ли измерение надежным в зависимости от согласованности результата. Вот почему метод называется альтернативных форм.
Надежность с разделением пополам
Это когда исследование разделяет тест на две части и измеряет стабильность между элементами измерения в обеих половинах теста. Хотя это не учитывает постоянство во времени, оно позволяет измерять надежность содержимого в самом тесте .
Надежность между оценщиками
Это относится к измерению надежности путем оценки согласованности наблюдений между оценщиками/судьями.
Вы можете отличить типы надежности по их названиям! (например, Интер оценщик = измеренная надежность промежуточные оценщики )
Валидность контента
Тест с валидностью контента направлен на измерение релевантности всех элементов контента / в рамках данного теста, а не только в одной области.
Критерий достоверности
Анализ точности теста при прогнозировании способностей или результатов участников.
Конструктивная валидность
Одной из наиболее важных форм измерения валидности является конструктная валидность. Это потому, что он является одним из наиболее часто используемых в психологии, поскольку он анализирует степень, в которой тест измеряет конструкция заявленного размера.
В рамках качественных методов исследования валидность и надежность могут быть определены на основе последовательности и целей результатов данных, участников, типов тестов и наблюдений исследователя.