Надежность теста в психологии это: Надёжность психологического теста — Психологос

Надёжность психологического теста — Психологос

Надёжностью называется один из критериев качества теста, его устойчивость по отношению к погрешностям измерения. Различают два вида надёжности — надёжность как устойчивость и надёжность как внутреннюю согласованность.

Надёжность как устойчивость

Устойчивость результатов теста – возможность получения одинаковых результатов у испытуемых в различных случаях.

Устойчивость определяется с помощью повторного тестирования (ретеста):

В данном методе предлагается провести несколько замеров с некоторым промежутком времени (от недели до года) одним и тем же тестом. Если корреляция между результатами различных замеров будет высокой, следовательно, тест достаточно надежный. Однако надежность не всех тестов можно проверять этим методом, так как оцениваемое качество, явление или эффект могут быть сами по себе нестабильны (например, наше настроение, которое может меняться от одного замера к следующему). Еще один недостаток МР – это эффект привыкания. Испытуемые уже знакомы с этим тестом, а может быть, даже помнят большую часть своих ответов после предыдущего заполнения.

Надёжность как внутренняя согласованность

Внутренняя согласованность определяется связью каждого конкретного элемента теста с общим результатом, тем, насколько каждый элемент входит в противоречие с остальными, насколько каждый отдельный вопрос измеряет признак, на который направлен весь тест.

Для проверки внутренней согласованности применяются:

  • Метод расщепления или метод автономных частей
  • Метод эквивалентных бланков
  • Альфа Кронбаха
Метод расщепления (Split-half reliability)

Этот метод заключается в расщеплении/разделении теста на две равные части (например, четные и нечетные вопросы, первая и вторая половина), а затем находится корреляция между ними. Если корреляция высокая, тест можно считать надежным.

Метод эквивалентных бланков

МЭБ состоит в применении двух сопоставимых друг с другом форм теста для большой выборки (например, формы L и M для измерения в шкале интеллекта Стэнфорда-Бине)

Результаты, полученные при выполнении двух форм, сравнивают и высчитывают корреляцию. Если коэффициент корреляции высокий, следовательно, тест надежен. Недостаток этого метода в том, что он подразумевает такой длительный и трудоемкий процесс, как создание двух эквивалентных форм.

Альфа Кронбаха

В этом методе, предложенном Ли Кронбахом, сравнивается разброс каждого элемента с общим разбросом всей шкалы. Если разброс результатов теста меньше, чем разброс результатов для каждого отдельного вопроса, следовательно, каждый отдельный вопрос направлен на исследование одного и того же признака, свойства или явления. Они вырабатывают значение, которое можно считать истинным. Если такое значение выработать нельзя, то есть получается случайный разброс при ответе на вопросы, тест не надежен и коэффициент альфа Кронбаха будет равен 0. Если же все вопросы измеряют один и тот же признак, то тест надежен и коэффициент альфа Кронбаха в этом случае будет равен 1.

Помимо надежности тестов, есть также надежность наблюдения – межнаблюдательская надежность. МН – это процент совпадения результатов наблюдения экспертов друг с другом.

Надежность и валидность

Надежность показывает, что результаты проводимого исследования близки к истине, а валидность показывает, что результаты действительно относятся к тому явлению, которое изучается исследователем. Валидное исследование автоматически является надежным, однако обратное следствие не обязательно. Надежное исследование может и не быть валидным.

Надежность психологического теста | это… Что такое Надежность психологического теста?

Надёжностью называется один из критериев качества теста, его устойчивость по отношению к погрешностям измерения. Различают два вида надёжности — надёжность как устойчивость и надёжность как внутреннюю согласованность.

Содержание

  • 1 Надёжность как устойчивость
  • 2 Надёжность как внутренняя согласованность
  • 3 См. также
    • 3.1 Надежность и валидность
  • 4 Литература

Надёжность как устойчивость

Устойчивость результатов теста или ретестовая надежность (англ — test-retest reliability) – возможность получения одинаковых результатов у испытуемых в различных случаях.

Устойчивость определяется с помощью повторного тестирования (ретеста):

В данном методе предлагается провести несколько замеров с некоторым промежутком времени (от недели до года) одним и тем же тестом. Если корреляция между результатами различных замеров будет высокой, следовательно, тест достаточно надежный. Наименьшим удовлетворительным значением для ретестовой надежности является 0,7. Однако надежность не всех тестов можно проверять этим методом, так как оцениваемое качество, явление или эффект могут быть сами по себе нестабильны (например, наше настроение, которое может меняться от одного замера к следующему). Еще один недостаток повторного тестирования – это эффект привыкания. Испытуемые уже знакомы с этим тестом, а может быть, даже помнят большую часть своих ответов после предыдущего заполнения.

В связи с выше сказанным возможно исследование надежности психодиагностических методик с использованием параллельных форм, при которых конструируются эквивалентные или параллельные наборы заданий. Получается, что испытуемые выполняют совершенно другой тест при аналогичных условиях. Однако, имеются трудности в доказательстве того, что обе формы являются действительно эквивалентными. Несмотря на это, на практике параллельные формы тестов оказываются полезными в установлении надежности тестов.

Надёжность как внутренняя согласованность

Внутренняя согласованность(англ. — self-consistent) определяется связью каждого конкретного элемента теста с общим результатом, тем, насколько каждый элемент входит в противоречие с остальными, насколько каждый отдельный вопрос измеряет признак, на который направлен весь тест. Чаще всего тесты, разрабатываются таким образом, чтобы у них была высокая степень внутренней согласованности, а связи с тем, что если одна переменная измеряется частью теста, то тогда в других частях, если они не согласованы с первой, эта же переменная измеряться не может. Таким образом, чтобы тест был валидным, необходимо, чтобы он был согласован.

Однако существует и противоположная точка зрения. Кэттелл говорит о том, что высокая внутренняя согласованность на самом деле является противоположностью валидности: каждый вопрос должен затрагивать меньшую область или иметь более узкое значение, чем критерий, подвергающийся измерению. Если все вопросы являются согласованными в высокой степени, они сильно коррелируют, и, следовательно, надежный тест будет измерять только лишь сравнительно «узкую» переменную с малыми отклонениями. По рассуждениям Кэттелла, максимум валидности существует, когда все задания теста не коррелируют друг с другом, а каждое из них имеет положительную корреляцию с критерием. Однако, такой тест будет характеризоваться низкой надежностью по внутренней согласованности.

Для проверки внутренней согласованности применяются:

  1. Метод расщепления или метод автономных частей
  2. Метод эквивалентных бланков
  3. Альфа Кронбаха
Метод расщепления (Split-half reliability)

Этот метод заключается в расщеплении/разделении теста на две равные части (например, четные и нечетные вопросы, первая и вторая половина), а затем находится корреляция между ними. Если корреляция высокая, тест можно считать надежным.

Метод эквивалентных бланков

МЭБ состоит в применении двух сопоставимых друг с другом форм теста для большой выборки (например, формы L и M для измерения в шкале интеллекта Стэнфорда-Бине) Результаты, полученные при выполнении двух форм, сравнивают и высчитывают корреляцию. Если коэффициент корреляции высокий, следовательно, тест надежен. Недостаток этого метода в том, что он подразумевает такой длительный и трудоемкий процесс, как создание двух эквивалентных форм.

Альфа Кронбаха

В этом методе, предложенном Ли Кронбахом, сравнивается разброс каждого элемента с общим разбросом всей шкалы. Если разброс результатов теста меньше, чем разброс результатов для каждого отдельного вопроса, следовательно, каждый отдельный вопрос направлен на исследование одного и того же признака, свойства или явления. Они вырабатывают значение, которое можно считать истинным. Если такое значение выработать нельзя, то есть получается случайный разброс при ответе на вопросы, тест не надежен и коэффициент альфа Кронбаха будет равен 0.

Если же все вопросы измеряют один и тот же признак, то тест надежен и коэффициент альфа Кронбаха в этом случае будет равен 1.

α Кронбаха определяется как

,

где N — число элементов в шкале, — дисперсия общего тестового балла, и — дисперсия элемента i.

См. также

Помимо надежности тестов, есть так же надежность наблюдения – межнаблюдательская надежность. МН – это процент совпадения результатов наблюдения экспертов друг с другом.

Надежность и валидность

Надежность показывает, что результаты проводимого исследования близки к истине, а валидность показывает, что результаты действительно относятся к тому явлению, которое изучается исследователем. Валидное исследование автоматически является надежным, однако обратное следствие не обязательно. Надежное исследование может и не быть валидным.

Литература

Пол Клайн. «Справочное руководство по конструированию тестов», Киев, 1994.

Надежность и валидность

Надежность и валидность

 

 

ИЗУЧЕНИЕ НАДЕЖНОСТИ В АКАДЕМИЧЕСКОЙ ОЦЕНКЕ

 

Написано Колином Феланом и Джули Рен, аспирантами, Управление академической оценки UNI (2005-06)

 

Надежность — это степень, в которой инструмент оценки дает стабильные и стабильные результаты.

 

Типы надежности

 

  1. Надежность повторных испытаний мера надежности, полученная путем проведения одного и того же теста дважды в течение период времени для группы лиц. Счет за время 1 и время 2 затем можно сопоставить, чтобы оценить тест на стабильность в течение время.

 

Пример: Тест, предназначенный для оценки знаний учащихся по психологии, может быть группа студентов дважды, со второй администрацией, возможно, через неделю после первого. Полученный коэффициент корреляции будет свидетельствовать о стабильность показателей.

 

  1. Надежность параллельных форм является мерой надежности, полученной путем администрирования различных версий инструмент оценки (обе версии должны содержать элементы, которые исследуют одно и то же конструкция, навык, база знаний и т. д.) одной и той же группе лиц. Затем баллы по двум версиям можно сопоставить, чтобы оценить согласованность результатов в альтернативных версиях.

 

Пример: Если вы хотите оценить надежность оценки критического мышления, вы можете создать большой набор элементов, относящихся к критическому мышлению и затем случайным образом разделите вопросы на два набора, которые будут представлять параллельные формы.

 

  1. Межоценочная надежность является мера надежности, используемая для оценки степени, в которой разные судьи или оценщики соглашаются в своих оценочных решениях. Межрейтинговая надежность полезно, потому что люди-наблюдатели не обязательно будут интерпретировать ответы так же; оценщики могут не согласиться с тем, насколько хорошо определенные ответы или материал продемонстрировать знание оцениваемого конструкта или навыка.

 

Пример:  Надежность между экспертами может использоваться, когда разные судьи оценка степени соответствия художественных портфолио определенным стандартам. Межэкспертная надежность особенно полезна, когда можно принимать во внимание суждения.

относительно субъективно. Таким образом, использование этого типа надежности, вероятно, быть более вероятным при оценке художественных работ, а не математических задач.

 

  1. Надежность внутренней согласованности мера надежности, используемая для оценки степени, в которой различные тестовые элементы, которые исследуют одну и ту же конструкцию, дают аналогичные результаты.

 

    1. Среднее межпозиционное корреляция — это подтип надежности внутренней согласованности. это можно получить, сдав все пункты теста, которые исследуют одно и то же конструировать (например, понимание прочитанного), определяя корреляцию коэффициент для каждой пар элементов, и, наконец, взяв среднее значение всех этих коэффициентов корреляции. Этот последний шаг дает среднюю корреляцию между элементами.

 

    1. Раздельная надежность является еще одним подтипом надежности внутренней согласованности. Процесс получение половинной надежности начинается с деления пополам всех элементы теста, предназначенные для изучения одной и той же области знаний (например, Вторая мировая война), чтобы сформировать два набора предметов. весь тест проводится группе лиц, всего рассчитывается оценка для каждого набора и, наконец, надежность разделения пополам. получается путем определения корреляции между двумя суммарными наборами баллы.

Срок действия относится к тому, насколько хорошо тест измеряет то, для чего он предназначен.

Почему это необходимо?

Хотя надежность необходима, она одна не достаточно. Чтобы тест был надежным, он также должен быть валидным. За Например, если ваши весы отклоняются на 5 фунтов, они считывают ваш вес каждый день с превышение 5lbs. Шкала надежна, потому что она постоянно сообщает об одном и том же. взвешивайтесь каждый день, но это недействительно, потому что добавляет 5 фунтов к вашему истинному весу. Это неправильная мера вашего веса.

Типы действия

 

Пример : Если мера искусства оценка создается все элементы должны быть связаны с различными компоненты и виды искусства. Если вопросы касаются исторического времени периоды, без привязки к какому-либо художественному направлению, заинтересованные стороны не могут быть мотивированы приложить все усилия или инвестировать в эту меру, потому что они не считаю, что это истинная оценка художественной оценки.

2. Конструктивная валидность используется для того, чтобы убедиться, что мера действительно измерять то, что он предназначен для измерения (т.е. конструкцию), а не другие переменные. Использование группы экспертов, знакомых с конструкцией, является способом которым этот тип валидности можно оценить. Эксперты могут осмотреть объекты и решить, что этот конкретный элемент предназначен для измерения. Студенты могут быть вовлечены в этот процесс, чтобы получить их обратную связь.

 

Пример : Женские исследования программа может разработать кумулятивную оценку обучения на протяжении всей основной. Вопросы написаны со сложными формулировками и формулировками. Это может вызвать тест непреднамеренно становится тестом на понимание прочитанного, а не тест женских исследований. Важно, чтобы мера действительно оценивала предполагаемая конструкция, а не посторонний фактор.

 

3. Валидность, связанная с критериями используется для прогнозирования будущей или текущей производительности — он коррелирует результаты теста с еще один критерий интереса.

 

Пример : Если программа физики разработал меру для оценки кумулятивного обучения студентов на протяжении всей специальности. Новая мера может быть соотнесена со стандартизированной мерой способностей в этой дисциплине, такой как полевой тест ETS или предметный тест GRE. Выше соотношение между установленной мерой и новой мерой, тем больше веры заинтересованные стороны могут иметь в новом инструменте оценки.

 

Пример : при разработке рубрики по истории можно было оценить знания студентов по дисциплине. Если мера может предоставить информацию о том, что учащимся не хватает знаний в определенной области, например Движение за гражданские права, то этот инструмент оценки предоставление значимой информации, которая может быть использована для улучшения курса или требования к программе.

 

5. Срок действия выборки (аналогично достоверность содержания) гарантирует, что мера охватывает широкий спектр областей в рамках изучаемой концепции. Не все можно охватить, поэтому элементы необходимо быть отобраны из всех доменов. Это может потребоваться выполнить с помощью панели экспертов, чтобы обеспечить адекватную выборку области содержимого. Кроме того, панель может помочь ограничить предвзятость экспертов (т. е. тест, отражающий то, что человек лично считает наиболее важными или актуальными областями).

 

Пример : При разработке оценки обучения на театральном отделении было бы недостаточно охватывают только вопросы, связанные с актерской игрой. Другие области театра, такие как освещение, звука, должны быть включены все функции режиссеров. Оценка должны отражать область содержимого во всей ее полноте.

 

  1. Убедитесь, что ваши цели и задачи четко определены и функционируют. Ожидания учащихся должны быть записано.
  2. Сопоставьте свою меру оценки с ваши цели и задачи. Кроме того, экзамен должен быть проверен преподавателями. в других школах, чтобы получить обратную связь от внешней стороны, которая менее вложил в инструмент.
  3. Вовлекайте студентов; иметь учащиеся просматривают оценку на наличие проблемных формулировок или других трудности.
  4. Если возможно, сравните свою меру с другими мерами или данными, которые могут быть доступны.

 

  Ссылки

Американские исследования в области образования Ассоциация, Американская психологическая ассоциация и

Национальный Совет по измерению в образовании. (1985). Стандарты образования и психологическое тестирование . Вашингтон, округ Колумбия: Авторы.

Козби, П.К. (2001). Измерение Концепции. Методы поведенческих исследований (7 -е изд. ).

Калифорния: Издательство Мэйфилд.

Кронбах, Л. Дж. (1971). Тестовая проверка. В RL Thorndike (Ed.). Образовательный

Измерение (2-е изд.). Вашингтон, округ Колумбия: Американский совет по образованию.

Москаль, Б.М., и Лейденс, Дж.А. (2000). Разработка рубрики оценки: достоверность и

надежность. Практическая оценка, исследования и оценка, 7 (10). [Доступно онлайн: http://pareonline.net/getvn.asp?v=7&n=10].

Центр развития Обучение. Как повысить надежность тестов и

срок действия: Последствия для оценки. [Доступно онлайн: http://oct.sfsu.edu/assessment/evaluating/htmls/improve_rel_val.html].

 

Глава 7.3 Валидность и надежность теста

Валидность и надежность теста

Всякий раз, когда тест или другое измерительное устройство используется как часть процесса сбора данных, важна валидность и надежность этого теста. Точно так же, как мы не будем использовать математический тест для оценки вербальных навыков, мы не захотим использовать измерительный прибор для исследования, которое на самом деле не измеряет то, что мы должны измерять. В конце концов, мы полагаемся на результаты, чтобы показать поддержку или отсутствие поддержки нашей теории, и если методы сбора данных ошибочны, данные, которые мы анализируем, также будут ошибочными.

Проверка достоверности.

Валидность относится к степени, в которой наш тест или другое измерительное устройство действительно измеряет то, что мы намеревались измерить. Тестовый вопрос «1 + 1 = _____», безусловно, является допустимым вопросом на базовое сложение, потому что он действительно измеряет способность учащегося выполнять базовое сложение. Он становится менее достоверным в качестве измерения продвинутого сложения, потому что, поскольку он касается некоторых необходимых знаний для сложения, он не представляет всех знаний, необходимых для продвинутого понимания сложения. В тесте, предназначенном для измерения знаний по американской истории, этот вопрос становится совершенно недействительным. Возможность сложения двух однозначных цифр не имеет ничего общего с историей.

Для многих конструкций или переменных, которые являются искусственными или трудноизмеримыми, концепция достоверности становится более сложной. Большинство из нас согласны с тем, что «1 + 1 = _____» представляет собой базовое сложение, но представляет ли этот вопрос также и конструкцию интеллекта? Другие конструкции включают мотивацию, депрессию, гнев и практически любую человеческую эмоцию или черту. Если нам трудно определить конструкцию, нам будет еще труднее ее измерить. Конструктивная валидность — это термин, данный тесту, который точно измеряет конструкт, и существуют различные типы конструктной валидности, которые нам следует учитывать. Три из них: параллельная валидность, содержательная валидность и прогностическая валидность обсуждаются ниже.

Одновременное действие. Параллельная валидность относится к способности измерительного устройства напрямую изменяться в зависимости от показателя той же конструкции или косвенно от показателя противоположной конструкции. Это позволяет вам показать, что ваш тест действителен, сравнивая его с уже действительным тестом. Новый тест интеллекта взрослых, например, имел бы параллельную валидность, если бы имел высокую положительную корреляцию со шкалой интеллекта взрослых Векслера, поскольку шкала Векслера является общепринятой мерой конструкции, которую мы называем интеллектом. Очевидная проблема связана с достоверностью теста, с которым вы сравниваете свой тест. Необходимо сделать некоторые предположения, потому что многие утверждают, например, что шкалы Векслера не являются хорошими мерами интеллекта.

Действительность содержимого. Валидность содержания связана со способностью теста включать или представлять все содержимое конкретной конструкции. Вопрос «1 + 1 = ___» может быть допустимым основным вопросом на дополнение. Представляет ли он все содержание, из которого состоит изучение математики? Его можно включить в шкалу интеллекта, но представляет ли он весь интеллект? Ответ на эти вопросы, очевидно, нет. Чтобы разработать достоверный тест интеллекта, должны быть вопросы не только по математике, но и по вербальному мышлению, аналитическим способностям и любому другому аспекту конструкции, которую мы называем интеллектом. Не существует простого способа определить достоверность содержания, кроме экспертного мнения.

Прогностическая достоверность. Для того чтобы тест мог быть действенным средством скрининга какого-либо поведения в будущем, он должен иметь прогностическую достоверность. SAT используется отборочными комиссиями колледжей как один из способов прогнозирования оценок в колледже. GMAT используется для прогнозирования успеха в бизнес-школе. И LSAT используется как средство прогнозирования успеваемости в юридической школе. Основная проблема с этими и многими другими прогностическими мерами — прогностическая достоверность, потому что без нее они были бы бесполезны.

Мы определяем прогностическую достоверность, вычисляя корреляционный коэффициент, сравнивая, например, баллы SAT и оценки в колледже. Если они напрямую связаны, то мы можем сделать прогноз относительно оценок в колледже на основе результатов SAT. Мы можем показать, что студенты, получившие высокие баллы по SAT, как правило, получают высокие оценки в колледже.

Проверка надежности.

Надежность является синонимом согласованности теста, опроса, наблюдения или другого измерительного устройства. Представьте, что вы наступаете на весы в ванной и весите 140 фунтов только для того, чтобы обнаружить, что ваш вес на тех же весах меняется на 180 фунтов через час и на 100 фунтов еще через час. Несмотря на несостоятельность этой шкалы, любое исследование, основанное на ней, безусловно, было бы ненадежным. Рассмотрим важное исследование новой диетической программы, основанной на непостоянстве или ненадежности ваших напольных весов как на основном способе сбора информации об изменении веса. Считаете ли вы их результаты точными?

Коэффициент надежности часто является выбранной статистикой для определения надежности теста. Этот коэффициент просто представляет собой корреляцию (обсуждаемую в главе 8), которая измеряет интенсивность и направление связи между двумя или более переменными.

Проверка надежности. Надежность теста-ретеста относится к согласованности теста между различными администрациями. Чтобы определить коэффициент для этого типа надежности, один и тот же тест проводится группе испытуемых не менее двух раз. Если тест надежен, баллы, которые каждый учащийся получает при первом введении, должны быть аналогичны баллам при втором. Мы ожидаем, что связь между первым и вторым введением будет иметь высокую положительную корреляцию.

Одной из основных проблем, связанных с надежностью тестирования и повторного тестирования, является так называемый эффект памяти. Это особенно верно, когда две администрации находятся близко друг к другу во времени. Например, представьте, что вы проходите короткий тест из 10 вопросов на словарный запас, а через десять минут вас просят пройти тот же тест. Большинство из нас запомнит свои ответы, и когда мы снова начнем отвечать, мы можем просто ответить так же, как в первом тесте, вместо того, чтобы внимательно читать вопросы. Это может создать искусственно высокий коэффициент надежности, поскольку испытуемые реагируют по памяти, а не по самому тесту. Когда пре-тест и пост-тест для эксперимента одинаковы, эффект памяти может играть роль в результатах.

Надежность параллельных форм. Один из способов убедиться, что эффекты памяти не возникают, — это использовать разные предварительные и последующие тесты. Однако для того, чтобы эти два теста можно было использовать таким образом, они должны быть параллельны или равны в том, что они измеряют. Для определения надежности параллельных форм рассчитывается коэффициент надежности по баллам двух показателей, выполненных одной и той же группой испытуемых. Опять же, мы ожидаем высокой и положительной корреляции, если мы должны сказать, что две формы параллельны.

Межоценочная надежность.

About the Author

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Related Posts