Надежность теста: Надежность — Psy-Testology

Содержание

Надежность теста

Надежность теста — Относительное постоянство, устойчивость, согласованность результатов теста при первичном и повторном его применении на одних и тех же испытуемых; независимость методики от действия случайных факторов.

Показатели надежности методик зависят от многих причин. Основные из них:

— нестабильность самого диагностируемого свойства

— небрежно составленная инструкция

— задания по своему характеру слишком разнородны

— нечетко сформулированы указания по предъявлению методики испытуемым

— иные несовершенства психодиагностической методики

— меняющаяся ситуация обследования (разное время дня, разная освещенность помещения, наличие или отсутствие посторонних шумов и т.п.)

— различия в манере поведения психодиагноста

— колебания в функциональном состоянии испытуемого

— личностные изменения самих испытуемых (особенно характерно для школьных возрастов, когда даже за месяц у испытуемых может произойти значительный рывок в развитии)

— изменение отношения к психодиагностике со стороны испытуемых

— элементы субъективности в способах оценки и интерпретации результатов (человеческий фактор; особенно актуально для проективных методик)

Если все эти факторы иметь в виду и постараться в каждом из них устранить условия, снижающие точность измерений, то можно добиться приемлемого уровня надежности теста. Следует учесть, что в реальной жизни методика используется в разных условиях, поэтому для повышения надежности ее необходимо очень тщательно и подробно излагать условия проведения в руководстве.

Повторное применение надежной методики должно давать сходные оценки. Как пишет известный теоретик психодиагностики А. Анастази (1982), вряд ли можно с доверием относиться к тесту интеллекта, если по нему в начале недели ребенок имел показатель, равный 110, а к концу 80. Должны совпадать как сами результаты, так и порядковое место (ранг) испытуемого в группе. При повторении опыта возможны некоторые расхождения, но важно, чтобы они были незначительными в пределах одной группы.

Надежность лучше определяется на наиболее однородных выборках, т.е. на выборках, схожих по полу, возрасту, уровню образования, профессиональной подготовке и т.п. Для каждой такой выборки приводятся свои коэффициенты надежности. Приводимый показатель надежности применим только к группам, подобным тем, на которых он определялся. Если методика применяется к выборке, отличающейся от той, на которой проверялась ее надежность, то эта процедура должна быть проведена заново.

Для вычисления показателей надежности обычно применяют коэффициенты корреляции. Надежность тем выше, чем больше полученный коэффициент корреляции приближается к единице.

К.М. Гуревич предлагает определять надежность по трем показателям:

— показатель, характеризующий измерительный инструмент (коэффициентом надежности)

— показатель, характеризующий стабильность измеряемого свойства (коэффициентом стабильности)

— показатель оценки влияния личности экспериментатора (коэффициентом константности)

Следует учитывать, что в погоне за надежностью методики можно потерять ее валидность. Под влиянием разных обстоятельств психические свойства человека могут довольно резко меняться. Психодиагностика практически не имеет дела с неизменяемыми на протяжении жизни качествами (т.е. врожденными). Для методик, диагностирующих психическое состояние, само понятие «надежность» практически неуместно.

Гуревич К.М. Психологическая диагностика. Учебное пособие. М., 1997.

НАДЕЖНОСТЬ ТЕСТА | это… Что такое НАДЕЖНОСТЬ ТЕСТА?

ТолкованиеПеревод

НАДЕЖНОСТЬ ТЕСТА
– один из критериев качества теста, относящийся к точности психологических измерений. Чем больше Н. т., тем относительно свободнее он от погрешностей измерения. При одном из подходов Н. т. рассматривается как устойчивость (стабильность) результатов при повторном тестировании. При другом подходе Н. т. – проявление степени эквивалентности двух одинаковых по форме и цели (параллельных) тестов. Определение Н. т. также связано с понятием внутренней состоятельности теста. Это выражается в расчленении теста на части с последующим сопоставлением результатов частей. Н. т. определяется также методами дисперсионного и факторного анализа. В конфликтологии в основном используются психологические тесты (тест К.
Томаса, Т. Лири, модульный социотест и др.). Проблема Н. т. является частью более широкой проблемы – надежности методики. Надежность – это устойчивость методики к погрешностям измерения: конкретной ситуации тестирования, особенностям тестируемых, уровню подготовленности исследователя и т. п.


* * *

один из критериев качества теста, относящийся к точности психологических измерений. Чем больше Н.т., тем относительно свободнее он от погрешностей измерения. Н.т. рассматривается при одном подходе: как устойчивость (стабильность) результатов при повторном тестировании; при другом, как проявление степени эквивалентности двух одинаковых по форме и цели (параллельных) тестов.


* * *
один из критериев качества теста, характеризующий постоянство, устойчивость результатов, полученных с его помощью. Чем больше Н. т., тем относительно свободнее он от погрешностей измерений. Поэтому Н. т. определяет степень точности, с которой он измеряет определенное свойство личности; это характеристика точности его как измерительного инструмента, его устойчивости к действию помех (как внешних, так и внутренних).

Эмпирическое определение Н. т. является обязательным условием допуска для использования его в практической деятельности, напр, в целях профессионального отбора. Для определения Н. т. используют следующие методы. 1. Метод повторного тестирования (метод тест — ретест). Для оценки надежности тест предъявляется дважды одной и той же группе испытуемых через какое-то время. Длительность временного промежутка определяется содержанием характера или задач теста. Мерой Н. т. служит коэффициент корреляции результатов, полученных при первичном и вторичном применении теста. 2. Метод тестирования параллельной, или эквивалентной, формой теста. При применении метода испытуемых разбирают на две равночисленные группы. Затем первой группе предъявляют основную форму, второй группе — эквивалентную форму. Через некоторое время формы меняют между группами испытуемых и снова проводят испытания. После этого для всей выборки испытуемых вычисляются результаты для каждой из форм, для которых затем определяется коэффициент корреляции, по величине которого и судят о Н.
т. 3. Метод расчленения теста на части (напр., четные и нечетные) с последующим сопоставлением результатов частей. Достоинством этого метода по сравнению с предыдущими является большая точность, поскольку он предполагает проведение лишь однократного тестирования.

Энциклопедический словарь по психологии и педагогике. 2013.

Нужно сделать НИР?

  • НАДЕЖНОСТЬ СЧМ
  • НАДЕЖНОСТЬ ЧЕЛОВЕКА-ОПЕРАТОРА

Полезное


Что такое проверка надежности? (Пример)

Что такое проверка надежности?

Тестирование надежности — это процесс тестирования программного обеспечения, который проверяет, может ли программное обеспечение выполнять безотказную работу в конкретной среде в течение определенного периода времени. Цель тестирования надежности состоит в том, чтобы убедиться, что программный продукт не содержит ошибок и достаточно надежен для ожидаемой цели.

Надежность означает «одинаковый результат», другими словами, слово «надежный» означает, что что-то надежно и каждый раз дает один и тот же результат. То же самое относится и к тестированию надежности.

Пример проверки надежности

Вероятность того, что ПК в магазине будет работать без сбоев в течение восьми часов, составляет 99%; это называется надежностью.

Тестирование надежности можно разделить на три сегмента:

  • Моделирование
  • Измерение
  • Улучшение

Следующая формула предназначена для расчета вероятности отказа.

 Вероятность = количество неудачных случаев / общее количество рассматриваемых случаев 

Факторы, влияющие на надежность программного обеспечения

  1. Количество ошибок, присутствующих в программном обеспечении
  2. То, как пользователи работают с системой

Проверка надежности — один из ключей к повышению качества программного обеспечения. Это тестирование помогает обнаружить множество проблем в дизайне и функциональности программного обеспечения.

Основная цель тестирования надежности — проверить, соответствует ли программное обеспечение требованиям надежности клиента.

Проверка надежности будет проводиться на нескольких уровнях. Сложные системы будут тестироваться на уровне блока, сборки, подсистемы и системы.

Зачем проводить тестирование надежности?

Тестирование надежности проводится для проверки производительности программного обеспечения в заданных условиях.

Цель тестирования надежности:

  1. Найти структуру повторяющихся отказов.
  2. Чтобы найти количество сбоев, происходящих за указанный промежуток времени.
  3. Выявление основной причины сбоя.
  4. Провести Тестирование производительности различных модулей программных приложений после устранения дефекта.

Даже после выпуска продукта мы можем свести к минимуму возможность возникновения дефектов и тем самым повысить надежность программного обеспечения. Некоторыми из инструментов, полезных для этого, являются анализ тенденций, классификация ортогональных дефектов, формальные методы и т. д.

Featured Тестирование проверяет функции, предоставляемые программным обеспечением, и проводится в следующие этапы: —

  • Каждая операция в программе выполняется хотя бы один раз.
  • Уменьшено взаимодействие между двумя операциями.
  • Каждая операция должна быть проверена на правильность ее выполнения.

Нагрузочное тестирование:-

Обычно программное обеспечение работает лучше в начале процесса, а после этого оно начинает ухудшаться. Нагрузочное тестирование проводится для проверки работоспособности программного обеспечения при максимальной рабочей нагрузке.

Регрессионное тестирование: —

Регрессионное тестирование в основном используется для проверки того, не появились ли какие-либо новые ошибки из-за исправления предыдущих ошибок. Регрессионное тестирование проводится после каждого изменения или обновления функций программного обеспечения и его функций.

Как проводить тестирование надежности

Тестирование надежности требует больших затрат по сравнению с другими типами тестирования. Поэтому при тестировании надежности требуется надлежащее планирование и управление. Это включает в себя процесс тестирования, который необходимо реализовать, данные для тестовой среды, график тестирования, контрольные точки и т. д.

Чтобы начать тестирование надежности, тестер должен продолжать следующее:

  • Установить цели надежности
  • Разработка рабочего профиля
  • Планирование и выполнение тестов
  • Используйте результаты тестирования для принятия решений

Как мы обсуждали ранее, есть три категории, в которых мы можем проводить тестирование надежности: Моделирование, измерение и улучшение .

Ключевые параметры, участвующие в тестировании надежности:-

  • Вероятность безотказной работы
  • Продолжительность безотказной работы
  • Среда, в которой выполняется

Шаг 1) Моделирование

Технику моделирования программного обеспечения можно разделить на две подкатегории:

1. Моделирование прогнозирования

2. Моделирование оценки

    9001 результаты могут быть получены путем применения соответствующих моделей.
  • Для упрощения задач можно использовать допущения и абстракции, и ни одна модель не подойдет для всех ситуаций. Основные различия между двумя моделями: —
Проблемы Модели прогнозирования Оценочные модели
Ссылка на данные Используются исторические данные Используются текущие данные разработки программного обеспечения.
При использовании в цикле разработки Обычно он создается перед этапами разработки или тестирования. Обычно он будет использоваться позже в жизненном цикле разработки программного обеспечения.
Период времени Это предскажет надежность в будущем. Он будет предсказывать надежность либо в настоящее время, либо в будущем.

Шаг 2) Измерение

Надежность программного обеспечения нельзя измерить напрямую; следовательно, для оценки надежности программного обеспечения учитываются другие связанные факторы. Текущие методы измерения надежности программного обеспечения делятся на четыре категории:

Измерение 1: Показатели продукта

Показатели продукта представляют собой комбинацию 4 типов показателей:

  • Размер программного обеспечения : – Строка кода (LOC) — это интуитивно понятный начальный подход к измерению размера программного обеспечения. В этой метрике учитывается только исходный код, а комментарии и другие неисполняемые операторы учитываться не будут.
  • Метрика функциональной точки :- Метрика функциональной точки — это метод измерения функциональности разработки программного обеспечения. Он будет учитывать количество входов, выходов, основных файлов и т. д. Он измеряет функциональность, предоставляемую пользователю, и не зависит от языка программирования.
  • Сложность напрямую связана с надежностью программного обеспечения, поэтому важно представлять сложность. Метрика, ориентированная на сложность, определяет сложность управляющей структуры программы путем упрощения кода до графического представления.
  • Показатели покрытия тестами :- Это способ оценки отказов и надежности путем выполнения тестов программного продукта. Надежность программного обеспечения означает, что это функция определения того, что система была полностью проверена и протестирована.
Измерение 2: Показатели управления проектами
  • Исследователи поняли, что хорошее управление может привести к созданию более качественных продуктов.
  • Хорошее управление может обеспечить более высокую надежность за счет использования улучшенных процессов разработки, управления рисками и управления конфигурацией.
Измерение 3: Метрики процесса

Качество продукта напрямую связано с процессом. Метрики процесса можно использовать для оценки, мониторинга и повышения надежности и качества программного обеспечения.

Измерение 4: Метрики отказов и отказов

Метрики отказов и отказов в основном используются для проверки того, полностью ли безотказна система. Для достижения этой цели собираются, обобщаются и анализируются как типы ошибок, обнаруженные в процессе тестирования (т. е. перед доставкой), так и ошибки, о которых сообщают пользователи после доставки.

Надежность программного обеспечения измеряется средним временем наработки на отказ (MTBF) . Средняя наработка на отказ состоит из

  • Среднее время до отказа (MTTF): это разница во времени между двумя последовательными отказами.
  • Среднее время ремонта (MTTR): это время, необходимое для устранения сбоя.
 Среднее время безотказной работы = MTTF + MTTR 

Надежность хорошего программного обеспечения — это число между 0 и 1.

Надежность увеличивается, когда ошибки или ошибки из программы удаляются.

Шаг 3) Улучшение

Улучшение полностью зависит от проблем, возникших в приложении или системе, или характеристик программного обеспечения. В зависимости от сложности программного модуля будет отличаться и способ улучшения. Два основных ограничения, время и бюджет, ограничивают усилия, затрачиваемые на повышение надежности программного обеспечения.

Примеры методов тестирования надежности

Тестирование надежности заключается в выполнении приложения для обнаружения и устранения сбоев до развертывания системы.

Для проверки надежности в основном используются три подхода

  • Повторное тестирование надежности
  • Надежность параллельных форм
  • Согласованность решения

Ниже мы попытались объяснить все это на примере.

Надежность повторных испытаний

Для оценки надежности повторного тестирования одна группа испытуемых проводит тестирование с интервалом всего в несколько дней или недель. Время должно быть достаточно коротким, чтобы можно было оценить навыки экзаменуемого в данной области. Взаимосвязь между оценками испытуемого из двух разных администраций оценивается посредством статистической корреляции. Этот тип надежности демонстрирует, в какой степени тест способен давать стабильные, согласованные результаты во времени.

Параллельные формы Надежность

Многие экзамены имеют несколько форматов вопросников, эти параллельные формы экзамена обеспечивают безопасность. Надежность параллельных форм оценивается путем проведения обеих форм экзамена одной и той же группе экзаменуемых. Баллы испытуемого по двум тестовым формам сопоставляются, чтобы определить, насколько похожи функции двух тестовых форм. Эта оценка надежности является мерой того, насколько последовательными могут быть результаты экзаменуемых в разных формах теста.

Согласованность решения

После проведения тестов на надежность повторного тестирования и параллельной формы мы получим результат экзаменуемых либо сдавших, либо не сдавших. Надежность этого классификационного решения оценивается в надежности непротиворечивости решения.

Важность тестирования надежности

Для повышения производительности программных продуктов и процессов требуется тщательная оценка надежности. Тестирование надежности программного обеспечения в значительной степени поможет менеджерам по программному обеспечению и практикам.

Чтобы проверить надежность программного обеспечения с помощью тестирования:-

  1. Необходимо выполнить большое количество тестовых случаев в течение длительного периода, чтобы определить, как долго программное обеспечение будет работать без сбоев.
  2. Распределение тестового набора должно соответствовать фактическому или запланированному рабочему профилю программного обеспечения. Чем чаще выполняется функция программного обеспечения, тем больший процент тестовых случаев должен быть отнесен к этой функции или подмножеству.

Инструменты для проверки надежности

Некоторые из инструментов тестирования надежности , используемых для проверки надежности программного обеспечения: :

Проверка надежности является важной частью программы обеспечения надежности. Точнее, это душа программы проектирования надежности. Кроме того, тесты на надежность в основном предназначены для выявления конкретных видов отказов и других проблем во время тестирования программного обеспечения.

В программной инженерии тестирование надежности можно разделить на три сегмента:

  • Моделирование
  • Измерение
  • Улучшение

Факторы, влияющие на надежность программного обеспечения

  • Количество ошибок, присутствующих в программном обеспечении
  • То, как пользователи работают с системой

Надежность испытаний | Психология Вики

Оценка | Биопсихология | Сравнительный | Познавательный | Развивающие | Язык | Индивидуальные различия | Личность | Философия | Социальные |
Методы | Статистика | Клинический | Образовательные | промышленный | Профессиональные товары | Мировая психология |

Социальные процессы: Методология · Виды теста


Надежность теста — это элемент построения теста и его стандартизации, а также степень, в которой мера постоянно дает один и тот же результат при повторении в аналогичных условиях.


Надежность не означает достоверность. То есть надежная мера измеряет что-то последовательно, но не обязательно то, что она должна измерять. Например, хотя существует множество надежных тестов конкретных способностей, не все из них подходят для прогнозирования, скажем, производительности труда. С точки зрения точности и прецизионности надежность — это точность, а достоверность — это точность.

Содержание

  • 1 Оценка
  • 2 Классическая теория испытаний
  • 3 Теория отклика элемента
  • 4 См. также
  • 5 Каталожные номера

Оценка

Надежность может быть оценена с помощью множества методов, которые делятся на два типа: однократное введение и многократное введение. Методы многократного администрирования требуют проведения двух оценок.

  • Ретестовая надежность , оценивается как коэффициент корреляции Пирсона продукт-момент между двумя введениями одной и той же меры. Это иногда называют коэффициентом стабильности
  • .
  • Надежность альтернативных форм оценивается с помощью коэффициента корреляции Пирсона произведение-момент двух различных форм показателя, обычно применяемых вместе. Иногда его называют коэффициентом эквивалентности

Методы однократного введения включают разделенный пополам и внутренняя согласованность .

  • Надежность разделения пополам рассматривает две половины показателя как альтернативные формы. Эта оценка «половинной надежности» затем увеличивается до полной длины теста с использованием формулы прогнозирования Спирмена-Брауна. Иногда его называют коэффициентом внутренней согласованности . Наиболее распространенной мерой внутренней согласованности является альфа Кронбаха, которая обычно интерпретируется как среднее значение всех возможных коэффициентов разделения пополам. [1] Альфа Кронбаха является обобщением более ранней формы оценки внутренней согласованности, формулы Кудера-Ричардсона 20. быть равным. Кроме того, надежность является свойством 90 379 баллов меры 90 380, а не самой меры, и поэтому считается, что она 90 379 зависит от выборки 90 380 . Оценки надежности одной выборки могут отличаться от оценок второй выборки (в большей степени, чем можно было бы ожидать из-за вариаций выборки), если вторая выборка взята из другой совокупности, поскольку истинная надежность в этой второй совокупности отличается. (Это относится ко всем типам мер: линейки могут хорошо измерять дома, но иметь низкую надежность при измерении длины насекомых.)

    Надежность может быть повышена за счет ясности выражения (для письменных оценок), удлинения меры, [1] и других неформальных средств. Однако формальный психометрический анализ, называемый анализом элементов, считается наиболее эффективным способом повышения надежности. Этот анализ состоит из вычисления показателей сложности заданий и различения заданий , причем последний показатель включает вычисление корреляций между заданиями и суммы баллов за задания всего теста. Если элементы, которые слишком сложны, слишком просты и/или имеют почти нулевую или отрицательную дискриминацию, заменены более качественными элементами, надежность меры повысится.

    • .
    • . (где частота отказов)

    Классическая теория тестирования

    В классической теории тестирования надежность определяется математически как отношение вариации истинной оценки и вариации наблюдаемой оценки . Или, что то же самое, один минус отношение вариации баллов ошибки и вариации наблюдаемого балла :

    где — символ достоверности наблюдаемой оценки, х ; , , и — дисперсии измеренных, истинных и ошибочных оценок соответственно. К сожалению, нет возможности напрямую наблюдать или вычислять истинный результат, поэтому для оценки надежности теста используются различные методы.

    Некоторые примеры методов оценки надежности включают надежность повторного тестирования, надежность внутренней согласованности и надежность параллельного тестирования. Каждый метод по-разному подходит к проблеме выяснения источника ошибки в тесте.

    Теория отклика элемента

    Теоретикам классического тестирования было хорошо известно, что точность измерения неравномерна по всей шкале измерения. Тесты, как правило, лучше различают испытуемых со средним уровнем характеристик и хуже — среди испытуемых с высокими и низкими баллами. Теория отклика элемента расширяет концепцию надежности от одного индекса до функции, называемой информационной функцией . Информационная функция IRT является обратной стандартной ошибкой условной наблюдаемой оценки при любом заданном результате теста. Более высокие уровни информации IRT указывают на более высокую точность и, следовательно, на большую надежность.

    См. также

    • Погрешность измерения
    • Индекс надежности
    • Межоценочная надежность
    • Весы для лжи
    • Показатели достоверности симптомов

    Ссылки

    1. 1,0 1,1 1,2 Cortina, J.

About the Author

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Related Posts