Надежность теста это в психологии: Надежность теста

Содержание

Надежность теста

Надежность теста — Относительное постоянство, устойчивость, согласованность результатов теста при первичном и повторном его применении на одних и тех же испытуемых; независимость методики от действия случайных факторов.

Показатели надежности методик зависят от многих причин. Основные из них:

— нестабильность самого диагностируемого свойства

— небрежно составленная инструкция

— задания по своему характеру слишком разнородны

— нечетко сформулированы указания по предъявлению методики испытуемым

— иные несовершенства психодиагностической методики

— меняющаяся ситуация обследования (разное время дня, разная освещенность помещения, наличие или отсутствие посторонних шумов и т.п.)

— различия в манере поведения психодиагноста

— колебания в функциональном состоянии испытуемого

— личностные изменения самих испытуемых (особенно характерно для школьных возрастов, когда даже за месяц у испытуемых может произойти значительный рывок в развитии)

— изменение отношения к психодиагностике со стороны испытуемых

— элементы субъективности в способах оценки и интерпретации результатов (человеческий фактор; особенно актуально для проективных методик)

Если все эти факторы иметь в виду и постараться в каждом из них устранить условия, снижающие точность измерений, то можно добиться приемлемого уровня надежности теста. Следует учесть, что в реальной жизни методика используется в разных условиях, поэтому для повышения надежности ее необходимо очень тщательно и подробно излагать условия проведения в руководстве.

Повторное применение надежной методики должно давать сходные оценки. Как пишет известный теоретик психодиагностики А. Анастази (1982), вряд ли можно с доверием относиться к тесту интеллекта, если по нему в начале недели ребенок имел показатель, равный 110, а к концу 80. Должны совпадать как сами результаты, так и порядковое место (ранг) испытуемого в группе. При повторении опыта возможны некоторые расхождения, но важно, чтобы они были незначительными в пределах одной группы.

Надежность лучше определяется на наиболее однородных выборках, т.е. на выборках, схожих по полу, возрасту, уровню образования, профессиональной подготовке и т.п. Для каждой такой выборки приводятся свои коэффициенты надежности. Приводимый показатель надежности применим только к группам, подобным тем, на которых он определялся. Если методика применяется к выборке, отличающейся от той, на которой проверялась ее надежность, то эта процедура должна быть проведена заново.

Для вычисления показателей надежности обычно применяют коэффициенты корреляции. Надежность тем выше, чем больше полученный коэффициент корреляции приближается к единице.

К.М. Гуревич предлагает определять надежность по трем показателям:

— показатель, характеризующий измерительный инструмент (коэффициентом надежности)

— показатель, характеризующий стабильность измеряемого свойства (коэффициентом стабильности)

— показатель оценки влияния личности экспериментатора (коэффициентом константности)

Следует учитывать, что в погоне за надежностью методики можно потерять ее валидность. Под влиянием разных обстоятельств психические свойства человека могут довольно резко меняться. Психодиагностика практически не имеет дела с неизменяемыми на протяжении жизни качествами (т.е. врожденными). Для методик, диагностирующих психическое состояние, само понятие «надежность» практически неуместно.

Гуревич К.М. Психологическая диагностика. Учебное пособие. М., 1997.

Надежность психологического теста | это… Что такое Надежность психологического теста?

Надёжностью называется один из критериев качества теста, его устойчивость по отношению к погрешностям измерения. Различают два вида надёжности — надёжность как устойчивость и надёжность как внутреннюю согласованность.

Содержание

1 Надёжность как устойчивость
2 Надёжность как внутренняя согласованность
3 См. также
- 3.1 Надежность и валидность
4 Литература

Надёжность как устойчивость

Устойчивость результатов теста или ретестовая надежность (англ — test-retest reliability) – возможность получения одинаковых результатов у испытуемых в различных случаях.

Устойчивость определяется с помощью повторного тестирования (ретеста):

В данном методе предлагается провести несколько замеров с некоторым промежутком времени (от недели до года) одним и тем же тестом. Если корреляция между результатами различных замеров будет высокой, следовательно, тест достаточно надежный. Наименьшим удовлетворительным значением для ретестовой надежности является 0,7. Однако надежность не всех тестов можно проверять этим методом, так как оцениваемое качество, явление или эффект могут быть сами по себе нестабильны (например, наше настроение, которое может меняться от одного замера к следующему). Еще один недостаток повторного тестирования – это эффект привыкания. Испытуемые уже знакомы с этим тестом, а может быть, даже помнят большую часть своих ответов после предыдущего заполнения.

В связи с выше сказанным возможно исследование надежности психодиагностических методик с использованием параллельных форм, при которых конструируются эквивалентные или параллельные наборы заданий. Получается, что испытуемые выполняют совершенно другой тест при аналогичных условиях. Однако, имеются трудности в доказательстве того, что обе формы являются действительно эквивалентными.

Несмотря на это, на практике параллельные формы тестов оказываются полезными в установлении надежности тестов.

Надёжность как внутренняя согласованность

Внутренняя согласованность(англ. — self-consistent) определяется связью каждого конкретного элемента теста с общим результатом, тем, насколько каждый элемент входит в противоречие с остальными, насколько каждый отдельный вопрос измеряет признак, на который направлен весь тест. Чаще всего тесты, разрабатываются таким образом, чтобы у них была высокая степень внутренней согласованности, а связи с тем, что если одна переменная измеряется частью теста, то тогда в других частях, если они не согласованы с первой, эта же переменная измеряться не может. Таким образом, чтобы тест был валидным, необходимо, чтобы он был согласован.

Однако существует и противоположная точка зрения. Кэттелл говорит о том, что высокая внутренняя согласованность на самом деле является противоположностью валидности: каждый вопрос должен затрагивать меньшую область или иметь более узкое значение, чем критерий, подвергающийся измерению.

Если все вопросы являются согласованными в высокой степени, они сильно коррелируют, и, следовательно, надежный тест будет измерять только лишь сравнительно «узкую» переменную с малыми отклонениями. По рассуждениям Кэттелла, максимум валидности существует, когда все задания теста не коррелируют друг с другом, а каждое из них имеет положительную корреляцию с критерием. Однако, такой тест будет характеризоваться низкой надежностью по внутренней согласованности.

Для проверки внутренней согласованности применяются:

Метод расщепления или метод автономных частей
Метод эквивалентных бланков
Альфа Кронбаха

Метод расщепления (Split-half reliability)

Этот метод заключается в расщеплении/разделении теста на две равные части (например, четные и нечетные вопросы, первая и вторая половина), а затем находится корреляция между ними. Если корреляция высокая, тест можно считать надежным.

Метод эквивалентных бланков

МЭБ состоит в применении двух сопоставимых друг с другом форм теста для большой выборки (например, формы L и M для измерения в шкале интеллекта Стэнфорда-Бине) Результаты, полученные при выполнении двух форм, сравнивают и высчитывают корреляцию. Если коэффициент корреляции высокий, следовательно, тест надежен. Недостаток этого метода в том, что он подразумевает такой длительный и трудоемкий процесс, как создание двух эквивалентных форм.

Альфа Кронбаха

В этом методе, предложенном Ли Кронбахом, сравнивается разброс каждого элемента с общим разбросом всей шкалы. Если разброс результатов теста меньше, чем разброс результатов для каждого отдельного вопроса, следовательно, каждый отдельный вопрос направлен на исследование одного и того же признака, свойства или явления. Они вырабатывают значение, которое можно считать истинным. Если такое значение выработать нельзя, то есть получается случайный разброс при ответе на вопросы, тест не надежен и коэффициент альфа Кронбаха будет равен 0. Если же все вопросы измеряют один и тот же признак, то тест надежен и коэффициент альфа Кронбаха в этом случае будет равен 1.

α Кронбаха определяется как

где N — число элементов в шкале, — дисперсия общего тестового балла, и — дисперсия элемента i.

См. также

Помимо надежности тестов, есть так же надежность наблюдения – межнаблюдательская надежность. МН – это процент совпадения результатов наблюдения экспертов друг с другом.

Надежность и валидность

Надежность показывает, что результаты проводимого исследования близки к истине, а валидность показывает, что результаты действительно относятся к тому явлению, которое изучается исследователем. Валидное исследование автоматически является надежным, однако обратное следствие не обязательно. Надежное исследование может и не быть валидным.

Литература

Пол Клайн. «Справочное руководство по конструированию тестов», Киев, 1994.

4.2 Надежность и валидность измерений – Методы исследования в психологии

Цели обучения

Дать определение надежности, включая различные типы и способы их оценки.
Определите достоверность, включая различные типы и способы их оценки.
Опишите виды доказательств, которые могут иметь отношение к оценке надежности и достоверности конкретной меры.

Опять же, измерение включает в себя присвоение баллов отдельным лицам, чтобы они представляли некоторые характеристики людей. Но откуда исследователи узнают, что баллы на самом деле отражают характеристику, особенно когда речь идет о таком конструкте, как интеллект, самооценка, депрессия или объем оперативной памяти? Ответ заключается в том, что они проводят исследование с использованием меры, чтобы подтвердить, что оценки имеют смысл, исходя из их понимания измеряемой конструкции. Это чрезвычайно важный момент. Психологи не просто

предполагают , что их меры работают. Вместо этого они собирают данные, чтобы продемонстрировать , что они работают. Если их исследование не показывает, что мера работает, они перестают ее использовать.

В качестве неформального примера представьте, что вы уже месяц сидите на диете. Ваша одежда кажется более свободной, и несколько друзей спрашивали, похудели ли вы. Если бы в этот момент ваши весы в ванной показывали, что вы потеряли 10 фунтов, это имело бы смысл, и вы продолжали бы пользоваться весами. Но если бы он указывал на то, что вы набрали 10 фунтов, вы бы правильно заключили, что он сломан, и либо починили бы его, либо избавились от него. При оценке метода измерения психологи учитывают два основных аспекта: надежность и валидность.

Надежность
Надежность относится к постоянству меры. Психологи рассматривают три типа согласованности: во времени (надежность повторного тестирования), между элементами (внутренняя согласованность) и между разными исследователями (межэкспертная надежность).
Надежность при повторном тестировании
Когда исследователи измеряют конструкт, который, по их мнению, неизменен во времени, полученные ими баллы также должны быть постоянными во времени. Надежность при повторном тестировании насколько это действительно так. Например, обычно считается, что интеллект неизменен во времени. Человек, который очень умен сегодня, будет очень умным на следующей неделе. Это означает, что любая хорошая мера интеллекта должна дать этому человеку примерно такие же оценки на следующей неделе, как и сегодня. Ясно, что мера, которая дает крайне противоречивые оценки во времени, не может быть очень хорошей мерой конструкции, которая должна быть последовательной.
Оценка надежности повторного тестирования требует одновременного использования показателя для группы людей, повторного использования его для той же группы людей позднее, а затем изучения корреляции между тестами и повторными тестами между двумя наборами. баллов. Обычно это делается путем графического отображения данных на диаграмме рассеяния и вычисления коэффициента корреляции. На рис. 4.2 показана корреляция между двумя наборами оценок нескольких студентов университета по шкале самооценки Розенберга, проведенных два раза с интервалом в неделю. Коэффициент корреляции для этих данных равен +,9.5. В целом считается, что корреляция между тестом и повторным тестом +,80 или выше указывает на хорошую надежность.
Рис. 4.2 Корреляция между двумя наборами оценок нескольких студентов колледжа по шкале самооценки Розенберга, полученная два раза в неделю с разницей быть последовательным во времени, как в случае с интеллектом, самооценкой и личностными параметрами Большой пятерки. Но другие конструкции не считаются стабильными во времени. Например, сама природа настроения такова, что оно меняется. Таким образом, мера настроения, которая показала низкую корреляцию между тестами и повторными тестами в течение месяца, не должна вызывать беспокойства.
Внутренняя согласованность
Другим видом надежности является внутренняя согласованность , которая представляет собой согласованность ответов людей по пунктам измерения, состоящего из нескольких пунктов. В целом предполагается, что все пункты таких показателей отражают одну и ту же базовую конструкцию, поэтому баллы людей по этим пунктам должны коррелировать друг с другом. По шкале самооценки Розенберга люди, согласные с тем, что они достойные люди, должны быть склонны соглашаться с тем, что они обладают рядом хороших качеств. Если ответы людей на разные элементы не коррелируют друг с другом, то больше не имеет смысла утверждать, что все они измеряют одну и ту же лежащую в основе конструкцию. Это верно как для поведенческих и физиологических показателей, так и для показателей самоотчетов. Например, люди могут сделать серию ставок в смоделированной игре в рулетку, чтобы измерить уровень своего стремления к риску. Этот показатель будет внутренне непротиворечивым в той мере, в какой ставки отдельных участников были неизменно высокими или низкими в ходе испытаний.
Как и надежность повторных испытаний, внутреннюю согласованность можно оценить только путем сбора и анализа данных. Один из подходов заключается в рассмотрении корреляции с разделением пополам . Это включает в себя разделение элементов на два набора, таких как первая и вторая половины элементов или элементы с четными и нечетными номерами. Затем для каждого набора элементов вычисляется оценка, и проверяется взаимосвязь между двумя наборами оценок. Например, на Рисунке 4.3 показана корреляция с разделением пополам между баллами нескольких студентов университетов по четным пунктам и их баллами по нечетным пунктам Шкалы самооценки Розенберга. Коэффициент корреляции для этих данных составляет +,88. Половинчатая корреляция +,80 или выше обычно считается хорошей внутренней согласованностью.
Рис. 4.3 Разделенная пополам корреляция между баллами нескольких студентов колледжа по четным пунктам и их баллами по нечетным пунктам шкалы самооценки Розенберга
Возможно, это наиболее распространенный показатель внутренней согласованности, используемый исследователями в психология — это статистика, называемая α Кронбаха (греческая буква альфа). Концептуально α является средним значением всех возможных корреляций разделения пополам для набора элементов. Например, существует 252 способа разделить набор из 10 предметов на два набора по пять. α Кронбаха будет средним из 252 разделенных пополам корреляций. Обратите внимание, что это не то, как на самом деле вычисляется α, но это правильный способ интерпретации значения этой статистики. Опять же, значение +,80 или выше обычно считается показателем хорошей внутренней согласованности.
Надежность между оценщиками
Многие поведенческие показатели требуют значительных суждений со стороны наблюдателя или оценщика. Межэкспертная надежность – это степень, в которой разные наблюдатели последовательны в своих суждениях. Например, если вы заинтересованы в измерении социальных навыков студентов университета, вы можете сделать видеозаписи их общения с другим студентом, которого они встречают впервые. Затем вы можете попросить двух или более наблюдателей посмотреть видео и оценить уровень социальных навыков каждого учащегося. В той мере, в какой каждый участник на самом деле обладает определенным уровнем социальных навыков, который может быть обнаружен внимательным наблюдателем, оценки разных наблюдателей должны сильно коррелировать друг с другом. Межэкспертная надежность также могла быть измерена в исследовании Бандуры с куклой Бобо. В этом случае оценки наблюдателями того, сколько актов агрессии совершил конкретный ребенок во время игры с куклой Бобо, должны были иметь высокую положительную корреляцию. Надежность между экспертами часто оценивается с использованием коэффициента Кронбаха, когда суждения количественные, или аналогичного статистического показателя, называемого коэновским κ (греческая буква каппа), когда они категоричны.
Валидность
Валидность – это степень, в которой оценки показателя представляют переменную, для которой они предназначены. Но как исследователи делают это суждение? Мы уже рассмотрели один фактор, который они учитывают, — надежность. Когда мера имеет хорошую надежность повторного тестирования и внутреннюю согласованность, исследователи должны быть более уверены в том, что оценки представляют то, что они должны представлять. Однако это должно быть нечто большее, потому что мера может быть чрезвычайно надежной, но не иметь никакой достоверности. В качестве абсурдного примера представьте себе человека, который считает, что длина указательного пальца человека отражает его самооценку, и поэтому пытается измерить самооценку, поднося линейку к указательным пальцам людей. Хотя эта мера будет иметь чрезвычайно хорошую надежность при повторном тестировании, она будет абсолютно недействительной. Тот факт, что указательный палец одного человека на сантиметр длиннее, чем у другого, ничего не говорит о том, у кого из них выше самооценка.
Обсуждения валидности обычно делят ее на несколько различных «типов». Но хороший способ интерпретировать эти типы состоит в том, что они представляют собой другие виды доказательств — в дополнение к надежности — которые следует принимать во внимание при оценке достоверности меры. Здесь мы рассматриваем три основных вида: валидность лица, валидность содержания и валидность критерия.
Лицевая валидность
Лицевая валидность — это степень, в которой метод измерения выглядит «на лицо» для измерения интересующей конструкции. Большинство людей ожидает, что анкета самооценки будет включать вопросы о том, считают ли они себя достойным человеком и считают ли они себя хорошими качествами. Таким образом, анкета, включающая такие пункты, будет иметь хорошую внешнюю валидность. С другой стороны, метод измерения самооценки по длине пальца, по-видимому, не имеет ничего общего с самооценкой и, следовательно, имеет низкую кажущуюся валидность. Хотя кажущаяся валидность может быть оценена количественно — например, когда большая выборка людей оценивает меру с точки зрения того, измеряет ли она то, для чего предназначена, — ее обычно оценивают неформально.
Лицевая валидность в лучшем случае является очень слабым доказательством того, что метод измерения измеряет то, что он должен измерять. Одна из причин заключается в том, что он основан на интуитивных представлениях людей о человеческом поведении, которые часто ошибочны. Также верно и то, что многие общепризнанные меры в психологии работают достаточно хорошо, несмотря на то, что им не хватает внешней достоверности. Миннесотский многофазный личностный опросник-2 (MMPI-2) измеряет многие личностные характеристики и расстройства, предлагая людям решить, применимо ли к ним каждое из более чем 567 различных утверждений, причем многие утверждения не имеют никакого очевидного отношения к конструкту, который они измеряют. . Например, пункты «Мне нравятся детективы или детективы» и «Вид крови не пугает и не вызывает у меня тошноты» измеряют подавление агрессии. В данном случае интерес представляют не буквальные ответы участников на эти вопросы, а то, соответствует ли шаблон ответов участников на ряд вопросов ответам людей, склонных подавлять свою агрессию.
Валидность содержания
Валидность содержания – это степень, в которой мера «покрывает» интересующую конструкцию. Например, если исследователь концептуально определяет тестовую тревожность как активацию симпатической нервной системы (ведущую к нервным переживаниям) и негативные мысли, то его мера тестовой тревожности должна включать пункты, касающиеся как нервных переживаний, так и негативных мыслей. Или учтите, что отношения обычно определяются как включающие мысли, чувства и действия по отношению к чему-либо. Согласно этому концептуальному определению, человек позитивно относится к физическим упражнениям в той мере, в какой он или она позитивно относится к упражнениям, чувствует себя хорошо во время упражнений и действительно занимается ими. Таким образом, чтобы иметь хорошую содержательную валидность, мера отношения людей к физическим упражнениям должна отражать все три аспекта. Как и внешняя валидность, содержательная валидность обычно не оценивается количественно. Вместо этого он оценивается путем тщательной проверки метода измерения на соответствие концептуальному определению конструкции.
Валидность критерия
Валидность критерия — это степень, в которой оценки людей по показателю коррелируют с другими переменными (известными как критерии ), с которыми, как ожидается, они должны быть коррелированы. Например, результаты людей по новому показателю тестовой тревожности должны иметь отрицательную корреляцию с их успеваемостью на важном школьном экзамене. Если бы было обнаружено, что баллы людей на самом деле отрицательно коррелируют с их успеваемостью на экзамене, то это было бы доказательством того, что эти баллы действительно отражают тревожность людей перед экзаменами. Но если бы было обнаружено, что люди получают одинаковые результаты на экзамене независимо от их оценки тревожности во время теста, это поставило бы под сомнение достоверность измерения.
Критерием может быть любая переменная, которая, как есть основания полагать, должна коррелировать с измеряемым конструктом, и обычно их будет много. Например, можно было бы ожидать, что показатели тревожности при тестировании будут отрицательно коррелировать с успеваемостью на экзамене и оценками за курс и положительно коррелировать с общей тревожностью и кровяным давлением во время экзамена. Или представьте, что исследователь разрабатывает новую меру физического риска. Баллы людей по этому показателю должны коррелировать с их участием в «экстремальных» видах деятельности, таких как катание на сноуборде и скалолазание, количеством полученных ими штрафов за превышение скорости и даже количеством переломов костей, которые они получили за эти годы. Когда критерий измеряется одновременно с конструктом, валидность критерия оценивается как 9.0026 одновременное действие ; однако, когда критерий измеряется в какой-то момент в будущем (после измерения конструкции), он называется прогностической достоверностью (поскольку баллы по показателю «предсказывают» будущий результат).
Критерии могут также включать другие меры той же конструкции. Например, можно было бы ожидать, что новые показатели тестовой тревожности или готовности к физическому риску будут положительно коррелировать с существующими установленными показателями тех же конструктов. Это известно как конвергентная действительность .
Оценка конвергентной валидности требует сбора данных с использованием меры. Исследователи Джон Качиоппо и Ричард Петти сделали это, когда создали свою шкалу самооценки потребности в познании, чтобы измерить, насколько люди ценят мышление и вовлечены в него (Cacioppo & Petty, 1982) ^[1] . В серии исследований они показали, что баллы людей положительно коррелируют с их баллами по стандартизированному тесту успеваемости и что их баллы отрицательно коррелируют с их баллами по показателю догматизма (что представляет собой тенденцию к послушанию). За годы, прошедшие с момента ее создания, шкала потребности в познании использовалась буквально в сотнях исследований, и было показано, что она коррелирует с широким спектром других переменных, включая эффективность рекламы, интерес к политике и решения присяжных. (Петти, Бриньоль, Лёрш и Маккаслин, 2009 г.) ^[2] .
Дискриминантная валидность
Дискриминантная валидность , с другой стороны, представляет собой степень, в которой баллы меры , а не коррелируют с мерами переменных, которые концептуально различны. Например, самооценка — это общее отношение к себе, которое довольно стабильно во времени. Это не то же самое, что настроение, то есть то, насколько хорошо или плохо человек себя чувствует в данный момент. Таким образом, оценки людей по новому показателю самооценки не должны сильно коррелировать с их настроением. Если бы новая мера самооценки была сильно коррелирована с мерой настроения, можно было бы утверждать, что новая мера на самом деле не измеряет самооценку; вместо этого он измеряет настроение.
Создавая Шкалу потребности в познании, Качиоппо и Петти также предоставили доказательства дискриминантной валидности, показав, что баллы людей не коррелируют с некоторыми другими переменными. Например, они обнаружили лишь слабую корреляцию между потребностью людей в познании и мерой их когнитивного стиля — степенью, в которой они склонны мыслить аналитически, разбивая идеи на более мелкие части или целостно с точки зрения «большой картины». Они также не обнаружили корреляции между потребностью людей в познании и показателями их тестовой тревожности и их тенденцией реагировать социально желательными способами. Все эти низкие корреляции свидетельствуют о том, что показатель отражает концептуально отличный конструкт.
Ключевые выводы
Исследователи-психологи не просто предполагают, что их измерения работают. Вместо этого они проводят исследования, чтобы показать, что они работают. Если они не могут показать, что они работают, они перестают их использовать.
Существует два различных критерия, по которым исследователи оценивают свои измерения: надежность и достоверность. Надежность — это согласованность во времени (надежность при повторном тестировании), между элементами (внутренняя согласованность) и между исследователями (надежность между разными группами). Валидность — это степень, в которой оценки действительно представляют переменную, для которой они предназначены.
Обоснованность — это суждение, основанное на различных видах доказательств. Соответствующее свидетельство включает в себя надежность показателя, охватывает ли он интересующий конструкт и коррелируют ли полученные с его помощью оценки с другими переменными, с которыми они, как ожидается, будут коррелировать, и не коррелируют с переменными, которые концептуально различны.
Надежность и валидность измерения определяется не каким-либо одним исследованием, а последовательностью результатов нескольких исследований. Оценка надежности и валидности является непрерывным процессом.
Качиоппо, Дж. Т., и Петти, Р. Э. (1982). Потребность в познании. Журнал личности и социальной психологии, 42 , 116–131. ↵
Петти, Р. Э., Бриньоль, П., Лёрш, К., и Маккаслин, М. Дж. (2009). Потребность в познании. В MR Leary & RH Hoyle (Eds.), Справочник по индивидуальным различиям в социальном поведении (стр. 318–329). Нью-Йорк, штат Нью-Йорк: Guilford Press. ↵
Надежность испытаний | Психология Вики
Оценка | Биопсихология | Сравнительный | Познавательный | Развивающие | Язык | Индивидуальные различия | Личность | Философия | Социальные |
Методы | Статистика | Клинический | Образовательные | промышленный | Профессиональные товары | Мировая психология |
Социальные процессы: Методология · Виды теста
Надежность теста является элементом построения теста и стандартизации теста и представляет собой степень, в которой мера постоянно дает один и тот же результат при повторении в аналогичных условиях.

Надежность не означает достоверность. То есть надежная мера измеряет что-то последовательно, но не обязательно то, что она должна измерять. Например, хотя существует множество надежных тестов конкретных способностей, не все из них подходят для прогнозирования, скажем, производительности труда. С точки зрения точности и прецизионности надежность — это точность, а достоверность — это точность.
Содержание
1 Оценка
2 Классическая теория тестов
3 Теория отклика элемента
4 См. также
5 Каталожные номера
Estimation[]
Надежность может быть оценена с помощью множества методов, которые делятся на два типа: однократное введение и многократное введение. Методы многократного администрирования требуют проведения двух оценок.
Ретестовая надежность , оценивается как коэффициент корреляции Пирсона продукт-момент между двумя введениями одной и той же меры. Это иногда называют коэффициент устойчивости
Надежность альтернативных форм оценивается с помощью коэффициента корреляции Пирсона произведение-момент двух различных форм показателя, обычно применяемых вместе. Иногда его называют коэффициентом эквивалентности
Методы однократного введения включают разделение пополам и внутреннюю согласованность .
Надежность разделения пополам рассматривает две половины меры как альтернативные формы. Эта оценка «половинной надежности» затем увеличивается до полной длины теста с использованием формулы прогнозирования Спирмена-Брауна. Иногда его называют 9.0022 коэффициент внутренней согласованности . Наиболее распространенной мерой внутренней согласованности является альфа Кронбаха, которая обычно интерпретируется как среднее значение всех возможных коэффициентов разделения пополам. ^[1] Альфа Кронбаха является обобщением более ранней формы оценки внутренней согласованности, формулы Кудера-Ричардсона 20. быть равным. Кроме того, надежность является свойством оценивает меру , а не саму меру и, таким образом, считается зависимой от выборки . Оценки надежности одной выборки могут отличаться от оценок второй выборки (в большей степени, чем можно было бы ожидать из-за вариаций выборки), если вторая выборка взята из другой совокупности, поскольку истинная надежность в этой второй совокупности отличается. (Это относится ко всем типам мер: линейки могут хорошо измерять дома, но иметь низкую надежность при измерении длины насекомых.)
Надежность может быть повышена за счет ясности выражения (для письменных оценок), удлинения меры, ^[1] и других неформальных средств. Однако формальный психометрический анализ, называемый анализом элементов, считается наиболее эффективным способом повышения надежности. Этот анализ состоит из вычисления показателей сложности заданий, и показателей дискриминации , причем последний показатель включает вычисление корреляций между заданиями и суммы баллов за задания всего теста. Если элементы, которые слишком сложны, слишком просты и/или имеют почти нулевую или отрицательную дискриминацию, заменены более качественными элементами, надежность меры повысится.
р (т) = 1-F (т) {\ Displaystyle R (т) = 1-F (т)}.
р (т) = exp⁡ (-λt) {\ displaystyle R (t) = \ exp (- \ lambda t)}. (где λ{\ displaystyle \ lambda} — частота отказов)
Классическая теория тестирования []
В классической теории тестирования надежность определяется математически как отношение вариации истинной оценки к вариации наблюдаемых оценка . Или, что то же самое, один минус отношение вариации оценки ошибки 9{2}} — это дисперсия измеренных, истинных и ошибочных оценок соответственно. К сожалению, нет возможности напрямую наблюдать или вычислять истинный результат, поэтому для оценки надежности теста используются различные методы.
Некоторые примеры методов оценки надежности включают надежность повторного тестирования, надежность внутренней согласованности и надежность параллельного тестирования. Каждый метод по-разному подходит к проблеме выяснения источника ошибки в тесте.
Item response theory[]
Теоретикам классического тестирования было хорошо известно, что точность измерения неравномерна по всей шкале измерения. Тесты, как правило, лучше различают испытуемых со средним уровнем характеристик и хуже — среди испытуемых с высокими и низкими баллами. Теория отклика элемента расширяет концепцию надежности от одного индекса до функции, называемой информационной функцией . Информационная функция IRT является обратной стандартной ошибкой условной наблюдаемой оценки при любом заданном результате теста. Более высокие уровни информации IRT указывают на более высокую точность и, следовательно, на большую надежность.
См. также[]
Погрешность измерения
Индекс надежности
Межрейтинговая надежность
Весы лжи
Показатели достоверности симптомов
Ссылки[]
↑ ^1,0 ^1,1 ^1,2 Cortina, J.