Определение надежности теста
15.06.2020Тест обычно считается надежным, если с его помощью получаются одни и те же показатели для каждого обследуемого при повторном тестировании.
В психометрике термин надежность имеет два значения. На одном из них — надежности по внутренней согласованности — мы не будем останавливаться подробно, отсылая читателя к соответствующим справочникам и руководствам, отметив только, что требование к внутренней согласованности теста не случайно. Вполне естественно считать, что если некоторая переменная измеряется частью теста, то другие его части, не будучи согласованными с первой, измеряют нечто другое. Для того чтобы быть валидным, тест должен быть согласованным. Существует несколько способов определения надежности.
Надежность ретестовая — предполагает повторное предъявление того же самого теста тем же испытуемым и примерно в тех же условиях, что первоначальное, а затем установление корреляции между двумя рядами данных.
Мы не считаем требование П. Клайна об обязательном 6 месячном интервале между тестированиями безусловным. В подтверждение сошлемся на результаты исследования канадских психологов. С помощью личностного опросника были обследованы 302 студента с интервалом в 3 недели. Условия повторного тестирования варьировались. Стандартный коэффициент ретестовой надежности, равный 0,872, не отличался от коэффициентов надежности, полученных в трех группах испытуемых, получавших одну из трех специфических инструкций:
- продумывать ответы;
- использовать воспоминания о прошлых ответах;
- выполнять параллельную форму теста.
Было обнаружено, что стандартный коэффициент надежности выше коэффициента, полученного при инструкции воспроизводить прошлые ответы.
Наименьшим удовлетворительным значением для ретестовой надежности является коэффициент корреляции, равный 0,7. Правда, для некоторых тестов этот показатель может быть несколько ниже.
Надежность параллельных форм предусматривает создание эквивалентных форм опросника и предъявление их одним и тем же испытуемым для того, чтобы затем оценить корреляцию между полученными результатами. Основная проблема, препятствующая широкому распространению этого способа определения надежности, — необходимость подготовки двух наборов заданий, что чрезвычайно сложно, поскольку требуются убедительные доказательства их эквивалентности.
Надежность частей теста определяется путем деления опросника на две части (обычно на четные и нечетные задания), после чего и рассчитывается корреляция между этими частями. Обычно к этому способу определения надежности рекомендуется прибегать только в тех случаях, когда необходимо быстро получить результаты.
Для определения ретестовой надежности и надежности параллельных форм корреляции подсчитывается на основе коэффициента произведения моментов Пирсона. Эта процедура подсчета рассматривалась нами ранее, в разделе, посвященном анализу заданий. Для определения надежности частей теста ранее рассчитанный коэффициент произведения моментов Пирсона (между двумя половинами теста) используется в формуле Спирмена—Брауна. Формула Спирмена— Брауна имеет вид:
Подчеркнем, что наилучшей процедурой определения надежности является проведение повторных исследований через более или менее значительные временные интервалы.
Все исследования надежности должны выполняться на достаточно больших (рекомендуется 200 и более испытуемых) и репрезентативных выборках. Надежность — важная характеристика теста, но сама по себе ценности не представляет. Она необходима для достижения валидности.
Ключевые слова: ТестыИсточник: Бурлачук Л. Ф. Психодиагностика: Учебник для вузов. — СПб.: Питер, 2006. — 351 с: ил
Материалы по теме |
---|
Формы психологического тестирования Акимова М.К., Гуревич К.М., Психологическая диагностика 3-е издание. Спб.:Питер, 2008. |
Тест творческого мышления П. Торренса Е. П. Ильин. «Психология творчества, креативности, одаренности» Питер; СПб.; 2009 |
Тестирование в психологии Анна Анастази, Дифференциальная психология |
Понятие и виды тестов Бурлачук Л. Ф. Психодиагностика: Учебник для вузов. — СПб.: Питер, 2006. — 351 с: ил |
Тест структуры интеллекта Амтхауэра Кондрашихина О. А., Дифференциальная психология |
Компьютеризированные и компьютерные тесты Бурлачук Л. Ф. Психодиагностика: Учебник для вузов. — СПб.: Питер, 2006. — 351 с: ил |
Тест-опросник EPI Г. Айзенка Ишков А.Д., Учебная деятельность студента |
Об «объективных» тестах личности Бурлачук Л. Ф. Психодиагностика: Учебник для вузов. — СПб.: Питер, 2006. — 351 с: ил |
Насколько надежны и точны ваши онлайн-тесты?
Блог » Корпоративный раздел » Насколько надежны и точны ваши онлайн-тесты?
Корпоративный разделНа чтение 4 мин. Просмотров 2k. Опубликовано
Содержание
- Валидность (достоверность) тестов
- Как взвесить учебные цели/действия
- Другие способы повысить валидность онлайн-тестов
- Надежность теста
- Что делает тест последовательным и согласованным?
- Как повысить надежность теста?
Наверняка, приложив усилия по разработке теста, вы хотите, чтобы он был точным и измерял верно те знания и навыки, которые ученики получили, обучаясь у вас.
Но важно понимать, что:
- ваш тест не может оценить все содержание курса
- возможно, вы проверили с его помощью наименее значимый контент
- наиболее важным аспектом обучения на рабочем месте обычно является применение знаний в реальном мире. Проверка знаний в искусственной среде имеет свои ограничения
Чтобы сделать ваши тесты более точными показателями качественного и осмысленного обучения, необходимо учитывать 2 критерия эффективных тестов: валидность и надежность.
Валидность (достоверность) тестов
Давайте сначала определим, что же такое валидность тестов. Это соответствие методик и результатов оценивания поставленным задачам, т.е. насколько ваш тест измеряет то, что он должен измерять.
В электронном обучении важно сосредоточить внимание на том, насколько ваш тест лучше всего представляет интересующий контент. Поскольку вы хотите, чтобы тест точно оценивал знания и навыки (насколько это возможно), вопросы должны соответствовать наиболее важным целям обучения или действиям.
Как взвесить учебные цели/действия
Один из способов добиться большей достоверности – взвесить цели, чтобы убедиться, что вы тестируете наиболее важный контент.
Вот достаточно быстрый способ сделать это:
- Просмотрите цели курса, чтобы помнить про них
- Создайте схему, чтобы определить ценность каждой учебной цели или действия
- Оцените каждую цель/действие с точки зрения ее важности для работы учащегося, сложности и частоты, с которой она встречается в курсе. Например, по 5 или 10 бальной шкале
- Затем суммируйте баллы
- Цели с низким баллом имеют низкий приоритет и не будут проверяться; цели с наивысшими баллами будут проверены. Примечание: если курс вы еще не разработали, подумайте о том, чтобы полностью исключить из него элементы с низкими баллами
Другие способы повысить валидность онлайн-тестов
- Задания теста должны соответствовать высокоприоритетным целям обучения
- Разработайте тестовые задания, которые измеряют применение знаний, как в заданиях на основе сценария
- Поручите эксперту, который понимает, какие навыки требуются на рабочем месте, ознакомиться с тестовыми заданиями
- Попросите нескольких представителей вашей целевой аудитории прочитать вопросы теста, чтобы убедиться, что они сформулированы четко и понятно
- Дорабатывайте тест, отслеживая успеваемость учащихся. Пересмотрите вопросы, которые вызывают затруднения, или внесите изменения в контент курса
Надежность теста
Надежность – это попытка свести к минимуму случайные ошибки и погрешности, возникающие во всех тестах.
Способ уменьшить погрешности – сделать тест последовательным и согласованным. Надежный тест имеет несколько вариаций внутри себя и со временем дает аналогичные результаты.
Приведем пример. Если вы взвешиваетесь каждый день и ваш вес достаточно постоянен, вы считаете весы надежными. Если весы изо дня в день показывают совершенно разные цифры, вы не будете считать эти показатели надежными.
Если мы говорим про электронное обучение, то онлайн-тест с высокой степенью надежности будет более точно измерять знания и навыки учащегося, чем тест с низкой надежностью.
Надежность теста отвечает за вопрос: «В какой степени тест соответствует тому, что он измеряет?»
Что делает тест последовательным и согласованным?
Надежный тест будет иметь определенную степень согласованности, о чем свидетельствуют следующие характеристики:
- Тестовые задания кажутся похожими или тесно связанными. Тест представляет единое целое
- Нет больших скачков в сложности, формулировке и тоне. Должно создаваться впечатление, что тест составлял один человек
- Если бы тест проводился в аналогичных группах, вы бы увидели сходство в оценках во всех группах
- Тест достаточно длинный, чтобы оценить знания ученика. На очень короткие тесты больше влияет «фактор удачи»
Как повысить надежность теста?
- Убедитесь, что тест измеряет связанный контент. Избегайте создания одного теста для нескольких различных курсов
- Убедитесь, что условия тестирования одинаковы для каждого учащегося. Например, если ваше программное обеспечение для тестирования хорошо отображается в конкретном браузере, то обязательно используйте этот браузер
- Добавьте больше вопросов в тест. Более длительный тест будет более надежным
- Формулируйте вопросы очень четко, чтобы никакие другие интерпретации не были возможны
- Напишите инструкции по тестированию так, чтобы их было легко понять
- Убедитесь, что варианты ответов явно отличаются друг от друга и что неправильные из них на 100% неверны
- По возможности создавайте тестовые задания аналогичной сложности
- Дважды протестируйте участников одной и той же группы, в идеале с разницей в месяц. Если распределение баллов аналогично, тест, скорее всего, будет надежным. Если оценки сильно различаются, улучшите вопросы, в которых было расхождение. Учтите, что баллы по второму тесту могут быть немного выше
Отношение надежности и валидности
Надежный тест не обязательно является валидным. Тест может быть последовательным и согласованным (надежным), но не измерять точно то, что по вашему мнению должен измерять (быть валидным).
Учитывая рекомендации, данные выше, вы сможете создать точные и надежные тесты, которые помогут эффективно измерить результаты, полученные знания и навыки ваших учеников.
Тестирование сотрудников
( Пока оценок нет )
Надежность и валидность
Надежность и валидность
ИЗУЧЕНИЕ НАДЕЖНОСТИ В АКАДЕМИЧЕСКОЙ ОЦЕНКЕ
Написано Колином Феланом и Джули Рен, аспирантами, Управление академической оценки UNI (2005-06)
Надежность — это степень, в которой инструмент оценки дает стабильные и стабильные результаты.
Типы надежности
- Надежность повторных испытаний мера надежности, полученная путем проведения одного и того же теста дважды в течение период времени для группы лиц. Счет за время 1 и время 2 затем можно сопоставить, чтобы оценить тест на стабильность в течение время.
Пример: Тест, предназначенный для оценки знаний учащихся по психологии, может быть группа студентов дважды, со второй администрацией, возможно, через неделю после первого. Полученный коэффициент корреляции будет свидетельствовать о стабильность показателей.
- Надежность параллельных форм является мерой надежности, полученной путем администрирования различных версий инструмент оценки (обе версии должны содержать элементы, которые исследуют одно и то же конструкция, навык, база знаний и т. д.) одной и той же группе лиц. Затем баллы по двум версиям можно сопоставить, чтобы оценить согласованность результатов в альтернативных версиях.
Пример: Если вы хотите оценить надежность оценки критического мышления, вы можете создать большой набор элементов, относящихся к критическому мышлению и затем случайным образом разделите вопросы на два набора, которые будут представлять параллельные формы.
- Межоценочная надежность является мера надежности, используемая для оценки степени, в которой разные судьи или оценщики соглашаются в своих оценочных решениях. Межрейтинговая надежность полезно, потому что люди-наблюдатели не обязательно будут интерпретировать ответы так же; оценщики могут не согласиться с тем, насколько хорошо определенные ответы или материал продемонстрировать знание оцениваемого конструкта или навыка.
Пример: Надежность между экспертами может использоваться, когда разные судьи оценка степени соответствия художественных портфолио определенным стандартам. Межэкспертная надежность особенно полезна, когда можно принимать во внимание суждения. относительно субъективно. Таким образом, использование этого типа надежности, вероятно, быть более вероятным при оценке художественных работ, а не математических задач.
- Надежность внутренней согласованности мера надежности, используемая для оценки степени, в которой различные тестовые элементы, которые исследуют одну и ту же конструкцию, дают аналогичные результаты.
- Среднее межпозиционное корреляция — это подтип надежности внутренней согласованности. Это можно получить, взяв все пункты теста, которые исследуют одно и то же конструировать (например, понимание прочитанного), определяя корреляцию коэффициент для каждой пар элементов, и, наконец, взяв среднее значение всех этих коэффициентов корреляции. Этот последний шаг дает среднюю корреляцию между элементами.
- Раздельная надежность является еще одним подтипом надежности внутренней согласованности. Процесс получение половинной надежности начинается с деления пополам всех элементы теста, предназначенные для изучения одной и той же области знаний (например, Вторая мировая война), чтобы сформировать два набора предметов. весь тест проводится группе лиц, всего рассчитывается оценка для каждого набора и, наконец, надежность разделения пополам. получается путем определения корреляции между двумя суммарными наборами баллы.
Срок действия относится к тому, насколько хорошо тест измеряет то, для чего он предназначен.
Почему это необходимо?
Хотя надежность необходима, она одна не достаточно. Чтобы тест был надежным, он также должен быть валидным. Для Например, если ваши весы отклоняются на 5 фунтов, они считывают ваш вес каждый день с превышение 5lbs. Шкала надежна, потому что она постоянно сообщает об одном и том же. взвешивайтесь каждый день, но это недействительно, потому что добавляет 5 фунтов к вашему истинному весу. Это неправильная мера вашего веса.
Типы действия
Пример : Если мера искусства оценка создается все элементы должны быть связаны с различными компоненты и виды искусства. Если вопросы касаются исторического времени периоды, без привязки к какому-либо художественному направлению, заинтересованные стороны не могут быть мотивированы приложить все усилия или инвестировать в эту меру, потому что они не считаю, что это истинная оценка художественной оценки.
2. Конструктивная валидность используется для того, чтобы убедиться, что мера действительно измерять то, что он предназначен для измерения (т.е. конструкцию), а не другие переменные. Использование группы экспертов, знакомых с конструкцией, является способом которым этот тип валидности можно оценить. Эксперты могут осмотреть объекты и решить, что этот конкретный элемент предназначен для измерения. Студенты могут быть вовлечены в этот процесс, чтобы получить их обратную связь.
Пример : Женские исследования программа может разработать кумулятивную оценку обучения на протяжении всей основной. Вопросы написаны со сложными формулировками и формулировками. Это может вызвать тест непреднамеренно становится тестом на понимание прочитанного, а не тест женских исследований. Важно, чтобы мера действительно оценивала предполагаемая конструкция, а не посторонний фактор.
3. Валидность, связанная с критериями используется для прогнозирования будущей или текущей производительности — он коррелирует результаты теста с еще один критерий интереса.
Пример : Если программа физики разработал меру для оценки кумулятивного обучения студентов на протяжении всей специальности. Новая мера может быть соотнесена со стандартизированной мерой способностей в этой дисциплине, такой как полевой тест ETS или предметный тест GRE. Выше соотношение между установленной мерой и новой мерой, тем больше веры заинтересованные стороны могут иметь в новом инструменте оценки.
Пример : при разработке рубрики по истории можно было оценить знания студентов по дисциплине. Если мера может предоставить информацию о том, что учащимся не хватает знаний в определенной области, например Движение за гражданские права, то этот инструмент оценки предоставление значимой информации, которая может быть использована для улучшения курса или требования к программе.
5. Срок действия выборки (аналогично достоверность содержания) гарантирует, что мера охватывает широкий спектр областей в рамках изучаемой концепции. Не все можно охватить, поэтому элементы необходимо быть отобраны из всех доменов. Это может потребоваться выполнить с помощью панели экспертов, чтобы обеспечить адекватную выборку области содержимого. Кроме того, панель может помочь ограничить предвзятость экспертов (т. е. тест, отражающий то, что человек лично считает наиболее важными или актуальными областями).
Пример : При разработке оценки обучения на театральном отделении было бы недостаточно охватывают только вопросы, связанные с актерской игрой. Другие области театра, такие как освещение, звука, должны быть включены все функции режиссеров. Оценка должны отражать область содержимого во всей ее полноте.
- Убедитесь, что ваши цели и задачи четко определены и функционируют. Ожидания учащихся должны быть записан.
- Сопоставьте свою меру оценки с ваши цели и задачи. Кроме того, экзамен должен быть проверен преподавателями. в других школах, чтобы получить обратную связь от внешней стороны, которая менее вложил в инструмент.
- Вовлекайте студентов; есть учащиеся просматривают оценку на наличие проблемных формулировок или других сложности.
- Если возможно, сравните свою меру с другими мерами или данными, которые могут быть доступны.
Ссылки
Американские исследования в области образования Ассоциация, Американская психологическая ассоциация и
Национальный Совет по измерению в образовании. (1985). Стандарты образования и психологическое тестирование . Вашингтон, округ Колумбия: Авторы.
Козби, П.К. (2001). Измерение Концепции. Методы поведенческих исследований (7 -е изд. ).
Калифорния: Издательство Мэйфилд.
Кронбах, Л. Дж. (1971). Тестовая проверка. В RL Thorndike (Ed.). Образовательный
Измерение (2-е изд.). Вашингтон, округ Колумбия: Американский совет по образованию.
Москаль, Б.М., и Лейденс, Дж.А. (2000). Разработка рубрики оценки: достоверность и
надежность. Практическая оценка, исследования и оценка, 7 (10). [Доступно онлайн: http://pareonline.net/getvn.asp?v=7&n=10].
Центр развития Обучение. Как повысить надежность тестов и
срок действия: Последствия для оценки. [Доступно онлайн: http://oct.sfsu.edu/assessment/evaluating/htmls/improve_rel_val.html].
4 типа надежности в исследованиях
Надежность говорит вам, насколько последовательно метод измеряет что-либо. Когда вы применяете один и тот же метод к одному и тому же образцу в одних и тех же условиях, вы должны получить одинаковые результаты. В противном случае метод измерения может быть ненадежным или в ваше исследование могла вкраться предвзятость.
Существует четыре основных типа надежности. Каждый из них может быть оценен путем сравнения различных наборов результатов, полученных одним и тем же методом.
Тип надежности | Измеряет согласованность… |
---|---|
Тест-ретест | Тот же тест по раз . |
Интеррейтер | Один и тот же тест провели разные человек . |
Параллельные формы | Различные версии теста, разработанные как эквивалентные. |
Внутренняя согласованность | отдельных предметов теста. |
Оглавление
- Надежность повторных испытаний
- Надежность между экспертами
- Надежность параллельных форм
- Внутренняя согласованность
- Какой тип надежности относится к моей исследования?
- Часто задаваемые вопросы о типах надежности
Ретестовая надежность
Надежность повторного тестирования измеряет согласованность результатов при повторении одного и того же теста на одном и том же образце в другой момент времени. Вы используете его, когда измеряете что-то, что, как вы ожидаете, останется постоянным в вашем образце.
Тест на дальтонизм для кандидатов в пилоты-стажеры должен иметь высокую надежность повторного тестирования, поскольку дальтонизм — это черта, которая не меняется со временем.
Почему это важно
Многие факторы могут влиять на ваши результаты в разные моменты времени: например, у респондентов может быть разное настроение, или внешние условия могут повлиять на их способность точно отвечать.
Надежность повторных испытаний можно использовать для оценки того, насколько хорошо метод сопротивляется этим факторам с течением времени. Чем меньше разница между двумя наборами результатов, тем выше надежность повторного тестирования.
Как измерить
Чтобы измерить надежность повторного тестирования, вы проводите один и тот же тест на одной и той же группе людей в два разных момента времени. Затем вы вычисляете корреляцию между двумя наборами результатов.
Пример надежности повторного тестирования
Вы разрабатываете опросник для измерения IQ группы участников (свойство, которое вряд ли значительно изменится с течением времени). Вы проводите тест с интервалом в два месяца для одной и той же группы людей, но результаты существенно различаются, поэтому ретестовая надежность опросника IQ низкая.
Повышение надежности повторных испытаний
- При разработке тестов или анкет старайтесь формулировать вопросы, утверждения и задания таким образом, чтобы на них не влияло настроение или концентрация участников.
- При планировании методов сбора данных постарайтесь свести к минимуму влияние внешних факторов и убедитесь, что все образцы тестируются в одинаковых условиях.
- Помните, что со временем у участников могут произойти изменения или систематическая ошибка припоминания, и примите это во внимание.
Межоценочная надежность
Надежность между оценщиками (также называемая надежностью между наблюдателями) измеряет степень согласия между разными людьми, наблюдающими или оценивающими одно и то же. Вы используете его, когда данные собираются исследователями, присваивающими рейтинги, баллы или категории одной или нескольким переменным, и это может помочь смягчить предвзятость наблюдателя.
В обсервационном исследовании, в котором группа исследователей собирает данные о поведении в классе, важна межэкспертная надежность: все исследователи должны договориться о том, как классифицировать или оценивать различные типы поведения.
Почему это важно
Люди субъективны, поэтому у разных наблюдателей восприятие ситуаций и явлений, естественно, различается. Надежное исследование направлено на то, чтобы минимизировать субъективность, насколько это возможно, чтобы другой исследователь мог воспроизвести те же результаты.
При разработке шкалы и критериев для сбора данных важно убедиться, что разные люди будут последовательно оценивать одну и ту же переменную с минимальной предвзятостью. Это особенно важно, когда в сборе или анализе данных участвуют несколько исследователей.
Как измерить
Для измерения межэкспертной надежности разные исследователи проводят одни и те же измерения или наблюдения на одной и той же выборке. Затем вы вычисляете корреляцию между их различными наборами результатов. Если все исследователи дают одинаковые оценки, тест имеет высокую межэкспертную надежность.
Пример надежности Interrater
Группа исследователей наблюдает за процессом заживления ран у пациентов. Для регистрации стадий заживления используются оценочные шкалы с набором критериев для оценки различных аспектов ран. Результаты разных исследователей, оценивающих одну и ту же группу пациентов, сравниваются, и между всеми наборами результатов существует сильная корреляция, поэтому тест имеет высокую межэкспертную надежность.
Повышение межтерминальной надежности
- Четко определите свои переменные и методы, которые будут использоваться для их измерения.
- Разработайте подробные объективные критерии оценки, подсчета или классификации переменных.
- Если задействовано несколько исследователей, убедитесь, что все они имеют одинаковую информацию и подготовку.
Предотвращение плагиата. Запустите бесплатную проверку.
Попробуй бесплатноНадежность параллельных форм
Надежность параллельных форм измеряет корреляцию между двумя эквивалентными версиями теста. Вы используете его, когда у вас есть два разных инструмента оценки или набора вопросов, предназначенных для оценки одного и того же.
Почему это важно
Если вы хотите использовать несколько разных версий теста (например, чтобы респонденты не повторяли одни и те же ответы по памяти), вам сначала нужно убедиться, что все наборы вопросов или измерений дают надежные результаты.
При оценивании образования часто необходимо создавать разные версии тестов, чтобы учащиеся не имели доступа к вопросам заранее. Надежность параллельных форм означает, что если одни и те же учащиеся выполняют два разных варианта теста на понимание прочитанного, они должны получить одинаковые результаты в обоих тестах.
Как измерить
Наиболее распространенный способ измерения надежности параллельных форм — создать большой набор вопросов для оценки одного и того же, а затем разделить их случайным образом на два набора вопросов.
Одна и та же группа респондентов отвечает на оба набора, и вы вычисляете корреляцию между результатами. Высокая корреляция между ними указывает на высокую надежность параллельных форм.
Пример надежности параллельных форм
Сформулирован набор вопросов для измерения неприятия финансового риска в группе респондентов. Вопросы случайным образом делятся на два набора, а респонденты случайным образом делятся на две группы. Обе группы сдают оба теста: группа А сначала сдает тест А, а группа Б сначала сдает тест Б. Результаты двух тестов сравниваются, и результаты почти идентичны, что указывает на высокую надежность параллельных форм.
Повышение надежности параллельных форм
- Убедитесь, что все вопросы или задания теста основаны на одной и той же теории и сформулированы для измерения одного и того же.
Внутренняя согласованность
Внутренняя согласованность оценивает корреляцию между несколькими элементами теста, предназначенными для измерения одной и той же конструкции.
Вы можете рассчитать внутреннюю согласованность, не повторяя тест и не привлекая других исследователей, поэтому это хороший способ оценить надежность, когда у вас есть только один набор данных.
Почему это важно
Когда вы разрабатываете набор вопросов или оценок, которые будут объединены в общую оценку, вы должны убедиться, что все элементы действительно отражают одно и то же. Если ответы на разные вопросы противоречат друг другу, тест может быть ненадежным.
Чтобы измерить удовлетворенность клиентов интернет-магазином, вы можете создать анкету с набором утверждений, с которыми респонденты должны согласиться или не согласиться. Внутренняя согласованность говорит вам, являются ли утверждения надежными индикаторами удовлетворенности клиентов.
Как измерить
Для измерения внутренней согласованности используются два распространенных метода.
- Средняя корреляция между элементами : Для набора мер, предназначенных для оценки одной и той же конструкции, вы вычисляете корреляцию между результатами всех возможных пар элементов, а затем вычисляете среднее значение.
- Надежность с разделением пополам : Набор мер случайным образом разделяется на два набора. После тестирования всего набора на респондентах вы вычисляете корреляцию между двумя наборами ответов.
Пример внутренней непротиворечивости
Группе респондентов предлагается набор утверждений, предназначенных для измерения оптимистичных и пессимистичных настроений. Они должны оценить свое согласие с каждым утверждением по шкале от 1 до 5. Если тест внутренне непротиворечив, оптимистичный респондент, как правило, должен давать высокие оценки показателям оптимизма и низкие оценки показателям пессимизма. Корреляция вычисляется между всеми ответами на «оптимистичные» утверждения, но корреляция очень слабая. Это говорит о том, что тест имеет низкую внутреннюю согласованность.
Улучшение внутренней согласованности
- Будьте осторожны при разработке вопросов или мер: те, которые предназначены для отражения одной и той же концепции, должны быть основаны на одной и той же теории и тщательно сформулированы.
Какой тип надежности относится к моему исследованию?
Важно учитывать надежность при планировании дизайна исследования, сборе и анализе данных и составлении описания исследования. Тип надежности, которую вы должны рассчитать, зависит от типа исследования и вашей методологии.
Какова моя методология? | Какая форма надежности актуальна? |
---|---|
Измерение свойства, которое, как вы ожидаете, останется неизменным с течением времени. | Тест-повторный тест |
Несколько исследователей делают наблюдения или оценки по одной и той же теме. | Интеррейтер |
Использование двух разных тестов для измерения одного и того же. | Параллельные формы |
Использование теста с несколькими элементами, когда все элементы предназначены для измерения одной и той же переменной. | Внутренняя согласованность |
Если возможно и уместно, вы должны статистически рассчитать надежность и указать это вместе с вашими результатами.
Часто задаваемые вопросы о типах надежности
Вы можете использовать несколько тактик, чтобы свести к минимуму предвзятость наблюдателя.
- Используйте маскировку (ослепление) , чтобы скрыть цель вашего исследования от всех наблюдателей.
- Триангулируйте ваши данные с помощью различных методов или источников сбора данных.
- Используйте несколько наблюдателей и обеспечьте надежность между станциями.
- Обучите своих наблюдателей, чтобы убедиться, что между ними постоянно записываются данные.
- Стандартизируйте процедуры наблюдения, чтобы они были структурированными и четкими.