Валидность теста: ВАЛИДНОСТЬ ТЕСТА — Гипертекстовый словарь методических терминов

Содержание

Тесты способностей. Часть 3. Надежность и валидность

30.10.2019

Надежность и валидность — ключевые характеристики психометрического теста

Надежность показывает, что результаты проводимого исследования близки к истине.

Валидность – признак того, что результаты действительно относятся к тому явлению, которое изучается исследователем.


1. НАДЕЖНОСТЬ

НАДЕЖНОСТЬ КАК УСТОЙЧИВОСТЬ

Относительное постоянство, устойчивость, согласованность результатов теста. Независимость методики от действия случайных факторов

Устойчивость определяется с помощью повторного тестирования (ретеста)

1.1. Метод повторного тестирования (ретеста)

Ретестовая надежность определяется путем повторного обследования одних и тех же лиц при помощи одной и той же методики. Основан на подсчете корреляции индивидуальных баллов испытуемых, полученных в результате двукратного выполнения ими одного и того же теста. Чем выше коэффициент корреляции, тем выше надежность, и мы получаем примерно то же самое распределение. Обычно повторное тестирование проводится через 1-2 недели. Наименьшим удовлетворительным значением для ретестовой надежности является 0.76

Однако надежность не всех тестов можно проверять этим методом, так как оцениваемое качество, явление или эффект могут быть сами по себе нестабильны (например, наше настроение, которое может меняться от одного замера к следующему). Ещё один недостаток повторного тестирования — это эффект привыкания. Испытуемые уже знакомы с этим тестом, а может быть, даже помнят большую часть своих ответов после предыдущего заполнения.

1.2. Метод параллельных форм

Проверяется с помощью взаимозаменяемых форм теста (т.е. одни и те же обследуемые сначала обследуются с помощью одного теста, затем (через определенный интервал) с помощью другого теста). Метод эффективен, когда изначально разрабатываются параллельные варианты теста с целью ротации.

Имеются трудности в доказательстве того, что обе формы — параллельные наборы заданий — являются действительно эквивалентными. Несмотря на это, на практике параллельные формы тестов оказываются полезными в установлении надежности тестов.

НАДЕЖНОСТЬ КАК СОГЛАСОВАННОСТЬ

Внутренняя согласованность (англ. — internal consistency) определяется связью каждого конкретного элемента теста с общим результатом, тем, насколько каждый элемент входит в противоречие с остальными, насколько каждый отдельный вопрос измеряет признак, на который направлен весь тест. Чаще всего тесты разрабатываются таким образом, чтобы у них была высокая степень внутренней согласованности, а связи с тем, что если одна переменная измеряется частью теста, то тогда в других частях, если они не согласованы с первой, эта же переменная измеряться не может. Таким образом, чтобы тест был валидным, необходимо, чтобы он был согласован.

Для проверки внутренней согласованности применяются различные методы:

1. 3. Метод расщепления или метод автономных частей

Характеристика надежности осуществляется путем анализа устойчивости результатов отдельных совокупностей тестовых задач или единичных заданий теста. Для этого тест расщепляется/ разделяется на две равные части (например, четные и нечетные вопросы, первая и вторая половина), а затем находится корреляция между ними. Если корреляция высокая, тест можно считать надежным. Другие названия — одномоментная надежность, надежность-согласованность.

1.4. Метод эквивалентных бланков

Состоит в применении двух сопоставимых друг с другом форм теста для большой выборки. Результаты, полученные при выполнении двух форм, сравнивают и высчитывают корреляцию. Если коэффициент корреляции высокий, следовательно, тест надежен.

1.5. Метод альфа Кронбаха

В этом методе, предложенном Ли Кронбахом, сравнивается разброс каждого элемента с общим разбросом всей шкалы. Если разброс результатов теста меньше, чем разброс результатов для каждого отдельного вопроса, то каждый отдельный вопрос направлен на исследование одного и того же общего основания.
Если все вопросы измеряют один и тот же признак, то тест надежен и коэффициент альфа Кронбаха будет равен 1. При случайном разбросе результатов ответов на вопросы, коэффициент альфа Кронбаха будет равен 0, и тест ненадежен.

2. ВАЛИДНОСТЬ ТЕСТА

Валидность теста (от англ. valid – актуальный, подходящий, действительный) – понятие, указывающее, что именно тест измеряет и насколько хорошо он это делает. Это комплексная характеристика, включающая, с одной стороны, сведения о том, пригодна ли методика для измерения того, для чего она была создана, а с другой стороны, какова ее действенность, эффективность.

Не существует какого-то единого универсального подхода к определению валидности. В зависимости от того, какую сторону валидности хочет рассмотреть исследователь, используются и разные способы доказательства. Проверка валидности методики называется валидизацией.

2.1. Концептуальная валидность 

Понимается как обоснование с позиции соответствия авторским представлениям об особенностях диагностируемых свойств, как мера соответствия заданий теста авторской концепции этих свойств.

2.2. Содержательная (логическая) валидность

Под содержанием понимается фактический материал, входящий в пункты тестов. Валидность по содержанию оценивает соответствие содержания теста (заданий, вопросов) той реальной деятельности, в которой проявляется измеряемое в методике свойство.

Например, чтобы тест математических способностей имел достаточный уровень содержательной валидности, его пункты не должны иметь таких формулировок, при которых для испытуемого решающими оказываются вербальные способности, необходимые для того, чтобы понять, о чём спрашивается в этом пункте.

Содержание должно быть уравновешено таким образом, чтобы все тестируемые аспекты были представлены. Тест не должен быть перегружен, допустим, пунктами на умножение в ущерб пунктам на сложение.
Установление содержательной валидности есть в значительной степени субъективная операция, основанная на мнениях «экспертов» относительно уместности используемых материалов.

2.3. Конструктная валидность (концептуальная, понятийная, внутренняя валидность) 

Под конструктом понимают психологический феномен, который невозможно наблюдать непосредственно, но можно вывести из поведения человека, например, экстраверсия, общий интеллект, открытость, умения и т.д.

Конструктная валидность определяет наличие взаимосвязи между новым и ранее существующим тестом-эталоном, изучающим тот же конструкт, валидность которого была ранее определена. Она указывает на то, что разрабатываемый тест измеряет примерно ту же сферу поведения, способность, личностное качество, что и эталонная методика

При анализе конструктной валидности методики формулируют ряд гипотез о том, как будет коррелировать разрабатываемый тест с широким кругом других тестов, направленных на конструкты, находящиеся в теоретически известной или предполагаемой связи с исследуемыми.

Конструктная валидность характеризуется не только связями проверяемого теста с близкородственными показателями эталонного теста, но и с теми, где, исходя из гипотезы, значимых связей наблюдаться не должно.

2.4. Операциональная валидность

Определяет степень соответствия используемой экспериментальной методики (экспериментальных утверждений) теоретическим положениям, которые положены в основу организации и проведения данного эксперимента

2.5. Очевидная (доверительная) валидность

Очевидная валидность показывает в какой степени содержание теста и его заданий (пунктов) выглядит в глазах тестируемого подходящим для данной ситуации. Именно она в первую очередь определяет отношение испытуемых к обследованию. Тест должен восприниматься испытуемым как серьезный инструмент познания его личности.

Наличие очевидной валидности способствует воспринимаемой целесообразности психологического теста и создает у тестируемого впечатления, что тест учитывает его индивидуальность и опыт работы. Позволяет добиться сотрудничества и хорошего раппорта между тестирующим и тестируемыми.

Недостаток очевидной валидности (независимо от технической валидности, или точности, теста) может вызывать у тестируемых чувства раздражения, неудовлетворенности и обманутости, создавать негативное общественное мнение.

Хотя очевидная валидность, на первый взгляд, кажется подобной содержательной валидности, смысл этих показателей различен.

2.6. Критериальная (прагматическая, эмпирическая) валидность

Такая валидность показывает ее практическую полезность. Для этого используется независимый внешний относительно самого теста критерий – показатель проявления изучаемого свойства в повседневной жизни.

Критериальная (прагматическая, эмпирическая) валидность позволяет выяснить насколько высокие или низкие результаты теста соответствуют высокой или низкой оценке того поведенческого проявления — критерия, которое он должен предсказать

Например, практическая задача теста – выявить тех, кто будет эффективен в будущей работе. Критерий «эффективность» определен как % выполнения плана продаж. В таком случае, валидный тест позволяет с определенной вероятностью отделить «выполняющих план» от «не выполняющих план».

Важно можно ли с помощью теста разделить испытуемых на эти две группы. Обладает ли тест дискриминативностью. Важно, что тест или отдельное его задание успешно (с высокими баллами) проходят «эффективные», а неуспешно (с низкими баллами) «неэффективные».  В случае, когда группы отличаются друг от друга только по одной переменной, причина дифференциации бывает понятна. Но это не важно. Важно, чтобы тест умел хорошо разделять группы по целевому критерию.

Для вычисления коэффициента валидности сопоставляются результаты, полученные при применении диагностической методики, с данными, полученными по внешнему критерию, тех же лиц. Используются разные виды линейной корреляции (по Спирмену, по Пирсону).

Виды критериальной валидности:

  • «Прогностическая» (предсказательная) валидность показывает возможность экстраполирования результатов на будущее. Определяется также по достаточно надежному внешнему критерию, но информация по нему собирается некоторое время спустя после испытания. Внешним критерием обычно бывает выраженная в каких-нибудь оценках способность человека к тому виду деятельности, для которой он отбирался по результатам диагностических испытаний.
  • «Ретроспективная» валидность определяется на основе критерия, отражающего события или состояние качества в прошлом. Может быть использована для быстрого получения сведений о предсказательных возможностях методики.

Валидность теста

Валидность теста (от англ. valid – пригодный) – критерий качества теста, используемый при выяснении степени достоверности измерения того психического свойства, качества, явления, которое хотят измерить с помощью данного теста.

Различают несколько видов валидность теста:

  • валидность теста конструктная,
  • валидность теста по критерию,
  • валидность теста по содержанию,
  • прогностическая валидность теста и др.

Валидность лучших тестов, выраженная коэффициентами корреляции (линейными, ранговыми и др.) составляет 0,3-0,8. К сожалению, есть случаи, когда тесты применяются без проверки их на в. В результате оказывается, что они бесполезны или даже вредны. Валидность теста – это показатель степени его эффективности. Она, естественно, меняется в зависимости от контингента людей, которые подвергаются тестированию, и характера их будущей деятельности. Один и тот же тест может быть высоковалидным для одной ситуации, бесполезным для другой и вредным для третьей.

Валидность теста конструктная

критерий качества теста, используемый при измерении какого-либо сложного психического феномена, имеющего иерархическую структуру, измерить который из-за этого одним актом тестирования невозможно. Так, психодиагностика интеллекта невозможна без предварительного определения понятия «интеллект», его структуры. Степень соответсвия нашего предварительного понимания и определения интеллекта реальной возможности конкретного теста, степень соответствия структуры интеллеткта структуре теста и есть в. т.к. Она нацелена на определение точности измерения сложных, устойчивых типов поведения, качеств личности, психических явлений.

Валидность теста по критерию

критерий качества теста, с помощью которого можно судить об интересующем нас аспекте психики индивида в настоящем и будущем. Для его определения необходимо сопоставить результаты тестирования с уровнем развития измеряемого признака, качества личности на практике. Например, для теста на технические способности основным критерием их определения будет выступать техническая деятельность конкретных специалистов, оценка их технических способностей с помощью экспертов, хорошо знающих испытуемых на протяжении достаточно продолжительного времени в интересующем нас аспекте. Оценка должна даваться по шкале порядковой, интервальной или отношений. В лучших тестах в. по критерию, измеренная коэффициентом корреляции, составляет от 0,3 до 0,8. Применение теста оправдано, если валидность по критерию оставляет 0,2-0,25.

Валидность теста по содержанию

критерий качества теста, используемый при вывяснении соответствия его области измеряемых психических явлений. В.т.к. показывает, насколько полно тест охватывает исследуемое множество измеряемых параметров. Если, например, нужно проверить с помощью теста математическую подготовку абитуриента вуза, то в предлагаемый тест должны быть включены математические задания, для решения которых необходимы знания по всем разделам математики, изучаемым в средней школе. Таким образом, степень соответствия структуры данного теста структуре программы математических дисциплин, изучаемых в школе, и является валидностью данного теста по содержанию. Естественно, что для обследования лиц, окончивших вузы, предназначаются тесты с иной вялидностью по содержанию.

Валидность теста прогностическая

критерий качества теста, используемый при предсказании характера развития измеряемого параметра в будущем. Одним из самых существенных недостатков подобных тестов является то, что они не учитывают неравномерность развития измеряемого параметра у различных людей в будущем. Данный вид валидности является особо ценным с практической точки зрения.

Валидность эксперимента

критерий качества эксперимента, степень его точности, в зависимости от которой выводы, полученные в его ходе могут быть распространены на всю генеральную совокупность. В.э. позволяет определить насколько всеобщими могут быть выводы, полученные путем исследования ограниченной по времени и обьему выборки. Различают внутреннюю и внешнюю валидность эксперимента.

Валидность эксперимента внешняя

критерий качества эксперимента, в зависимости от которого выводы об определенной тенденции, закономерности развития конкретных психических явлений, личностей, видов деятельности и т.д. могут быть распространены на другие явления и т.д. в данной или иной сфере. Языком математики это можно сформулировать так: насколько закономерности данного подмножества характерны для всего множества. Для определения границ применения экспериментальных выводов и необходимо определять в.э.в.

Валидность эксперимента внутренняя

критерий качества эксперимента, используемый при выяснении степени достоверности выявленной в результате эксперимента тенденции, закономерности, характерной для данной единицы множества или для всего подмножества элементов генеральной совокупности. Допустим, исследуя степень влияния освещенности на эффективность производственной деятельности ткачих, психологи обнаружили статистическую зависимость их эффективности работы от частоты смены освещения. Что является основным фактором повышения эффективности деятельности: смена освещения, внимание экспериментаторов, особое поведение руководителей в период эксперимента или другие факторы? В данном случае психологи пришли к выводу: появление молодых мужчин-исследователй в цехе, где работали женщины, и послужило причиной повышения производительности их труда. Но ведь могла быть и принята гипотеза о росте производительности ткацкого труда в зависимости от смены освещенности. В.э.в. показывает в какой степени независимая переменная (производительность труда) связана с зависимой (освещенность). Строго научное проведение психологического эксперимента предполагает определение его валидности.

Валидность теста

— можно ли доверять измерению?

Валидность теста — это показатель того, сколько смысла можно придать набору результатов теста. В психологическом и педагогическом тестировании, где важность и точность тестов имеют первостепенное значение, валидность тестов имеет решающее значение.

Откройте для себя еще 21 статью по этой теме

Не пропустите эти статьи по теме:

  1. Валидность и надежность
  2. Типы валидности
  3. Определение надежности
  4. Контентная валидность
  5. Конструктивная валидность

Тестовая валидность включает ряд различных типов валидности, включая валидность критерия, валидность содержания и конструктивную валидность. Если исследовательский проект получает высокие баллы в этих областях, то общая валидность теста высока.

Валидность критерия

Валидность критерия определяет, соответствует ли тест определенному набору способностей.

  • Параллельная валидность измеряет тест по сравнению с эталонным тестом, а высокая корреляция указывает на то, что тест имеет сильную валидность критерия.
  • Прогностическая валидность — это мера того, насколько хорошо тест предсказывает способности, например, измерение того, приводит ли хороший средний балл в старшей школе к хорошим результатам в университете.

Валидность содержания

Валидность содержания определяет, насколько хорошо тест сравнивается с реальным миром. Например, школьный тест способностей должен отражать то, чему на самом деле учат в классе.

Конструктивная валидность

Конструктивная валидность является мерой того, насколько хорошо тест соответствует своим утверждениям. Тест, предназначенный для измерения депрессии, должен измерять только этот конкретный конструкт, а не тесно связанные идеалы, такие как тревога или стресс.

Традиция и проверка достоверности

Этот трехсторонний подход был стандартом в течение многих лет, но современные критики начинают сомневаться в правильности этого подхода.

Во многих случаях исследователи не подразделяют валидность теста и рассматривают ее как единую конструкцию, для подтверждения которой требуется накопление доказательств.

Мессик в 1975 году предположил, что доказательство валидности теста бесполезно, особенно когда невозможно доказать, что тест измеряет конкретную конструкцию. Конструкции настолько абстрактны, что их невозможно определить, поэтому доказательство валидности теста традиционными средствами в конечном счете ошибочно.

Мессик считал, что исследователь должен собрать достаточно доказательств для защиты своей работы, и предложил шесть аспектов, которые позволили бы это сделать. Он утверждал, что это свидетельство не может обосновать валидность теста, а только валидность теста в конкретной ситуации. Он заявил, что эта защита валидности теста должна быть непрерывным процессом и что любой тест необходимо постоянно проверять и подвергать сомнению.

Наконец, он был первым психометрическим исследователем, предположившим, что социальные и этические последствия теста являются неотъемлемой частью процесса, что представляет собой огромный сдвиг парадигмы по сравнению с общепринятой практикой. Учитывая, что образовательные тесты могут оказывать долгосрочное влияние на человека, это очень важный вывод, независимо от вашего взгляда на конкурирующие теории, лежащие в основе валидности тестов.

Этот новый подход имеет некоторые основания; В течение многих лет тесты IQ считались практически безошибочными.

Однако они использовались в ситуациях, сильно отличающихся от первоначального намерения, и они не являются хорошим показателем интеллекта, а только способности решать проблемы и логики.

Методы Мессика определенно предсказывают эти проблемы более удовлетворительно, чем традиционный подход.

Какой показатель валидности теста следует использовать?

Ученые, как правило, очень сопротивляются изменениям, и огромное количество педагогов и социологов придерживаются традиционных методов.

Оба метода имеют свои сильные и слабые стороны, поэтому все зависит от личного выбора и предпочтений вашего начальника. Пока у вас есть сильный и хорошо спланированный дизайн теста, валидность теста будет следовать.

Процитированные работы

Wainer, H. Braun, H.I. (1988) Проверка достоверности. Нью-Джерси: Лоуренс Эрлбаум Ассошиэйтс.

Как измерить валидность и надежность теста

Недействительные или ненадежные методы оценки могут снизить шансы на достижение заранее определенных академических или учебных целей. Плохо написанные оценки могут даже нанести ущерб общему успеху программы. Крайне важно, чтобы разработчики экзаменов использовали все доступные ресурсы, особенно анализ данных и психометрию, чтобы обеспечить достоверность результатов оценивания.

Что делает оценку надежной?

Чтобы экзамен или оценка считались надежными, они должны показывать стабильные результаты. Отклонения от шаблонов данных и аномальные результаты или ответы могут быть признаком того, что определенные элементы экзамена вводят в заблуждение или ненадежны. Вот три типа надежности, согласно The Graide Network, которые могут помочь определить, являются ли результаты оценки действительными:

  • Надежность при повторном тестировании измеряет «воспроизводимость результатов».
    • Пример: Учащийся, дважды сдавший один и тот же тест, но в разное время, должен каждый раз получать одинаковые результаты.
  • Надежность альтернативной формы измеряет, «как результаты тестов сравниваются по двум аналогичным оценкам, данным за короткий промежуток времени».
    • Пример: Учащийся, выполняющий две разные версии одного и того же теста, должен каждый раз получать одинаковые результаты.
  • Внутренняя согласованность Надежность измеряет, «как фактическое содержание оценки работает вместе для оценки понимания концепции».
    • Пример: Учащийся, которому задают несколько вопросов, измеряющих одно и то же, должен дать один и тот же ответ на каждый вопрос.

Использование этих трех типов показателей надежности может помочь учителям и администраторам обеспечить максимально последовательную и точную оценку.  

Как повысить достоверность теста?

Валидность оценки означает, насколько точно и эффективно она измеряет то, для чего она была разработана, отмечает Управление академической оценки Университета Северной Айовы. Если разработчики тестов или преподаватели не учитывают все аспекты создания оценок — помимо содержания — достоверность их экзаменов может быть поставлена ​​под угрозу. Например, тест по политологии с экзаменационными заданиями, составленными с использованием сложных формулировок или фраз, может непреднамеренно переключиться на оценку понимания прочитанного. Точно так же экзамен по истории искусства, который задает вопросы об рассматриваемом историческом периоде без ссылки на искусство или художественные движения, может не точно измерять цели курса. Подобные непреднамеренные ошибки могут иметь разрушительные последствия для достоверности экзамена. Кейс из В Journal of Competency-Based Education предлагается следовать следующим передовым принципам проектирования, чтобы сохранить достоверность экзамена:

  1. Установите цель теста.

Это первый и, возможно, самый важный шаг в разработке экзамена. При построении экзамена важно учитывать предполагаемое использование оценочных баллов. Должен ли экзамен измерять усвоение материала или предсказывать успех? «Выделение времени в начале для установления четкой цели помогает обеспечить более эффективное достижение целей и приоритетов».

  1. Выполнение анализа задания/тестирования (JTA).

Этот важный этап подготовки к экзамену проводится для точного определения того, какими качествами, связанными с работой, должен обладать человек, прежде чем приступить к работе. «JTA способствует достоверности оценки, гарантируя, что критические аспекты поля станут областями содержания, которые измеряет оценка».

  1. Создайте пул предметов.

После того, как намеченная цель экзамена, а также конкретные знания и навыки, которые он должен оценивать, определены, пришло время приступить к созданию экзаменационных заданий или вопросов. «Обычно собирается группа экспертов в предметной области (SME) для написания набора пунктов оценки. Панель назначается для написания заданий в соответствии с областями содержания и когнитивными уровнями, указанными в плане теста».

  1. Просмотрите элементы экзамена.

После того, как экзаменационные вопросы созданы, они проверяются группой экспертов, чтобы убедиться в отсутствии недостатков дизайна. Экзаменационные задания проверяются на наличие грамматических ошибок, технических недостатков, точность и правильность набора. «Кроме того, элементы проверяются на деликатность и язык, чтобы соответствовать разнообразному контингенту учащихся».

  1. Проведите анализ элемента.

Этот важный этап подготовки к экзамену включает использование данных и статистических методов, таких как психометрия, для проверки достоверности оценки. «Если задание слишком простое или слишком сложное, не показывает разницы между квалифицированными и неквалифицированными экзаменующимися или даже оценивается неправильно, анализ задания выявит это».

Улучшение экзаменов в целом с помощью данных и психометрии

Одним из наиболее эффективных способов повышения качества экзамена является использование психометрии. ExamSoft дает следующее определение психометрии: «Психометрия, буквально означающая умственное измерение или анализ, является важным статистическим показателем, который предоставляет авторам экзаменов и администраторам стандартный набор данных для проверки надежности, согласованности и качества экзамена». Вот психометрические показатели, одобренные сообществом оценщиков для оценки качества экзамена:

  • Индекс сложности задания (значение p): Определяет общую сложность экзаменационного задания.
  • Верхний индекс сложности (верхние 27%): Определяет, насколько сложными были элементы экзамена для тех, кто набрал наибольшее количество баллов в тесте.
  • Более низкий индекс сложности (нижний 27%): Определяет, насколько сложными были элементы экзамена для тех, кто набрал самые низкие баллы в тесте.
  • Индекс дискриминации: Дает сравнительный анализ верхних и нижних 27% испытуемых.
  • Коэффициент двухпоследовательной корреляции баллов: Измеряет корреляцию между ответом экзаменуемого по определенному вопросу и его результатами на экзамене в целом.
  • Формула Кудера-Ричардсона 20 (KR-20): Оценивает общий экзамен на основе согласованности, производительности и сложности всех элементов экзамена.

Важно отметить, что точки психометрических данных не предназначены для самостоятельных показателей валидности экзамена. Эти статистические данные следует использовать вместе для контекста и в сочетании с целями программы для целостного понимания экзамена и его вопросов. При правильном использовании точки психометрических данных могут помочь администраторам и разработчикам тестов улучшить свои оценки следующими способами:

  • Определите вопросы, которые могут быть слишком сложными.
  • Определите вопросы, которые могут быть недостаточно сложными.
  • Избегайте случаев выбора более одного правильного ответа.
  • Исключите элементы экзамена, которые измеряют неправильные результаты обучения.
  • Повышение надежности (предварительное тестирование, альтернативная форма и внутренняя согласованность) по всем направлениям.

About the Author

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Related Posts