Валидность тестов
Для того чтобы инструменты оценки считались соответствующими требованиям к психометрическим характеристикам, у них должны быть достаточные показатели надежности и валидности. В этой статье мы опишем валидность батарей наших тестов.
Валидность – это способность методики измерять именно то, для оценки чего она была создана. Чтобы не запутаться в терминах, возьмем в качестве аналогии стрельбу. Надежность методики можно сравнить с кучностью результатов, а валидность — с точностью попадания. Как и в случае с надежностью, оценка валидности теста не исчерпывается каким-либо одним способом. Существует несколько аспектов валидности и, соответственно, способов ее измерения: от субъективных до точных, математически обоснованных.
Конструктная валидность
Конструктная валидность — это ответ на вопрос, действительно ли наш тест измеряет именно то, что заявлено, и то, что мы от него ожидаем. Например, используя тест интеллекта, мы задаем себе вопрос: действительно ли этот тест меряет интеллект? Или, может быть, он измеряет эрудицию? А может быть, только один из аспектов интеллекта – способность к выполнению математических операций? Применимо к личностным опросникам этот вопрос звучит так: действительно ли мы измеряем именно те факторы, которые хотим измерить? Для ответа на этот вопрос прибегают к использованию некоторых процедур, позволяющих получить ответ об уровне конструктной валидности.
Наиболее часто используют независимо созданные тесты, которые измеряют те же характеристики, что и Ваш тест. Ваши респонденты заполняют два теста, после чего остается только посчитать корреляцию между показателями Вашего теста и контрольного.
Другой способ — это проведение тестирования в группе, которая заранее выделяется среди остальных по необходимому вам параметру. Например, бухгалтеры хорошо считают, у архитекторов хорошо развито абстрактное мышление и т.д. Если ваш тест покажет значимое различие между этой группой и остальными, значит, он действительно измеряет данную черту.
Еще один способ – это оценить выраженность измеряемого качества у определенной группы людей с помощью экспертной оценки, а потом дать оцениваемым людям заполнить ваш опросник. Если мнения экспертов совпали с результатами вашего теста, то вы можете утверждать о наличии у него высокой конструктной валидности.
Критериальная валидность
Это, пожалуй, самый важный показатель эффективности теста при его использовании в бизнес-среде. Измерение критериальной валидности позволяет ответить на вопрос, насколько результаты тестирования коррелируют с успешностью работы.
Заметим, что при использовании тестов низкие показатели критериальной валидности могут говорить как о низком качестве методик, так и о том, что измеряемые ими способности не связаны с успешностью работы. Для получения достоверной информации о показателях критериальной валидности проводится корреляционное исследование. В качестве объекта исследования могут быть выбраны сотрудники фирмы; в этом случае сравниваются результаты, которые они показали в тестах, и показатели эффективности их работы. Такой вид валидности называется конкурентной валидностью.
Конструктная валидность батареи GREEN «Интерпретация информации»
Для проверки конструктной (теоретической) валидности компанией ONTARGET было проведено исследование по сравнению результатов выполнения тестов батареи «Интерпретация информации» и тестов британской компании Psytech, адаптированных для русскоязычных респондентов. Исследование проводилось в 2013 году.
Таблица 1. Корреляции тестов батареи «Интерпретация информации» с тестами британской компании Psytech
Валидность теста
Валидность теста (от англ. valid – пригодный) – критерий качества теста, используемый при выяснении степени достоверности измерения того психического свойства, качества, явления, которое хотят измерить с помощью данного теста.
Различают несколько видов валидность теста:
- валидность теста конструктная,
- валидность теста по критерию,
- валидность теста по содержанию,
- прогностическая валидность теста и др.
Валидность лучших тестов, выраженная коэффициентами корреляции (линейными, ранговыми и др.) составляет 0,3-0,8. К сожалению, есть случаи, когда тесты применяются без проверки их на в. В результате оказывается, что они бесполезны или даже вредны. Валидность теста – это показатель степени его эффективности. Она, естественно, меняется в зависимости от контингента людей, которые подвергаются тестированию, и характера их будущей деятельности. Один и тот же тест может быть высоковалидным для одной ситуации, бесполезным для другой и вредным для третьей.
Валидность теста конструктная
критерий качества теста, используемый при измерении какого-либо сложного психического феномена, имеющего иерархическую структуру, измерить который из-за этого одним актом тестирования невозможно. Так, психодиагностика интеллекта невозможна без предварительного определения понятия «интеллект», его структуры. Степень соответсвия нашего предварительного понимания и определения интеллекта реальной возможности конкретного теста, степень соответствия структуры интеллеткта структуре теста и есть в.т.к. Она нацелена на определение точности измерения сложных, устойчивых типов поведения, качеств личности, психических явлений.
Валидность теста по критерию
критерий качества теста, с помощью которого можно судить об интересующем нас аспекте психики индивида в настоящем и будущем. Для его определения необходимо сопоставить результаты тестирования с уровнем развития измеряемого признака, качества личности на практике. Например, для теста на технические способности основным критерием их определения будет выступать техническая деятельность конкретных специалистов, оценка их технических способностей с помощью экспертов, хорошо знающих испытуемых на протяжении достаточно продолжительного времени в интересующем нас аспекте. Оценка должна даваться по шкале порядковой, интервальной или отношений. В лучших тестах в. по критерию, измеренная коэффициентом корреляции, составляет от 0,3 до 0,8. Применение теста оправдано, если валидность по критерию оставляет 0,2-0,25.
Валидность теста по содержанию
критерий качества теста, используемый при вывяснении соответствия его области измеряемых психических явлений. В.т.к. показывает, насколько полно тест охватывает исследуемое множество измеряемых параметров. Если, например, нужно проверить с помощью теста математическую подготовку абитуриента вуза, то в предлагаемый тест должны быть включены математические задания, для решения которых необходимы знания по всем разделам математики, изучаемым в средней школе. Таким образом, степень соответствия структуры данного теста структуре программы математических дисциплин, изучаемых в школе, и является валидностью данного теста по содержанию. Естественно, что для обследования лиц, окончивших вузы, предназначаются тесты с иной вялидностью по содержанию.
Валидность теста прогностическая
критерий качества теста, используемый при предсказании характера развития измеряемого параметра в будущем. Одним из самых существенных недостатков подобных тестов является то, что они не учитывают неравномерность развития измеряемого параметра у различных людей в будущем. Данный вид валидности является особо ценным с практической точки зрения.
Валидность эксперимента
критерий качества эксперимента, степень его точности, в зависимости от которой выводы, полученные в его ходе могут быть распространены на всю генеральную совокупность. В.э. позволяет определить насколько всеобщими могут быть выводы, полученные путем исследования ограниченной по времени и обьему выборки. Различают внутреннюю и внешнюю валидность эксперимента.
Валидность эксперимента внешняя
критерий качества эксперимента, в зависимости от которого выводы об определенной тенденции, закономерности развития конкретных психических явлений, личностей, видов деятельности и т.д. могут быть распространены на другие явления и т.д. в данной или иной сфере. Языком математики это можно сформулировать так: насколько закономерности данного подмножества характерны для всего множества. Для определения границ применения экспериментальных выводов и необходимо определять в.э.в.
Валидность эксперимента внутренняя
критерий качества эксперимента, используемый при выяснении степени достоверности выявленной в результате эксперимента тенденции, закономерности, характерной для данной единицы множества или для всего подмножества элементов генеральной совокупности. Допустим, исследуя степень влияния освещенности на эффективность производственной деятельности ткачих, психологи обнаружили статистическую зависимость их эффективности работы от частоты смены освещения. Что является основным фактором повышения эффективности деятельности: смена освещения, внимание экспериментаторов, особое поведение руководителей в период эксперимента или другие факторы? В данном случае психологи пришли к выводу: появление молодых мужчин-исследователй в цехе, где работали женщины, и послужило причиной повышения производительности их труда. Но ведь могла быть и принята гипотеза о росте производительности ткацкого труда в зависимости от смены освещенности. В.э.в. показывает в какой степени независимая переменная (производительность труда) связана с зависимой (освещенность). Строго научное проведение психологического эксперимента предполагает определение его валидности.
Тесты способностей. Часть 3. Надежность и валидность
Надежность и валидность — ключевые характеристики психометрического теста
Надежность показывает, что результаты проводимого исследования близки к истине.
Валидность – признак того, что результаты действительно относятся к тому явлению, которое изучается исследователем.
1. НАДЕЖНОСТЬ
НАДЕЖНОСТЬ КАК УСТОЙЧИВОСТЬ
Относительное постоянство, устойчивость, согласованность результатов теста. Независимость методики от действия случайных факторовУстойчивость определяется с помощью повторного тестирования (ретеста)
1.1. Метод повторного тестирования (ретеста)
Ретестовая надежность определяется путем повторного обследования одних и тех же лиц при помощи одной и той же методики. Основан на подсчете корреляции индивидуальных баллов испытуемых, полученных в результате двукратного выполнения ими одного и того же теста. Чем выше коэффициент корреляции, тем выше надежность, и мы получаем примерно то же самое распределение. Обычно повторное тестирование проводится через 1-2 недели. Наименьшим удовлетворительным значением для ретестовой надежности является 0.76
Однако надежность не всех тестов можно проверять этим методом, так как оцениваемое качество, явление или эффект могут быть сами по себе нестабильны (например, наше настроение, которое может меняться от одного замера к следующему). Ещё один недостаток повторного тестирования — это эффект привыкания. Испытуемые уже знакомы с этим тестом, а может быть, даже помнят большую часть своих ответов после предыдущего заполнения.
1.2. Метод параллельных форм
Проверяется с помощью взаимозаменяемых форм теста (т.е. одни и те же обследуемые сначала обследуются с помощью одного теста, затем (через определенный интервал) с помощью другого теста). Метод эффективен, когда изначально разрабатываются параллельные варианты теста с целью ротации. Имеются трудности в доказательстве того, что обе формы — параллельные наборы заданий — являются действительно эквивалентными. Несмотря на это, на практике параллельные формы тестов оказываются полезными в установлении надежности тестов.
НАДЕЖНОСТЬ КАК СОГЛАСОВАННОСТЬ
Внутренняя согласованность (англ. — internal consistency) определяется связью каждого конкретного элемента теста с общим результатом, тем, насколько каждый элемент входит в противоречие с остальными, насколько каждый отдельный вопрос измеряет признак, на который направлен весь тест. Чаще всего тесты разрабатываются таким образом, чтобы у них была высокая степень внутренней согласованности, а связи с тем, что если одна переменная измеряется частью теста, то тогда в других частях, если они не согласованы с первой, эта же переменная измеряться не может. Таким образом, чтобы тест был валидным, необходимо, чтобы он был согласован. Для проверки внутренней согласованности применяются различные методы:1.3. Метод расщепления или метод автономных частей
Характеристика надежности осуществляется путем анализа устойчивости результатов отдельных совокупностей тестовых задач или единичных заданий теста. Для этого тест расщепляется/ разделяется на две равные части (например, четные и нечетные вопросы, первая и вторая половина), а затем находится корреляция между ними. Если корреляция высокая, тест можно считать надежным. Другие названия — одномоментная надежность, надежность-согласованность.
1.4. Метод эквивалентных бланков
Состоит в применении двух сопоставимых друг с другом форм теста для большой выборки. Результаты, полученные при выполнении двух форм, сравнивают и высчитывают корреляцию. Если коэффициент корреляции высокий, следовательно, тест надежен.
1.5. Метод альфа Кронбаха
В этом методе, предложенном Ли Кронбахом, сравнивается разброс каждого элемента с общим разбросом всей шкалы. Если разброс результатов теста меньше, чем разброс результатов для каждого отдельного вопроса, то каждый отдельный вопрос направлен на исследование одного и того же общего основания.
Если все вопросы измеряют один и тот же признак, то тест надежен и коэффициент альфа Кронбаха будет равен 1. При случайном разбросе результатов ответов на вопросы, коэффициент альфа Кронбаха будет равен 0, и тест ненадежен.
2. ВАЛИДНОСТЬ ТЕСТА
Валидность теста (от англ. valid – актуальный, подходящий, действительный) – понятие, указывающее, что именно тест измеряет и насколько хорошо он это делает. Это комплексная характеристика, включающая, с одной стороны, сведения о том, пригодна ли методика для измерения того, для чего она была создана, а с другой стороны, какова ее действенность, эффективность.
Не существует какого-то единого универсального подхода к определению валидности. В зависимости от того, какую сторону валидности хочет рассмотреть исследователь, используются и разные способы доказательства. Проверка валидности методики называется валидизацией.
2.1. Концептуальная валидность
Понимается как обоснование с позиции соответствия авторским представлениям об особенностях диагностируемых свойств, как мера соответствия заданий теста авторской концепции этих свойств.
2.2. Содержательная (логическая) валидность
Под содержанием понимается фактический материал, входящий в пункты тестов. Валидность по содержанию оценивает соответствие содержания теста (заданий, вопросов) той реальной деятельности, в которой проявляется измеряемое в методике свойство.
Например, чтобы тест математических способностей имел достаточный уровень содержательной валидности, его пункты не должны иметь таких формулировок, при которых для испытуемого решающими оказываются вербальные способности, необходимые для того, чтобы понять, о чём спрашивается в этом пункте.
Содержание должно быть уравновешено таким образом, чтобы все тестируемые аспекты были представлены. Тест не должен быть перегружен, допустим, пунктами на умножение в ущерб пунктам на сложение.
Установление содержательной валидности есть в значительной степени субъективная операция, основанная на мнениях «экспертов» относительно уместности используемых материалов.
2.3. Конструктная валидность (концептуальная, понятийная, внутренняя валидность)
Под конструктом понимают психологический феномен, который невозможно наблюдать непосредственно, но можно вывести из поведения человека, например, экстраверсия, общий интеллект, открытость, умения и т.д.
Конструктная валидность определяет наличие взаимосвязи между новым и ранее существующим тестом-эталоном, изучающим тот же конструкт, валидность которого была ранее определена. Она указывает на то, что разрабатываемый тест измеряет примерно ту же сферу поведения, способность, личностное качество, что и эталонная методика
При анализе конструктной валидности методики формулируют ряд гипотез о том, как будет коррелировать разрабатываемый тест с широким кругом других тестов, направленных на конструкты, находящиеся в теоретически известной или предполагаемой связи с исследуемыми. Конструктная валидность характеризуется не только связями проверяемого теста с близкородственными показателями эталонного теста, но и с теми, где, исходя из гипотезы, значимых связей наблюдаться не должно.2.4. Операциональная валидность
Определяет степень соответствия используемой экспериментальной методики (экспериментальных утверждений) теоретическим положениям, которые положены в основу организации и проведения данного эксперимента
2.5. Очевидная (доверительная) валидность
Очевидная валидность показывает в какой степени содержание теста и его заданий (пунктов) выглядит в глазах тестируемого подходящим для данной ситуации. Именно она в первую очередь определяет отношение испытуемых к обследованию. Тест должен восприниматься испытуемым как серьезный инструмент познания его личности.
Наличие очевидной валидности способствует воспринимаемой целесообразности психологического теста и создает у тестируемого впечатления, что тест учитывает его индивидуальность и опыт работы. Позволяет добиться сотрудничества и хорошего раппорта между тестирующим и тестируемыми.
Недостаток очевидной валидности (независимо от технической валидности, или точности, теста) может вызывать у тестируемых чувства раздражения, неудовлетворенности и обманутости, создавать негативное общественное мнение.
Хотя очевидная валидность, на первый взгляд, кажется подобной содержательной валидности, смысл этих показателей различен.
2.6. Критериальная (прагматическая, эмпирическая) валидность
Такая валидность показывает ее практическую полезность. Для этого используется независимый внешний относительно самого теста критерий – показатель проявления изучаемого свойства в повседневной жизни.
Критериальная (прагматическая, эмпирическая) валидность позволяет выяснить насколько высокие или низкие результаты теста соответствуют высокой или низкой оценке того поведенческого проявления — критерия, которое он должен предсказать
Например, практическая задача теста – выявить тех, кто будет эффективен в будущей работе. Критерий «эффективность» определен как % выполнения плана продаж. В таком случае, валидный тест позволяет с определенной вероятностью отделить «выполняющих план» от «не выполняющих план».
Важно можно ли с помощью теста разделить испытуемых на эти две группы. Обладает ли тест дискриминативностью. Важно, что тест или отдельное его задание успешно (с высокими баллами) проходят «эффективные», а неуспешно (с низкими баллами) «неэффективные». В случае, когда группы отличаются друг от друга только по одной переменной, причина дифференциации бывает понятна. Но это не важно. Важно, чтобы тест умел хорошо разделять группы по целевому критерию.Для вычисления коэффициента валидности сопоставляются результаты, полученные при применении диагностической методики, с данными, полученными по внешнему критерию, тех же лиц. Используются разные виды линейной корреляции (по Спирмену, по Пирсону).
Виды критериальной валидности:
- «Прогностическая» (предсказательная) валидность показывает возможность экстраполирования результатов на будущее. Определяется также по достаточно надежному внешнему критерию, но информация по нему собирается некоторое время спустя после испытания. Внешним критерием обычно бывает выраженная в каких-нибудь оценках способность человека к тому виду деятельности, для которой он отбирался по результатам диагностических испытаний.
- «Ретроспективная» валидность определяется на основе критерия, отражающего события или состояние качества в прошлом. Может быть использована для быстрого получения сведений о предсказательных возможностях методики.
Понятие «валидность тестов»
Краткая характеристика валидности тестов
Валидность результата теста является соответствием измеряемому признаку.
Валидность теста не применяется в статистических процедурах. Их (процедуры) можно использовать для доказательства, что разрабатываемая процедура психологических измерений имеет достаточную валидность. Они оценивают эмпирическую валидность.
Взаимосвязь между эмпирической и содержательной валидностью схожа с взаимосвязью статистической и экспериментальной гипотезами. Так как первые описывают причинно-следственные связи между фактом и явлением в эксперименте, а вторые – вероятную оценку результата, которая является базой для решения реальности. То содержательная валидность устанавливает связь между результатом теста и реальностью, а статистическая – содержит оценку валидизации эксперимента, которая считается инструментом для принятия решения.
Отсюда следует, что содержательная сторона валидизации отличается от понятия надежность, а эмпирическая сторона совпадает. Но сама по себе валидизация тестирования предполагает надежность психодиагностических методов. Высокая степень надежности не гарантия такой же валидизации. Но при этом снижение надежности тестирование ведет к снижению валидизации.
Характерные особенности эмпирической валидности
Она устанавливается внешним критерием, определяющий предметную область. Например, интеллектуальная шкала Д. Векслера WAIS, или тест Векслера включает в себя шесть заданий на вербальный интеллект, 5 – на невербальный, сенсомоторный интеллект. Задания называются субтестами, на базе результатов которых анализируют показатели интеллекта. Для оценивания шкалы вербального интеллекта используют уровень академической успеваемости, для невербальной – успешность канцелярской работы. Валидизация оценивается, с точки зрения соотношения между результатами тестирования и успеха в определенных видах деятельности. Такая валидность называется прагматической.
Определение прагматической валидизации
Считает, что валидность теста дает прогноз:
- личностных свойств человека;
- влияния на поведение индивида.
Она может не предполагать организацию соотношения. Оценивание валидизации тестирования основывается на:
- принципах квазиэксперимент;
- выделение контрастных групп.
Нужна помощь преподавателя?
Опиши задание — и наши эксперты тебе помогут!
Описать задание Замечание 1Разработка теста по оцениванию мотивации достижения школьников. Для этого есть все необходимые документы по успеваемости учеников. Класс делят на две группы:
- с низким уровнем успеваемости;
- с высоким уровнем успеваемости.
Самый грубый метод разделения – деление по медиане, надежный – исследования каждого ребенка и правильное соотнесение в ту или иную группу.
Например, для валидизации теста применяют только результаты успеваемости учеников, входящие в первый и четвертый квартили. В конечном итоге появляется квазиэкспериментальный план. Тогда значениями ковариаты будут результаты теста.
Данный ход в вылидной прагматике определяют ретроспективным.
Понятие проспективной, конструктивной и истинной валидности теста
Первый метод используют, когда только предполагается получить критерий валидности. Здесь испытуемые выбираются по принципу вероятностного прогноза проявления измеряемого признака в популяции. Это дает больше возможности оценить причинно-следственные связи между измеряемыми свойствами и формами поведения человека.
Замечание 2Конструктивная валидность используется, когда нет сомнений в валидизации тестирования.
Один из способов получения валидности является применение экспертных оценок. Их получает во время наблюдения за тестированием. Полученные результаты вносятся в таблицу, где в столбцах указывают оценки экспертов (k ), а в строках – оценки испытуемых (п). Главный фактор – согласованность полученных оценок, которую определяют при помощи критерия Кронбаха (α) или формулы Спирменаа-Брауна.
Истинная валидность тестирования определяется формулой:
где ryy – соотношение с «истинным критерием», rхх – эмпирическое соотношение с критерием, αс – надежность критерия, найденная по формуле Кронбаха.
Автор: Анна Коврова
Преподаватель факультета психологии кафедры общей психологии. Кандидат психологических наук
Валидность теста
Существует достаточно много разных способов доказательства валидности теста. О них и пойдет речь далее.
Тест называется валидным, если он измеряет то, для измерения чего предназначен.
Очевидная валидность — описывает представление о тесте, сложившееся у испытуемого. Тест должен восприниматься обследуемым как серьезный инструмент познания его личности, чем-то схожий с вызывающим уважение и в какой-то мере трепет медицинским диагностическим инструментарием. Очевидная валидность приобретает особое значение в современных условиях, когда представление о тестах в общественном сознании формируется многочисленными публикациями в популярных газетах и журналах того, что можно назвать квазитестами, с помощью которых читателю предлагается определить все, что угодно: от интеллекта до совместимости с будущим супругом.
Конкурентная валидность оценивается по корреляции разработанного теста с другими, валидность которых относительно измеряемого параметра установлена. П. Клайн отмечает, что данные о конкурентной валидности полезны тогда, когда есть неудовлетворительно работающие тесты для измерения некоторых переменных, а новые создаются для того, чтобы улучшить качество измерения. В самом деле, если уже существует эффективный тест, то для чего нужен такой же новый?
Прогностическая валидность устанавливается с помощью корреляции между показателями теста и некоторым критерием, характеризующим измеряемое свойство, но в более позднее время. Например, прогностическая валидность какого-либо теста интеллекта может быть показана корреляцией его показателей, полученных у испытуемого в возрасте 10 лет, с академической успеваемостью в период окончания средней школы. Л. Кронбах считает прогностическую валидность наиболее убедительным доказательством того, что тест измеряет именно то, для чего он был предназначен. Основная проблема, с которой сталкивается исследователь, пытающийся установить прогностическую валидность своего теста, состоит в выборе внешнего критерия. В особенной степени чаще всего это касается измерения личностных переменных, где подбор внешнего критерия — чрезвычайно сложная задача, решение которой требует немалой изобретательности. Несколько проще обстоит дело при определении внешнего критерия для когнитивных тестов, однако и в этом случае исследователю приходится «закрывать глаза» на многие проблемы. Так, академическая успеваемость традиционно используется в качестве внешнего критерия при валидизации тестов интеллекта, но в то же время хорошо известно, что успехи в обучении далеко не единственное свидетельство высокого интеллекта.
Инкрементная валидность имеет ограниченное значение и относится к случаю, когда один тест из батареи тестов может иметь низкую корреляцию с критерием, но не перекрываться другими тестами из этой батареи. В этом случае данный тест обладает инкрементной валидностью. Это может быть полезно при проведении профотбора с помощью психологических тестов.
Дифференциальная валидность может быть проиллюстрирована на примере тестов интересов. Тесты интересов обычно коррелируют с академической успеваемостью, но по-разному для разных дисциплин. Значение дифференциальной валидности, так же как и инкрементной, ограничено.
Содержательная валидность определяется через подтверждение того, что задания теста отражают все аспекты изучаемой области поведения. Обычно она определяется у тестов достижений (смысл измеряемого параметра полностью ясен!), которые, как уже указывалось, тестами собственно психологическими не являются. На практике для определения содержательной валидности подбираются эксперты, которые указывают, какая область (области) поведения наиболее важна, например, для музыкальных способностей, а затем, исходя из этого, генерируются задания теста, которые вновь оценивают эксперты.
Конструктная валидность теста демонстрируется полным, насколько это возможно, описанием переменной, для измерения которой предназначается тест. По сути дела, конструктная валидность включает в себя все подходы к определению валидности, которые были перечислены выше. Кронбах и Мил (Cronbach & Meehl, 1955), которые ввели в психодиагностику понятие конструктной валидности, пытались решить проблему отбора критериев при валидизации теста. Они подчеркивали, что во многих случаях ни один отдельно взятый критерий не может служить для валидизации отдельного теста. Можно считать, что решение вопроса о конструктной валидности теста представляет собой поиск ответа на два вопроса:
- существует ли реально некоторое свойство;
- надежно ли измеряет данный тест индивидуальные различия по этому свойству.
Вполне понятно, что с конструктной валидностью связана проблема объективности в интерпретации результатов по изучению конструктной валидности, однако эта проблема общепсихологическая и выходит за рамки валидности.
Из вышесказанного следует, что не существует какого-либо единичного показателя, с помощью которого устанавливается валидность психологического теста. В отличие от показателей надежности и дискриминативности, нельзя осуществить точные статистические расчеты, подтверждающие валидность методики. Тем не менее разработчик должен представить весомые доказательства в пользу валидности теста, что потребует от него психологических знаний и интуиции.
Валидность теста — это… Что такое Валидность теста?
- Валидность теста
- (отангл. valid — действительный, пригодный, действенный) — 1) адекватность и действенность теста — важнейший критерий его доброкачественности, характеризующий точность измерения исследуемого свойства, а также насколько тест отражает то, что он должен оценивать; насколько отдельные составляющие его пробы адекватны исследуемой проблеме; 2) один из основных (наряду с надежностью, репрезентативностью, объективностью, достоверностью и эффективностью) критериев оценки тестовых результатов. Понятие Валидность отражает прагматическую идею обязательной практической (применительно к науке, эмпирической) проверки качества измерения психологических свойств человека. Если раньше понятие Валидность чаще других ассоциировалось с понятием «качество теста», то в последние годы все больше осознается роль интерпретации тестовых результатов. Таким образом, Валидность — это прежде всего адекватность интерпретации тестовых результатов по отношению к цели тестирования, содержанию основного понятия (содержанию диагносцируемого психического свойства) и применению результатов тестирования (в профотборе и других прикладных психологических обследованиях). В контексте прикладной задачи Валидность представляет собой не столько критерий качества теста, сколько показатель меры соответствия теста цели тестирования.
Словарь-справочник по педагогической психологии. М.В. Гамезо, А.В. Степаносова, Л.М. Хализева. 2001.
- Усвоение
- Валидность эксперимента
Смотреть что такое «Валидность теста» в других словарях:
валидность теста — (от англ. valid действительный, пригодный, действенный) один из основных (наряду с надежностью, репрезентативностью, объективностью, достоверностью и эффективностью) критериев оценки тестовых результатов. Понятие В. отражает прагматическую идею… … Большая психологическая энциклопедия
Валидность Теста — действительная способность теста измерять ту психологическую характеристику, для диагностики которой он заявлен. Количественно валидность теста может выражаться через корреляции результатов, полученных с его помощью, с другими показателями,… … Психологический словарь
Валидность теста — – адекватность и действенность теста, важнейший критерий его доброкачественности, характеризующий точность измерения исследуемого свойства, а также насколько тест отражает то, что он должен оценивать, насколько отдельные составляющие его пробы… … Словарь-справочник по социальной работе
валидность теста — testo validumas statusas T sritis Kūno kultūra ir sportas apibrėžtis Svarbiausias kokybinis testo požymis, rodantis tiriamosios savybės matavimų tikslumą, testavimo rodiklių atitikimą norimai ypatybei, vyksmui įvertinti. atitikmenys: angl. test… … Sporto terminų žodynas
ВАЛИДНОСТЬ ТЕСТА — ВАЛИДНОСТЬ (от лат. validus – крепкий, здоровый) ТЕСТА. Адекватность и действенность теста. Критерий доброкачественности теста, характеризующий точность измерения исследуемого свойства, характеристики, а также позволяющий оценить, насколько… … Новый словарь методических терминов и понятий (теория и практика обучения языкам)
Валидность теста — (отангл. valid действительный, пригодный, действенный) 1) адекватность и действенность теста важнейший критерий его доброкачественности, характеризующий точность измерения исследуемого свойства, а также насколько тест отражает то, что он должен… … Словарь по педагогической психологии
валидность теста — (от англ. valid – пригодный) – критерий качества теста, используемый при выяснении степени достоверности измерения того психического свойства, качества, явления, которое хотят измерить с помощью данного теста. Различают несколько видов в.т.: в.т … Энциклопедический словарь по психологии и педагогике
валидность теста по критерию — критерий качества теста, с помощью которого можно судить об интересующем нас аспекте психики индивида в настоящем и будущем. Для его определения необходимо сопоставить результаты тестирования с уровнем развития измеряемого признака, качества… … Энциклопедический словарь по психологии и педагогике
валидность теста по содержанию — критерий качества теста, используемый при вывяснении соответствия его области измеряемых психических явлений. В.т.к. показывает, насколько полно тест охватывает исследуемое множество измеряемых параметров. Если, например, нужно проверить с… … Энциклопедический словарь по психологии и педагогике
валидность теста конструктивная — критерий качества теста, используемый при измерении какого либо сложного психического феномена, имеющего иерархическую структуру, измерить который из за этого одним актом тестирования невозможно. Так, психодиагностика интеллекта невозможна без… … Энциклопедический словарь по психологии и педагогике
Надежность и валидность тестов
Для начала определим круг разработанности данной проблемы и кратко перечислим ученых.
Ученые, которые занимались проблемой надежности и валидности методик в психодиагностике: А. Анастази и др.
Далее рассмотрим понятие надежности и валидности методик, а также их сущность и процесс.
Надежность теста
Рассмотрим несколько видов надежности психодиагностических тестов.
- Надежность по внутренней согласованности. Измененная часть теста измеряет такую переменную, которую не измеряют неизмененные части теста.
- Ретестовая надежность. Повторное тестирование испытуемых с последующей корреляцией результатов начального и окончательного обследования.
- Надежность параллельны форм теста. Создание эквивалента опросника и его предъявлений тем же испытуемым для последующей корреляции результатов.
- Надежность частей теста можно определить, разделив опросник на части; затем провести корреляцию полученных результатов.
Рисунок 1. «Показатели надежности теста»
При выявлении надежности теста следует проводить методику через значительные временные интервалы. Также рекомендуется проводить тест на выборки не менее 200 испытуемых.
Валидность теста
Рассмотрим некоторые виды валидности тестов в психодиагностике.
- Очевидная валидность. Представления испытуемого о тесте.
- Конкурентная валидность. Корреляция с подобными тестами.
- Прогностическая валидность. Корреляция начальных и более поздних результатов теста.
- Инкрементная валидность.
- Дифференциальная валидность.
- Содержательная валидность. Отражение заданий тестов аспектов определенной изучаемой области.
- Эмпирическая валидность. Корреляция результатов данной методики с результатами подобных методик у одних и тех же испытуемых.
- Критериальная валидность. Связь полученных результатов и внешних критериев.
- Конструктная валидность.
Одним из важных отличий психометрических тестов является то, что они стандартизированы, а это позволяет сравнить показатели, полученные одним испытуемым, с таковыми в генеральной совокупности или соответствующих группах. Стандартизация теста наиболее важна в тех случаях, когда осуществляется сравнение показателей обследуемых.
При этом вводится понятие нормы, или нормативных показателей. Для получения стандартных норм нужно тщательно отобрать большее количество испытуемых в соответствии с ясно обозначенным критерием. При формировании выборки стандартизации следует учитывать ее объём и репрезентативность.
В некоторых случаях приходится формировать несколько групп стандартизации или стратифицировать группу стандартизации относительно таких параметров, как возраст, пол, социальный статус. Устанавливать нормы не всегда обязательно. При использовании психологических тестов в научном исследовании нормы не столь важны и достаточно сырых показателей теста. Нормы для каждой группы должны быть представлены в средних величинах и показателе стандартного отклонения.
Рисунок 2. «Структура валидности»
Надежность и достоверность измерения — Методы исследования в психологии — 2-е канадское издание
- Определите надежность, включая различные типы и способы их оценки.
- Определите срок действия, включая различные типы и способы их оценки.
- Опишите виды доказательств, которые могут иметь отношение к оценке надежности и действительности той или иной меры.
Опять же, измерение включает в себя присвоение баллов отдельным лицам, чтобы они отражали некоторые характеристики людей.Но как исследователи узнают, что оценки на самом деле представляют характеристику, особенно если это такие конструкты, как интеллект, самооценка, депрессия или объем рабочей памяти? Ответ заключается в том, что они проводят исследование, используя эту меру, чтобы подтвердить, что оценки имеют смысл, исходя из их понимания измеряемой конструкции. Это очень важный момент. Психологи не просто предполагают , что их меры работают. Вместо этого они собирают данные, чтобы продемонстрировать , что они работают.Если их исследование не демонстрирует, что мера работает, они прекращают ее использовать.
В качестве неформального примера представьте, что вы сидите на диете в течение месяца. Ваша одежда кажется более свободной, и несколько друзей спросили, похудели ли вы. Если на этом этапе ваши весы для ванной показывают, что вы потеряли 10 фунтов, это имело бы смысл, и вы продолжили бы пользоваться весами. Но если бы это указывало на то, что вы набрали 10 фунтов, вы бы справедливо пришли к выводу, что он сломан, и либо почините его, либо избавьтесь от него.Оценивая метод измерения, психологи принимают во внимание два основных аспекта: надежность и валидность.
Надежность означает постоянство меры. Психологи рассматривают три типа согласованности: во времени (надежность повторного тестирования), между элементами (внутренняя согласованность) и между разными исследователями (надежность между экспертами).
Тестирование-повторное тестирование надежностиКогда исследователи измеряют конструкт, который, по их мнению, является непротиворечивым во времени, полученные ими оценки также должны быть согласованными во времени.Надежность повторного тестирования — это степень, в которой это действительно так. Например, обычно считается, что интеллект постоянен во времени. Человек, который сегодня очень умный, на следующей неделе станет очень умным. Это означает, что любой хороший показатель интеллекта должен дать этому человеку примерно такие же оценки на следующей неделе, что и сегодня. Ясно, что мера, которая дает очень непоследовательные оценки с течением времени, не может быть очень хорошей мерой конструкции, которая должна быть согласованной.
Оценка надежности повторного тестирования требует одновременного использования этого показателя на группе людей, его повторного использования на той же группе людей в более позднее время, а затем изучения корреляции между тестами и повторными тестами между двумя наборами оценок. Обычно это делается путем построения графика данных в виде диаграммы рассеяния и вычисления значений r Пирсона. На рис. 5.2 показана корреляция между двумя наборами оценок нескольких студентов университетов по шкале самооценки Розенберга, введенной два раза с интервалом в неделю.Коэффициент Пирсона для этих данных равен +,95. Обычно считается, что корреляция между тестами и повторными тестами +80 или выше указывает на хорошую надежность.
Рисунок 5.2 Корреляция между тестами и повторными тестами между двумя наборами оценок нескольких студентов колледжа по шкале самооценки Розенберга, полученными два раза в неделю с разницей. время, которое относится к интеллекту, самооценке и измерениям личности Большой пятерки.Но другие конструкции не считаются стабильными с течением времени. Например, сама природа настроения такова, что оно меняется. Таким образом, показатель настроения, который дает низкую корреляцию между тестами и повторными тестами в течение месяца, не будет поводом для беспокойства.
Внутренняя согласованностьВторой вид надежности — это внутренняя согласованность, которая представляет собой согласованность ответов людей по всем пунктам при измерении, состоящем из нескольких пунктов. В целом предполагается, что все элементы таких показателей отражают одну и ту же основную конструкцию, поэтому оценки людей по этим вопросам должны коррелировать друг с другом.По шкале самооценки Розенберга люди, которые согласны с тем, что они достойные люди, должны соглашаться с тем, что у них есть ряд хороших качеств. Если ответы людей на разные вопросы не коррелируют друг с другом, то больше не имеет смысла утверждать, что все они измеряют одну и ту же основную конструкцию. Это верно как для поведенческих и физиологических показателей, так и для показателей самооценки. Например, люди могут сделать серию ставок в имитируемой игре в рулетку, чтобы измерить свой уровень стремления к риску.Этот показатель будет внутренне согласованным в той степени, в которой ставки отдельных участников будут постоянно высокими или низкими в ходе испытаний.
Как и надежность повторного тестирования, внутреннюю согласованность можно оценить только путем сбора и анализа данных. Один из подходов — посмотреть на корреляцию разделенных половин. Это включает в себя разделение элементов на два набора, таких как первая и вторая половины элементов или элементы с четным и нечетным номерами. Затем для каждого набора элементов вычисляется оценка и исследуется взаимосвязь между двумя наборами оценок.Например, на рис. 5.3 показана корреляция между двумя частицами между оценками нескольких студентов университетов по четным пунктам и их оценками по нечетным пунктам шкалы самооценки Розенберга. Значение r Пирсона для этих данных составляет +,88. Корреляция разделенных половин, равная +80 или больше, обычно считается хорошей внутренней согласованностью.
Рис. 5.3. Корреляция между разделами и половинками между оценками нескольких студентов колледжей по четным пунктам и их оценками по нечетным пунктам шкалы самооценки Розенберга. статистика называется α Кронбаха (греческая буква альфа).Концептуально α — это среднее значение всех возможных корреляций разделенных половин для набора элементов. Например, существует 252 способа разделить набор из 10 элементов на два набора по пять. Α Кронбаха будет средним из 252 корреляций разделенных половин. Обратите внимание, что на самом деле α вычисляется не так, но это правильный способ интерпретации значения этой статистики. Опять же, обычно используется значение +80 или больше, чтобы указать на хорошую внутреннюю согласованность.
Надежность InterraterМногие поведенческие меры требуют значительного суждения со стороны наблюдателя или оценщика.Межэкспертная надежность — это степень, в которой разные наблюдатели едины в своих суждениях. Например, если вы заинтересованы в измерении социальных навыков студентов университета, вы можете сделать видеозаписи их взаимодействия с другим студентом, с которым они встречаются впервые. Затем вы можете попросить двух или более наблюдателей посмотреть видео и оценить уровень социальных навыков каждого учащегося. В той степени, в которой каждый участник действительно обладает определенным уровнем социальных навыков, который может быть обнаружен внимательным наблюдателем, оценки разных наблюдателей должны сильно коррелировать друг с другом.Надежность между экспертами также могла быть измерена в исследовании куклы Бобо Бандуры. В этом случае оценки наблюдателей того, сколько актов агрессии совершил конкретный ребенок во время игры с куклой Бобо, должны были иметь очень положительную корреляцию. Надежность между экспертами часто оценивается с помощью α Кронбаха, когда суждения являются количественными, или аналогичной статистики, называемой κ Коэна (греческая буква каппа), когда они категоричны.
Валидность — это степень, в которой баллы меры представляют переменную, для которой они предназначены.Но как исследователи делают такое суждение? Мы уже учли один фактор, который они учитывают, — надежность. Если показатель имеет хорошую надежность повторного тестирования и внутреннюю согласованность, исследователи должны быть более уверены в том, что оценки соответствуют тому, что им положено. Однако здесь должно быть что-то еще, потому что мера может быть чрезвычайно надежной, но совершенно бесполезной. В качестве абсурдного примера представьте человека, который считает, что длина указательного пальца человека отражает его самооценку, и поэтому пытается измерить самооценку, поднося линейку к указательным пальцам людей.Хотя эта мера имела бы чрезвычайно хорошую надежность повторного тестирования, она не имела бы абсолютно никакой ценности. Тот факт, что указательный палец одного человека на сантиметр длиннее, чем у другого, ничего не говорит о том, у кого из них выше самооценка.
Обсуждения валидности обычно делят ее на несколько различных «типов». Но хороший способ интерпретировать эти типы состоит в том, что они представляют собой другие виды свидетельств, помимо надежности, которые следует принимать во внимание при оценке достоверности меры.Здесь мы рассматриваем три основных типа: валидность лица, валидность содержания и валидность критерия.
Лицевая достоверностьЛицевая достоверность — это степень, в которой метод измерения проявляется «на лице» для измерения интересующей конструкции. Большинство людей ожидают, что в анкету для самооценки будут включены вопросы о том, считают ли они себя достойным человеком и обладают ли они хорошими качествами. Таким образом, анкета, включающая такие вопросы, будет иметь хорошую внешнюю валидность.С другой стороны, метод измерения самооценки на расстоянии пальца, похоже, не имеет ничего общего с самооценкой и, следовательно, имеет низкую достоверность. Хотя фактическая валидность может быть оценена количественно — например, с помощью большой выборки людей, оценивающих меру с точки зрения того, действительно ли она измеряет то, для чего она предназначена, — обычно она оценивается неформально.
Фактическая достоверность — это в лучшем случае очень слабое свидетельство того, что метод измерения измеряет то, что он должен.Одна из причин заключается в том, что это основано на интуиции людей о человеческом поведении, которые часто ошибочны. Также верно и то, что многие общепринятые меры в психологии работают достаточно хорошо, несмотря на недостаточную достоверность. Миннесотский многофазный опросник личности-2 (MMPI-2) измеряет многие личностные характеристики и расстройства, предлагая людям решить, применимо ли к ним каждое из более чем 567 различных утверждений, причем многие из утверждений не имеют очевидного отношения к конструкции, которую они измеряют. .Например, пункты «Мне нравятся детективы или детективы» и «Вид крови не пугает меня и не вызывает тошноту», оба измеряют подавление агрессии. В данном случае интерес представляют не буквальные ответы участников на эти вопросы, а, скорее, соответствие модели ответов участников на серию вопросов ответам людей, которые склонны подавлять свою агрессию.
Срок действия содержимогоДостоверность содержания — это степень, в которой мера «покрывает» интересующий конструкт.Например, если исследователь концептуально определяет тестовую тревогу как связанную как с активацией симпатической нервной системы (ведущей к нервным переживаниям), так и с негативными мыслями, то его мера тестовой тревожности должна включать вопросы как о нервных переживаниях, так и о негативных мыслях. Или подумайте, что отношения обычно определяются как связанные с мыслями, чувствами и действиями по отношению к чему-либо. Согласно этому концептуальному определению, человек положительно относится к упражнениям в той мере, в какой он или она думает о тренировках положительно, чувствует себя хорошо во время тренировок и фактически занимается спортом.Таким образом, чтобы иметь хорошую достоверность содержания, показатель отношения людей к упражнениям должен отражать все три этих аспекта. Как и фактическая достоверность, достоверность содержания обычно не оценивается количественно. Вместо этого он оценивается путем тщательной проверки метода измерения на соответствие концептуальному определению конструкции.
Срок действия критерияДостоверность критерия — это степень, в которой оценки людей по критерию коррелируют с другими переменными (известными как критерии), с которыми можно было бы ожидать их корреляции.Например, оценки людей по новому критерию тревожности при тестировании должны иметь отрицательную корреляцию с их успеваемостью на важном школьном экзамене. Если бы было обнаружено, что оценки людей на самом деле отрицательно коррелировали с их успеваемостью на экзамене, то это было бы доказательством того, что эти оценки действительно отражают тревогу людей перед тестированием. Но если бы выяснилось, что люди одинаково хорошо сдавали экзамен, независимо от их тестовой тревожности, это поставило бы под сомнение достоверность этой меры.
Критерием может быть любая переменная, которая, как есть основания полагать, должна коррелировать с измеряемым конструктом, и обычно их много. Например, можно было бы ожидать, что результаты теста на тревожность будут отрицательно коррелировать с успеваемостью на экзамене и оценками по курсу и положительно коррелироваться с общим беспокойством и артериальным давлением во время экзамена. Или представьте, что исследователь разрабатывает новую меру принятия физического риска. Баллы людей по этому показателю должны соотноситься с их участием в «экстремальных» видах деятельности, таких как сноубординг и скалолазание, количеством полученных штрафов за превышение скорости и даже количеством переломов костей, которые они получили за эти годы.Когда критерий измеряется одновременно с построением, достоверность критерия упоминается как одновременная достоверность ; однако, когда критерий измеряется в какой-то момент в будущем (после того, как конструкция была измерена), он упоминается как прогностическая достоверность (поскольку оценки по этому показателю «предсказали» будущий результат).
Критерии могут также включать другие меры той же конструкции. Например, можно было бы ожидать, что новые меры тестовой тревожности или принятия физического риска будут положительно коррелированы с существующими показателями тех же конструктов.Это известно как конвергентная достоверность .
Для оценки конвергентной достоверности требуется сбор данных с помощью меры. Исследователи Джон Качиоппо и Ричард Петти сделали это, когда создали свою шкалу самоотчета «Потребность в познании», чтобы измерить, насколько люди ценят и вовлечены в мышление (Cacioppo & Petty, 1982). В серии исследований они показали, что оценки людей положительно коррелировали с их оценками по стандартизированному тесту академических достижений, и что их оценки отрицательно коррелировали с их оценками по показателю догматизма (который представляет собой тенденцию к послушанию).За годы, прошедшие с момента создания, шкала потребности в познании использовалась буквально в сотнях исследований, и было показано, что она коррелирует с широким спектром других переменных, включая эффективность рекламы, интерес к политике и решения присяжных. (Петти, Бриньоль, Лёрш и МакКаслин, 2009 г.).
Дискриминантная валидностьДискриминантная валидность, с другой стороны, — это степень, в которой баллы по показателю , а не коррелируют с мерами переменных, которые концептуально различны.Например, самооценка — это общее отношение к себе, которое довольно стабильно во времени. Это не то же самое, что настроение, которое бывает хорошим или плохим в данный момент. Таким образом, оценки людей по новому показателю самооценки не должны сильно коррелировать с их настроением. Если бы новый показатель самооценки был сильно коррелирован с показателем настроения, можно было бы утверждать, что новый показатель на самом деле не измеряет самооценку; вместо этого он измеряет настроение.
При создании шкалы потребности в познании Качиоппо и Петти также предоставили доказательства дискриминантной валидности, показав, что оценки людей не коррелировали с некоторыми другими переменными.Например, они обнаружили лишь слабую корреляцию между потребностью людей в познании и мерой их когнитивного стиля — степенью, в которой они склонны мыслить аналитически, разбивая идеи на более мелкие части, или целостным образом в терминах «большой картины». Они также не обнаружили корреляции между потребностью людей в познании и показателями их тестовой тревожности и их склонностью реагировать социально желательными способами. Все эти низкие корреляции свидетельствуют о том, что показатель отражает концептуально отличную конструкцию.
- Психологические исследователи не просто предполагают, что их меры работают. Вместо этого они проводят исследования, чтобы показать, что они работают. Если они не могут показать, что работают, они прекращают их использовать.
- Есть два различных критерия, по которым исследователи оценивают свои измерения: надежность и валидность. Надежность — это постоянство во времени (надежность повторного тестирования), между элементами (внутренняя согласованность) и между исследователями (надежность между экспертами). Достоверность — это степень, в которой оценки фактически представляют переменную, для которой они предназначены.
- Действительность — это решение, основанное на различных типах доказательств. Соответствующие свидетельства включают надежность меры, то, покрывает ли она интересующий конструкт и коррелируют ли полученные оценки с другими переменными, с которыми они, как ожидается, коррелируют, а не коррелируют ли с переменными, которые концептуально различны.
- Надежность и валидность меры устанавливаются не одним исследованием, а результатами нескольких исследований.Оценка надежности и достоверности — непрерывный процесс.
- Практика: попросите нескольких друзей заполнить шкалу самооценки Розенберга. Затем оцените его внутреннюю согласованность, построив диаграмму рассеяния, чтобы показать корреляцию разделенных половин (элементы с четным и нечетным номерами). Вы также можете вычислить r Пирсона, если знаете как.
- Обсуждение. Вспомните последний экзамен в колледже, который вы сдавали, и думайте об этом как о психологической мере. Как вы думаете, для измерения какой конструкции она предназначалась? Прокомментируйте его лицо и достоверность содержания.Какие данные вы могли бы собрать, чтобы оценить их надежность и валидность критериев?
Почему для психологических тестов важна валидность
Когда люди говорят о психологических тестах, они часто спрашивают, действителен ли тест или нет. Что именно это значит? Валидность — это мера того, насколько хорошо тест измеряет то, что, по его словам, измеряется.
Психологическая оценка — важная часть как экспериментального исследования, так и клинического лечения. Одна из самых больших проблем при создании психологического теста заключается в том, действительно ли он измеряет то, что, по нашему мнению, он измеряет.
Например, тест может быть разработан для измерения стабильной личностной черты, но вместо этого для измерения преходящих эмоций, вызванных ситуативными или окружающими условиями. Действительный тест гарантирует, что результаты являются точным отражением измеряемого параметра.
Валидность — это степень, в которой тест измеряет то, что, по его утверждению, измеряется. Жизненно важно, чтобы тест был действительным, чтобы результаты можно было точно применить и интерпретировать.
Типы действия
Валидность определяется не одной статистикой, а совокупностью исследований, демонстрирующих взаимосвязь между тестом и поведением, которое он предназначен для измерения.Есть три типа действительности.
Срок действия содержимого
Когда тест имеет валидность содержания, элементы теста представляют весь диапазон возможных элементов, которые должен охватывать тест.Отдельные вопросы теста могут быть взяты из большого пула элементов, охватывающих широкий круг тем.
В некоторых случаях, когда тест измеряет черту, которую трудно определить, эксперт-судья может оценить релевантность каждого элемента. Поскольку каждый судья основывает свою оценку на своем мнении, два независимых судьи оценивают тест отдельно.Пункты, оцененные обоими судьями как имеющие большое значение, будут включены в финальный тест.
Срок действия по критерию
Считается, что тест имеет относящуюся к критерию валидность, когда тест продемонстрировал свою эффективность в прогнозировании критерия или показателей конструкции, например, когда работодатель нанимает новых сотрудников на основе обычных процедур найма, таких как собеседования, образование и опыт.
Этот метод демонстрирует, что люди, которые хорошо сдали тест, будут хорошо работать на работе, а люди с низким баллом по тесту будут плохо справляться с работой.Есть два разных типа критериев достоверности:
- Одновременная валидность : Это происходит, когда критерии критериев получены одновременно с оценками тестов, что указывает на способность оценок теста оценивать текущее состояние человека. Например, в тесте, который измеряет уровни депрессии, можно сказать, что тест имеет одновременную валидность, если он измеряет текущие уровни депрессии, испытываемые тестируемым.
- Прогностическая достоверность : Это когда критерии критериев получены сразу после теста.Примерами тестов с прогностической валидностью являются тесты карьеры или способностей, которые помогают определить, кто с большой вероятностью преуспеет или проиграет по определенным предметам или профессиям.
Срок действия конструкции
Тест имеет конструктивную валидность, если он демонстрирует связь между результатами теста и предсказанием теоретической характеристики.Тесты интеллекта являются одним из примеров инструментов измерения, которые должны иметь конструктивную валидность. Действительный тест интеллекта должен быть в состоянии точно измерить конструкцию интеллекта, а не другие характеристики, такие как память или уровень образования.
По сути, валидность контента смотрит на то, охватывает ли тест весь спектр поведения, составляющего измеряемую конструкцию. Процедура здесь состоит в том, чтобы определить необходимые задачи для выполнения такой работы, как набор текста, дизайн или физические способности.
Чтобы продемонстрировать валидность содержания процедуры отбора, поведение, продемонстрированное при выборе, должно быть репрезентативной выборкой поведения на работе.
Валидность лица в психологическом тестировании
Другой метод, который используется редко, потому что он не очень сложен, — это проверка по лицу.Он основан только на внешнем виде меры и на том, что он должен измерять, но не на том, что на самом деле измеряет тест.
Фактическая валидность — одна из основных мер валидности. По сути, исследователи просто принимают валидность теста за чистую монету, глядя, выглядит ли тест как для измерения целевой переменной. казалось, что на самом деле он измеряет уровень счастья.
Очевидно, внешняя достоверность означает только то, что тест выглядит как , как будто он работает. Это не означает, что тест доказал свою эффективность. Однако, если мера кажется действительной на данный момент, исследователи могут продолжить исследование, чтобы определить, действителен ли тест и его следует использовать в будущем.
По сути, фактическая достоверность — это то, измеряет ли тест то, что он должен измерять. Это предполагает сдачу теста за чистую монету.
Опрос, в котором спрашивают людей, за какого политического кандидата они планируют проголосовать, будет считаться имеющим высокую достоверность.Цель теста предельно ясна даже людям, незнакомым с психометрией.
Можно сказать, что сложный тест, используемый как часть психологического эксперимента, который рассматривает множество ценностей, характеристик и моделей поведения, имеет низкую достоверность. Точная цель теста не сразу ясна, особенно участникам.
Очевидно, что хотя фактическая валидность может быть хорошим инструментом для определения того, измеряет ли тест то, что он должен измерять, наличие только лицевой валидности не означает, что тест действительно действителен.Иногда кажется, что тест измеряет одно, а на самом деле измеряет совсем другое.
4 типа достоверности
При количественном исследовании вы должны учитывать надежность и достоверность ваших методов и измерений.
Validity показывает, насколько точно метод что-то измеряет. Если метод измеряет то, что, по его утверждению, измеряется, и результаты близко соответствуют реальным значениям, то его можно считать действительным. Существует четыре основных типа действия:
Обратите внимание, что в этой статье рассматриваются типы проверки достоверности, которые определяют точность фактических компонентов меры.Если вы проводите экспериментальное исследование, вам также необходимо учитывать внутреннюю и внешнюю валидность, которая связана с планом эксперимента и обобщаемостью результатов.
Срок действия конструкции
Construct validity оценивает, действительно ли инструмент измерения представляет то, что мы хотим измерить. Это важно для определения общей валидности метода.
Что такое конструкция?
Конструкт относится к понятию или характеристике, которую нельзя непосредственно наблюдать, но можно измерить, наблюдая за другими индикаторами, которые с ней связаны.
Конструкции могут быть характеристиками людей, такими как интеллект, ожирение, удовлетворенность работой или депрессия; они также могут быть более широкими концепциями, применяемыми к организациям или социальным группам, например гендерное равенство, корпоративная социальная ответственность или свобода слова.
Пример
Не существует объективной, наблюдаемой сущности, называемой «депрессией», которую мы могли бы измерить напрямую. Но, основываясь на существующих психологических исследованиях и теории, мы можем измерить депрессию на основе набора симптомов и показателей, таких как низкая уверенность в себе и низкий уровень энергии.
Что такое конструктивная валидность?
Достоверность конструкции — это гарантия того, что метод измерения соответствует конструкции, которую вы хотите измерить. Если вы разрабатываете анкету для диагностики депрессии, вам необходимо знать: действительно ли анкета измеряет конструкт депрессии? Или это на самом деле измерение настроения, самооценки респондента или какой-то другой конструкт?
Чтобы добиться достоверности построения, вы должны убедиться, что ваши индикаторы и измерения тщательно разработаны на основе соответствующих существующих знаний.Анкета должна включать только релевантные вопросы, которые измеряют известные индикаторы депрессии.
Все остальные типы валидности, описанные ниже, могут рассматриваться как формы свидетельства конструктивной валидности.
Срок действия
Достоверность содержимого определяет, является ли тест репрезентативным для всех аспектов конструкции.
Для получения достоверных результатов содержание теста, опроса или метода измерения должно охватывать все соответствующие части предмета, который он нацелен на измерение.Если некоторые аспекты отсутствуют в измерении (или если включены нерелевантные аспекты), достоверность оказывается под угрозой.
Пример
Учитель математики разрабатывает в конце семестра тест по алгебре для своего класса. Тест должен охватывать все формы алгебры, изучаемые в классе. Если исключить некоторые виды алгебры, то результаты могут не быть точным показателем понимания учащимися предмета. Точно так же, если она включает вопросы, не связанные с алгеброй, результаты больше не являются действительной мерой знаний алгебры.
Что может сделать корректура для вашей статьи?
РедакторыScribbr не только исправляют грамматические и орфографические ошибки, но и укрепляют ваше письмо, убеждаясь, что в вашей статье нет расплывчатых формулировок, лишних слов и неуклюжих формулировок.
См. Пример редактирования
Срок действия
Face validity учитывает, насколько подходящим содержание теста кажется на первый взгляд.Это похоже на валидность контента, но фактическая валидность — это более неформальная и субъективная оценка.
Пример
Вы создаете опрос, чтобы измерить регулярность пищевых привычек людей. Вы просматриваете пункты опроса, в которых задаются вопросы о каждом приеме пищи в течение дня и перекусах, которые вы съели в перерывах на каждый день недели. На первый взгляд, опрос кажется хорошим представлением того, что вы хотите протестировать, поэтому вы считаете, что он имеет высокую достоверность.
Поскольку фактическая достоверность является субъективной мерой, ее часто считают самой слабой формой достоверности.Однако это может быть полезно на начальных этапах разработки метода.
Критерий действия
Criterion validity оценивает, насколько близко результаты вашего теста соответствуют результатам другого теста.
Что такое критерий?
Критерий — это внешнее измерение того же самого. Обычно это установленный или широко используемый тест, который уже считается действительным.
Что такое критерий действительности?
Чтобы оценить достоверность критерия, вы вычисляете корреляцию между результатами вашего измерения и результатами измерения критерия.Если существует высокая корреляция, это свидетельствует о том, что ваш тест измеряет то, что он намеревается измерять.
Пример
Профессор университета создает новый тест для измерения уровня владения английским языком у абитуриентов. Чтобы оценить, насколько хорошо тест действительно измеряет письменные способности учащихся, она находит существующий тест, который считается действительным измерением навыков письма на английском языке, и сравнивает результаты, когда одна и та же группа учащихся сдает оба теста. Если результаты очень похожи, новый тест имеет высокий критерий достоверности.
Важность валидности и надежности при оценивании в классе
Более глубокий взгляд на надежность
Типы надежности
Надежность оценки означает согласованность результатов. Самая простая интерпретация обычно ссылается на то, что называется «надежность повторного тестирования » , которая характеризуется воспроизводимостью результатов. То есть, если группа учащихся сдает тест дважды, как результаты для отдельных учащихся, так и взаимосвязь между результатами учащихся должны быть одинаковыми для разных тестов.
Однако есть два других типа надежности: альтернативная форма и внутренняя согласованность. Альтернативная форма — это измерение того, как результаты тестов сравниваются по двум аналогичным оценкам, данным за короткий промежуток времени . Альтернативная форма также относится к согласованности как индивидуальных оценок, так и позиционных отношений. Внутренняя согласованность аналогична валидности содержания и определяется как мера того, как фактическое содержание оценки работает вместе для оценки понимания концепции .
Ограничения надежности
Три типа надежности работают вместе, чтобы обеспечить, по словам Шиллингбурга, «уверенность … в том, что набранные за тестовый баллы хорошо отражают фактические знания ребенка о содержании». Надежность важна при разработке оценок, потому что ни одна оценка не является по-настоящему идеальной. Тест дает оценку «истинного» балла учащегося или балла, который студент получил бы, если бы прошел идеальный тест; однако из-за несовершенного дизайна тесты редко, если вообще когда-либо, могут полностью улавливать этот результат.Таким образом, тесты должны быть надежными или максимально приближенными к истинному баллу.
Несовершенство тестирования — не единственная проблема с надежностью. Надежность зависит от устойчивости посторонних влияний, например, настроения ученика. Посторонние влияния могут быть особенно опасными при сборе данных о восприятии или данных, которые измеряют восприятие школы учащимися, учителями и другими членами сообщества, что часто используется для измерения школьной культуры и климата.
Неконтролируемые изменения внешних факторов могут повлиять на то, как респондент воспринимает свое окружение, из-за чего надежный инструмент может показаться ненадежным. Например, если ученику или классу сделали выговор в тот день, когда им дали опрос для оценки своего учителя, оценка учителя может быть нехарактерно отрицательной. Тот же опрос, проведенный через несколько дней, может не дать таких же результатов. Однако большинство посторонних влияний, относящихся к учащимся, как правило, происходит на индивидуальном уровне, и поэтому не являются серьезной проблемой для надежности данных для более крупных выборок.
Как измерить валидность и надежность теста
Неверные или ненадежные методы оценки могут снизить шансы на достижение заранее определенных академических или учебных целей. Плохо написанные оценки могут даже нанести ущерб общему успеху программы. Важно, чтобы разработчики экзаменов использовали все доступные ресурсы, в частности анализ данных и психометрию, для обеспечения достоверности результатов своей оценки.
Что делает оценку надежной?
Чтобы экзамен или оценка считались надежными, они должны давать стабильные результаты.Отклонения от шаблонов данных и аномальные результаты или ответы могут быть признаком того, что определенные элементы экзамена вводят в заблуждение или ненадежны. Согласно Graide Network, вот три типа надежности, которые могут помочь определить, действительны ли результаты оценки:
- Надежность повторного тестирования измеряет «воспроизводимость результатов».
- Пример. Учащийся, который дважды сдает один и тот же тест, но в разное время, должен каждый раз получать одинаковые результаты.
- Надежность альтернативной формы измеряет, «насколько результаты тестов сравниваются по двум аналогичным оценкам, полученным за короткий промежуток времени».
- Пример. Учащийся, который сдает две разные версии одного и того же теста, должен каждый раз давать одинаковые результаты.
- Надежность внутренней согласованности измеряет, «как фактическое содержание оценки работает вместе для оценки понимания концепции».
- Пример. Учащийся, которому задают несколько вопросов, оценивающих одно и то же, должен дать одинаковый ответ на каждый вопрос.
Использование этих трех типов показателей надежности может помочь учителям и администраторам гарантировать, что их оценки будут максимально последовательными и точными.
Как повысить достоверность теста?
Под достоверностью оценки понимается то, насколько точно или эффективно она измеряет то, для измерения чего была предназначена, отмечает Управление академической оценки Университета Северной Айовы. Если разработчики тестов или преподаватели не учтут все аспекты создания экзаменов, помимо содержания, их экзамены могут быть поставлены под угрозу.Например, тест по политологии с заданиями, составленными с использованием сложных формулировок или фраз, может непреднамеренно перейти на оценку понимания прочитанного. Точно так же экзамен по истории искусства, который укладывается в шаблон вопросов об рассматриваемом историческом периоде без ссылки на искусство или художественные движения, может не точно измерять цели курса. Подобные непреднамеренные ошибки могут иметь разрушительное влияние на достоверность экзамена. В тематическом исследовании The Journal of Competency-Based Education предлагается следовать этим передовым принципам разработки, чтобы помочь сохранить действительность экзамена:
- Определите цель теста.
Это первый и, возможно, самый важный шаг в разработке экзамена. При составлении экзамена важно учитывать предполагаемое использование оценочных баллов. Экзамен должен измерять уровень владения языком или предсказывать успех? «Если вначале уделить время определению четкой цели, это поможет обеспечить более эффективное выполнение целей и приоритетов».
- Выполните анализ задания / теста (JTA).
Этот важный шаг в создании экзамена проводится для того, чтобы точно определить, какими характеристиками, связанными с работой, должен обладать человек перед тем, как приступить к работе.«JTA способствует валидности оценки, гарантируя, что критические аспекты области становятся областями содержания, которые измеряет оценка».
- Создайте пул товаров.
После того, как цель экзамена, а также конкретные знания и навыки, которые он должен оценивать, определены, пора приступить к созданию экзаменационных заданий или вопросов. «Обычно группа экспертов в предметной области (SME) собирается для написания набора тестовых заданий.Панель предназначена для написания заданий в соответствии с областями содержания и когнитивными уровнями, указанными в тестовом плане ».
- Просмотрите экзаменационные задания.
После того, как экзаменационные вопросы созданы, они проверяются группой экспертов, чтобы убедиться в отсутствии конструктивных недостатков. Экзаменационные задания проверяются на грамматические ошибки, технические недостатки, точность и правильность набора текста. «Кроме того, элементы проверяются на чувствительность и язык, чтобы соответствовать различным студентам.”
- Проведите анализ позиции.
Этот важный этап подготовки к экзамену включает использование данных и статистических методов, таких как психометрия, для проверки действительности оценки. «Если задание слишком простое, слишком сложное, не позволяет показать разницу между опытными и неквалифицированными испытуемыми или даже выставлено неверно, анализ задания покажет это».
Общее улучшение экзаменов с помощью данных и психометрии
Один из наиболее эффективных способов улучшить качество оценки — это использование психометрии.ExamSoft дает определение психометрии: «Психометрия буквально означает ментальное измерение или анализ, это важные статистические показатели, которые предоставляют составителям экзаменов и администраторам стандартный набор данных для проверки надежности, согласованности и качества экзамена». Вот психометрические параметры, одобренные оценочным сообществом для оценки качества экзамена:
- Индекс сложности задания (p-значение): Определяет общую сложность экзаменационного задания.
- Индекс сложности верхнего уровня (верхний 27%): Определяет, насколько сложными были экзаменационные задания для участников, набравших наибольшее количество баллов.
- Индекс более низкой сложности (более низкий 27%): Определяет, насколько сложными были экзаменационные задания для участников с наименьшими баллами.
- Индекс дискриминации: Обеспечивает сравнительный анализ верхних и нижних 27% испытуемых.
- Балл Коэффициент корреляции двух серий: Измеряет корреляцию между ответом экзаменуемого по определенному заданию и его результатами на экзамене в целом.
- Формула Кудера-Ричардсона 20 (KR-20): Оценивает общий экзамен на основе согласованности, успеваемости и сложности всех экзаменационных заданий.
Важно отметить, что точки психометрических данных не предназначены для самостоятельного использования в качестве индикаторов валидности экзамена. Эти статистические данные следует использовать вместе для определения контекста и в сочетании с целями программы для целостного понимания экзамена и его вопросов. При правильном использовании точки психометрических данных могут помочь администраторам и разработчикам тестов улучшить свои оценки следующими способами:
- Выявить вопросы, которые могут быть слишком сложными.
- Определите вопросы, которые могут быть недостаточно сложными.
- Избегайте случаев выбора более одного правильного ответа.
- Исключите экзаменационные задания, которые измеряют неверные результаты обучения.
- Повсеместно повысьте надежность (предварительное тестирование, альтернативная форма и внутренняя согласованность).
Использование наиболее надежных оценок дает преимущества каждому
Обеспечение правильности и надежности экзаменов является важнейшей задачей разработчиков тестов. Психометрические данные могут иметь большое значение между некорректным экзаменом, требующим проверки, и оценкой, которая дает точную картину того, усвоили ли студенты содержание курса и готовы ли они выполнять свою карьеру.
Источники:
The Graide Network: Важность валидности и надежности при оценивании в классе
Университет Северной Айовы: Изучение надежности при академической оценке
Журнал образования на основе компетенций: Повышение достоверности объективной оценки в высшем учебном заведении Образование: шаги по созданию лучшей в своем классе программы оценки на основе компетенций
ExamSoft: качество экзаменов с помощью психометрического анализа
Опубликовано: 28 апреля 2021 г.
Изменено: 29 апреля 2021 г.
Что такое валидность в Психология
- Методы исследования
- Валидность
Что такое валидность?
Автор: Dr.Saul McLeod, опубликовано в 2013 г.
В чем смысл валидности в исследованиях?
Концепция достоверности была сформулирована Келли (1927, стр. 14), который заявил, что тест действителен, если он измеряет то, что, по его утверждению, измеряется.
Например, тест на интеллект должен измерять интеллект, а не что-то еще (например, память).
Различают внутреннюю и внешнюю действительность. Эти типы валидности имеют отношение к оценке валидности исследовательского исследования / процедуры.
Что такое внутренняя и внешняя валидность в исследованиях?
Внутренняя валидность относится к тому, вызваны ли эффекты, наблюдаемые в исследовании, манипулированием независимой переменной, а не каким-либо другим фактором.
Другими словами, существует причинная связь между независимой и зависимой переменной.
Внутренняя достоверность может быть улучшена за счет контроля посторонних переменных, использования стандартизированных инструкций, противовеса и исключения характеристик спроса и эффектов исследователя.
Внешняя валидность — это степень, в которой результаты исследования могут быть обобщены для других условий (экологическая валидность), других людей (популяционная валидность) и с течением времени (историческая валидность).
Внешняя достоверность может быть улучшена путем постановки экспериментов в более естественные условия и использования случайной выборки для отбора участников.
Оценка валидности теста
Оценка валидности теста
Существуют две основные категории валидности, используемые для оценки валидности теста (т.е.е. анкета, интервью, IQ тест и др.): Содержание и критерий.
Что такое фактическая валидность в исследованиях?
Признание достоверности — это просто то, появляется ли тест (по номинальной стоимости) для измерения того, на что он претендует. Это наименее изощренная мера достоверности.
Тесты, цель которых ясна даже для наивных респондентов, имеют высокую достоверность. Соответственно, тесты, цель которых неясна, имеют низкую валидность (Nevo, 1985).
Прямое измерение валидности лица получают, когда людей просят оценить валидность теста, как им кажется. Этот оценщик может использовать шкалу Лайкерта для оценки достоверности лица. Например:
- тест очень подходит для данной цели
- тест очень подходит для этой цели;
- тест соответствует требованиям
- тест не соответствует требованиям
- тест не имеет отношения к делу и, следовательно, не подходит
Важно выбрать подходящих людей для оценки теста (например.г. анкета, интервью, IQ тест и т. д.). Например, люди, которые действительно проходят тест, будут иметь все возможности для оценки его достоверности.
Также люди, которые работают с тестом, могут высказать свое мнение (например, работодатели, администраторы университетов, работодатели). Наконец, исследователь может использовать представителей широкой общественности, интересующихся тестом (например, родителей испытуемых, политиков, учителей и т. Д.).
Внешняя валидность теста может считаться надежной конструкцией только в том случае, если между оценщиками существует разумный уровень согласия.
Следует отметить, что следует избегать использования термина «достоверность лица», когда оценка проводится «экспертом», поскольку достоверность содержимого является более подходящей.
Наличие фактической валидности не означает, что тест действительно измеряет то, что исследователь намеревается измерить, а только по мнению рейтеров, которые, по-видимому, делают это. Следовательно, это грубая и основная мера достоверности.
Элемент теста, такой как « Я недавно подумал о самоубийстве », имеет очевидную валидность по лицу как элемент, измеряющий суицидальные мысли, и может быть полезен при измерении симптомов депрессии.
Однако результаты тестов с явной валидностью заключаются в том, что они более уязвимы для предвзятости социальной желательности. Люди могут манипулировать своей реакцией, чтобы отрицать или скрывать проблемы, или преувеличивать свое поведение, чтобы представить себя в позитивном свете.
Элемент тестирования может не иметь лицевой валидности, но все же иметь общую валидность и измерять то, что, по его утверждению, измеряется. Это хорошо, поскольку снижает характеристики спроса и затрудняет манипулирование респондентами своими ответами.
Например, элемент теста « Я верю во Второе пришествие Христа » будет недействителен как мера депрессии (так как его цель неясна).
Этот элемент появился в первой версии Миннесотского многофазного опросника личности (MMPI) и загружен в шкалу депрессии.
Поскольку большинство первоначального нормативного образца MMPI были хорошими христианами, только христианин в депрессии мог подумать, что Христос не вернется. Таким образом, для данного конкретного религиозного образца пункт имеет общую действительность, но не является действительным.
Что такое конструктная валидность в исследованиях?
Конструктивная валидность была изобретена Корнболлом и Милом (1955). Этот тип валидности относится к степени, в которой тест захватывает конкретную теоретическую конструкцию или признак, и перекрывается с некоторыми другими аспектами валидности
Конструктивная валидность не касается простого фактического вопроса о том, измеряет ли тест атрибут .
Вместо этого речь идет о сложном вопросе о том, согласуются ли интерпретации результатов тестов с номологической сетью, включающей теоретические и наблюдательные термины (Cronbach & Meehl, 1955).
Для проверки достоверности конструкции необходимо продемонстрировать, что измеряемое явление действительно существует. Так, например, конструктивная валидность теста на интеллект зависит от модели или теории интеллекта.
Валидность конструкции влечет за собой демонстрацию силы такой конструкции для объяснения сети результатов исследований и прогнозирования дальнейших отношений.
Чем больше доказательств валидности конструкции теста сможет продемонстрировать исследователь, тем лучше.Однако не существует единого метода определения валидности конструкции теста.
Вместо этого различные методы и подходы объединяются, чтобы представить общую конструктивную валидность теста. Например, можно использовать факторный анализ и корреляционные методы.
Что такое одновременная валидность в исследованиях?
Это степень, в которой тест соответствует внешнему критерию, который известен одновременно (т. Е. Происходит одновременно).
Если новый тест подтвержден сравнением с существующим в настоящее время критерием, у нас есть одновременная валидность.
Очень часто новый IQ или личностный тест можно сравнить со старым, но похожим тестом, который, как известно, уже имеет хорошую валидность.
Что такое прогностическая достоверность в исследованиях?
Это степень, в которой тест точно предсказывает критерий, который будет выполняться в будущем.
Например, на основе нового теста интеллекта можно сделать прогноз, что люди с высокими показателями в возрасте 12 лет с большей вероятностью получат университетское образование через несколько лет.Если предсказание оправдывается, значит, тест имеет прогностическую достоверность.
Ссылки на стиль APA
Кронбах, Л. Дж., И Мил, П. Э. (1955) Конструирование валидности в психологических тестах. Психологический бюллетень , 52, 281-302.
Hathaway, S. R., & McKinley, J. C. (1943). Руководство по многофазной инвентаризации личности в Миннесоте . Нью-Йорк: Психологическая корпорация.
Келли, Т. Л. (1927). Интерпретация образовательных измерений.Нью-Йорк : Macmillan.
Нево, Б. (1985). Повторная проверка достоверности лица. Журнал образовательных измерений , 22 (4), 287-293.
Как сослаться на эту статью: Как сослаться на эту статью:
McLeod, S.A. (2013). Что такое срок действия? . Просто психология. https://www.simplypsychology.org/validity.html
сообщить об этом объявлении
Надежность и достоверность
Надежность и достоверностьИЗУЧЕНИЕ НАДЕЖНОСТИ В АКАДЕМИЧЕСКОЙ ОЦЕНКЕ
Авторы Колин Фелан и Джули Рен, помощники выпускников, UNI Office of Academic Assessment (2005-06)
Надежность — это степень, в которой инструмент оценки обеспечивает стабильную и стабильные результаты.
Виды надежности
- Надежность повторных испытаний мера надежности, полученная путем проведения одного и того же теста дважды в течение период времени для группы лиц. Результаты за время 1 и время 2 затем можно скоррелировать, чтобы оценить тест на стабильность по сравнению с время.
Пример: Тест, предназначенный для оценки успеваемости студентов по психологии, может быть группа студентов дважды, вторая администрация, возможно, придет через неделю после первого.Полученный коэффициент корреляции будет указывать на стабильность результатов.
- Надежность параллельных форм является мерой надежности, полученной путем администрирования различных версий инструмент оценки (обе версии должны содержать элементы, которые проверяют одинаковые конструкция, навыки, база знаний и т. д.) одной и той же группе лиц. Затем оценки двух версий можно сопоставить, чтобы оценить согласованность результатов в альтернативных версиях.
Пример: Если вы хотите оценить надежность оценки критического мышления, вы можете создать большой набор элементов, относящихся к критическому мышлению и затем случайным образом разделите вопросы на два набора, которые будут представлять параллельные формы.
- Надежность между экспертами — это мера надежности, используемая для оценки степени, в которой разные судьи или оценщики соглашаются в своих оценочных решениях.Межэкспертная надежность полезно, потому что наблюдатели не обязательно интерпретируют ответы на так же; оценщики могут не согласиться с тем, насколько хорошо те или иные ответы или материалы продемонстрировать знание оцениваемого конструкта или навыка.
Пример: Надежность между экспертами может использоваться, когда разные судьи оценка степени соответствия художественных портфелей определенным стандартам. Межэкспертная надежность особенно полезна, когда можно принимать во внимание суждения. относительно субъективно.Таким образом, использование этого типа надежности, вероятно, быть более вероятным при оценке художественных работ, чем при решении математических задач.
- Надежность внутренней согласованности это мера надежности, используемая для оценки степени, в которой разные элементы теста, исследующие одну и ту же конструкцию, дают аналогичные результаты.
- Среднее межпозиционное корреляция — это подтип надежности внутренней согласованности.это полученный путем взятия всех элементов теста, которые проверяют одно и то же построить (например, понимание прочитанного), определяя корреляцию коэффициент для каждой пары элементов, и, наконец, принимая среднее всех этих коэффициентов корреляции. Этот последний шаг дает среднюю корреляцию между пунктами.
- Надежность при разделении половин еще один подтип надежности внутренней согласованности.Процесс получение половинной надежности начинается с разделения пополам всех элементы теста, которые предназначены для исследования той же области знаний (например, Вторая мировая война), чтобы сформировать два набора предметов. Модель весь тест проводится группе лиц, всего вычисляется оценка для каждого набора, и, наконец, надежность разделения половин получается путем определения корреляции между двумя полными наборами оценки.
Срок действия относится к тому, насколько хорошо тест измеряет то, что он должен измерять.
Почему это необходимо?
Хотя надежность необходима, она сама по себе не достаточно. Чтобы тест был надежным, он также должен быть действительным. Для Например, если ваши весы отклонены от нормы на 5 фунтов, они будут считывать ваш вес каждый день с помощью превышение 5 фунтов. Весы надежны, потому что они неизменно показывают одно и то же. веса каждый день, но это недействительно, потому что оно добавляет 5 фунтов к вашему истинному весу. Это неверный показатель вашего веса.
Типы действия
Пример : Если мера искусства признательность создается, все предметы должны быть связаны с разными компоненты и виды искусства.Если вопросы касаются исторического времени периоды, без ссылки на какое-либо художественное движение, заинтересованные стороны не могут быть мотивированы приложить все усилия или инвестировать в эту меру, потому что они Не верю, что это истинная оценка художественной оценки.
2. Срок действия конструкции используется, чтобы гарантировать, что мера действительно измерять то, что он предназначен для измерения (т. е. конструкцию), а не другие переменные. Использование группы экспертов, знакомых с конструкцией, — это способ который может быть оценен этим типом достоверности.Эксперты могут осмотреть предметы и решить, что этот конкретный элемент предназначен для измерения. Студенты могут быть участвуют в этом процессе, чтобы получить их отзывы.
Пример : Женские исследования Программа может разрабатывать кумулятивную оценку обучения по основной специальности. Вопросы написаны со сложной формулировкой и формулировкой. Это может вызвать тест непреднамеренно становится тестом на понимание прочитанного, а не тест женских исследований. Важно, чтобы мера действительно оценивала предполагаемая конструкция, а не посторонний фактор.
3. Срок действия по критерию равен используется для прогнозирования будущих или текущих показателей — коррелирует результаты испытаний с еще один интересующий критерий.
Пример : Если физическая программа разработал меру для оценки совокупного обучения студентов по основной специальности. Новый показатель может быть соотнесен со стандартизированным показателем способностей в эта дисциплина, например полевой тест ETS или предметный тест GRE. Выше соотношение между установленной мерой и новой мерой, тем больше веры заинтересованные стороны могут иметь в новом инструменте оценки.
Пример : При разработке рубрики по истории можно было оценить знания студентов по дисциплине. Если мера может предоставить информацию о том, что учащимся не хватает знаний в определенных области, например Движение за гражданские права, тогда этот инструмент оценки предоставление значимой информации, которая может быть использована для улучшения курса или программные требования.
5. Срок действия выборки (аналогично достоверность содержания) гарантирует, что мера охватывает широкий диапазон областей в рамках исследуемой концепции.Не все можно покрыть, поэтому предметы необходимо быть отобранным со всех доменов. Возможно, это потребуется выполнить с помощью панели экспертов, чтобы обеспечить адекватную выборку из области содержания. Кроме того, панель может помочь ограничить предвзятость эксперта (т. Е. Тест, отражающий то, что человек лично считает, что это наиболее важные или актуальные области).
Пример : При проектировании оценка успеваемости на театральном факультете, недостаточно покрывают только вопросы, связанные с актерским мастерством.Другие области театра, такие как освещение, звук, должны быть включены все функции режиссеров. Оценка должен полностью отражать область содержимого.
- Убедитесь, что ваши цели и задачи четко определены и введены в действие. Ожидания студентов должны быть записано.
- Сопоставьте свою меру оценки с ваши цели и задачи. Кроме того, пусть тест будет рассмотрен преподавателями. в других школах, чтобы получить обратную связь от сторонней стороны, которая менее вложил в инструмент.
- Вовлекайте студентов; иметь учащиеся просматривают экзамен на предмет проблемных формулировок или других сложности.
- Если возможно, сравните свои измерения с другими показателями или данными, которые могут быть доступны.
Список литературы
Американские исследования в области образования Ассоциация, Американская психологическая ассоциация, &
Национальный Совет по измерениям в образовании. (1985). Стандарты образовательных и психологическое тестирование . Вашингтон, округ Колумбия: Авторы.
Cozby, P.C. (2001). Измерение Концепции. Методы поведенческих исследований (7 -е изд. ).
Калифорния: Издательская компания Мэйфилд.
Кронбах, Л. Дж. (1971). Проверка теста. В Р. Л. Торндайке (Ред.). Образовательный
Измерение (2-е изд.). Вашингтон, округ Колумбия: Американский совет по образованию.
Москаль, Б.М., Лейденс, Дж. А. (2000). Развитие рубрики скоринга: Срок действия и
надежность. Практическая оценка, исследования и оценка, 7 (10). [Доступно онлайн: http://pareonline.net/getvn.asp?v=7&n=10].
Центр усовершенствования Обучение.