Валидность это в педагогике: Валидность это

Содержание

Валидность | это… Что такое Валидность?

— качество метода психологического исследования, выражающееся в его соответствии тому, для изучения и оценки чего он изначально был предназначен.

* * *
(лат. validus — крепкий, здоровый) — надёжность в плане соответствия истине, действительности, правилам, нормам. Например, валидность теста есть его способность выявлять то, на что он расчитан. В области тестов и измерений разработано немалое число процедур оценки валидности инструментов тестирования. Например, валидность априорная (предварительная, интуитивная оценка содержательной валидности теста), валидность содержательная (степень соответствия формулировок теста той теории, на которой он основан), валидность выборки (вариация содержательной валидности, основана на оценке степени, в которое то, что измеряется, представлено в вопросах теста, валидность прогностическая (способность теста выявлять данные, позволяющие предсказать какие-либо последствия данного расстройства, например, суицида при депрессии).

И др.

* * *
одна из важнейших характеристик Психодиагностических методик и тестов, один из основных критериев их качества.

* * *

(от англ. valid – пригодный) – комплексная характеристика теста, включающая сведения об области исследуемых явлений и репрезентативности исследуемой по отношению к ней диагностической процедуры; один из основных критериев качества теста, понятие, указывающее нам, 1 – что тест измеряет и 2 – насколько хорошо он это делает.

· дифференциальная . (differential validiti) – один из компонентов прогностической валидности, отражающий способностью методики дифференцировать испытуемых по отдельным областям проявления исследуемых свойств.

· инкрементная . (incremental validiti) – один из компонентов прогностической валидности, отражающий практическую ценность методики при проведении отбора.

· конкурентная . (concurrent validiti) – характеристика теста, отражающая его способность различать испытуемых на основании диагностического признака, являющегося объектом исследования в данной методике; измеряется корреляцией результатов данного теста с измерениями при помощи других тестов, предназначенных для измерения той же самой переменной.

· конструктная . (construct validiti) – один из основных типов валидности, отражающий степень репрезентации исследуемого психологического конструкта в результатах теста; чем больше результаты теста соответствуют теоретической гипотезе о природе измеряемой переменной, тем выше конструктная валидность теста.

· очевидная . (face validiti) – представление о тесте, сфере его применения, результативности и прогностической ценности, которое возникает у испытуемого или другого лица, не располагающего специальными сведениями о характере использования и целях методики. Чем более тест выглядит измеряющим то, для измерения чего он предназначен, тем выше его очевидная валидность.

· прогностическая . (predictive validiti) – информация о тесте, характеризующая степень точности и обоснованности суждения о диагностируемом психологическом качестве по его результату спустя определенное время после измерения; чем лучше тест может прогнозировать критерий, тем выше его прогностическая валидность.

· содержательная . (content validiti) – один из основных типов валидности, характеризующий степень репрезентативности содержания заданий теста по отношению к измеряемой области психических свойств.

* * *

(от англ. valid – действительный, пригодный, действенный) – критерий качества конфликтологического исследования, степень соответствия его результатов целям, достоверность и глубина выводов. Различают два вида В.: внутреннюю и внешнюю. Внутренняя В. показывает, насколько удалось объективно, точно оценить именно то, что ставилось как цель исследования. Напр., конфликтологу необходимо сравнить частоту конфликтов в течение года в разных отделах организации.

Для этого он опрашивает сотрудников организации, задавая им вопрос: «Как часто в вашем коллективе происходили конфликты в течение последнего года?». Такое исследование обладает низкой внутренней В., т. к. оценивается не реальная частота конфликтов, а мнение сотрудников о ней. Внешняя В. показывает, насколько корректно распространять выводы, полученные в результате исследования, на др. ситуации, конфликты, т. е. насколько результаты будут справедливы вне рамок данного исследования. Напр., эмпирическое исследование показало, что 78 % конфликтов в офицерском коллективе происходит в звене «начальник-подчиненный». Методика изучения обеспечила высокую внутреннюю В. выводов. Однако внешняя В. этих результатов мала, т. к. отношения между офицерами строго регламентированы и распространение данного вывода на заводские, научные и т. п. коллективы неправомерно. При проведении эмпирического конфликтологического исследования необходимо обеспечивать максимально возможную В. на этапе его подготовки, контролировать В.

в процессе изучения, тщательно объяснять полученные данные и обосновывать выводы на завершающем этапе работы.

* * *
(от англ. valid — пригодный) — совпадение, мера соответствия результатов исследования объективным внешним критериям, соотнесение их с жизненными показателями. Количественная оценка В. осуществляется обычно с помощью коэффициента корреляции. В инженерной психологии понятие В. применяется для оценки качества измерения (В. измерения) или теста (В. теста). В. измерения — соответствие процедуры измерения тому, что должно быть измерено. Напр., В. методики регистрации кожногальванического рефлекса (КГР) как индикатора эмоционального возбуждения может быть оценена с помощью корреляции показателей КГР и субъективных оценок эмоционального состояния. В. теста — его адекватность и действенность, важнейший критерий его доброкачественности, характеризующий точность измерения оцениваемого свойства, а также то, что он должен оценивать. Чем валиднее тест, тем лучше отображается в нем то качество (свойство), ради измерения которого он создавался.

В. теста определяется корреляцией его результатов с другими критериями измеряемого свойства. Напр., В. теста способностей определяется корреляцией результатов по тесту с успешностью выполнения соответствующей деятельности. Понятие В. теста относится не только к тесту, но и к критерию его качества. Чем больше коэффициент корреляции теста с критерием, тем выше В. Развитие факторного анализа позволило создавать тесты, валидные по отношению к идентифицируемому фактору. Только проверенные на В. тесты могут использоваться в профориентации, профотборе, в научных исследованиях.

Проблема валидности тестов в традиционной и альтернативной педагогике.

Доказательная медицина ,начиная с 90-ых годов, уже развивается, но того же нельзя сказать о доказательной психотерапии и доказательной педагогике. У меня есть основания предполагать, что российский социум не сразу поймёт необходимость перехода на эти рельсы в силу большой попоболи значительного количества шарлатанов в сфере психотерапии, целительства и даже экспериментальной педагогики.
Что касается «доказательного маркетинга» или там «доказательной политэкономики», то на этом уровне она уже невозможна. Почему невозможно централизованно вычислить и применить некоторые экспериментально-доказательные принципы к экономике, не «тормозя» людей и не вредя им- хорошо описали Млодинов, Хаек и Талеб.
Степень фричества в экономической области определятся ,как в большинстве глубоко гуманитарных областей, скорее неочевидными сочетаниями отдельных частных воль в оценках текущих событий, имеющих рефлексивное воздействие на среду и зависимыми от опыта.

Проблема валидности теста существует как в психологии, так и в педагогике. Не всегда понятно,насколько олученный результат отражает степень овладения учащимся теми или иных наыками.

Вопрос,который мучает меня лично — это применимость и полезность игровых обучалок с имитационными интеракциями участников.

С одной стороны, такой академически подкованный автор, как Невеев, отрицает или сводит к иллюзорным плацебо-эффектам эффективность обучения практическим, познавательным и социальным навыкам через ролевую имитацию. Его позиция солидно подкрепляется матчастью по психологическим тренингам, только 10% участников которых обнаруживают в своей жизни предполагаемые тренингом улучшения.

Нет ли той же проблемы и в таких педагогиках, как гуманистическая педагогика, педагогика Вальдорфской школы, природосообразная педагогика, Бодхо-педагогика(«накопление фрагментов»), деятельностная педагогика Выготского, ТРИЗ-педагогика, (прямо охарактризованная в переписке со мной физиком vsounder, опытным и матёрым бойцом с фричеством и мракобесием, как лженаучная)?

С другой сторон, кривая эффективности запоминания показывает обратное — именно архаические техники ~~экстаза~~ запоминания и освоения информации через имитацию-подражение и мифопоэтические нарративы дают самую лучшую запоминаемость информации и закрепление её в долговременной памяти.

Кто же тут вернее? Правда ли,что «Притвориться — не значит,стать«(с.Невеев) или же,что «лучший способ стать — это именно притвориться«?

Вопрос глубоко непраздный, потому что от его решения в ту или иную сторону сильно зависит объективная и ресурсно-экономическая оценка деятельности целого ряда программ,имеющих прямое отношение к развитию человека. И это ещё самое малое.

Серьёзные последствия будут для значительной части разработок,связанных с т.н. «дизайном коммуникаций».

В педагогике валидность тестов определить не легче,чем в психологии. Мне, как рендистке-попперистке-адвайтистке(объективизм, критический рационализм,нон-дуализм субъект-объектный), кажется значимым фокусироваться в своих поисковых быстрых эвристиках в этом вопросе(а возможно,когда осилю Матчасть — и медленных) именно на критериальной валидности, которая ищет в тесте соответствия внешним онтологическим реалиям и имеет предсказательную ценность(то есть отражает вневременную, научно-постижимую, независимую и тождественную себе истину)

Педагоги ,конечно, с этим в своей практике профессионально столкнулись давно и пилят эту тему ответственно:

http://uss.dvfu.ru/static/kim_testing_monograph/src/glava_3_9.html
Высокая надежность теста это необходимое, но недостаточное условие получения высококачественного теста. Тест еще должен быть валидным. Валидность – это важнейшая характеристика теста, без указания которой, его нельзя считать измерительным инструментом.

Анализируя сложную ситуацию с валидностью педагогических тестов, Е.Михайлычев отмечает, что педагогу, заинтересовавшемуся валидностью, трудно будет разобраться в том, что же это такое.

Ниже мы приведем несколько определений валидности теста.

ВАЛИДНОСТЬ означает пригодность тестовых результатов для той цели, ради чего проводилось тестирование (В.Аванесов)17.

ВАЛИДНОСТЬ — это характеристика способности теста служить поставленной цели измерения (М.Челышкова).

ВАЛИДНОСТЬ — определяет, насколько тест отражает то, что он должен оценивать (А.Майоров).

Приведенные определения в целом перекликаются и являются практически равноценными. Мы несколько уточним определение, сделав акцент на цель тестирования. Тестирование как измерительная процедура, дает информацию, на основе которой в дальнейшем должно быть принято то или иное управленческое решение. Обоснованность этих решений, зачастую сильно влияющих на судьбу испытуемых, определяется надежностью и валидностью теста.

ВАЛИДНОСТЬ – это характеристика теста, отражающая его способность получать результаты, соответствующие поставленной цели и обосновывающая адекватность принимаемых решений.

После создания теста начинается процесс его валидизации. Приведем определение:

ВАЛИДИЗАЦИЯ – процесс накопления подтверждений для доказательства валидности теста19.

По нашему мнению ВАЛИДИЗАЦИЯ – это не столько сбор доказательств валидности теста, сколько процесс выполнения действий, повышающих его валидность. Вследствие этого будет расти и доказательная база валидности теста.

Выделяют три вида валидности – содержательную, критериальную и конструктную.

КОНСТРУКТНАЯ ВАЛИДНОСТЬ (концептуальная валидность) определяется в случаях, когда представление об измеряемом свойстве существует в форме абстрактного образа, модели. Для объяснения определенных качеств личности создается концептуальная модель, которая с помощью тестов подтверждается или опровергается.

КРИТЕРИАЛЬНАЯ ВАЛИДНОСТЬ (эмпирическая валидность) предполагает наличие внешнего критерия, корреляция с которым определяет валидность теста.

Имеется два вида критериальной валидности – текущая и прогностическая.

Текущая критериальная валидность (concurrent validity) характеризует способность теста измерять некоторые качества личности. Валидность теста подтверждается корреляцией с некоторым внешним критерием, существующим в данное время. Допустим, тест показал для некоторого испытуемого отличные знания по предмету, а школьные отметки, выставленные учителем – неудовлетворительные. Если мы в качестве внешнего, независимого и достоверного критерия выберем школьные отметки, то критериальная валидность теста – низкая, даже если он имеет высокую надежность.

Прогностическая критериальная валидность (predictive validity) характеризует способность теста предсказывать будущие качества, формирующихся в результате воздействия внешних обстоятельств или целенаправленной собственной деятельности. Этот тип валидности характеризует корреляцию результатов тестирования с внешним критерием, который появится в будущем.

СОДЕРЖАТЕЛЬНАЯ ВАЛИДНОСТЬ (content validity) характеризует тест по степени его соответствия предметной области.

Согласно А.Анастази, содержательная валидность означает систематическую проверку содержания теста, с тем чтобы установить, соответствует ли оно репрезентативной выборке измеряемой области поведения. Такая процедура валидизации обычно применяется для тестов достижений20.

Содержательная валидность необязятельно означает полноту отображения изучаемой дисциплины. Например, для нормативно-ориентированного теста, полнота охвата всех тем может быть меньше, чем для критериально-ориентированного. Здесь важнее глубина проработки отдельных подтем, вопросов. Это позволит с большей эффективность дифференцировать обучаемых. Под содержанием понимается не только совокупность фактов, понятий, терминов, но и умение применять имеющиеся знания, оценивать информацию, выполнять действия, соответствующие верхним уровням таксономии Блума.

Для обеспечения содержательной валидности необходим детальный анализ учебных программ, на основании чего составляется спецификация теста. Спецификация содержит перечень учебных тем, их важность, количество и тип тестовых заданий. Оценка содержательной валидности выполняется экспертом в данной предметной области.

Согласно П.Клайну содержательная валидность определяется следующим образом:

1) указать категорию лиц, для которой предназначен тест;
2) составить список знаний, умений, навыков, подлежащих тестированию;
3) выполнить внешнюю экспертизу полученного списка на предмет его полноты и обоснованности;
4) на основе списка составить перечень заданий;
5) выполнить внешнюю экспертизу полученных заданий;
6) после проверки преобразовать их в задания в тестовой форме. В дальнейшем, на этой основе создать тестовые задания, образующие тест, который будет содержательно валидным.

Проблема валидизации педагогического теста является, видимо, самой сложной в процедуре создания высококачественного измерительного инструмента.

Метки: истина, наука, обучение, общение, политика, социум, экономика

Особенности определения валидности педагогического теста — NovaInfo 36

Векслер В.А.
Саратовский государственный университет имени Н.Г. Чернышевского
кандидат наук,доцент
Рейдель Л.Б.
Приамурский государственный университет имени Шолом-Алейхема
кандидат наук,доцент

NovaInfo 36, скачать PDF
Опубликовано 30 сентября 2015
Раздел: Педагогические науки
Просмотров за месяц: 13
CC BY-NC

Аннотация

В статье рассматривается понятие валидности, ее виды, приводится вычислительный алгоритм проверки качества педагогического теста с помощью коэффициента валидности.

Ключевые слова

ВАЛИДНОСТЬ, ТЕСТОЛОГИЯ, ТЕСТИРОВАНИЕ, РЕЗУЛЬТАТ, ИСПЫТУЕМЫЙ, ДИДАКТИКА, ОЦЕНКА, ТЕСТ

Текст научной работы

Педагогический тест сегодня стал одним из наиболее распространенных инновационных педагогических инструментов контроля качества образовательного процесса. Так или иначе, в своей деятельности педагоги сталкиваются с необходимостью разработать педагогический тест. Созданный тест необходимо проверить на его качество. Одним из показателей качества теста является проверка его на валидность.

Понятие «валидность» произошло от анг. слова «valid», что в переводе означает «годный». Валидность — один из базовых показателей качества созданного теста, характеризует пригодность результатов полученных после тестирования именно для той цели, ради которой и проводилось само тестирование.

Аванесов В.С. в своей статье «Тесты: история и теория» пишет: «Валидность характеризует пригодность теста для измерения определенной величины, но нельзя говорить о валидности не указав его применения» [2]. Приведем пример для понимания смысла валидности. Два лучника стреляют по мишеням. Первый лучник набрал 70 очков, а второй 80 из 100. На первый взгляд кажется, что второй лучник лучше первого. Но при уточнении результатов оказалось, что второй лучник поразил чужую мишень. Поэтому, второй стрелок является «не валидным», он не может достигнуть цели, которая перед ним ставилась.

В научной работе Майорова А. «Теория и практика создания тестов для системы образования» говорится «Валидность — должна определять насколько тест может отражать то, что он должен оценивать» [6].

Валидизация теста, это ни что иное, как процесс накопления подтверждений для доказательства его валидности. В теории тестирования существует несколько классификаций валидности. Майоров А. выделяет три вида валидности: конструктная, критериальная и содержательная [6].

Конструктная валидность — определяется в тех случаях, когда представление об измеряемом свойстве существует в форме абстрактного образа. В критериальной или эмпирической валидности оценивается величина связи теста с независимыми критериями. Для оценки степени связи используются средства математической статистики (корреляция двух рядов значений: баллов по тесту и показателей по внешним параметрам). При этом можно выделить два подвида: текущая и прогностическая валидность. Текущая валидность рассматривает корреляцию с критерием существующим в настоящее время (например, тест по предмету сравнивается со школьными оценками). Прогностическая валидность определяется на основе сравнения результатов с критериями которые предположительно появятся в будущем (например, результаты прошлого года переносим на следующий год).

Содержательная валидность характеризует тест по степени его соответствия предметной области, глубина и проработка соответствия. Анна Анастази пишет «Содержательная валидность означает систематическую проверку содержания теста, с тем чтобы установить соответствует ли оно репрезентативной выборке измеряемой области» [4].

Согласно Клайну П., тест с высокой содержательной валидностью можно определить следующим образом [5]:

Указать категорию лиц, для которых предназначен тест;
Составить список знаний, умений и навыков, подлежащих тестированию;
Выполнить внешнюю экспертизу полученного списка на предмет его полноты и обоснованности;
На основе списка составить перечень заданий;
Выполнить внешнюю экспертизу составленных заданий;
На данной основе создать тестовые задания образующие тест, при этом тест будет содержательно валидным. {2} }{n-1}}
Интерпретация результатов:
если V принимает значение в диапазоне от 0,6 до 1 — валидность считается высокой,
если V принимает значение в диапазоне от 0,3 до 0,6 — валидность считается средней,
если V принимает значение меньшее 0,3– валидность считается низкой,
Рассмотрим пример расчета валидности теста.
Тест «Информационные процессы» должна выполнить группа студентов из 7 человек (в нашем примере мы рассмотрим небольшую группу, на практике рекомендуется проводить проверку теста на группе не менее 30 человек). Тест состоит из 10 заданий.
Экспертом, предварительно оцениваются результаты (экспертом может выступить преподаватель информационных технологий, хорошо знающий данную группу студентов, и имеющий возможность предсказать результата выполнения ими данного теста).
Результаты оценивания экспертов приведены в таблице 1.
Таблица 1. Результаты оценивания экспертов
Номер студента
1
2
3
4
5
6
7
Yi
5
10
3
4
7
6
9
Расчеты можно произвести в электронных таблицах Microsoft Excel используя встроенные функции для вычислений. n {(Y_{i}\cdot y_{i})} }{n}-\bar{Y}\cdot \bar{y}}{S_{Y}\cdot S_{y}}\cdot \frac{n}{n-1}\approx
\approx\frac{\frac{(5\cdot 4)+(10\cdot 9)+(3\cdot 3)+(4\cdot 3)+(7\cdot 8)+(6\cdot 6)+(9\cdot 9)}{7}-6,3\cdot 6}{2,6\cdot 2,7}\cdot\frac{7}{6}\approx 0,94
На основании расчетов можно сделать вывод о том, что валидность, рассмотренного в примере теста «Информационные процессы», высокая. На основании определенного показателя мы можем сказать. Что тест достигает своих результатов, а значит, разработчик теста справился со своим заданием — разработкой качественного теста по данной тематики. Заметим, что качество теста определяется не только показателем валидности, но и многими другими дополнительными показателями.
Таким образом, рассмотренный способ определения коэффициента валидности, является одним из доступных, для педагога, вариантом расчета и позволяет определить соответствие созданного теста поставленным педагогическим условиям.
Читайте также
Список литературы
1. Аванесов В. С. Основные понятия педагогической тестологии//Научные проблемы тестового контроля знаний: Тез. докл. участников школы-семинара. М., 2005.
2. Аванесов В.С. Тесты: история и теория // Управление школой, 1999, №12.
3. Аванесов В.С. Формы тестовых заданий: учебное пособие для учителей школ, лицеев, преподавателей вузов и колледжей. 2-е изд. перераб. и расширен. — М.: Центр тестирования, 2005. — 156 с.
4. Анастази А., Урбина С., Алексеев А.А. Психологическое тестирование — Санкт-Петербург, 2007. Сер. Мастера психологии (7-е международное издание).
5. Клайн П. Введение в психометрическое проектирование. Справочное руководство по конструированию тестов. –Киев: ПАН Лтд, 1994. -184 с.12.
6. Майоров А.Н. Теория и практика создания тестов для системы образования. – М.: «Интеллект-центр», 2001. -296 с.
7. Самылкина Н.Н. Современные средства оценивания результатов обучения: учебное пособие — М. :Бином. Лаборатория знаний, 2012. — 197 с.
Цитировать
Векслер, В.А. Особенности определения валидности педагогического теста / В.А. Векслер, Л.Б. Рейдель. — Текст : электронный // NovaInfo, 2015. — № 36. — URL: https://novainfo.ru/article/3845 (дата обращения: 07.10.2022).
Поделиться
Assessment Validity and Alignment
Набор советов и инструментов, предназначенных для облегчения перехода к онлайн-обучению.
11 августа 2021 г.
Под валидностью оценки понимается степень, в которой тест измеряет то, что он должен измерять. Стандарты для образовательного и психологического тестирования (2014 г.) определяют валидность как «степень, в которой фактические данные и теория подтверждают интерпретацию результатов тестов для предлагаемого использования тестов» (стр. 11). Это определение напоминает нам, что валидность — это больше, чем просто атрибуты теста; это также о том, что мы намерены делать с результатами.
- Если мы хотим определить, достигли ли наши учащиеся учебных целей нашего курса, мы рассматриваем достоверность содержания. Существует доказательство содержательной валидности , когда элементы теста хорошо согласованы с предметом и когнитивными уровнями (таксономия Блума) целей нашего курса и учебной деятельности.
- Если мы хотим определить, хорошо ли наши учащиеся справятся с внешним экзаменом, мы рассматриваем достоверность критерия. Доказательство валидности критерия подтверждается, когда оценки по обоим тестам сильно коррелируют.
- Если мы хотим определить, является ли наша оценка теоретически обоснованной, мы рассматриваем конструктивную достоверность . Существует доказательство валидности конструкции, когда результаты тестов, которые измеряют ненаблюдаемую конструкцию, сильно коррелируют с другими переменными, как и предсказывает наша теория.
Согласование является критически важным компонентом достоверности оценки. Мы также должны сделать это согласование явным образом известным нашим ученикам, чтобы способствовать их мотивации и развитию стратегий обучения. В конце концов, мы не можем по-настоящему оценить способности наших учеников, если их обучение не направлено должным образом. Давайте подробнее рассмотрим, как убедиться, что мы действительно измеряем то, что собираемся измерять, сопоставив наши оценки с нашими целями обучения и учебной деятельностью.
https://mediaspace.illinois.edu/media/t/1_42jk6gnf
Ссылка
Американская ассоциация исследований в области образования, Американская психологическая ассоциация и Национальный совет по измерению в образовании (ред.). (2014).
Стандарты педагогического и психологического тестирования . Американская ассоциация исследований в области образования. https://www.apa.org/science/programs/testing/standards
- Преподавание в разных модальностях
  - Основы хорошего преподавания
  - Участие студентов
  - Стратегии оценки
  - Дизайн курса
  - Студенческие ресурсы
Дополнительные советы по CITL
- Sitefinity.Blogs.Model.BlogPost»>
  02 сентября 2021 г.
- 26 августа 2021 г.
- 13 августа 2021 г.
- 13 августа 2021 г.
- 12 августа 2021 г.
- 12 августа 2021 г.
- 12 августа 2021 г.
- Sitefinity.Blogs.Model.BlogPost»>
  11 августа 2021 г.
- 11 августа 2021 г.
- 05 августа 2021 г.
- 20 ноября 2020 г.
- 15 сентября 2020 г.
- 15 сентября 2020 г.
- 15 сентября 2020 г.
- Sitefinity.Blogs.Model.BlogPost»>
  15 сентября 2020 г.
- 15 сентября 2020 г.
- 3 сентября 2020 г.
- 27 августа 2020 г.
- 25 августа 2020 г.
- 25 августа 2020 г.
Важность валидности и надежности при оценивании в классе – Marco Learning
Вспышка:
Один из следующих тестов надежен, но недостоверен, а другой – действителен, но ненадежен. Можете ли вы понять, что есть что?
1. Вы хотите измерить интеллект учащихся, поэтому просите их отжиматься как можно больше раз в день в течение недели.
2. Вы хотите измерить восприятие учащимися своего учителя с помощью опроса, но учитель раздает оценки сразу после выговора классу, чего она обычно не делает.
Продолжайте читать, чтобы узнать ответ и понять, почему это так важно.
Достоверность и надежность в образовании
Школы по всей стране начинают развиваться культура данных , которая представляет собой интеграцию данных в повседневную деятельность школы для достижения целей класса, школы и округа. Одной из самых больших трудностей, связанных с этой интеграцией, является определение того, какие данные обеспечат точное отражение этих целей.
Такие соображения особенно важны, когда цели школы не сформулированы в терминах, поддающихся сухому анализу; школьные цели часто описывают улучшение абстрактных понятий, таких как «школьный климат».
Школам, заинтересованным в создании культуры данных, рекомендуется разработать план, прежде чем отправляться собирать их. Сначала им нужно определить, какова их конечная цель и как выглядит достижение этой цели. Понимание определения успеха позволяет школе задавать целенаправленные вопросы, чтобы помочь измерить этот успех, на который можно ответить с помощью данных.
Например, если школа заинтересована в повышении уровня грамотности, можно задать один сфокусированный вопрос: Какие группы учащихся постоянно набирают более низкие баллы по стандартизированным тестам по английскому языку? Если школа заинтересована в создании сильной атмосферы инклюзивности, сфокусированный вопрос может звучать так: относятся ли учителя к разным типам учащихся неодинаково?
Эти сфокусированные вопросы аналогичны исследовательским вопросам, которые задают в академических областях, таких как психология, экономика и, что неудивительно, образование. Однако сам вопрос не всегда указывает, какой инструмент (например, стандартизированный тест, опрос учащихся и т. д.) является оптимальным.
Если используется неправильный инструмент, результаты могут быстро стать бессмысленными или не поддающимися интерпретации, что сделает их неадекватными для определения статуса школы или прогресса в достижении ее целей.
Различия между валидностью и надежностью
При создании вопроса для количественной оценки цели или при выборе инструмента данных для обеспечения результатов этого вопроса исследователи повсеместно соглашаются с тем, что две концепции имеют наибольшую важность.
Эти два понятия называются достоверностью и надежностью и относятся к качеству и точности инструментов данных.
ЧТО ТАКОЕ ДЕЙСТВИТЕЛЬНОСТЬ?
Действительность инструмента заключается в том, что инструмент измеряет то, что он намеревается измерить.
Валидность относится к связи между целью исследования и данными, которые исследователь выбирает для количественной оценки этой цели.
Например, представьте исследователя, который решает измерить интеллект выборки студентов. Некоторые меры, такие как физическая сила, не имеют естественной связи с интеллектом. Таким образом, тест на физическую силу, например, сколько отжиманий может сделать студент, был бы недействительным тестом на интеллект.
ЧТО ТАКОЕ НАДЕЖНОСТЬ?
Надежность , с другой стороны, вовсе не касается намерения, вместо этого он спрашивает , дает ли тест, используемый для сбора данных, точные результаты. В этом контексте точность определяется согласованностью (могут ли быть воспроизведены результаты).
Свойство незнание намерения позволяет инструменту быть одновременно надежным и недействительным.
Возвращаясь к примеру выше, если мы измерим количество отжиманий, которые одни и те же студенты могут делать каждый день в течение недели (что, следует отметить, недостаточно долго, чтобы значительно увеличить силу), и каждый человек делает примерно одинаковое количество отжиманий каждый день, тест надежен. Но очевидно, что надежность этих результатов еще не делает количество отжиманий на одного ученика действительным показателем интеллекта.
Поскольку надежность не касается фактической значимости данных для ответа на конкретный вопрос, достоверность обычно имеет приоритет над надежностью . Кроме того, школы часто оценивают два уровня валидности:
1. валидность самого вопроса исследования при количественном определении более крупной, как правило, более абстрактной цели
2. валидность инструмента, выбранного для ответа на вопрос исследования
См. диаграмму ниже например:
Хотя надежность может и не занимать центральное место, оба свойства важны при попытке достичь какой-либо цели с помощью данных. Так как же школы могут их реализовать? В исследованиях надежность и достоверность часто рассчитываются с помощью статистических программ. Тем не менее, даже для руководителей школ, у которых может не быть ресурсов для проведения надлежащего статистического анализа, понимание этих концепций по-прежнему позволит интуитивно изучить, как работают их инструменты данных, что даст им возможность сформулировать более точные оценки для достижения образовательных целей. . Итак, давайте погрузимся немного глубже.
Более глубокий взгляд на валидность
Самое основное определение валидности состоит в том, что инструмент действителен , если он измеряет то, что он предназначен для измерения . Легче понять это определение, глядя на примеры недействительности. Колин Фостер, эксперт по математическому образованию в Ноттингемском университете, приводит пример теста по чтению, предназначенного для измерения грамотности, который дается очень мелким шрифтом. Высокограмотный ученик с плохим зрением может провалить тест, потому что он физически не может прочитать предоставленные отрывки. Таким образом, такой тест не будет действительным показателем грамотности (хотя он может быть действительным показателем зрения). Такой пример подчеркивает тот факт, что валидность полностью зависит от цели теста. В более общем смысле, в исследовании со слабой валидностью «возможно, что кто-то провалит тестовую ситуацию, а не предполагаемый испытуемый». Валидность можно разделить на несколько различных категорий, некоторые из которых очень тесно связаны друг с другом. Мы обсудим несколько наиболее важных категорий в следующих параграфах.
Типы действия
ЧТО ТАКОЕ КОНСТРУКТИВНАЯ ДЕЙСТВИТЕЛЬНОСТЬ?
Конструктивная достоверность относится к общей идее о том, что реализация теории должна быть согласована с самой теорией . Если это звучит как более широкое определение валидности, то это потому, что конструктная валидность рассматривается исследователями как «объединяющая концепция валидности», которая охватывает другие формы, а не совершенно отдельный тип.
Не всегда цитируется в литературе, но, как пишут Дрю Вестен и Роберт Розенталь в книге «Количественная оценка валидности конструкта: две простые меры», валидность конструкта «лежит в основе любого исследования, в котором исследователи используют меру в качестве показателя. переменной, которая сама по себе не является наблюдаемой непосредственно».
Способность применять конкретные меры к абстрактным понятиям, очевидно, важна для исследователей, которые пытаются измерить такие понятия, как интеллект или доброта. Однако это также относится к школам, чьи цели и задачи (и, следовательно, то, что они намереваются измерять) часто описываются с использованием широких терминов, таких как «эффективное лидерство» или «сложное обучение».
Конструктивная валидность обеспечивает интерпретируемость результатов, тем самым прокладывая путь для эффективного и действенного принятия решений на основе данных руководителями школ.
ЧТО ТАКОЕ ДЕЙСТВИТЕЛЬНОСТЬ КРИТЕРИЯ?
Обоснованность критерия относится к корреляции между тестом и критерием, который уже принят в качестве действительной меры цели или вопроса . Если тест сильно коррелирует с другим допустимым критерием, более вероятно, что тест также является достоверным.
Валидность критерия, как правило, измеряется с помощью статистических вычислений коэффициентов корреляции, хотя возможно, что существующие исследования уже определили валидность конкретного теста, по которому школы хотят собрать данные.
ЧТО ТАКОЕ ДЕЙСТВИТЕЛЬНОСТЬ СОДЕРЖИМОГО?
Действительность содержимого относится к фактическому содержимому теста. Тест, действительный по содержанию, должен адекватно исследовать все аспекты, определяющие цель.
Достоверность содержания является не статистическим, а скорее качественным измерением. Например, стандартизированное оценивание по биологии для 9-го класса является действительным по содержанию, если оно охватывает все темы, изучаемые в стандартном курсе биологии для 9-го класса.
Уоррен Шиллингбург, специалист в области образования и помощник суперинтенданта, советует, чтобы при определении достоверности содержания «несколько учителей (и, по возможности, экспертов по содержанию) должны участвовать в оценке того, насколько хорошо тест представляет преподаваемый контент».
Хотя этот совет, безусловно, полезен для академических тестов, достоверность содержания имеет особое значение, когда цель является более абстрактной, поскольку компоненты этой цели более субъективны.
Инклюзивность школы, например, может определяться не только равным отношением ко всем студенческим группам, но и другими факторами, такими как равные возможности для участия во внеклассных мероприятиях.
Несмотря на свою сложность, качественная природа достоверности содержания делает ее особенно доступной мерой для всех руководителей школ, которую следует учитывать при создании инструментов данных.
ПРИМЕР ВАЛИДНОСТИ
Чтобы понять различные типы достоверности и их взаимодействие, рассмотрим пример государственных школ Балтимора, пытающихся измерить школьный климат.
Школьный климат — это широкое понятие, и его неосязаемый характер может затруднить определение достоверности тестов, которые пытаются его количественно определить. Государственные школы Балтимора нашли исследование Национального центра школьного климата (NCSC), в котором изложены пять критериев, которые способствуют общему здоровому школьному климату. Этими критериями являются безопасность, преподавание и обучение, межличностные отношения, окружающая среда и лидерство, которые в документе также определяются на практическом уровне.
Поскольку критерий NCSC был общепринятым в качестве достоверного показателя школьного климата, городские школы Балтимора стремились найти инструменты, которые «соответствуют областям и показателям, предложенным Национальным центром школьного климата». По сути, это вопрос о том, были ли инструменты, которые использовали городские школы Балтимора, валидными по критериям показателями школьного климата.
Городские школы Балтимора внедрили четыре инструмента данных, в основном опросы, для определения достоверных показателей школьного климата на основе этих критериев. Они обнаружили, что «каждый источник обращается к разным областям школьного климата с разным акцентом», подразумевая, что использование одного инструмента может не давать достоверных по содержанию результатов, но что использование всех четырех «может быть истолковано как дополнительные части одной и той же более широкой картины». ». Таким образом, иногда достоверность может быть достигнута за счет использования нескольких инструментов с разных точек зрения.
Более глубокий взгляд на надежность
ВИДЫ НАДЕЖНОСТИ
Надежность оценки относится к согласованности результатов. Самая основная интерпретация обычно ссылается на что-то, называемое надежностью повторных испытаний , которая характеризуется воспроизводимостью результатов. То есть, если группа учащихся сдает тест дважды, как результаты отдельных учащихся, так и взаимосвязь между результатами учащихся должны быть одинаковыми в разных тестах.
Однако есть еще два типа надежности: альтернативная форма и внутренняя согласованность. Альтернативная форма – это измерение того, как результаты тестов сравниваются по двум аналогичным оценкам, данным в течение короткого промежутка времени . Альтернативная форма также относится к согласованности как индивидуальных оценок, так и позиционных отношений. Внутренняя согласованность аналогична содержательной валидности и определяется как мера того, как фактическое содержание оценки работает вместе для оценки понимания концепции .
ОГРАНИЧЕНИЯ НАДЕЖНОСТИ
Три типа надежности работают вместе, чтобы произвести, согласно Шиллингбургу, «уверенность… в том, что полученный результат теста является хорошим представлением фактического знания ребенком содержания». Надежность важна при разработке оценок, потому что никакая оценка не может быть по-настоящему идеальной. Тест дает оценку «истинного» балла учащегося или балла, который учащийся получил бы, если бы ему дали идеальный тест; однако из-за несовершенного дизайна тесты редко, если вообще когда-либо, могут полностью зафиксировать этот результат. Таким образом, тесты должны быть надежными или максимально приближенными к истинному показателю.
Несовершенное тестирование — не единственная проблема надежности. Достоверность чувствительна к устойчивости посторонних влияний, например настроения учащегося. Посторонние влияния могут быть особенно опасны при сборе данных о восприятии или данных, которые измеряют восприятие школы учащимися, учителями и другими членами сообщества, что часто используется при измерении школьной культуры и климата.
Неконтролируемые изменения внешних факторов могут повлиять на то, как респондент воспринимает свое окружение, в результате чего надежный инструмент может показаться ненадежным. Например, если учащемуся или классу делают выговор в тот день, когда им дают опрос для оценки их учителя, оценка учителя может быть нехарактерно отрицательной. Тот же опрос, проведенный несколькими днями позже, может не дать таких же результатов. Однако большинство посторонних влияний, имеющих отношение к учащимся, как правило, возникают на индивидуальном уровне и, следовательно, не являются серьезной проблемой для надежности данных для более крупных выборок.
КАК ПОВЫСИТЬ НАДЕЖНОСТЬ
С другой стороны, посторонние воздействия, относящиеся к другим агентам в классе, могут повлиять на оценки всего класса.
Если оценщик чувствителен к внешним факторам, его оценки могут отражать эту чувствительность, что делает результаты ненадежными. Оценки, которые выходят за рамки однозначных ответов, налагают на оценщика ответственность за проверку согласованности своих результатов.
Частично эту изменчивость можно устранить за счет использования четких и конкретных критериев оценки оценки. Рубрики ограничивают возможность любого оценщика применять нормативные критерии к своей оценке, тем самым контролируя влияние предубеждений оценщика. Однако рубрики, как и тесты, являются несовершенными инструментами, и необходимо соблюдать осторожность, чтобы обеспечить надежные результаты.
Как обеспечить надежность? Измерение надежности оценок часто осуществляется с помощью статистических вычислений.
Все три измерения надежности, рассмотренные выше, имеют связанные коэффициенты, которые рассчитываются стандартными статистическими пакетами. Однако школы, не имеющие доступа к таким инструментам, не должны просто отбрасывать осторожность и отказываться от этих концепций, когда думают о данных.
Schillingburg сообщает , что на уровне класса преподаватели могут поддерживать надежность посредством:
- Составления четких инструкций для каждого задания
- Написание вопросов, отражающих пройденный материал
- Получение отзывов относительно ясности и тщательности оценки учащихся и коллег.
При такой тщательности средний тест, данный в классе, будет достоверным. Более того, если возникают какие-либо ошибки в надежности, Шиллингбург уверяет, что решения на уровне класса, принятые на основе ненадежных данных, как правило, обратимы, т.е. оценки, признанные ненадежными, могут быть переписаны на основе полученных отзывов.
Однако надежность или ее отсутствие могут создать проблемы для крупномасштабных проектов, так как результаты этих оценок обычно формируют основу для решений, внедрение или отмена которых может дорого обойтись школе или школьному округу.
Заключение
Валидность и надежность являются значимыми измерениями, которые следует принимать во внимание при попытке оценить состояние или прогресс в достижении какой-либо цели округа, школы или класса.
Если невозможно провести точные статистические измерения этих свойств, преподаватели должны попытаться оценить достоверность и надежность данных с помощью интуиции, предыдущих исследований и сотрудничества, насколько это возможно.
Понимание валидности и надежности позволяет преподавателям принимать решения, которые улучшают жизнь их учащихся как в академическом, так и в социальном плане, поскольку эти концепции учат педагогов тому, как количественно определять абстрактные цели, поставленные их школой или округом.
Чтобы узнать больше о том, как Marco Learning может помочь вашей школе достичь поставленных целей, посетите нашу информационную страницу здесь.
Построение показателей валидности и надежности оценок по шкале педагогической неудовлетворенности учителей естественных наук (STPD)
Построить показатели валидности и надежности оценок по шкале педагогической неудовлетворенности учителей естественных наук (STPD)
Полный текст (PDF)
Murat Kahveci ¹ ² ^* , Ajda Kahveci ¹ ² , Nasser Mansour ² ³ ⁴ , Maher Mohammed Alarfaj ² ⁵
More Detail
¹ Университет Чанаккале Онсекиз Март, Факультет естественных наук и математики в средних и средних школах, Чанаккале, Турция
² Университет короля Сауда, Научно-исследовательский центр научно-математического образования, Эр-Рияд, Саудовская Аравия
³ Эксетерский университет, Высшая педагогическая школа, Эксетер, Соединенное Королевство
⁴ Университет Танта, Танта, Египет
⁵ Университет короля Фейсала, Аль-Ахса, Саудовская Аравия
^*
Ответственный автор
24
24 Исходная информация:
Шкала педагогического недовольства учителей естественных наук (STPD) ранее была разработана в США и используется с 2006 года. По мнению отдельных учителей, шкала глубоко укоренилась в культурных и национальных стандартах. Учитывая эти ограничения, достоверность измерения его оценок еще не была окончательно установлена на международном уровне, например, в контексте Саудовской Аравии.
Материалы и методы:
Пункты шкалы немного адаптированы, чтобы сделать инструмент подходящим для конкретного контекста, например, в отношении национальных правил, реформ и повседневной практики учителей естественных наук и их инициатив по профессиональному развитию. .
Результаты:
В настоящем отчете исследуются описательная статистика на основе элементов, факторная структура меры в отличие от ее прежних исследований достоверности и оценки надежности на основе факторов.
Выводы:
Таким образом, это исследование расширяет критерии валидности и надежности инструмента до международного масштаба и дополнительно подтверждает его пригодность для измерения отношения учителей к исследовательским инициативам в области естественнонаучного образования.
Ключевые слова
- факторный анализ
- учителей естественных наук
- педагогическое недовольство
- действительность конструкции
- межкультурная проверка
Лицензия
Это статья в открытом доступе, распространяемая в соответствии с лицензией Creative Commons Attribution License, которая разрешает неограниченное использование, распространение и воспроизведение на любом носителе при условии правильного цитирования оригинальной работы.
Тип статьи: Исследовательская статья
https://doi. org/10.12973/eurasia.2015.1417a
ЕВРАЗИЯ J Math Sci Tech Ed, 2016 — Том 12, выпуск 3, стр. 549-558
Дата публикации: 01 июля 2016
Просмотров статей: 1268
Скачиваний статей: 1723
Открытый доступ использованная литература Как цитировать эту статью
APA
Кахвечи, М., Кахвечи, А., Мансур, Н., и Аларфадж, М. М. (2016). Построить показатели валидности и надежности оценок по шкале педагогической неудовлетворенности учителей естественных наук (STPD). Eurasia Journal of Mathematics, Science and Technology Education, 12 (3), 549-558. https://doi.org/10.12973/eurasia.2015.1417a
Ванкувер
Кахвечи М. , Кахвечи А., Мансур Н., Аларфай М.М. Построить показатели валидности и надежности оценок по шкале педагогической неудовлетворенности учителей естественных наук (STPD). ЕВРАЗИЯ J Math Sci Tech Ed. 2016;12(3):549-58. https://doi.org/10.12973/eurasia.2015.1417a
AMA
Кахвечи М., Кахвечи А., Мансур Н., Аларфадж М.М. Построить показатели валидности и надежности оценок по шкале педагогической неудовлетворенности учителей естественных наук (STPD). ЕВРАЗИЯ J Math Sci Tech Ed 905:00 . 2016;12(3), 549-558. https://doi.org/10.12973/eurasia.2015.1417a
Чикаго
Кахвечи, Мурат, Ажда Кахвечи, Насер Мансур и Махер Мохаммед Аларфадж. «Построить показатели достоверности и надежности оценок по шкале педагогического недовольства учителей естественных наук (STPD)». Евразийский журнал математики, науки и технологий образования 2016 12 вып. 3 (2016): 549-558. https://doi.org/10.12973/eurasia.2015.1417a
Гарвард
Кахвечи, М., Кахвечи, А., Мансур, Н.