Валидность что это: Недопустимое название — Викисловарь

Содержание

Валидный — что это такое? Определение, значение, перевод

Валидный (ударение на «и») означает «действительный, подходящий». Алглийское слово «valid» именно так и переводится. Что может быть «валидным»? Например, SSL-сертификат является валидным, то есть действительным, только тогда, когда он выдан уполномоченным сертификационным центром для данного конкретного домена, а его срок годности ещё не истёк.

Программисты часто используют слово «валидный» применительно к параметрам функций. Если функция, к примеру, вычисляет квадратный корень, то валидным параметром для неё является только неотрицательное число, а слово «привет» или число -5.125, полученное этой функцией, может привести к фатальному сбою в программе, поэтому в каждой подобной функции должна быть проверка полученного параметра на валидность, то есть на соответствие определённым условиям.

Вы узнали, откуда произошло слово Валидный, его объяснение простыми словами, перевод, происхождение и смысл.
Пожалуйста, поделитесь ссылкой «Что такое Валидный?» с друзьями:

И не забудьте подписаться на самый интересный паблик ВКонтакте!

Что такое валидность исследования и зачем это нужно?

Содержание статьи

Валидность исследования – это соответствие экспериментальной базы, выбранной автором работы, общепринятым стандартам, позволяющим добиться безупречного результата в поиске решения поставленной проблемы. Соответствие результатов экспериментов поставленной цели исследования определяется степенью валидности.

Что характеризует валидность показателя в исследовании

При проведении исследований важно добиться результата, максимально соответствующего безупречному эксперименту. Если полученный итог практической работы вплотную приближен к соответствию с установленными научными стандартами, он имеет высокие показатели валидности.

Существует две категории валидности – это внутренняя и внешняя.

Внутренняя валидность является показателем, отражающим достоверность выводов, полученных после проведения ряда реальных экспериментальных исследований в сравнении с результатами «идеальных» экспериментов, применимых для той же научной отрасли. Является основным требованием, выдвигаемым к результатам экспериментов.

Внешняя валидность – это достоверность полученных результатов исследования по сравнению с итогами экспериментов, направленных на полное соответствие «безупречному» результату. Увеличить внешнюю валидность поможет введение дополнительных переменных с достижением экспериментального уровня, соответствующего реальному уровню аналогичных переменных в изучаемой научной отрасли.

Эксперимент, не обладающий характеристиками внешней валидности, является неверным, но в некоторых ситуациях может использоваться для проверки иных гипотез для научных отраслей, смежных с исследуемой областью знаний.

Угрозы для внутренней, внешней валидности

Основные факторы, влияющие на показатели внутренней валидности:

фоновые события, препятствующие проведению экспериментов;
естественные временные изменения, присущие объекту/предмету исследования;

неправильно подобранная методология исследования;
нестабильные результаты из-за высокого уровня погрешности выбранного инструментария;
взаимодействие нескольких факторов, непосредственно влияющих на внутреннюю валидность;
субъективные предубеждения экспериментатора (нежелание принимать во внимание детали, неправильный учет полученных результатов, неточность/невнимательность и т.д.).

Какие угрозы снижают уровень внешней валидности?

Взаимодействие некачественного отбора материалов исследования и подбора методологической базы к ним.
Реактивный эффект, как изменение восприимчивости предмета исследования после проведения предварительного тестирования.
Взаимная интерференция, возникающая после одновременного воздействия несколькими методами исследования на один объект.

Валидность и надежность экспериментальных методов

Надежность экспериментальных методов, проведенных автором, подтверждает истинность полученных результатов. Валидность отображает степень соответствия итогов исследования к изучаемому явлению выбранной научной отрасли.

Любое валидное исследование по умолчанию является надежным, но надежное исследование не всегда является валидным.

Надежность, как устойчивая составляющая достоверного эксперимента

Надежность (воспроизводимость, устойчивость результатов эксперимента) – это возможность воспроизведения полученных результатов исследования в аналогичных реальных условиях при корреляции начальных/конечных измерений.

От чего зависит надежность проводимых экспериментов?

Минимальная погрешность подобранного инструментария.
Отсутствие неконтролируемой вариативности выбранной методологии исследования.
Объективность исследователя.

Основная характеристика надежности – это получение одинаковых результатов при многократном проведении аналогичных экспериментов. Если все условия соблюдены правильно, методология исследования вызывает доверие.

Принципы взаимодействия валидности и надежности при выборе методов исследования

Принципы взаимодействия надежности с валидностью основываются на трех основных методах установки надежности выбранной методологической базы.

Метод повторяющегося эксперимента. Суть метода – это неоднократное проведение тех же самых экспериментов одинаковыми приборами и сопоставление итоговых результатов исследования в отношении рассматриваемого объекта/явления/события.
Метод альтернативной формы. Может выполняться в двух интерпретациях: один эксперимент применяется к нескольким группам объектов, комбинация экспериментов применяется к одному явлению.
Метод подвыборки. Для проведения комплексного исследования, один или несколько объектов группируются в отдельные выборки с аналогичными свойствами, характеристиками.

Валидность в психологических исследованиях

Причинно-следственная связь, предшествующая эффекту от эксперимента по времени, позволяет объективно обобщить полученные выводы и принудить экспериментатора на дополнительную проработку методологической базы.

Если у экспериментатора нет альтернативных объяснений появления определенных результатов исследования, это свидетельствует о внутренней валидности проведенного эксперимента. В ряде случаев, это утверждение применимо к выявлению внешней или конструктивной валидности.

Статистическая связанность причинно-следственной связи с полученным эффектом от тестирования испытуемых, проявляющаяся при многократном повторе выбранной методологии исследования, говорит о корректности используемых методов и подтверждает наличие валидности статистического вывода.

Валидность в психологических исследованиях повышается тремя основными способами:

предварительное планирование методологической базы;
выбор схемы дальнейшей работы над отсортированными объектами по категориям;

проведение экспериментов над контрольной группой испытуемых.

Экзаменационные вопросы по дисциплине «психодиагностика»

Другим ключевым критерием оценки качества методик является валидность.Вопрос о валидности методик решается лишь после того, как установлена достаточная еенадежность, поскольку ненадежная методика без знания ее валидности являетсяпрактически бесполезной. Вопрос о валидности представляется одним из самых сложных. Наиболееукоренившимся определением этого понятия является то, которое приведено в книге А.Анастази: “Валидность теста – понятие, указывающее нам, что тест измеряет и насколькохорошо он это делает” (1982. С. 126). Валидность – это комплексная характеристика,включающая, с одной стороны, сведения о том, пригодна ли методика для измерения того,для чего она была создана, а с другой стороны, какова ее действенность, эффективность.Не существует какого-то единого универсального подхода к определению валидности. Взависимости от того, какую сторону валидности хочет рассмотреть исследователь,используются и разные способы доказательства. Другими словами, понятие валидностивключает в себя разные ее виды, имеющие свой особый смысл. Проверка валидностиметодики называется валидизацией. Валидность в первом ее понимании имеет отношение к самой методике, т.е. этовалидность измерительного инструмента. Такая проверка называется теоретическойвалидизацией. Валидность во втором понимании уже относится не столько к методике,сколько к цели ее использования. Это прагматическая валидизация. При теоретической валидизации исследователя интересует само свойство,измеряемое методикой, т.е. проводится психологическая валидизация. Припрагматической валидизации суть предмета измерения (психологического свойства)оказывается вне поля зрения. Главный акцент сделан на то, чтобы доказать, что “нечто”,измеряемое методикой, имеет связь с определенными областями практики.Существует несколько видов валидности, обусловленных особенностямидиагностических методик, а также временным статусом внешнего критерия. Во многихработах (А. Анастази, 1982; Л.Ф. Бурлачук, С.М. Морозов, 1989; К.М. Гуревич, 1970; Б.В.Кулагин, 1984; В. Черны, 1983; “Общая психодиагностика”, 1987 и др.) называются чащевсего следующие: 1. Валидность “по содержанию”. Этот прием используется в основном в тестахдостижений. Обычно в тесты достижений включается не весь материал, который прошлиучащиеся, а какая-то его небольшая часть (3–4 вопроса). Можно ли быть уверенным в том,что правильные ответы на эти немногие вопросы свидетельствуют об усвоении всегоматериала? На это и должна ответить проверка валидности по содержанию. Для этогопроводится сопоставление успешности по тесту с экспертными оценками учителей (поданному материалу). Валидность “по содержанию” также подходит к критериально-ориентированным тестам. Иногда этот прием называют логической валидностью. 2. Валидность “по одновременности”, или текущая валидность, определяется спомощью внешнего критерия, по которому информация собирается одновременно сэкспериментами по проверяемой методике. Другими словами, собираются данные,относящиеся к настоящему времени: успеваемость в период испытания,производительность в этот же период и т.д. С ним коррелируют результаты успешностипо тесту. 3. “Предсказывающая” валидность (другое название – “прогностическая”валидность). Определяется также по достаточно надежному внешнему критерию, ноинформация по нему собирается некоторое время спустя после испытания. Внешнимкритерием обычно бывает выраженная в каких-нибудь оценках способность человека ктому виду деятельности, для которой он отбирался по результатам диагностическихиспытаний. Хотя этот прием наиболее соответствует задаче диагностических методик –предсказанию будущей успешности, применять его очень трудно. Точность прогнозанаходится в обратной зависимости от времени, заданного для такого прогнозирования.Чем больше проходит времени после измерения, тем большее количество факторовтребуется учитывать при оценке прогностической значимости методики. Однако учестьвсе факторы, влияющие на предсказание, практически невозможно. 4. “Ретроспективная” валидность. Она определяется на основе критерия,отражающего события или состояние качества в прошлом. Может быть использована длябыстрого получения сведений о предсказательных возможностях методики. Так, дляпроверки того, в какой мере хорошие результаты теста способностей соответствуютбыстрому обучению, можно сопоставить прошлые оценки успеваемости, прошлыеэкспертные заключения и т.д. у лиц с высокими и низкими на данный моментдиагностическими показателями. Для вычисления количественного показателя – коэффициента валидности –сопоставляются результаты, полученные при применении диагностической методики, сданными, полученными по внешнему критерию, тех же лиц. Используются разные видылинейной корреляции (по Спирмену, по Пирсону).

Поможем написать любую работу на аналогичную тему

Получить выполненную работу или консультацию специалиста по вашему учебному проекту

Узнать стоимость

Что такое валидация и валидность и зачем они нужны?

В последнее время я получила несколько вопросов от пользователей, касающихся валидности моих тем и валидации вообще. В этом посте хочу ответить на них.

Что такое валидность?

Считается, что валидность кода — это единая, универсальная характеристика любого кода.
На самом деле, валидность это соответствие html кода документа определенному своду правил, указанному в доктайпе или подразумеваемому в HTML5.
То есть, валидность — понятие относительное, поскольку правила бывают разные, и требования у них тоже.
Чтобы было понятнее, приведу пример, который я нашла на сайте css-live.ru:

К строительству жилых домов и атомных электростанций применяются разные СНиПы (строительные нормы и правила), поэтому документ, валидный по одному своду правил, может быть не валидным по другому (хороша была бы АЭС, построенная по нормативам жилого дома!).

Доктайп обычно указывает на документ, по которому планируется валидация html, но может быть выбран из прагматических соображений для выбора оптимального режима браузеров.
XHTML5 может вообще не иметь доктайпа, но быть валидным.

Валидация — что это?

Простыми словами, валидация — это процесс проверки кода и приведения его в соответствие с выбранным доктайпом (DTD).

Как проверяется валидность?

Валидность HTML кода проверяется инструментом, который называется валидатором.
Самый известный валидатор w3c — https://www.w3.org.
Валидатор w3c производит несколько проверок кода.
Главные из них:

Проверка на наличие синтаксических ошибок:
Пример c habrahabr.ru/post/101985:
<foo bar=»baz»> является корректным синтаксисом, несмотря на то, что <foo> является недопустимым HTML-тэгом
Так что проверка синтаксиса является минимально полезной для написания хорошего HTML-кода.
Проверка вложенности тэгов:
В HTML документе тэги должны быть закрыты в обратном порядке относительно их открытия. Эта проверка выявляет незакрытые или неправильно закрытые теги.
Валидация html согласно DTD:
Проверка того, насколько код соответствует указанному DTD — Document Type Definition (доктайпу). Она включает проверку названий тэгов, атрибутов, и «встраивания» тэгов (тэги одного типа внутри тэгов другого типа).
Проверка на наличие посторонних элементов:
Она обнаружит все, что есть в коде, но отсутствует в доктайпе.
Например, пользовательские тэги и атрибуты.

Для проверки валидности CSS кода существует валидатор css — http://jigsaw.w3.org/css-validator.
Валидность кода — это результат механической проверки на отсутствие формальных ОВ, согласно указанного свода правил.
Нужно понимать, что валидация — инструмент, а не самоценность.
Верстальщики с опытом обычно знают, где можно нарушить правила валидации HTML или CSS, а где нет, и чем грозит (или не грозит) та или иная ошибка валидации.
Примеры того, когда не валидный код делает сайт:

более удобным и быстрым — пользовательские атрибуты для Javascrip/AJAX или
SЕО оптимизированным — разметка ARIA.

Понятно, что в валидности ради валидности нет никакого смысла.
Как правило, опытные верстальщики придерживаются следующих правил:
— В коде не должно быть грубых ошибок.
— Незначительные можно допустить, но только по обоснованным причинам.
В отношении допустимости ошибок валидации html/CSS:

Ошибки валидации (ОВ) можно разделить на группы:

ОВ в файлах шаблона:
Их не сложно найти и исправить.
Если, какие то из мелких ошибок помогают сделать сайт более функциональным или быстрым, их можно оставить.
ОВ в сторонних скриптах, подключенных на сайте:
Например, виджет Вконтакте, скрипт Твиттера или видео-файлы с ютуб.
Исправить их никак не удастся, поскольку эти файлы и скрипты находятся на других сайтах и у нас нет к ним доступа.
CSS-правила, которые валидатор не понимает:
Валидатор проверяет соответствие кода сайта определенной версии HTML или CSS.
Если вы использовали в шаблоне правила CSS версии 3, а валидатор проверяет на соответствие версии 2.1, то все правила CSS3 он будет считать ошибками, хотя они таковыми не являются.
ОВ, которые поневоле приходится оставлять на сайте, чтобы получить нужный результат. Например:
- теги noindex. Они не валидны, но очень нужны и с этим приходится мириться.
- хаки. Чтобы получить корректное отображение сайта в некоторых браузерах, иногда, приходится использовать хаки — код, который понимает только определенный браузер.
Ошибки самого валидатора.
Часто он не видит каких то тегов (например, закрывающих) и сообщает об ОВ там, где ее нет.

Получается, что на работающем сайте практически всегда будут какие-то ОВ.
Причем, их может быть очень много.
Например, главные страницы Google , Яндекса и mail.ru содержат по несколько десятков ошибок.
Но, они не ломают отображение сайтов в браузерах и не мешают им работать.
Все написанное выше относится и к моим темам.

В сложных темах есть:

WordPress функции (например the_category()), которые дают невалидный код.
Вывод видео с видеохостингов, например, с YouTube, а в коде YouTube очень много ОВ, на которые ни вы, ни я не можем влиять.
Кнопки социальных сетей, которые подключаются при помощи скриптов этих сетей и содержат ОВ.
Правила CSS3 и HTML5, которые валидаторы старых версий считают ошибками.
В то же время, валидаторы версий CSS3 и HTML5 считают ошибками старые правила :).
Иногда, чтобы добиться корректного отображения в браузере Internet Explorer или старых версиях других браузеров приходится использовать, так называемые хаки — код, который понимает только определенный браузер, чтобы написать правила отображения сайта именно для этого браузера.

В итоге получить полностью валидный код можно только при верстке очень простых тем, т.е. тем, которые содержат минимальное количество функционала.
После окончания верстки любой своей темы я всегда проверяю ее валидатором и исправляю все ОВ, которые можно исправить без потери работоспособности темы.
Т.е., если стоит выбор между работающим функционалом и валидностью — я выбираю функционал.
Если вы верстаете свои темы, советую поступать так же.
С моей точки зрения (а также, точки зрения большинства верстальщиков) отношение к валидации html/CSS, как к истине в последней инстанции ошибочно. В обязательном порядке нужно исправлять только те ОВ, которые:
— мешают браузеру корректно отобразить страницу (незакрытые и неправильно вложенные теги).
— замедляют загрузку страницы (неправильно подключенные скрипты).
— можно исправить, не нарушая работоспособность темы.
Надеюсь, я ответила на все вопросы о валидации.

Что нужно знать о валидности заказчику оценки — FORMATTA

На осенней конференции «Оценка персонала» журнала «Штат» генеральный директор Formatta Евгений Куприянов выступал с докладом о валидности оценки. Мы публикуем текст его выступления. Это не научный доклад, а статья-обзор для заказчиков оценки: на простых и понятных примерах вы узнаете, что такое валидность и при каком показателе валидности оценка экономически оправдана.

Тема валидности становится всё популярнее в HR-сообществе. В 90-е, когда российские компании только начинали привлекать оценку персонала для решения бизнес-задач, акцент делали на разработке инструментов и методов, а их валидность интересовала далеко не всех заказчиков. Затем стало модно говорить о валидности, и многие провайдеры, пользуясь тем, что заказчики недостаточно разбирались в теме, предъявляли мифические 0,95 как показатель валидности своих инструментов.
Сегодня мы наблюдаем другую тенденцию: академический подход к измерению валидности проник в бизнес. Всё меньше компаний доверяют мифическим показателям и всё чаще требуют от провайдера результатов исследования валидности оценочного инструмента.

Какие значения может принимать валидность

Валидность — это коэффициент корреляции между результатами оценки и независимым критерием: мы выбираем внешний критерий и смотрим,
насколько результаты оценки ему соответствуют и насколько мы можем доверять прогнозу, который делаем по итогам оценки.

Этот коэффициент принимает значения от минус единицы до единицы. Чем выше валидность, тем выше точность прогноза. Если валидность равна нулю, значит, взаимосвязи между результатами оценки и выбранным критерием нет: количество ошибок и точных прогнозов примерно одинаково. Бывает отрицательная валидность: в этом случае прогноз по итогам оценки будет оправдываться «наоборот».

Валидность бывает нескольких видов — это зависит от внешнего критерия,
с которым сравнивают результаты проведённой оценки. Остановимся подробнее на каждом виде валидности и критериях её измерения.

Виды валидности и критерии

для её измерения

Конструктная валидность — внешним критерием становятся результаты другого инструмента оценки, который измеряет те же характеристики. К примеру, мы хотим измерить конструктную валидность мотивационного опросника: находим инструмент, которые оценивает те же факторы мотивации, и сравниваем результаты двух инструментов. Конструктная валидность показывает, насколько они соотносятся между собой.

Конкурентная валидность — сравниваем результаты оценки выбранного инструмента с показателями текущей или прошлой эффективности. Это может быть балл в системе performance management, результаты обучения, показатели продаж, коэффициент удовлетворённости клиента сервисом.

Прогностическая валидность показывает, насколько соотносятся результаты оценки и показатели будущей эффективности сотрудника. Это самые интересные для компании данные: они говорят, насколько себя оправдает прогноз по результатам оценки. Но прогностическую валидность труднее всего измерить
из-за ограничения выборки. К примеру, мы оценили 100 продавцов, у 15 из них показатели продаж оказались низкие, скорее всего, мы не сможем оценить их в следующем цикле: их уволят.

Инкрементная валидность — сравниваем, насколько повысилась корреляция
при добавлении нового инструмента в уже существующую оценочную процедуру.

Провайдеры, как правило, считают валидность так, как им удобно и выгодно.
Если из всех видов валидности инструмента самые высокие показатели у конструктной, в маркетинговых материалах укажут именно эту цифру.
Поэтому всегда уточняйте, о каком виде валидности говорит провайдер,
когда приводит показатель валидности.

Что означают показатели валидности на практике

На практике почти не встречается валидность выше 0,7. Если провайдер заявляет
эту цифру, уточните, о каком виде валидности идёт речь и как она рассчитывалась. Показатель 0,7 может быть только в том случае, если провайдер измерял валидность комбинацией разных оценочных инструментов.

	Валидность	Если выбрать 20% лучших сотрудников по итогам оценки
Нет валидности	0	4 из 20 будут в числе лучших
Средняя валидность	0,3	7 из 20 будут в числе лучших
Высокая валидность	0,6	10 из 20 будут в числе лучших

	Валидность	Если выбрать 20% лучших сотрудников по итогам оценки
Нет валидности	0	1 из 5 будет в числе худших
Средняя валидность	0,3	1 из 10 будет в числе худших
Высокая валидность	0,6	1 из 50 будет в числе худших

Посмотрим, что означают эти цифры на практике: к примеру, вы оценили 100 сотрудников и выбрали 20 лучших по итогам оценки. Если вы использовали инструмент со средней валидностью, то из выбранных 20 участников только семеро будут в числе лучших 20%.

Если же вы оценивали 100 сотрудников инструментом с высокой валидностью, то в числе 20% лучших окажутся десять из выбранных двадцати по итогам оценки. При этом результаты выше среднего покажут 17 из этих 20 сотрудников.

Если вы знаете валидность инструмента, вы можете посчитать точность прогноза, который сделаете по результатам оценки. К примеру, вы используете инструмент с валидностью 0,3. Разделите этот показатель на 2 и прибавьте 50% — получится 65%. С такой вероятностью прогноз по итогам оценки окажется достоверным,
если за 50% принять случайное угадывание.

3 уровня проверки валидности

Если вы используете инструмент оценки, у вас есть три уровня проверки
его валидности:

Во-первых, вы можете посмотреть, насколько велика валидность метода оценки. К примеру, вы покупаете у провайдера тесты способностей. Чтобы оценить их валидность, используйте мета-анализы — эта процедура объединяет показатели валидности, полученные на разных инструментах и выборках от нескольких исследователей. С их помощью вы определите среднюю валидность тестов
как метода оценки. Классическим считается мета-анализ Шмидта и Хантера 1998 года.

Во-вторых, вы можете узнать валидность инструмента — тех конкретных тестов способностей, которые вы покупаете. Эти данные вам должен предоставить провайдер.

Наконец, вы можете посмотреть, насколько конкретный инструмент валиден
для ваших задач. Чтобы посчитать валидность инструмента на ваших данных:

1. Оцените при помощи инструмента не менее 200 сотрудников одной группы должностей — это минимальная выборка. Чем больше человек вы оцените,
тем более надёжные цифры получите.

2. Выберите критерий, относительно которого будете проверять валидность. Например, оценка результативности руководителем.

3. Оцените надёжность этого критерия. Критерием могут быть объективные данные — например, показатели производительности. В этом случае его можно считать надёжным. Оценка эффективности руководителем — субъективные данные, надёжность этого критерия будет низкой.

4. Посмотрите, нет ли у вас ограничения выборки. Например, если вы используете тесты при подборе, кандидаты с низкими результатами обычно просто не попадают на работу.

5. Проверьте свои данные: насколько они полные, корректные и однородные. Если в качестве внешнего критерия вы выбрали показатели продаж, проверьте, что все данные по продажам соответствуют тому менеджеру, который продавал. Это поможет избавиться от некорректных данных: к примеру, сотрудник в отпуске, а на него записаны продажи другого.

6. Посчитайте сам показатель валидности: обычно это коэффициент корреляции или регрессии, с учётом тех поправок, которые мы упомянули выше. Для начала можно воспользоваться самыми простыми показателями. Например, коэффициентом корреляции Спирмена — его можно посчитать даже в MS Excel.

У вас получился показатель валидности конкретного инструмента на ваших данных. Он показывает, насколько достоверным будет прогноз, который вы сделаете по результатам оценки при помощи этого инструмента.

что такое, как легко и просто проверить

Автор Алексей На чтение 4 мин Просмотров 378 Опубликовано 04.11.2021 Обновлено 02.11.2021

В данном уроке будем разбираться, что такое валидность html, зачем нужна валидация кода, и как ее проверить онлайн и при помощи плагинов.

Что такое html валидность

Валидность HTML-верстки — это её соответствие стандартам организации W3C. Отсутствие ошибок в вёрстке документа — один из основных показателей её качества.

При этом, соблюдение стандартов не обязательно для того, чтобы сайт отображался в браузерах.

Зачем нужна валидация кода

Правильный, валидный html-код — это код, написанный по спецификации W3C, в которой собраны стандарты и рекомендации по удобству и универсальности Всемирной сети. Даже если ваш сайт отлично отображается в браузере, рекомендую проверить его валидность, как минимум потому что поисковые системы лучше относятся к валидным html страницам и лучше понимают их код.

Онлайн проверка валидности html

Для того чтобы быстро, удобно и в автоматическом режиме проверять свой код, существует помощник — валидатор W3C. Он используется повсеместно (хотя есть и другие), так как придуман и написан консорциумом W3C — теми, кто создал и поддерживает стандарт языка.

Как пользоваться валидатором W3C

Идем на страницу валидатора.

По умолчанию, открыта вкладка «Validate by URI» — валидация документа по его url адресу — сюда достаточно ввеcти URL и нажать на кнопку «Check». Также есть еще 2 вкладки: «Validate by File Upload» — сюда с ПК можно загрузить html файл. И в кладка «Validate by Direct Input», куда можно вставить просто код HTML-фрагмента — давайте разберем на ее примере. Закидываем код и нажимаем кнопку «Check». В результате, если все валидно и хорошо, вы увидите надпись «Document checking completed. No errors or warnings to show.».

В противном случае валидатор выведет ошибки и предупреждения:

Предупреждения — это какие-то незначительные неточности в коде, которые не сломают сайт, но не соответствуют стандартам кода.

Ошибки — более серьёзные проблемы, которые могут повлиять на работу кода в целом. Это могут быть как грубые ошибки — например, неверная вставка тега в тег, неверное закрытие тега и т.д., так и менее значимые — отсутствие атрибута alt, незаполненный тег title.

Рекомендация: просто исправлять всё, что там есть, чтобы осталось лишь заветное зелёное уведомление о том, что всё правильно. Либо как минимум чтобы остались только предупреждения. Правильность кода — залог его корректной и долговечной работы, а также плюс при работе в команде с другими верстальщиками\backend-разработчиками.

Как ещё можно проверять верстку

Помимо классического валидатора есть ещё один тип инструментов — так называемые хинтеры. Как правило, это плагины для редакторов кода, которые при написании кода автоматически подчеркивают ошибки и указывают, что нужно исправить. Один из таких плагинов — HTMLHint для редактора VS Code.

Хинтер работает по определённым правилам, которые довольно схожи с правилами валидатора. Но в идеале стоит проверять верстку как хинтером, так и валидатором, чтобы точно всё исправить.

Со списком правил хинтера можно ознакомиться по ссылке.

Массовая проверка html валидности страниц сайта

Массово проверить страницы сайта на валидность и прочие технические SEO проблемы, можно при помощи бесплатной программы (есть ограничения): WebSite Auditor. Запускаем ее, создаем проект, вбиваем адрес сайта — далее — далее. Ждем пока завершиться проверка всех страниц. Идем в пункт страницы с ошибками в коде и запускаем проверку валидации. всех страниц сайта.

После чего получаем список страниц, где присутствуют ошибки, с возможностью перейти в валидатор.

Обычно если сайт на CMS то ошибки кроятся в шаблонах и поправив шаблон мы автоматически их закрываем. А иногда потому что что то не заполнили.

Заключение

Правильный HTML-код крайне важен. Стандарты языка придуманы не просто так. Даже если ошибка кажется несущественной, она может повлиять на логическую сторону кода (например, отсутствие alt — описания изображения).

Всегда проверяйте свой код, обращайте внимание на частые ошибки, чтобы в будущем их не совершать.

10 популярных мифов о валидности и валидации — CSS-LIVE

Миф 1. Валидность — некая единая, универсальная характеристика для любого кода

Примеры употребления: «Поменяй доктайп с X на Y, а то невалидно».

Реальность: валидность — понятие конкретное и относительное. Валидность документа на языке разметки означает соответствие определенной схеме. Указанной (напр. DTD в доктайпе) или подразумеваемой (в HTML5). Схемы бывают разные, и требования у них тоже (аналог из жизни: к строительству жилых домов и атомных электростанций применяются разные СНиПы), поэтому документ, валидный по одной схеме, наверняка будет невалидным по другой (хороша была бы АЭС, построенная по нормативам жилого дома!).

Доктайп как правило указывает на схему, по которой планируется валидация. Но не факт. Доктайп может быть выбран из прагматических соображений для выбора оптимального режима браузеров, например. XHTML5 может вообще не иметь доктайпа, но быть валидным.

Миф 2. Валидность — это соответствие стандарту

Пример употребления: так и употребляется

Реальность: валидность — результат механической проверки на отсутствие формальных грамматических ошибок заявленного в схеме языка. О логике, тем более о смысле документа валидация не знает и не задумывается. Например, по формальным правилам русского языка знаменитая фраза «волны… падали стремительным домкратом» абсолютно «валидна», любой «валидатор» (напр., проверка орфографии в Ворде) найдет в ней ровно ноль ошибок. Но грамотна ли эта фраза? Конечно, нет — ведь слова в ней использованы не по назначению! (Не подумайте, что я считаю валидацию или проверку орфографии ненужной — напротив, это нужные и очень полезные инструменты! Но, увы, не всесильные.)

Точно так же формально валидный веб-документ может быть абсолютно неграмотным с точки зрения стандарта, бессмысленным, нелогичным и непонятным для браузеров и поисковиков. Потому что стандарт определяет и грамматику языка, и его логику (семантику), а валидатор в принципе способен проверить лишь первое. Так что валидность — лишь часть соответствия стандарту, условие необходимое, но не достаточное.

В аналогии со строительством дома, валидатор укажет на неоштукатуренную вовремя стену или косо вставленное окно без шпингалетов (и будет прав, такое нужно исправлять!), но вполне может пропустить, например, то, что туалет оказался замурован наглухо (без единого дверного проема), а на кухню можно попасть только через балкон соседней квартиры (ведь валидатор не телепатор, замысел архитектора ему неизвестен — вдруг так и задумано? А монтаж перекрытий вполне соответствует ГОСТам и СНиПам…).

Миф 3. Валидность — это гарантия кроссбраузерности

Пример употребления: «— Почему у меня в IE8 (IE7, Fx2…) не так отображается меню, валидатор ведь ошибок не показывает?»

Реальность: валидность — это соответствие схеме. Ни больше ни меньше. Так что если какой-то браузер какую-то схему просто не знает — ждать от него правильного отображения в соответствии с этой схемой как минимум наивно. Кроме того, отображение сейчас главным образом зависит от поддержки браузерами CSS, а не разметки. И вообще браузеры умеют лишь то, что умеют. А еще у всех браузеров есть баги разной степени неочевидности.

Так что если страница валидна — далеко не факт, что она будет везде отображаться как задумано. Но, справедливости ради, вероятность кривого отображения и степень его кривизны для валидной страницы почти всегда меньше, чем для невалидной.

Миф 4. Лучший валидатор — это браузер

Пример употребления: «Главное, чтобы страница везде одинаково отображалась, а валидностью пусть заморачиваются фанатики»

Реальность: браузер — не валидатор, никогда не был валидатором и не претендовал на то, чтобы быть валидатором. И не замена валидатору. У них разные задачи. У валидатора — тупо проверить страницу на соответствие заявленной схеме (и указать на все найденные несоответствия). У браузера — отобразить страницу хоть как-то, несмотря на эти несоответствия (и более того — даже на саму схему, иногда, особенно если она указана явно «от балды» и не имеет связи с реальностью).

Так что если страница отображается — далеко не факт, что ее поймут правильно поисковики, устройства вывода для людей с ограниченными возможностями и т.п.

Миф 5. Фраза «браузер — лучший валидатор» устарела, это пережиток эпохи IE6

Пример употребления: «Лебедев (или еще кто-то) сказал эту фразу в 90-е, а сейчас нет браузера с долей > 80%»

Реальность: хотя разоблачение мифа 4 по-прежнему в силе, именно сейчас в этой фразе больше правды, чем было когда-либо в прошлом!

Причиной этого оказался главный секрет HTML5. Вкратце — впервые за историю веба браузеры и валидатор нашли общий язык. По крайней мере, стали понимать страничку по одним и тем же правилам. Более того — такие браузеры, как Fx4+ и Хром 7+, подстроили свои стили по умолчанию под эти правила (например, размер заголовка в них по умолчанию зависит не от его «номера», а от уровня вложенности в структуре плана документа). Так что если структура заголовков вашей страницы в этих браузерах при отключенных стилях выглядит логично — скорее всего, вы использовали элементы более-менее по назначению. А если при этом еще и таблицы не рвутся, подписи полей форм не улетают прочь от самих полей и т.п. — скорее всего, и грубых ошибок в синтаксисе у вас нет.

Миф 6. XHTML валиднее, чем HTML

Пример употребления: «Все одиночные теги по стандарту должны быть закрыты — <br />, <img /> и т.п., иначе невалидно»

Реальность: во-первых, см. п. 1. Даже код а-ля <FONT COLOR=RED>UNDER<BR>CONSTRUCTION</FONT> может быть валидным — если в доктайпе заявлена схема HTML 3.2:). Потому что валидность — это соответствие схеме, ни больше ни меньше!

Во-вторых, в XML (а следовательно, в XHTML, потому что он — его подмножество) есть дополнительное (помимо валидности!) ограничение синтаксиса — веллформность («правильная сформированность», синтаксическая корректность). Именно она требует обязательного закрытия всех тегов (в т.ч. «самозакрытия» одиночных), «закавыченности» всех атрибутов, непременного экранирования амперсанда в виде & и т.п. Эти требования общие для всех языков на базе XML (будь то SVG, MathML и т.п.). Может показаться, что у XHTML валидация «двойная» (соответствие DTD плюс XML-веллформность), а у HTML — «одинарная» (только DTD), но на деле валидность и там, и там определяется именно схемой. По определению. А XML-веллформность — это требование базового синтаксиса. Вроде того, как HTML требует, чтобы теги начинались и заканчивались угловыми скобками.

Есть более мягкий вариант этого мифа — «XHTML проще поддерживать валидным». Дескать, обязательность явного закрытия всех тегов и прочие XML-ные строгости «приучают к порядку». Доля правды в этом есть, но небольшая. Да, XML-ная строгость отчасти страхует от некоторых механических ошибок (скорее даже опечаток). Но это обманчивая страховка. Она заостряет внимание на синтаксисе и отвлекает его от логики кода, что увеличивает риск куда более значимых (для отображения и работы страницы) ошибок — например, случайно вложить элемент (напр. список) в неподобающий ему контейнер (напр. абзац). Иногда привычка слепо полагаться на закрывающий тег может сослужить дурную службу.

Запомнить все правила HTML (напр., в каких случаях, кроме явного закрывающего тега, автоматически заканчивается элемент P) сложнее, чем правила XML. Но это не делает разметку, соответствующую этим правилам, менее валидной. А ведь кое-кто до сих пор уверяет, что правила HTML проще:)

Ну а если кто-то скажет вам, что «тег <br> невалиден в HTML, потому что не закрыт слешем» (увы, даже сейчас, в 2012-м, можно услышать подобное!) — отправляйте его в школу, учиться читать. Потому что, умея читать, вычитать такую чушь ни в одной спецификации нельзя:)

Миф 7. Вреда от XHTML-валидности уж точно не бывает

Пример употребления: так и употребляется.

Реальность: XHTML и HTML — разные языки. XHTML пишется и валидируется по правилам XML А вот читается, т.е. парсится браузерами, чаще всего как HTML(5).

HTML- и XML-парсеры работают по разному алгоритму. То, что XML-парсер в общем случае не поймет HTML-разметку, всем понятно. Но почему-то большинство авторов, ставящих на страницу XHTML-доктайп, считают это само собой разумеющимся, что для HTML-парсера она проблемы не составит. Хотя на самом деле это далеко не очевидно! Разметка, одинаково понятная для разных парсеров, по-научному называется «разметкой-полиглотом» и для нее был и есть отдельный стандарт, со своими особыми правилами. Или, как минимум, приложение C спецификации XHTML 1.0.

Валидатор же об этом «не задумывается» и проверяет только… правильно, соответствие схеме! А той всё равно, <div></div> или <div/>. Последний вариант иногда случайно копируется из окошка «показать код выделенного фрагмента» некоторых браузеров. И HTML-парсер, привыкший игнорировать концевые слеши, воспримет его как незакрытый тег!

Мораль: всегда валидируйте разметку по той схеме, по которой ее будут разбирать браузеры. И не злоупотребляйте доктайпами, которые могут сбить валидатор с толку. Чем плох лаконичный, ясный и однозначный <!DOCTYPE html>?:)

Миф 8. Валидация CSS3 — не фикция

Пример употребления: «Как сделать CSS3 валидным, если я использую filter и zoom?»

Реальность: валидность — это соответствие схеме. Есть ли схема у CSS? У CSS даже версий-то нет!

Формальное определение «валидного CSS» вроде бы есть. Всё та же спецификация CSS 2.1 говорит:

Валидность таблицы стилей зависит от уровня CSS, использованного для таблицы стилей. Все валидные таблицы стилей CSS1 являются валидными таблицами стилей CSS 2.1, но некоторые изменения по сравнению с CSS1 означают, что некоторые таблицы стилей CSS1 будут иметь слегка другой смысл в CSS 2.1. Некоторые «фичи» CSS2 не входят в CSS 2.1, поэтому не все таблицы стилей CSS2 являются валидными таблицами стилей CSS 2.1.
Валидная таблица стилей CSS 2.1 должна быть написана в соответствии с грамматикой CSS 2.1. Более того, она должна содержать исключительно @-правила, имена свойств и их значения, определенные в этой спецификации. Запрещенное (невалидное) @-правило, имя или значение свойства — то, которое не является валидным. (К последней фразе так и напрашивается подпись «К. О.» — прим. перев.:)

Ну а как быть с валидностью CSS3 (которого нет, как известно:)? По логике определения выше, «валидный CSS3» должен содержать свойства и значения, описанные в модулях 3-го уровня. Но ведь эти модули постоянно меняют синтаксис, то и дело признаются устаревшими и переписываются практически заново, а за некоторые модули (напр. таблицы 3-го уровня) вообще еще даже не брались?

В описании к сервису проверки CSS есть пояснение на эту тему (правда, в русской версии описания именно этот пункт почему-то потерялся!):

CSS — развивающийся язык, и многие считают, что «CSS» — это единая грамматика (определенная в последней спецификации) с набором свойств и допустимых значений, определенных в различных профилях. В будущих версиях этого валидатора дефолтным поведением может стать проверка стилей по новейшей «грамматике CSS» и облаку всех стандартизированных свойств и значений.

Но легко сказать «последняя спецификация», а каково на практике? Ладно, список свойств и значений можно взять, например, здесь. Или собрать по модулям статуса LC и выше (обычно в них есть специальный раздел со списком добавленных свойств, как здесь). А как быть с грамматикой? Бывает же и такое:

Этот модуль заменяет и расширяет правило ‘@media’, определенное в разделе 7.2.1 [CSS21], и включает изменения, ранее сделанные неофициальными в разделе 1 [MEDIAQ] (в частности, правила ‘@media’ могут быть вложенными, что не допускалось предыдущими редакциями — прим. перев.).
Его текущее определение зависит от @-правил, определенных в [CSS3-FONTS] и [CSS3-ANIMATIONS], но эта зависимость — только в допущении, что те модули будут обновляться раньше, чем этот. Если этот модуль будет развиваться быстрее, зависимость станет обратной.

Ну как, уже достаточно запутались или добавить шокирующих подробностей?

Неудивительно, что с определением «валидности CSS3» не всегда могут договориться сами авторы спецификаций. А тем более разработчики CSS-валидатора, которым один модуль твердит одно, а другой — противоположное. Поэтому они включили в описание сервиса следующий пункт:

Это официальная проверка на корректность CSS?
Нет. Это надежная и полезная утилита, но это всего лишь программа, и, как у любого программного обеспечения, у нее есть ошибки и проблемы. Актуальный справочник по таблицам каскадных стилей есть в их спецификации.

Так что, увидев сообщение об ошибке валидации CSS3 — не впадайте в панику и не бегите на форумы с вопросом Чернышевского, а спокойно прочитайте, в чем именно эти ошибки состоят. Если, например, в пропущенной точке с запятой между свойствами (отчего свойство не распознается) — такое надо исправлять. А если валидатор просто не знает парочки свойств (особенно в стилях, предназначенных только для старых IE) — смело считайте это проблемой валидатора. Ведь понятие «валидности CSS» такое расплывчатое! Хотя это не означает, что экспериментальными (с префиксами) и нестандартными браузерными «довесками» к CSS стоит злоупотреблять;)

Миф 9. Все валидаторы одинаково полезны

Пример употребления: «В пустые span-ы нужно вставлять хотя бы  , иначе будет невалидно»

Реальность: не всё валидатор, что валидирует:). Например, популярный некогда аддон для Firefox с говорящим, казалось бы, названием «HTML validator» по умолчанию проверял совсем не тем алгоритмом, что официальный валидатор W3C. И считал многие вещи, вполне разрешенные стандартом (напр. те же пустые span-ы) ошибками! Хорошего в пустых span-ах, конечно, мало, но это не повод обвинять в несуществующих грехах сам стандарт. Поэтому, если пользуетесь «валидатором», отличным от официального валидатора W3C, обязательно поинтересуйтесь, что и как он проверяет на самом деле. Остерегайтесь подделок!

Миф 10. Все валидаторы, кроме официального валидатора W3C — ничто

Употребляется не так часто, но разоблачение предыдущего мифа иногда приводит к противоположной крайности

Реальность: во-первых, валидатор W3C проверяет только те стандарты, которые разработаны самим W3C. Так что сторонние валидаторы для сторонних стандартов — это логично. Например, валидаторы микроразметки Яндекса, Гугла и т.д. — вполне правильная и полезная вещь. Во-вторых, валидаторы (даже официальные!) — программы, гм… туповатые. Они проверяют «сферический код в вакууме» (например, для многострадального XHTML валидатор предполагает, что разбираться он будет XML-парсером, а скрипты в HTML-комментариях действительно закомментарены, т.е. «временно убраны», а не всего-навсего скрыты таким способом от архаичных браузеров).

В этом плане html5.validator.nu («живой» валидатор, в каком-то смысле «официальный» валидатор WHATWG), хоть и не является официальным валидатором W3C, но во многом даже лучше его. Потому что анализирует страницу так же, как это делают браузеры (более того — в его основе такой же самый стандартный HTML5-парсер, что и в Gecko!). См. тж. разоблачение мифа 5 выше.

P.S. Это тоже может быть интересно:

Надежность и валидность исследований

Надежность и валидность — это понятия, используемые для оценки качества исследований. Они показывают, насколько хорошо метод, методика или тест что-то измеряют. Надежность связана с непротиворечивостью меры, а валидность связана с точностью меры.

Важно учитывать надежность и достоверность при разработке плана исследования, планировании методов и оформлении результатов, особенно в количественных исследованиях.

Надежность и валидность
	Надежность	Срок действия
Что это вам говорит?	Степень, в которой результаты могут быть воспроизведены при повторении исследования в тех же условиях.	Степень, в которой результаты действительно измеряют то, что они должны измерять.
Как оценивается?	Путем проверки согласованности результатов во времени, у разных наблюдателей и в разных частях самого теста.	Путем проверки того, насколько хорошо результаты соответствуют установленным теориям и другим показателям той же концепции.
Как они связаны?	Надежное измерение не всегда достоверно: результаты могут быть воспроизводимыми, но не обязательно правильными.	Действительное измерение, как правило, надежно: если тест дает точные результаты, они должны быть воспроизводимыми.

Сравнение надежности и достоверности

Надежность и валидность тесно связаны, но означают разные вещи.Измерение может быть надежным, но не валидным. Однако, если измерение достоверно, оно обычно также надежно.

Что такое надежность?

Надежность относится к тому, насколько последовательно метод что-то измеряет. Если один и тот же результат может быть последовательно достигнут с использованием одних и тех же методов при одних и тех же обстоятельствах, измерение считается надежным.

Вы измеряете температуру жидкого образца несколько раз в одинаковых условиях. Термометр каждый раз показывает одну и ту же температуру, поэтому результаты надежны.

Врач использует вопросник симптомов для диагностики пациента с хроническим заболеванием. Несколько разных врачей используют один и тот же опросник у одного и того же пациента, но ставят разные диагнозы. Это указывает на низкую надежность опросника как меры состояния.

Что такое валидность?

Валидность относится к тому, насколько точно метод измеряет то, для измерения которого он предназначен. Если исследование имеет высокую достоверность, это означает, что оно дает результаты, соответствующие реальным свойствам, характеристикам и изменениям в физическом или социальном мире.

Высокая надежность является одним из показателей достоверности измерения. Если метод ненадежен, он, вероятно, недействителен.

Если термометр каждый раз показывает разные температуры, даже если вы тщательно контролируете условия, чтобы гарантировать, что температура образца остается неизменной, вероятно, термометр неисправен, и поэтому его измерения недействительны.

Если опросник по симптомам дает надежный диагноз при ответах на него в разное время и у разных врачей, это указывает на то, что он имеет высокую достоверность в качестве измерения состояния здоровья.

Однако одной надежности недостаточно для обеспечения достоверности. Даже если тест надежен, он может не точно отражать реальную ситуацию.

Термометр, который вы использовали для проверки образца, дает надежные результаты. Однако термометр не был откалиброван должным образом, поэтому результат на 2 градуса ниже истинного значения. Следовательно, измерение недействительно.

Группа участников проходит тест, предназначенный для измерения рабочей памяти. Результаты надежны, но оценки участников сильно коррелируют с их уровнем понимания прочитанного.Это указывает на то, что метод может иметь низкую достоверность: тест может измерять понимание прочитанного участниками, а не их рабочую память.

Валидность оценить труднее, чем надежность, но это даже важнее. Чтобы получить полезные результаты, методы, которые вы используете для сбора данных, должны быть достоверными: исследование должно измерять то, что заявлено для измерения. Это гарантирует, что ваше обсуждение данных и выводы, которые вы делаете, также верны.

Как оцениваются надежность и валидность?

Надежность можно оценить путем сравнения различных вариантов одного и того же измерения.Достоверность оценить труднее, но ее можно оценить, сравнив результаты с другими соответствующими данными или теорией. Методы оценки надежности и валидности обычно делятся на разные типы.

Виды надежности

Различные виды надежности можно оценить с помощью различных статистических методов.

Виды надежности
Тип надежности	Что он оценивает?	Пример
Тест-ретест	Непротиворечивость измерения во времени : вы получаете те же результаты при повторении измерения?	Группа участников заполняет анкету, предназначенную для измерения личностных качеств.Если они повторяют опросник с интервалом в несколько дней, недель или месяцев и дают одинаковые ответы, это свидетельствует о высокой ретестовой достоверности.
Интеррейтер	Согласованность измерения между оценщиками или наблюдателями : получаются ли одинаковые результаты, когда разные люди проводят одно и то же измерение?	На основе контрольного списка критериев оценки пять экзаменаторов представили существенно разные результаты для одного и того же студенческого проекта. Это указывает на то, что контрольный список оценивания имеет низкую межэкспертную надежность (например, из-за того, что критерии слишком субъективны).
Внутренняя согласованность	Непротиворечивость самого измерения : получаете ли вы одинаковые результаты из разных частей теста, предназначенных для измерения одного и того же?	Вы разрабатываете анкету для измерения самооценки. Если вы случайным образом разделите результаты на две половины, между двумя наборами результатов должна быть сильная корреляция. Если два результата сильно различаются, это указывает на низкую внутреннюю согласованность.

Виды действия

Достоверность измерения можно оценить на основе трех основных типов данных.Каждый тип может быть оценен с помощью экспертной оценки или статистических методов.

Типы действия
Тип действия	Что он оценивает?	Пример
Конструкция	Приверженность меры существующей теории и знаниям измеряемой концепции.	Анкета самооценки может быть оценена путем измерения других черт, известных или предполагаемых, связанных с концепцией самооценки (таких как социальные навыки и оптимизм).Сильная корреляция между оценками самооценки и связанными с ней чертами указывает на высокую достоверность конструкции.
Содержание	Степень, в которой измерение охватывает все аспекты измеряемой концепции.	Тест, целью которого является оценка уровня испанского языка учащихся класса, содержит компоненты чтения, письма и разговорной речи, но не включает компонент аудирования. Эксперты сходятся во мнении, что понимание на слух является важным аспектом языковых способностей, поэтому тесту не хватает достоверности содержания для измерения общего уровня владения испанским языком.
Критерий	Степень, в которой результат меры соответствует другим действительным мерам той же концепции.	Опрос проводится для определения политических взглядов избирателей в регионе. Если результаты точно предсказывают более поздний исход выборов в этом регионе, это указывает на то, что опрос имеет высокую достоверность критерия.

Для оценки достоверности причинно-следственной связи необходимо также учитывать внутреннюю валидность (дизайн эксперимента) и внешнюю валидность (обобщаемость результатов).

Что может сделать корректура для вашей статьи?

Редакторы Scribbr не только исправляют грамматические и орфографические ошибки, но и улучшают ваше письмо, следя за тем, чтобы в вашей статье не было расплывчатых формулировок, избыточных слов и неудобных формулировок.

См. пример редактирования

Как обеспечить достоверность и надежность ваших исследований

Надежность и валидность ваших результатов зависят от тщательной разработки плана исследования, выбора подходящих методов и образцов, а также тщательного и последовательного проведения исследования.

Обеспечение достоверности

Если вы используете баллы или рейтинги для измерения различий в чем-то (например, психологических чертах, уровнях способностей или физических свойствах), важно, чтобы ваши результаты максимально точно отражали реальные различия. Валидность следует учитывать на самых ранних этапах вашего исследования, когда вы решаете, как вы будете собирать свои данные.

Выберите подходящие методы измерения

Убедитесь, что ваш метод и методика измерения имеют высокое качество и нацелены на измерение именно того, что вы хотите знать.Они должны быть тщательно исследованы и основаны на имеющихся знаниях.

Например, для сбора данных о черте характера можно использовать стандартизированный вопросник, который считается надежным и достоверным. Если вы разрабатываете свою собственную анкету, она должна основываться на устоявшейся теории или результатах предыдущих исследований, а вопросы должны быть тщательно и точно сформулированы.

Чтобы получить достоверные обобщаемые результаты, четко определите исследуемую вами популяцию (например,люди определенного возраста, географического положения или профессии). Убедитесь, что у вас достаточно участников и что они представляют население.

Обеспечение надежности

Надежность следует учитывать на протяжении всего процесса сбора данных. Когда вы используете инструмент или метод для сбора данных, важно, чтобы результаты были точными, стабильными и воспроизводимыми.

Последовательно применяйте свои методы

Тщательно спланируйте свой метод, чтобы убедиться, что вы выполняете одни и те же шаги одинаковым образом для каждого измерения.Это особенно важно, если в работе участвуют несколько исследователей.

Например, если вы проводите интервью или наблюдения, четко определите, как будут учитываться конкретные действия или ответы, и убедитесь, что вопросы формулируются одинаково каждый раз.

Стандартизируйте условия вашего исследования

При сборе данных старайтесь, чтобы обстоятельства были как можно более последовательными, чтобы уменьшить влияние внешних факторов, которые могут привести к изменению результатов.

Например, в экспериментальной установке убедитесь, что всем участникам предоставлена одинаковая информация и они протестированы в одинаковых условиях.

Где написать о достоверности и валидности в диссертации

Уместно обсуждать надежность и валидность в различных разделах вашей диссертации. Демонстрация того, что вы приняли их во внимание при планировании своего исследования и интерпретации результатов, делает вашу работу более достоверной и заслуживающей доверия.

Достоверность и обоснованность диссертации
Раздел	Обсудить
Обзор литературы	Что сделали другие исследователи для разработки и улучшения надежных и валидных методов?
Методология	Как вы планировали свое исследование, чтобы обеспечить надежность и достоверность используемых показателей? Это включает в себя выбранный набор и размер образца, подготовку образца, внешние условия и методы измерения.
Результаты	Если вы рассчитываете надежность и достоверность, укажите эти значения вместе с вашими основными результатами.
Обсуждение	Сейчас самое время поговорить о том, насколько надежными и достоверными были ваши результаты. Были ли они последовательными и отражали ли они истинные ценности? Если нет, то почему?
Заключение	Если надежность и валидность были большой проблемой для ваших выводов, было бы полезно упомянуть об этом здесь.

Что такое валидность?

Основная концепция, которую следует учитывать при создании любой оценки, — это достоверность. Валидность относится к тому, измеряет ли тест то, для чего он предназначен. Например, действительный экзамен по вождению должен включать практический компонент вождения, а не только теоретический экзамен по правилам вождения. Действительный языковой тест для поступления в университет, например, должен включать задания, отражающие по крайней мере некоторые аспекты того, что на самом деле происходит в университетской среде, например, прослушивание лекций, проведение презентаций, участие в учебных пособиях, написание эссе и чтение текстов.

Validity имеет разные элементы, которые мы сейчас рассмотрим по очереди.

Цель теста — зачем я тестирую?

Мы никогда не можем сказать, является ли тест действительным или недействительным. Вместо этого мы можем сказать, что тест подходит для определенной цели. Есть несколько причин, по которым вы можете захотеть протестировать своих учеников. Вы можете попытаться проверить их знания в конце модуля или попытаться понять, что они знают и чего не знают. Или вы можете использовать тест, чтобы распределить учащихся по группам в зависимости от их способностей, или выдать тестируемым сертификат о знании языка.Каждая из этих различных причин для тестирования представляет собой различную цель тестирования.

Цель теста определяет тип теста, который вы собираетесь производить, что, в свою очередь, влияет на типы задач, которые вы собираетесь выбирать, количество элементов теста, продолжительность теста и так далее. Например, тест, удостоверяющий, что врачи могут практиковать в англоязычной стране, будет отличаться от вступительного теста, целью которого является направление этих врачей на языковые курсы.

Тестируемых – Кого я тестирую?

Также очень важно помнить, кто сдает ваш тест.Это дети младшего школьного возраста, подростки или взрослые? Или это пилоты, врачи или инженеры? Это важный вопрос, поскольку тест должен подходить для испытуемых, для которых он предназначен. Например, если вашими тестируемыми являются дети младшего школьного возраста, вы можете дать им больше интерактивных заданий или игр, чтобы проверить их языковые способности. Например, если вы проверяете навыки слушания, вы можете использовать ролевые игры для врачей, а также лекции или монологи со студентами университета.

Test Construct — что я тестирую?

Другим ключевым моментом является рассмотрение того, что вы хотите протестировать. Прежде чем разрабатывать тест, вам необходимо определить способность или навык, для измерения которых предназначен тест, — с технической точки зрения, «конструкт теста». Вот некоторые примеры конструктов: интеллект, личность, тревога, способность говорить по-английски, произношение. Возьмем, к примеру, языковую оценку: тестовой конструкцией может быть коммуникативная языковая способность, способность говорить или, возможно, даже такая конкретная конструкция, как произношение.Задача состоит в том, чтобы определить конструкцию и найти способы ее извлечения и измерения; например, если мы проверяем конструкт беглости речи, мы можем учитывать такие характеристики, как скорость речи, количество пауз/запинок и степень, в которой любые паузы/запинки вызывают напряжение у слушателя.

Тестовые задачи — Как я тестирую?

После того, как вы определили, что хотите протестировать, вам нужно решить, как вы собираетесь это тестировать. Основное внимание здесь уделяется выбору правильных тестовых заданий для способности (т.е. построить) вы заинтересованы в тестировании. Все типы задач имеют свои преимущества и ограничения, поэтому важно использовать ряд задач, чтобы свести к минимуму их индивидуальные ограничения и оптимизировать измерение интересующей вас способности. Задания в тесте похожи на меню опций, которые доступны для выбора, и вы должны быть уверены, что выбрали правильную задачу или правильный набор задач для способности, которую вы пытаетесь измерить.

Надежность теста — Как я оцениваю?

Далее важно подумать о том, как оценивать результаты теста.Тест должен быть надежным и давать точные результаты. Таким образом, вам нужно убедиться, что результаты теста отражают реальные способности учащегося. При принятии решения о том, как оценивать тест, вам нужно подумать, будут ли ответы на вопросы оцениваться как правильные или неправильные (это может быть, например, в случае заданий с несколькими вариантами ответов) или вы можете использовать диапазон оценок и дать частичный кредит, как, например, в вопросах чтения или аудирования. В устной и письменной речи вам также придется решить, какие критерии использовать (например, грамматика, словарный запас, произношение, эссе, организация письма и т. д.).Вам также необходимо убедиться, что учителя, участвующие в оценивании устной или письменной речи, прошли определенную подготовку, чтобы они выставляли оценки (более или менее) в соответствии с одним и тем же стандартом.

Test Impact — Как мой тест поможет учащимся?

Последний и во многих отношениях самый важный вопрос, который следует задать себе, заключается в том, какую пользу тест приносит учащимся. Хорошие тесты вовлекают учащихся в ситуации, подобные тем, с которыми они могут столкнуться за пределами класса (т. е. аутентичные задания), или которые обеспечивают полезную обратную связь или помогают их языковому развитию, сосредоточив внимание на всех четырех навыках (чтение, аудирование, письмо, разговорная речь).Например, если в тесте есть разговорный компонент, это будет стимулировать разговорную практику в классе. И если этот устный тест включает в себя как языковое производство (например, описание картинки), так и взаимодействие (например, обсуждение темы с другим учеником), то подготовка к тесту поощряет использование широкого спектра разговорных действий в классе и улучшает обучение.

4 типа валидности в дизайне исследования (+3 дополнительных элемента для рассмотрения)

Выводы, которые вы делаете из своего исследования (будь то анализ опроса, фокус-группы, план эксперимента или другие методы исследования), полезны только в том случае, если они достоверны.

Насколько «верны» эти результаты? Насколько хорошо они представляют то, что вы на самом деле пытаетесь изучать? Валидность используется для определения того, измеряет ли исследование то, что оно намеревалось измерить, и для приближения к правдивости результатов.

К сожалению, исследователи иногда создают свои собственные определения, когда дело доходит до того, что считается достоверным.

В количественных исследованиях проверка достоверности и надежности является данностью.
Однако некоторые качественные исследователи дошли до того, что предположили, что валидность не применима к их исследованиям, даже если они признают необходимость некоторых квалификационных проверок или измерений в своей работе.

Это неправильно. Валидность всегда важна, даже если ее сложнее определить в качественном исследовании.

Пренебрегать валидностью означает ставить под вопрос надежность своей работы и ставить под сомнение доверие других к ее результатам. Даже когда в исследованиях используются качественные показатели, их необходимо рассматривать с использованием показателей надежности и валидности, чтобы поддерживать достоверность результатов.

Что такое валидность в исследованиях?

Валидность — это то, как исследователи говорят о степени соответствия результатов действительности.Методы исследования, количественные или качественные, представляют собой методы изучения реального явления. Достоверность относится к тому, какую часть этого явления они измеряют по сравнению с тем, сколько «шума» или несвязанной информации захватывают результаты.

Валидность и надежность определяют разницу между «хорошими» и «плохими» исследовательскими отчетами. Качество исследований зависит от приверженности тестированию и повышению достоверности, а также надежности результатов ваших исследований.

Любое значимое исследование касается того, является ли измеряемое то, что должно быть измерено, и рассматривает способы, которыми наблюдения зависят от обстоятельств, в которых они сделаны.

Основа того, как делаются наши выводы, играет важную роль в рассмотрении более широких существенных вопросов любого данного исследования.

По этой причине мы собираемся рассмотреть различные типы валидности, которые были сформулированы как часть легитимной исследовательской методологии.

Вот 7 основных типов достоверности в исследованиях:

Лицевая достоверность
Действительность содержимого
Действительность конструкции
Внутренняя действительность
Внешняя действительность
Достоверность статистического заключения
Валидность, связанная с критериями

1.Проверка лица

Лицевая достоверность — это то, насколько достоверными кажутся ваши результаты на основе того, как они выглядят. Это наименее научный метод достоверности, поскольку он не определяется количественно с помощью статистических методов.

Действительность лица не является действительностью в техническом смысле этого термина. Он связан с тем, кажется ли нам, что мы измеряем то, что заявляем.

Здесь мы смотрим на то, насколько достоверной выглядит мера на поверхности, и делаем субъективные суждения, основанные на этом.

Например,

Представьте, что вы проводите опрос, который кажется действительным для респондента, а вопросы выбираются потому, что они кажутся действительными для администратора.
Администратор спрашивает группу случайных людей, неподготовленных наблюдателей, кажутся ли им вопросы актуальными

В исследованиях никогда не бывает достаточно полагаться только на личные суждения, и для того, чтобы делать приемлемые выводы, необходимы более количественные методы проверки достоверности. Существует множество инструментов измерения, которые следует учитывать, поэтому кажущаяся достоверность полезна в тех случаях, когда вам нужно отличить один подход от другого.

Ни в коем случае нельзя доверять правдивости самой по себе.

2. Действительность содержимого

Валидность содержания — это то, охватывает ли мера, используемая в исследовании, все содержание лежащей в основе конструкции (то, что вы пытаетесь измерить).

Это также субъективная мера, но в отличие от внешней достоверности мы спрашиваем, охватывает ли содержание меры всю область содержания. Если бы исследователь хотел измерить интроверсию, он должен был бы сначала решить, что представляет собой релевантную область содержания для этой черты.

Валидность содержания считается субъективной формой измерения, поскольку она по-прежнему опирается на восприятие людей для измерения конструктов, которые в противном случае было бы трудно измерить.

Достоверность контента отличается (и становится полезной) благодаря использованию экспертов в данной области или лиц, принадлежащих к целевой группе. Это исследование можно сделать более объективным за счет использования строгих статистических тестов.

Например, у вас может быть исследование достоверности содержания, которое информирует исследователей о том, как элементы, используемые в опросе, представляют их предметную область, насколько они понятны и в какой степени они поддерживают теоретическую структуру факторов, оцененную с помощью факторного анализа.

3. Действительность конструкции

Конструкция представляет собой набор поведений, которые связаны значимым образом для создания образа или идеи, придуманной для исследовательской цели. Конструктивная валидность — это степень, в которой ваше исследование измеряет конструкт (по сравнению с вещами вне конструкта).

Депрессия — это конструкт, представляющий черту личности, которая проявляется в поведении, таком как чрезмерный сон, потеря аппетита, трудности с концентрацией внимания и т. д.

Существование конструкции проявляется при наблюдении за набором связанных индикаторов. Любой один признак может быть связан с несколькими конструкциями. У человека с трудностями концентрации внимания может быть синдром дефицита внимания. но не депрессия.

Конструктивная валидность — это степень, в которой выводы могут быть сделаны на основе операционализации (связывания концепций с наблюдениями) в вашем исследовании и конструктов, на которых эти операционализации основаны. Чтобы установить достоверность конструкции, вы должны сначала предоставить доказательства того, что ваши данные подтверждают теоретическую структуру.

Вы также должны показать, что контролируете операционализацию конструкции, другими словами, показать, что ваша теория имеет некоторое соответствие с реальностью.

Конвергентная валидность — степень сходства операции с другими операциями, на которые она теоретически должна быть похожа.
Дискриминационная валидность — если шкала адекватно дифференцирует себя или не различает группы, которые должны различаться или не различаться на основании теоретических причин или предыдущих исследований.
Номологическая сеть — представление конструктов, представляющих интерес для исследования, их наблюдаемых проявлений и взаимосвязей между ними. Согласно Кронбаху и Милу, номологическая сеть должна быть разработана для показателя, чтобы он имел конструктную достоверность 90–197.
Матрица мультипризнаков и мультиметодов — шесть основных соображений при проверке валидности конструкции согласно Кэмпбеллу и Фиске. Это включает в себя оценки конвергентной валидности и дискриминационной валидности.Другие — это единица метода признаков, мультиметод/признак, действительно другая методология и характеристики признаков.

4. Внутренняя действительность

Внутренняя валидность относится к степени, в которой независимая переменная может быть точно установлена для получения наблюдаемого эффекта.

Если эффект зависимой переменной обусловлен только независимыми переменными, то достигается внутренняя достоверность. Это степень, в которой можно манипулировать результатом.

Иными словами, внутренняя валидность — это то, как вы можете сказать, что ваше исследование «работает» в исследовательской среде.Влияет ли переменная, которую вы изменяете, на изучаемую переменную в данном исследовании?

[подписка на блог]

5. Внешняя действительность

Внешняя валидность относится к степени, в которой результаты исследования могут быть обобщены за пределы выборки. То есть вы можете применить свои выводы к другим людям и настройкам.

Думайте об этом как о степени, до которой результат может быть обобщен. Насколько хорошо результаты исследования применимы к остальному миру?

Лабораторная среда (или другая исследовательская среда) — это контролируемая среда с меньшим количеством переменных.Внешняя валидность относится к тому, насколько верны результаты даже при наличии всех этих других переменных.

6. Обоснованность статистического заключения

Достоверность статистического заключения – это определение того, существует ли взаимосвязь или ковариация между причинно-следственными переменными.

Этот тип проверки требует:

Обеспечение надлежащих процедур отбора проб
Соответствующие статистические тесты
Методы надежных измерений

Это степень достоверности или правдоподобности заключения.

7. Критерий достоверности

Валидность, связанная с критериями (также называемая инструментальной валидностью), является мерой качества ваших методов измерения. Точность меры демонстрируется путем сравнения ее с мерой, достоверность которой уже известна.

Другими словами, если ваша мера имеет высокую корреляцию с другими мерами, достоверность которых известна благодаря предыдущим исследованиям.

Чтобы это работало, вы должны знать, что критерий был хорошо измерен.И знайте, что подходящие критерии не всегда существуют.

То, что вы делаете, — это проверка эффективности вашей операционализации по критериям.

Критерии, которые вы используете в качестве стандарта суждения, учитывают различные подходы, которые вы бы использовали:

Прогностическая валидность — способность операционализации предсказывать то, что теоретически возможно предсказать. Степень, в которой мера предсказывает ожидаемые результаты.
Параллельная валидность — способность операционализации различать группы, на которые она теоретически должна быть способна.Именно здесь тест хорошо коррелирует с мерой, которая была проверена ранее.

Когда мы смотрим на достоверность данных опроса, мы спрашиваем, представляют ли данные то, что, по нашему мнению, они должны представлять.

Мы зависим от склада ума и отношения респондента, чтобы предоставить нам достоверные данные.

Другими словами, мы рассчитываем на то, что они ответят на все вопросы честно и добросовестно. Мы также зависим от того, смогут ли они ответить на вопросы, которые мы задаем.Когда задаются вопросы, которые респондент не может понять или понять, тогда данные не говорят нам о том, что, по нашему мнению, они делают.

электронных уроков QMSS | Валидность и надежность

Для каждого аспекта интереса и конкретного вопроса или набора вопросов существует огромное количество способов задать вопросы. Хотя руководящим принципом должны быть конкретные цели исследования, есть лучшие и худшие вопросы для любой конкретной операционализации.Как оценить меры?

Два основных критерия оценки при любом измерении или наблюдении:

Измеряем ли мы то, что собираемся измерять.
Дает ли один и тот же процесс измерения одинаковые результаты.

Эти две концепции — валидность и надежность.

Надежность связана с вопросами стабильности и непротиворечивости — дает ли один и тот же инструмент измерения стабильные и непротиворечивые результаты при повторении с течением времени.Подумайте об измерительных процессах в других контекстах — в строительстве или деревообработке рулетка — очень надежный измерительный инструмент.

Допустим, у вас есть кусок дерева длиной 2 1/2 фута. Вы измеряете его один раз рулеткой
— вы получаете измерение 2 1/2 фута. Измерьте еще раз, и вы получите 2 1/2 фута. Измерьте его несколько раз, и вы последовательно получите измерение 2 1/2 фута. Рулетка дает надежные результаты.

Валидность относится к степени, в которой мы измеряем то, что надеемся измерить (и то, что, как мы думаем, мы измеряем).Продолжая пример измерения куска дерева, рулетка, созданная с точным интервалом в дюймах, футах и т. д., также должна давать достоверные результаты. Измерение этого куска дерева «хорошей» рулеткой должно дать правильное измерение длины дерева.

Чтобы применить эти концепции к социальным исследованиям, мы хотим использовать инструменты измерения, которые являются надежными и достоверными. Нам нужны вопросы, которые при многократном задании дают последовательные ответы — это надежность.Точно так же нам нужны вопросы, на которые респонденты получают точные ответы — это валидность.

Надежность

Надежность относится к состоянию, при котором процесс измерения дает согласованные оценки (при неизменном измеряемом явлении) при повторных измерениях. Возможно, самый простой способ оценить надежность — убедиться, что они соответствуют следующим трем критериям надежности. Меры с высокой надежностью должны демонстрировать все три.

Надежность повторных испытаний

Когда исследователь несколько раз применяет один и тот же инструмент измерения — задает один и тот же вопрос, следует одним и тем же исследовательским процедурам и т. д.- Получает ли он/она стабильные результаты, предполагая, что не произошло никаких изменений в том, что он/она измеряет? Это действительно самый простой метод оценки надежности: когда исследователь дважды задает одному и тому же человеку один и тот же вопрос («Как тебя зовут?»), получает ли он оба раза одни и те же результаты. Если это так, мера имеет надежность повторных испытаний. Измерение куска дерева, о котором говорилось ранее, имеет высокую надежность повторных испытаний.

Межпредметная надежность

Это измерение применяется к случаям, когда несколько элементов используются для измерения
одного понятия.В таких случаях ответы на набор вопросов, предназначенных для измерения какого-то одного понятия (например, альтруизма), должны быть связаны друг с другом.

Межнаблюдательная надежность

Надежность между наблюдателями касается степени, в которой разные интервьюеры или наблюдатели, использующие один и тот же показатель, получают одинаковые результаты. Если разные наблюдатели или интервьюеры используют один и тот же инструмент для оценки одного и того же, их оценки должны совпадать. Например, надежность наблюдательной оценки взаимодействия родителей и детей, проводимая разными наблюдателями, часто оценивается путем показа двум наблюдателям видеозаписи, на которой родитель и ребенок играют.Этих наблюдателей просят использовать инструмент оценки для оценки взаимодействий между родителем и ребенком на ленте. Если инструмент имеет высокую надежность для разных наблюдателей, оценки двух наблюдателей должны совпадать.

Срок действия

Повторим, достоверность относится к степени, в которой мы измеряем то, что надеемся измерить (и то, что, как мы думаем, мы измеряем). Как оценить достоверность набора измерений? Действительная мера должна удовлетворять четырем критериям.

Проверка подлинности

Этот критерий является оценкой того, кажется ли мера, на первый взгляд, измеряющей концепцию, для измерения которой она предназначена.Это очень минимальная оценка — если мера не может удовлетворить этому критерию, то другие критерии не имеют значения. Мы можем думать о наблюдаемых мерах поведения, которые имели бы кажущуюся достоверность. Например, нанесение удара по другому человеку может иметь очевидную юридическую силу как показатель агрессии. Точно так же предложение помощи незнакомцу будет соответствовать критерию внешней обоснованности помощи. Тем не менее, спрашивать людей об их любимом фильме для измерения расовых предрассудков маловероятно.

Проверка содержимого

Валидность содержания касается степени, в которой мера адекватно представляет все аспекты концепции. Рассмотрим ряд вопросов, которые служат индикаторами депрессии (не хочется есть, потеря интереса к вещам, которые обычно доставляли удовольствие, и т. д.). Если бы существовали другие виды общего поведения, характеризующие человека как депрессивного, но не включенные в индекс, то индекс имел бы низкую содержательную достоверность, поскольку он неадекватно представлял бы все аспекты концепции.

Валидность, связанная с критериями

Валидность, связанная с критериями, применяется к инструментам, которые были разработаны для использования в качестве индикатора конкретной черты или поведения либо сейчас, либо в будущем. Например, подумайте об экзамене по вождению как о социальном измерении, которое имеет довольно хорошую прогностическую достоверность. Иными словами, успехи человека на экзамене по вождению хорошо коррелируют с его/ее способностями к вождению.

Конструктивная валидность

Но для многих вещей, которые мы хотим измерить, не обязательно имеется подходящий критерий.В этом случае обратитесь к построению валидности, которая касается степени, в которой мера связана с другими мерами, как указано в теории или предыдущих исследованиях. Сопоставляется ли мера с другими переменными так, как мы ожидаем? Хороший пример этой формы валидности можно найти в ранних исследованиях самооценки — самооценка относится к чувству собственного достоинства или самоуважения человека. Клинические наблюдения в области психологии показали, что люди с низкой самооценкой часто страдают депрессией. Поэтому, чтобы установить конструктивную валидность измерения самооценки, исследователи показали, что люди с более высокими показателями самооценки имели более низкие показатели депрессии, в то время как люди с низкой самооценкой имели более высокие показатели депрессии.

Валидность и надежность по сравнению с

Итак, какова связь между достоверностью и надежностью? Эти два не обязательно идут рука об руку.

В лучшем случае у нас есть мера, которая имеет как высокую достоверность, так и высокую надежность. Он дает стабильные результаты при многократном применении и точно отражает то, что мы надеемся представить.

Возможна мера с высокой надежностью, но низкой валидностью, т. е. мера, которая устойчива в получении неверной информации или устойчива в отсутствии отметки.* Также возможно иметь вариант с низкой надежностью и низкой достоверностью — непоследовательный и не соответствующий цели.

Наконец, невозможно иметь меру с низкой надежностью и высокой достоверностью — вы не сможете действительно получить то, что хотите или что вас интересует, если ваша мера сильно колеблется.

Face Validity: определение и примеры — видео и расшифровка урока

Действительно ли это действительно так?

Важно знать, что внешняя валидность не обязательно означает, что тест является действительной мерой конструкции, скорее тест выглядит так, как будто он является действительной мерой.Под действительным мы подразумеваем, что тест точно измеряет то, что он должен измерять.

Предположим, тест Лайлы показался ее участникам действительным, потому что он включал в себя основные математические процессы (например, сложение) и включал несколько математических задач. После более позднего просмотра Лила обнаруживает, что словесные задачи в ее тесте на самом деле измеряли понимание прочитанного, а не математические способности, и ее вопросы написаны для учащихся старших классов, а не для студентов колледжей.Хотя казалось, что тест Лайлы был нацелен на правильную целевую аудиторию и конструкцию, Лила на самом деле измеряла нечто совершенно другое.

Здесь мы видим, что валидность лица зависит от внешности. Хотя внешняя валидность является чисто субъективной и поверхностной, исследователи интересуются ею, потому что большинство исследователей считают, что тест должен фактически измерять то, что он должен измерять.

Личный опыт

Лицевая достоверность сильно зависит от личного опыта рецензента.То, что может показаться верным одному человеку, может показаться ложным другому. Предположим, Лайла решила проверить внешнюю достоверность своего теста, дав его случайной группе людей, которых она встретила на улице. Они могут увидеть в ее оценке несколько математических терминов и согласиться с тем, что ее тест имеет кажущуюся валидность.

Теперь предположим, что она также отдала его группе экспертов-математиков. Поскольку эксперты более осведомлены о математических понятиях, они с большей вероятностью выявят несоответствия, неправильный математический язык и другие проблемы в тесте.Эксперты могут прийти к выводу, что оценка Лайлы не является точным показателем математических способностей, даже если люди на улице могут подумать, что тест является точным показателем.

Итоги урока

Давайте повторим. Лицевая валидность — это степень, в которой тест выглядит так, как будто он измеряет то, что, как утверждается, измеряет. Внешняя валидность касается внешнего вида и является чисто субъективной. Личный опыт человека или группы, которые проверяют кажущуюся валидность, влияет на кажущуюся валидность теста.

Ключевые факты о достоверности лица

Внешняя валидность: Когда кажется, что оценка или тест делают то, на что претендуют.
Лицевая валидность не обязательно означает, что тест является действительной мерой.
Тест может измерить что-то совершенно отличное от того, что кажется.
Лицевая достоверность зависит от личного опыта рецензента.

Результаты обучения

По окончании урока вы должны были научиться:

Определять лицевую достоверность
Объясните, что значит сказать, что тест действителен
Опишите, как личный опыт исследователя влияет на кажущуюся достоверность

Что такое достоверность содержимого? (Определение и пример)

Термин валидность содержания относится к тому, насколько хорошо опрос или тест измеряет конструкцию, которую они призваны измерять.

Например, предположим, что профессор хочет проверить общие знания своих студентов по предмету элементарной статистики. Его тест будет содержательным, если:

Тест охватывает все темы элементарной статистики, которые он преподавал в классе.
Тест не охватывает несвязанные темы, такие как история, экономика, биология и т. д.

Тесту не хватает содержательной валидности, если он не охватывает все аспекты конструкции, которую он предназначен для измерения, или если он охватывает темы, никак не связанные с конструкцией.

Когда используется проверка содержимого?
На практике валидность контента часто используется для оценки валидности тестов, оценивающих знание контента. Примеры включают:
Пример 1: Итоговый экзамен по статистике
Выпускной экзамен в конце семестра по курсу статистики будет иметь содержательную ценность, если он охватывает все темы, обсуждаемые в курсе, и исключает все другие нерелевантные темы.
Пример 2: Лицензия пилота
Экзамен, который проверяет, достаточно ли знаний у людей для получения лицензии пилота, будет иметь содержание, если он включает вопросы, которые охватывают все возможные темы, обсуждаемые в курсе пилота, и исключают все другие вопросы, которые не имеют отношения к лицензии.
Пример 3: Лицензия на недвижимость
Экзамен, который проверяет, обладают ли люди достаточными знаниями для получения лицензии на недвижимость, будет иметь содержательную силу, если он охватывает все темы, которые должен понять агент по недвижимости, и исключает все другие вопросы, которые не относятся к делу.
В каждой ситуации валидность содержания может помочь определить, охватывает ли тест все аспекты конструкции, которую он предназначен для измерения.
Как измерить достоверность содержания
В статье 1975 года К.Х. Лоуше разработал следующую технику для оценки достоверности содержания:
Шаг 1: Соберите данные от экспертов в предметной области.
Лоше предложил каждому эксперту в предметной области (SME) в составе жюри ответить на вопрос:
«Являются ли навыки или знания, измеряемые этим пунктом, «существенными», «полезными, но не существенными» или «не необходимыми» для выполнения работы?»
Каждый SME должен предоставить этот ответ на каждый вопрос теста.
Шаг 2: Рассчитайте коэффициент достоверности содержимого.
Затем Лоше предложил следующую формулу для количественной оценки коэффициента достоверности содержания каждого вопроса теста:
Коэффициент достоверности содержания = (n _e – N/2) / (N/2)
где:
n _e : Количество экспертов в предметной области с пометкой «основной»
N: Общее количество экспертов МСБ
Если коэффициент достоверности содержания для заданного вопроса падает ниже определенного критического значения, вероятно, вопрос не измеряет интересующий конструкт должным образом.
В следующей таблице показаны критические значения, основанные на количестве участников дискуссии SME:
Индекс содержательной валидности, обозначаемый как CVI, представляет собой средний коэффициент содержательной валидности всех вопросов теста. Чем ближе CVI к 1, тем выше общая содержательная валидность теста.
В следующем примере показано, как рассчитать достоверность содержимого для определенного теста.
Пример: измерение достоверности содержимого
Предположим, мы просим группу из 10 судей оценить 6 пунктов теста.Зеленые прямоугольники в следующей таблице показывают, какие судьи оценили каждый пункт как «важный»:
Коэффициент достоверности содержимого для первого элемента будет рассчитываться как:
Коэффициент достоверности содержания = (n _e – N/2) / (N/2) = (9 – 10/2) / (10/2) = 0,8
Аналогичным образом можно рассчитать коэффициент достоверности содержания для каждого элемента:
Из таблицы критических значений мы видим, что элемент считается имеющим содержание достоверности для комиссии из 10 судей, только если его значение CVR выше 0.62.
Для этого конкретного теста только три элемента проходят этот порог.
Наконец, мы также можем рассчитать индекс валидности содержания (CVI) всего теста как среднее значение всех значений CVR:
CVI = (0,8 -0,2 + 1 + 0,8 + 0,6 + 0) / 6 = 0,5
Это значение CVI довольно низкое, что указывает на то, что тест, вероятно, не измеряет интересующую конструкцию так хорошо, как мог бы.
Рекомендуется удалить или изменить элементы с низкими значениями CVR, чтобы повысить общую достоверность содержимого теста.
Валидность содержания и валидность лица
Действительность содержания отличается от внешней действительности , когда опрос или тест кажутся действительными по номинальной стоимости как для лиц, которые их проходят, так и для лиц, которые их проводят.
Лицевая валидность — это менее технический способ оценки валидности теста, и он часто используется просто как быстрый способ определить, следует ли каким-либо образом модифицировать тест перед его использованием.
Каковы доказательства достоверности оценок клинического обучения?
Abstract
Background
Несмотря на то, что при оценке инструментов оценивания следует использовать различные доказательства достоверности, обзор оценок преподавания показал, что авторы стремятся к ограниченному набору доказательств достоверности.
Задачи
Разработать метод оценки обоснованности доказательств и количественной оценки доказательств, подтверждающих баллы из существующих инструментов оценки клинического обучения.
Дизайн
Всесторонний поиск дал 22 статьи по клинической оценке обучения. Используя стандарты, установленные Американской ассоциацией психологических исследований и исследований в области образования, мы разработали метод оценки 5 категорий доказательств достоверности, представленных в каждой статье. Затем мы количественно оценили достоверность данных, просуммировав оценки по каждой категории.Мы также рассчитали взвешенные коэффициенты κ для определения межэкспертной надежности для каждой категории доказательств достоверности.
Основные результаты
Свидетельства о содержании и внутренней структуре получили наивысшие оценки (27 и 32 соответственно из 44 возможных). Отношение к другим переменным, последствиям и процессу реагирования получили самые низкие оценки (9, 2 и 2 соответственно). Надежность между оценщиками была хорошей для содержания, внутренней структуры и связи с другими переменными (диапазон κ 0.от 52 до 0,96, все значения P <0,01), но плохой для последствий и процесса реагирования.
Выводы
Содержание и внутренняя структура фактических данных хорошо представлены среди опубликованных оценок клинического обучения. Доказательства связи с другими переменными, последствиями и процессом реагирования получают мало внимания, и в будущих исследованиях следует уделять особое внимание этим категориям. Низкая межэкспертная достоверность процесса реагирования и последствий, вероятно, отражает нехватку представленных доказательств.При дальнейшем развитии наш метод оценки достоверности доказательств должен оказаться полезным в различных условиях.
Ключевые слова: достоверность, клиническое обучение, оценочные исследования
Эксперты подчеркивают необходимость надежных и достоверных оценок обучения. ¹ ^, ² Несмотря на это, медицинские педагоги не использовали согласованные критерии достоверности при разработке и оценке инструментов для оценки клинического обучения. Например, недавно мы рассмотрели литературу по психометрическим характеристикам инструментов оценки клинических учителей.³ В нашем анализе этих исследований, ⁴ ^– ²⁵ мы обнаружили, что авторы обычно используют ограниченный набор доказательств валидности, и интерпретация валидности авторов существенно различается с точки зрения относительной важности, придаваемой различным категориям. доказательств достоверности.
Эти результаты заставили нас более глубоко задуматься об определении и измерении валидности при оценке клинического обучения. Согласно современной теории, валидность — это гипотеза, и все источники доказательств валидности способствуют принятию или отклонению этой гипотезы.¹ По этой причине баллы, полученные с помощью инструментов оценки преподавания, должны подтверждаться различными доказательствами достоверности. Американские ассоциации психологических и образовательных исследований опубликовали стандарты, в которых определены 5 источников доказательств достоверности: (1) содержание, (2) процесс реагирования, (3) внутренняя структура, (4) связь с другими переменными и (5) последствия ²⁶ (видеть ) Примечательно, что эта структура валидности из 5 категорий, сформулированная Мессиком ²⁷ более 10 лет назад, все чаще рассматривается исследователями в области образования и психологии как наиболее полная концептуализация валидности.Кроме того, эксперты подчеркивают важность включения этих источников данных в клинические оценки обучения. ¹ ^, ³ Эксперты также утверждают, что валидность является свойством оценок и интерпретаций оценок, а не свойством самого инструмента. ¹ ^, ²⁶ ^, ²⁶ ^, ²⁷
Таблица 1
Срок действия: источники доказательств, определений, и примеры
Доказательств Источник Определение1 1 ^, ²⁵, ²⁵ Примеры ^*
Содержание «Отношение между содержанием теста и конструкцией, для измерения которой он предназначен.” ²⁶ Относится к темам, формулировкам и формату пунктов в инструменте оценки. Включает анализ экспертов относительно того, насколько адекватно элементы представляют предметную область. Также включает стратегии разработки для обеспечения надлежащего представления контента. Опрос опытных учителей относительно адекватности и репрезентативности предлагаемых инструментов. ¹⁰ Выбор элементов, ранее использовавшихся в аналогичных условиях. Разработка инструментов на основе устоявшихся образовательных теорий.¹⁴
Процесс ответа Анализ ответов, включая действия, стратегии и мыслительные процессы отдельных респондентов или наблюдателей. Различия в процессах реагирования могут выявить источники вариаций, которые не имеют отношения к измеряемому конструкту. Также включает в себя безопасность инструментов, подсчет очков и отчет о результатах Опрос и изучение учащихся относительно факторов, влияющих на оценки, которые они присваивают учителям. Анализ различных шаблонов ответов среди разных категорий/уровней учащихся.¹⁷ , ¹⁹
Внутренняя структура Степень, в которой отдельные элементы прибора соответствуют базовым конструкциям. Элементы, измеряющие одномерную конструкцию, должны быть однородными, а элементы, измеряющие сложные конструкции, — нет. Чаще всего сообщаются как меры надежности внутренней согласованности и факторный анализ Использование факторного анализа для определения размерной структуры оценок инструмента и определение надежности оценок.¹² Изучение дифференциального функционирования элементов среди однородной группы оценщиков
Отношения с другими переменными Отношения между баллами и другими переменными, относящимися к измеряемому конструкту. Отношения могут быть положительными (конвергентными или прогностическими) или отрицательными (расходящимися или дискриминантными) в зависимости от измеряемых конструктов Насколько хорошо оценочные баллы учителей предсказывают успеваемость учащихся на экзаменах с высокими ставками или их выбор медицинской специальности? ¹³ Коррелируют ли баллы с другими показателями той же конструкции? ²² Можно ли обобщить результаты оценки с одного параметра на другой, аналогичный параметр?
Последствия Оценка предназначена для получения желаемого эффекта (например,г., улучшить успеваемость), но они также имеют непреднамеренные последствия. Оценка таких последствий может подтверждать или оспаривать достоверность интерпретаций оценок Соотносятся ли результаты одинаково квалифицированных учителей по клинической оценке преподавания с факторами, которые не измеряются, такими как медицинская специализация, пол или этническая принадлежность?
В настоящем исследовании мы критически оценили опубликованную литературу на наличие доказательств, подтверждающих достоверность оценок клинического обучения.Нашими целями были: (1) разработать надежный и систематический метод, с помощью которого преподаватели-медики могут оценивать достоверность результатов, полученных с помощью инструментов оценки преподавания, (2) оценить количество и качество доказательств достоверности результатов, полученных из опубликованных инструментов оценки обучения, и (3). ) определить области, требующие дальнейших исследований.
МЕТОДЫ
Поиск литературы
Наш метод выявления исследований по оценке клинического обучения подробно описан в другом месте. ³ В электронных базах данных, включая MEDLINE, EMBASE, PsycINFO, ERIC и Social Science Citation/Science Citation index, был проведен поиск англоязычных статей, опубликованных в период с 1966 по июль 2004 г., с использованием терминов достоверность, медицинский факультет, медицинское образование, оценочные исследования, прибор, а текстовое слово надежность.Этот поиск дал более 330 статей. Обзорные статьи, редакционные статьи, качественные исследования и обсуждения случаев были исключены. Дополнительные статьи были найдены путем просмотра библиографий найденных статей и консультаций с коллегами, имеющими опыт в области медицинского образования. Изучив все заголовки и аннотации, мы нашли 22 соответствующих исследования, описывающих инструменты, предназначенные для оценки клинического факультета учащимися.
Рейтинг источников подтверждения достоверности
Мы согласовали рабочие определения 5 источников подтверждения достоверности на основе Стандартов ²⁶, опубликованных Американской ассоциацией исследований в области психологии и образования, и интерпретаций другого автора.¹ Затем мы разработали следующую оценочную шкалу: N = нет обсуждения этого источника доказательств достоверности и/или данные не представлены; 0 = обсуждение этого источника доказательств валидности, но данные не представлены или данные не подтверждают валидность инструментальных оценок; 1=данные из этого источника слабо подтверждают достоверность интерпретаций баллов; и 2=данные из этого источника убедительно подтверждают достоверность интерпретаций баллов. Мы приняли эту шкалу после рассмотрения нескольких альтернатив, потому что числовые баллы (оценка = 1 или 2) присуждались только за статьи, которые предоставляют данные, подтверждающие достоверность интерпретаций оценок, отличая статьи, в которых обсуждалась категория доказательств достоверности (оценка = 0), от тех, которые не для рассмотрения категории доказательств достоверности (оценка = N) и избегания ненужной сложности.См. ) для конкретных критериев оценки для каждой категории доказательств достоверности. Авторы Т.Дж.Б. и D.A.C. независимо проанализировали 22 исследования, используя эту рейтинговую шкалу. После расчета межэкспериментальной надежности авторы T.J.B. и D.A.C. обсуждали свои индивидуально присвоенные рейтинги для каждой статьи, пока не достигли консенсуса по окончательным рейтингам. Затем эти рейтинги суммировались по всем исследованиям, чтобы получить общий балл для каждой категории доказательств.
Таблица 2
Критерии для рейтинга достоверности доказательств0
7 N
N
77
0
777
400977
2
7 Корреляция (сходимость) или отсутствие корреляции (расхождение) между оценочными баллами и теоретически предсказанными результатами или показателями одной и той же конструкции.Такие доказательства, как правило, являются неотъемлемой частью плана исследования и ожидаются априори. Предположения о возможных применениях оценки не являются доказательством P
4 P
Content
7 0.10
5 32
9
3 2
Рейтинг
*
Рейтинг1 * Критерии рейтинга иллюстративные примеры
Content
Нет обсуждения содержание инструмента (включает простое перечисление элементов без обоснования) Guyatt et al.¹⁰
0 Обсуждение, но нет данных ^‡
1 1 Листинг темы оценки с небольшим количеством или нет ссылки на теоретическую основу или плохо определенный процесс создания и рассмотрение предметов
2 Четко определенный процесс разработки содержания инструментов, включая как явную теоретическую/концептуальную основу для элементов инструментов, так и систематический обзор элементов экспертами В качестве альтернативы, ссылка на предварительное исследование по оценке инструмент, отвечающий этим критериям
Ответ процесс N Без обсуждения.Простое раскрытие доли ответивших или числа респондентов не является доказательством McLeod et al. ¹⁷
0 Обсуждение, но нет данных. Обсуждение влияния частоты ответов на оценочные баллы или рассуждения о мыслительных процессах учащихся не являются доказательством. Описание (без данных) систем, которые уменьшают ошибку ответа, таких как компьютерные формы с оценками Или RATER снисходительность, или данные, демонстрирующие низкую ошибку реагирования
N N No Disestion IRBY и Rakestraw1 12
0
1 Факторный анализ, не полностью подтверждающий предполагаемую структуру данных или приемлемую надежность с помощью одной мерыВариация ответов на конкретные предметы между подгруппами (функционирование дифференциала) может поддерживать или вызов внутренней структуре в зависимости от прогнозов ²⁶
соотношение к другим переменным N NO DIVESION Джеймс и Осборн ¹³
0
1 1 1
Cohen et al. ⁶
0 Обсуждение, но нет данных. Простое обсуждение последствий оценки (например, данных о полезности или одобрении преподавателями) без привязки этого к действительности не является доказательством
1 Описание последствий оценки, которые могут предположительно повлиять на достоверность интерпретация оценок (хотя это влияние не указано авторами в явном виде)
2 Описание последствий оценки, которые явно влияют на достоверность интерпретации оценок, подтвержденные данными и убедительно аргументированные авторами .Такие данные обычно являются неотъемлемой частью плана исследования и ожидаются априори. , 2, 3 и 4 соответственно. Взвешенные значения κ и значения κ P были рассчитаны для каждой категории доказательств достоверности с использованием схемы взвешивания, предложенной Fleiss и Cohen. ²⁸ ^, ²⁹ Значения Каппа были интерпретированы в соответствии с рекомендациями Лэндиса и Коха ³⁰, где значения κ меньше 0.4 представляют плохое согласие, значения от 0,4 до 0,75 — от удовлетворительного до хорошего, а значения 0,75 и выше — отличное согласие. Для всех анализов значения κ P ≤ 0,05 были критериями для заключения о наличии значительного согласия между наблюдателями.
РЕЗУЛЬТАТЫ
Наивысший возможный балл по каждой категории доказательств достоверности при суммировании баллов по 22 статьям равен 44. Наивысшие суммарные баллы были даны по категориям «Содержание» и «Внутренняя структура» (27 и 32 балла соответственно) () За исключением 1 статьи в категории «Связь с другими переменными», «Содержание» и «Внутренняя структура» были единственными категориями со статьями, имеющими доказательства, убедительно подтверждающие достоверность (= оценка 2) ().
Таблица 3
0
Оценка достоверности и Соглашение о наблюдателях
Sum
27 0.96
Процесс ответа 2 -0.10
32 0.52 0.01
0.82 . Содержание отклика процесса Внутренняя структура Другие переменные Последствия
Beckman 2003 1 0 1 N 0
Benbasset 1981 Н 0 1 1 0
Коэна 1996 N 0 1 0 1
Copeland 2000 2 0 2 1 1
Доннелли 1989 N 0 2 N N
Доннер-Banzhoff 2003 2 0 1 1 N
Guyatt 1993 2 0 1 0 0
Хейворд 1995 2 0 2 Н 0
Ирби тысяча девятьсот восемьдесят одна 2 N 2 N N
Джеймс 1999 2 N 1 2 N
Litzelman 1998 2 N 2 N N N
Litzelman 1999 2 0 2 N N
Мэджилл 1986 1 0 1 Н Н
Маклеода 1 993 2 1 2 N 0
Ramsbottom- Люсьер 1994 2 0 1 Н Н
Risucci 1992 Н 1 1 0 N
Shellenberger 1 982 2 0 2 Н Н
Смит 2004 2 Н 2 1 0
Соломон 1997 Н 0 1 N 0
Штайнер 2000 1 1 0
Tortolani 1991 N 0 2 1 0
Williams 2002 N 0 1 1 0
Наименьшие суммарные баллы были даны для категорий доказательств «Связь с другими переменными», «Последствия» и «Процесс реагирования» (9, 2 и 2 балла соответственно) ().В категориях «Процесс реагирования» и «Последствия» в подавляющем большинстве статей не было представлено или было недостаточно данных для подтверждения достоверности. суммирует баллы для каждой категории доказательств достоверности и суммирует баллы достоверности для отдельных исследований клинического обучения.
Что касается межэкспертной надежности, то взвешенные значения κ были от хороших до отличных для категорий «Содержание», «Внутренняя структура» и «Связь с другими переменными» (диапазон κ от 0,52 до 0,96, все значения P ≤.01), но взвешенные каппа-баллы были плохими для последствий и процесса реагирования. суммирует взвешенные значения κ и соответствующие значения P .
ОБСУЖДЕНИЕ
Основываясь на наших предыдущих наблюдениях, ³ мы ожидали, что доказательства валидности содержания и внутренней структуры будут широко представлены в литературе по оценке клинического обучения. После разработки и внедрения объективного метода оценки доказательств валидности мы подтвердили, что самые высокие оценки имеют категории «Содержание» и «Внутренняя структура», а самые низкие оценки — «Связь с другими переменными», «Последствия» и «Процесс реагирования».Эти результаты показывают, что, вопреки запросам о достоверности доказательств из различных источников, большинство авторов сообщают лишь об ограниченном подмножестве доказательств достоверности. Это поднимает вопросы о достоверности интерпретаций, которые могут быть получены из существующих оценок преподавания. Чтобы проиллюстрировать, как будущие исследования могут улучшить прошлые, мы рассмотрим источники доказательств достоверности, найденные среди оценок клинического обучения, и приведем примеры статей, которые эффективно используют доказательства достоверности.
Внутренняя структура Свидетельство относится к степени, в которой отдельные элементы соответствуют основной интересующей конструкции, и чаще всего сообщается как меры факторного анализа или надежности внутренней согласованности. ²⁶ Некоторые эксперты включают в эту категорию всю надежность. ¹ ^, ²⁷ Мы обнаружили, что доказательства внутренней структуры обычно демонстрируются в исследованиях клинической оценки обучения, возможно, потому, что такие доказательства можно искать без предварительного планирования.Другими словами, выполнение статистического анализа (например, достоверности, факторного анализа) ранее существовавших данных может предоставить доказательства внутренней структуры. В большинстве исследований в нашем обзоре сообщается как минимум об одном типе надежности. Однако мы обеспокоены тем, что сообщаемые типы надежности могут быть не самыми важными. Межэкспертная надежность является предпочтительным типом надежности при оценке клинической эффективности ³¹ ; тем не менее, наш обзор психометрических характеристик клинических оценок обучения показал, что менее половины опубликованных исследований сообщают об этом показателе надежности.³
Поскольку доказательства внутренней структуры распространены, мы смогли распознать закономерности, которые облегчили нашу оценку этой категории. Примечательно, что во всех статьях использовался факторный анализ и/или определенная степень надежности. Примечательный пример доказательства внутренней структуры взят из исследования Ирби и Рейкстроу. ¹² В этом исследовании факторный анализ с ортогональным вращением выявил 4 различных фактора и удовлетворительные корреляции между элементами. Кроме того, оценки межэкспертной надежности для 20 рейтингов, рассчитанные по формуле пророчества Спирмена-Брауна, были превосходными.
Содержание Свидетельства относятся к темам, формулировкам и формату элементов и включают экспертную оценку и другие стратегии систематической разработки элементов. В этом исследовании свидетельство содержания среди оценок клинического обучения уступало только внутренней структуре. При оценке доказательств содержания мы использовали 2 критерия: (1) элементы должны представлять конструкцию (конструкции), которую они намереваются измерить, то есть элементы должны иметь убедительную теоретическую основу, и (2) стратегии разработки инструментов, включая экспертную оценку, должны быть четко описаны.Возможно, лучшим примером доказательства содержания является исследование Guyatt et al. ¹⁰ Первоначально авторы определили критерии оценки (области), используя данные преподавателей, резидентов и тщательный обзор литературы. Затем были созданы элементы для представления определенных доменов. Наконец, авторы сформулировали метод, с помощью которого врачи просматривали и модифицировали окончательный набор пунктов.
Отношение к другим переменным Свидетельство относится к отношениям (конвергентным или дискриминирующим) между оценками и другими переменными, относящимися к измеряемому конструкту.Отношение к другим переменным является мощным, но малоиспользуемым источником доказательств среди оценок клинического обучения. Мы подозреваем, что отношение к другим переменным используется недостаточно, потому что в большинстве случаев исследования должны быть специально разработаны для оценки предсказанных ассоциаций или гипотез. Как обсуждается ниже, кажется, что исследования клинических оценок обучения часто не основаны на гипотезах и не предназначены для подтверждения ожидаемых ассоциаций. Примеры значимых взаимосвязей между оценками преподавателей и другими переменными могут включать корреляции (положительные или отрицательные, как предсказано теорией) между баллами и результатами, такими как награды за преподавание или академическое продвижение, а также демонстрацию прогнозируемых корреляций между баллами из двух разных инструментов, предназначенных для оценки одного и того же. обучающие поведения.²² К сожалению, мы нашли только одно исследование с данными, убедительно подтверждающими связь с другими переменными. Джеймс и Осборн ¹³ показали, что баллы, полученные при оценке ученика учителем (показатель качества обучения), были в значительной степени связаны с определенными теоретически предсказанными результатами, такими как оценки работы клерка и выбор медицинской специальности, но не были связаны с другими результатами, такими как по оценкам Национального совета медицинских экспертов.
Категории Последствия Процесс реагирования были наименее представленными источниками доказательств валидности среди опубликованных оценок клинического обучения, и их труднее всего оценить, о чем свидетельствуют низкие показатели κ.Точно так же, как преобладание данных о внутренней структуре способствовало нашей способности давать точные оценки, мы подозреваем, что нехватка примеров свидетельств о последствиях и процессах реагирования поставила под вопрос нашу способность распознавать закономерности и, таким образом, формализовать критерии для оценки этих категорий.
Оценки предназначены для получения определенного желаемого эффекта (последствия), но могут также иметь непредвиденные последствия. Таким образом, анализ последствий оценок может подтвердить достоверность интерпретации оценок или выявить нераспознанные угрозы достоверности.Тем не менее, простая демонстрация последствий, даже значительных и впечатляющих, не является доказательством валидности, если только исследователи явно не продемонстрируют, что эти последствия влияют на интерпретацию результатов (валидность). ²⁶ Мы нашли только 2 исследования, данные которых слабо подтверждали достоверность последствий. В исследовании Cohen et al. ⁶ учителя получили оценочные баллы в качестве формирующей обратной связи. Все, кроме одного, учителя с низкими баллами улучшились по сравнению со средними и выдающимися учителями, чьи баллы в целом остались прежними.Хотя эти данные не показывают причинно-следственной связи, они подразумевают, что процесс оценки мог повлиять на поведение преподавателя, что, в свою очередь, свидетельствует о последствиях. В другом исследовании отдельные отчеты показали, что оценка повысила осведомленность об эффективном клиническом поведении при обучении. ⁷ Опять же, это наблюдение подразумевает, что последствия оценки преподавателей могут повлиять на достоверность интерпретаций оценок.
Изучение рассуждений и мыслительных процессов учащихся или систем, которые снижают вероятность ошибки при ответе, может предоставить доказательства Процесса Ответа.Мы нашли 2 статьи с данными процесса ответа, которые слабо подтверждали достоверность. Маклеод и др. ¹⁷ показали, что студенты и врачи-резиденты, используя одни и те же формы, дают значительно разные баллы, хотя было не совсем ясно, оценивали ли студенты и резиденты одних и тех же учителей. Рисуччи и др. ¹⁹ использовали межэлементные корреляции для оценки ошибки ореола и обнаружили, что более продвинутые обучающиеся имеют более низкие межэлементные корреляции (меньшая ошибка ореола).Результаты обоих этих исследований подразумевают, что оценки, выполненные учащимися разного уровня, могут повлиять на достоверность этих интерпретаций. К сожалению, ни один из авторов не обсудил этот вывод и не обсудил причины, по которым разные уровни учащихся дают разные оценки.
Мы признаем ограничения нашего метода исследования. Как отмечалось выше, разработка и применение методов оценки для последствий и процесса реагирования были сложными, вероятно, из-за нехватки доказательств в литературе.Еще одним источником расхождений при присвоении рейтингов было множество критериев, влияющих на каждую категорию доказательств. Например, факторный анализ, дифференциальное функционирование элементов и различные типы надежности — все это свидетельствует о достоверности внутренней структуры. ²⁶ Тем не менее, рабочие определения становились более ясными по мере продвижения нашего обзора, и к завершению процесса оценки мы пришли к системе, учитывающей эти источники отклонений. Дополнительным ограничением нашей системы оценки было то, что каждой статье присваивался одинаковый вес, несмотря на значительную неоднородность методов исследования.Например, не во всех статьях были раскрыты важные детали, касающиеся условий оценивания, или использовались методы, предназначенные для выявления ожидаемых результатов. Таким образом, остается потребность в оценке качества методов , используемых в исследованиях по оценке клинического обучения, отдельно от доказательств, подтверждающих достоверность этих оценок.
Другим потенциальным ограничением нашего исследования является то, что рейтинги были присвоены категориям достоверности данных, исходя из предположения, что каждая категория имеет одинаковое значение при оценке клинического обучения.Можно возразить, что редко используемые категории доказательств валидности (например, связь с другими переменными, последствия и процесс реагирования) недостаточно представлены, потому что они менее важны при оценке клинического обучения. Однако мы склонны полагать, что эти категории недостаточно представлены, потому что поиск доказательств из этих категорий требует исследований, предназначенных для демонстрации этих источников доказательств, а также потому, что эти категории часто неправильно понимаются. Дополнительные проблемы включают выявление значимых корреляций и результатов (для доказательства связи с другими переменными и последствиями соответственно) и использование достаточно больших выборок, чтобы продемонстрировать такие корреляции и результаты.Хотя данные о содержании и внутренней структуре могут иметь первостепенное значение при первоначальной разработке инструмента, мы призываем авторов искать дополнительные доказательства связи с другими переменными, последствиями и процессом реагирования в последующих исследованиях. Наконец, мы признаем, что точная оценка доказательств достоверности из категорий «Содержание», «Последствия» и «Процесс реагирования» может быть особенно сложной задачей, поскольку данные из этих категорий часто являются качественными.
Наши результаты имеют важное значение для исследований по оценке клинического обучения в частности и для исследований, связанных с психометрическими инструментами в целом.Во-первых, будущие исследования должны искать более широкий спектр доказательств достоверности с большим вниманием к категориям отношения к другим переменным, последствиям и процессу реагирования. Тем не менее, при просмотре оценок, присвоенных отдельным статьям в текущем исследовании, читатели предостерегаются от сравнения статей исключительно на основе суммы оценок их доказательств (действительно, по этой причине мы не сообщали суммарные оценки для отдельных статей). Такие оценки являются лишь грубыми оценками достоверности.Например, исследование Джеймса и Осборна, ¹³, не получило наивысшего общего балла; тем не менее, это было единственное исследование, получившее высший балл в категории «Связь с другими переменными».
Вторым следствием наших выводов для будущих исследований является то, что авторы инструментов, использующих нескольких наблюдателей, должны чаще сообщать о межэкспериментальной надежности. ³ Третье следствие состоит в том, что в будущих исследованиях должны быть четко сформулированы предполагаемые исходы и теоретические основания для этих исходов.Многие исследователи, казалось, анализировали существующие данные, а затем пытались объяснить результаты апостериори. Конечно, не все исследования клинической оценки преподавания должны быть перспективными. Медицинским педагогам рекомендуется использовать традиционные эпидемиологические подходы, включая ретроспективные когортные исследования и исследования случай-контроль. ³² ^, ³³ Тем не менее, мы подчеркиваем, что даже ретроспективные исследования должны основываться на теории и гипотезах. Наконец, наше исследование предоставляет надежный метод оценки достоверности доказательств по категориям «Содержание», «Внутренняя структура» и «Связь с другими переменными».Оценка категорий последствий и процесса реагирования, хотя и ненадежная в этом исследовании, может улучшиться по мере того, как авторы освоятся с этими категориями и по мере того, как доказательства будут чаще представляться в литературе. Наш метод лучше всего использовать (как мы сделали в этой статье) для выявления слабых мест в литературе. Мы призываем педагогов расширять наш метод оценки доказательств достоверности и применять этот или аналогичные методы при анализе достоверности своих оценок.

Доказательств Источник	Определение1 1 ^, ²⁵, ²⁵	Примеры ^*
Содержание	«Отношение между содержанием теста и конструкцией, для измерения которой он предназначен.” ²⁶ Относится к темам, формулировкам и формату пунктов в инструменте оценки. Включает анализ экспертов относительно того, насколько адекватно элементы представляют предметную область. Также включает стратегии разработки для обеспечения надлежащего представления контента.	Опрос опытных учителей относительно адекватности и репрезентативности предлагаемых инструментов. ¹⁰ Выбор элементов, ранее использовавшихся в аналогичных условиях. Разработка инструментов на основе устоявшихся образовательных теорий.¹⁴
Процесс ответа	Анализ ответов, включая действия, стратегии и мыслительные процессы отдельных респондентов или наблюдателей. Различия в процессах реагирования могут выявить источники вариаций, которые не имеют отношения к измеряемому конструкту. Также включает в себя безопасность инструментов, подсчет очков и отчет о результатах	Опрос и изучение учащихся относительно факторов, влияющих на оценки, которые они присваивают учителям. Анализ различных шаблонов ответов среди разных категорий/уровней учащихся.¹⁷ , ¹⁹
Внутренняя структура	Степень, в которой отдельные элементы прибора соответствуют базовым конструкциям. Элементы, измеряющие одномерную конструкцию, должны быть однородными, а элементы, измеряющие сложные конструкции, — нет. Чаще всего сообщаются как меры надежности внутренней согласованности и факторный анализ	Использование факторного анализа для определения размерной структуры оценок инструмента и определение надежности оценок.¹² Изучение дифференциального функционирования элементов среди однородной группы оценщиков
Отношения с другими переменными	Отношения между баллами и другими переменными, относящимися к измеряемому конструкту. Отношения могут быть положительными (конвергентными или прогностическими) или отрицательными (расходящимися или дискриминантными) в зависимости от измеряемых конструктов	Насколько хорошо оценочные баллы учителей предсказывают успеваемость учащихся на экзаменах с высокими ставками или их выбор медицинской специальности? ¹³ Коррелируют ли баллы с другими показателями той же конструкции? ²² Можно ли обобщить результаты оценки с одного параметра на другой, аналогичный параметр?
Последствия	Оценка предназначена для получения желаемого эффекта (например,г., улучшить успеваемость), но они также имеют непреднамеренные последствия. Оценка таких последствий может подтверждать или оспаривать достоверность интерпретаций оценок	Соотносятся ли результаты одинаково квалифицированных учителей по клинической оценке преподавания с факторами, которые не измеряются, такими как медицинская специализация, пол или этническая принадлежность?


Рейтинг *	Рейтинг1 *	Критерии рейтинга	иллюстративные примеры
Content
Нет обсуждения содержание инструмента (включает простое перечисление элементов без обоснования)	Guyatt et al.¹⁰
0	Обсуждение, но нет данных ^‡

	1	1	Листинг темы оценки с небольшим количеством или нет ссылки на теоретическую основу или плохо определенный процесс создания и рассмотрение предметов
	2	Четко определенный процесс разработки содержания инструментов, включая как явную теоретическую/концептуальную основу для элементов инструментов, так и систематический обзор элементов экспертами В качестве альтернативы, ссылка на предварительное исследование по оценке инструмент, отвечающий этим критериям
Ответ процесс	N	Без обсуждения.Простое раскрытие доли ответивших или числа респондентов не является доказательством	McLeod et al. ¹⁷
	0	Обсуждение, но нет данных. Обсуждение влияния частоты ответов на оценочные баллы или рассуждения о мыслительных процессах учащихся не являются доказательством. Описание (без данных) систем, которые уменьшают ошибку ответа, таких как компьютерные формы с оценками Или RATER снисходительность, или данные, демонстрирующие низкую ошибку реагирования
N	N	No Disestion	IRBY и Rakestraw1 12
0
	1	Факторный анализ, не полностью подтверждающий предполагаемую структуру данных или приемлемую надежность с помощью одной мерыВариация ответов на конкретные предметы между подгруппами (функционирование дифференциала) может поддерживать или вызов внутренней структуре в зависимости от прогнозов ²⁶
соотношение к другим переменным	N	NO DIVESION	Джеймс и Осборн ¹³
		0
1	1	1

Cohen et al. ⁶
	0	Обсуждение, но нет данных. Простое обсуждение последствий оценки (например, данных о полезности или одобрении преподавателями) без привязки этого к действительности не является доказательством
	1	Описание последствий оценки, которые могут предположительно повлиять на достоверность интерпретация оценок (хотя это влияние не указано авторами в явном виде)
	2	Описание последствий оценки, которые явно влияют на достоверность интерпретации оценок, подтвержденные данными и убедительно аргументированные авторами .Такие данные обычно являются неотъемлемой частью плана исследования и ожидаются априори. , 2, 3 и 4 соответственно. Взвешенные значения κ и значения κ P были рассчитаны для каждой категории доказательств достоверности с использованием схемы взвешивания, предложенной Fleiss и Cohen. ²⁸ ^, ²⁹ Значения Каппа были интерпретированы в соответствии с рекомендациями Лэндиса и Коха ³⁰, где значения κ меньше 0.4 представляют плохое согласие, значения от 0,4 до 0,75 — от удовлетворительного до хорошего, а значения 0,75 и выше — отличное согласие. Для всех анализов значения κ P ≤ 0,05 были критериями для заключения о наличии значительного согласия между наблюдателями. РЕЗУЛЬТАТЫ Наивысший возможный балл по каждой категории доказательств достоверности при суммировании баллов по 22 статьям равен 44. Наивысшие суммарные баллы были даны по категориям «Содержание» и «Внутренняя структура» (27 и 32 балла соответственно) () За исключением 1 статьи в категории «Связь с другими переменными», «Содержание» и «Внутренняя структура» были единственными категориями со статьями, имеющими доказательства, убедительно подтверждающие достоверность (= оценка 2) (). Таблица 3 0 Оценка достоверности и Соглашение о наблюдателях

	Sum
27	0.96
Процесс ответа	2	-0.10
32	0.52	0.01
0.82	. Содержание	отклика процесса	Внутренняя структура	Другие переменные	Последствия
Beckman	2003	1	0	1	N	0
Benbasset	1981	Н	0	1	1	0
Коэна	1996	N	0	1	0	1
Copeland	2000	2	0	2	1	1
Доннелли	1989	N	0	2	N	N
Доннер-Banzhoff	2003	2	0	1	1	N
Guyatt	1993	2	0	1	0	0
Хейворд	1995	2	0	2	Н	0
Ирби	тысяча девятьсот восемьдесят одна	2	N	2	N	N
Джеймс	1999	2	N	1	2	N
Litzelman	1998	2	N	2	N	N	N
Litzelman	1999	2	0	2	N	N
Мэджилл	1986		1 0		1 Н	Н
	Маклеода	1 993 2	1	2	N	0
Ramsbottom- Люсьер	1994	2	0	1	Н	Н
Risucci	1992	Н	1	1	0	N
Shellenberger	1 982	2	0	2	Н	Н
Смит	2004	2	Н	2	1	0
Соломон	1997	Н	0	1	N	0
Штайнер	2000	1	1	0
Tortolani	1991	N	0	2	1	0
Williams	2002	N	0	1	1	0