Внешняя валидность — Психологос
Внешняя валидность (англ. external validity) — вид валидности, определяющий то, насколько результаты конкретного исследования можно распространить на весь класс подобных ситуаций/явлений/объектов. Данное понятие можно рассматривать как междисциплинарное: оно широко применяется в экспериментальной психологии, а также в других сферах науки.
Общие сведения
Внешняя валидность определяет то, в какой мере результаты, полученные в эксперименте, могут соответствовать тому типу жизненной ситуации, которая была исследована, и то, насколько возможно обобщить эти результаты на все подобные жизненные ситуации. Например, критику психологов-экспериментаторов в том, что о студентах-второкурсниках и белых крысах они знают очень много, а обо всём остальном — очень мало, можно рассматривать как критику внешней валидности.
Как и в отношении любой другой валидности, о внешней валидности в исследовании, вероятно, невозможно сказать, что она абсолютно соблюдена, можно указать только на её нарушение. Абсолютным соблюдение внешней валидности считалось бы тогда, когда результаты исследования можно обобщить на любые популяции при любых условиях и в любое время, поэтому учёные говорят не о соблюдении либо несоблюдении внешней валидности, а о степени её соблюдения.
Критерии внешней валидности
Чтобы исследование обладало наивысшей степенью валидности, должна существовать возможность генерализации его результатов на
- другие популяции,
- другие условия,
- другое время.
Пример нарушения внешней валидности
Исследование Лоренса Колберга, посвящённое изучению нравственного развития детей, было подвергнуто критике за низкую степень внешней валидности. В 1963 году Колберг предложил мальчикам-подросткам разрешить различные коротко сформулированные дилеммы. На основании полученных ответов он разработал теорию о шести стадиях морального развития.
Критика внешней валидности этого исследования в частности состояла в том, что учёный не учитывал половых различий в особенностях мышления способах принятия моральных решений и, следовательно, неправомерно генерализовал свою модель на представителей обоих полов.
Колберг также исходил из предпосылки о том, что существуют некие «универсальные принципы справедливости и соблюдения прав личности», однако он не учёл межкультурных различий, следовательно, выводы, которые он сделал, не могут восприниматься как универсальные.
Соблюдение внешней валидности
Чтобы увеличить степень внешней валидности, в исследованиях могут не ограничиваться лишь экспериментальным методом, но также использовать и другие — например, наблюдение, межкультурные исследования и т. д.
При современном научном подходе в психологии соблюдение внешней валидности в исследованиях играет ведущую роль, так как наиболее ценным считается создание общих теорий, моделей и алгоритмов, применимых к психике в целом, независимо от контекста, — то есть моделей, обладающих крайне широкими предсказательными возможностями; поэтому исследования, результаты, которых можно применить только к какой-то определённой ограниченной ситуации, обладают нисходящей ценностью.
Внутренняя и внешняя валидность
Внешняя и внутренняя валидность.
Боровкова Виктория И-01
ВАЛИДНОСТЬ (validity)—достоверность (или степень достоверности) вывода, которую обеспечивают результаты реального эксперимента по сравнению с результатами безупречного эксперимента. “В.”—центральное понятие словаря экспериментатора: оно объединяет основные цели исследования с идеальными эталонами их достижения и реальными процедурами проведения экспериментах
Глобальной целью любого экспериментального исследования является обобщение полученных результатов и вывода об экспериментальной гипотезе. Однако полное достижение этой цели возможно лишь в мысленном, безупречном эксперименте, невыполнимом на практике. Реальный эксперимент в той или иной мере репрезентирует (представляет) безупречный, и чем лучше эта репрезентативность, тем выше В. эксперимента. Таким образом, повышение В., т. е. планирование проведения эксперимента в соответствии с его безупречным образцом, является конкретной задачей исследователя, успешность решения которой зависит, во-первых, от характера, реальных условий и, во-вторых, от адекватности выбора средств.
В соответствии с различными типами безупречного эксперимента различают внутреннюю и внешнюю В.:
— внутренняя В. — достоверность выводов, которую обеспечивают результаты реального эксперимента по сравнению с результатами идеального бесконечного экспериментов. Повышение внутренней В. связано с устранением результатов действия побочных переменных и с усреднением их изменчивости и нестабильности. Внутренняя В. — первое и необходимое требование к экспериментальным выводам: эксперимент, не обладающий внутренней В., названы автором просто неудачным.
При обладающем внутренней валидностью исследовании исследователь уверен, что результаты, полученные измерением зависимой переменой, непосредственно связаны с независимой переменной, а не с каким-нибудь другим неконтролируемым фактором[2].
Однако, фактически, в науке (особенно в психологии) невозможно со стопроцентной уверенностью утверждать, что внутренняя валидность соблюдена. Например, невозможно изучить какой-то психический процесс отдельно от психики в целом. Поэтому всегда при любом психологическом эксперименте учёный может лишь максимально (но не абсолютно) удалить или минимизировать разнообразные факторы, угрожающие внутренней валидности.
Пример нарушения внутренней валидности
Допустим, мы хотим проверить лекарство, от которого люди будут становиться выше. Допустим, для своих исследований мы отбираем в качестве испытуемых 13-летних подростков, измеряем их рост, и даём им лекарство. Два года спустя мы возвращаемся к теперь уже 15-летним детям и фиксируем их текущий рост. Несомненно то, что они стали выше, но без сомнения и то, что мы не можем сделать из этого вывод, что эффект роста был вызван лекарством, так как мы не учли в своём теоретическом эксперименте естественных процессов взросления. Здесь внутренняя валидность нарушена следующим образом: мы не учли побочного для нашего исследования влияния других (в данном случае — очевидных) факторов, тогда как надо было их учитывать.
— внешняя В. — достоверность выводов, которую обеспечивают результаты реального эксперимента по сравнению с результатами эксперимента полного соответствия. Повышение внешней В. обеспечивается достижением соответствия уровней дополнительных переменных в эксперименте уровням этих переменных в изучаемой реальности. Эксперимент, не обладающий внешней В., является неверным, не соответствующим поставленной гипотезе (но, быть может, пригодным для проверки, другой гипотезы).
Внешняя валидность определяет то, в какой мере результаты, полученные в эксперименте, могут соответствовать тому типу жизненной ситуации, которая была исследована, и то, насколько возможно обобщить эти результаты на все подобные жизненные ситуации[1].
Как и в отношении любой другой валидности, о внешней валидности в исследовании, вероятно, невозможно сказать, что она абсолютно соблюдена, можно указать только на её нарушение. Абсолютным соблюдение внешней валидности считалось бы тогда, когда результаты исследования можно обобщить на любые популяции при любых условиях и в любое время, поэтому учёные говорят не о соблюдении либо несоблюдении внешней валидности, а о степени её соблюдения.
Критерии внешней валидности
Чтобы исследование обладало наивысшей степенью валидности, должна существовать возможность генерализации его результатов на:
-другие популяции,
-другие условия,
-другое время.
Пример нарушения внешней валидности
Исследование Лоренса Колберга, посвящённое изучению нравственного развития детей, было подвергнуто критике за низкую степень внешней валидности. В 1963 году Колберг предложил мальчикам-подросткам разрешить различные коротко сформулированные дилеммы. На основании полученных ответов он разработал теорию о шести стадиях морального развития.
Критика внешней валидности этого исследования в частности состояла в том, что учёный не учитывал половых различий в особенностях мышления способах принятия моральных решений и, следовательно, неправомерно обобщил свою модель на представителей обоих полов.
Колберг также исходил из предпосылки о том, что существуют некие «универсальные принципы справедливости и соблюдения прав личности», однако он не учёл межкультурных различий, следовательно, выводы, которые он сделал, не могут восприниматься как универсальные.
Соблюдение внешней валидности
Чтобы увеличить степень внешней валидности, в исследованиях могут не ограничиваться лишь экспериментальным методом, но также использовать и другие — например, наблюдение, межкультурные исследования и т. д.
При современном научном подходе в психологии соблюдение внешней валидности в исследованиях играет ведущую роль, так как наиболее ценным считается создание общих теорий, моделей и алгоритмов, применимых к психике в целом, независимо от контекста, — то есть моделей, обладающих крайне широкими предсказательными возможностями; поэтому исследования, результаты, которых можно применить только к какой-то определённой ограниченной ситуации, обладают нисходящей ценностью.
Следует отметить, что любую переменную (фактор), отличную от независимой, также оказывающую влияние на зависимую переменную, автор называет просто “ other ” — другая. При переводе для обозначения таких переменных используются два разных термина: “побочная” — применительно к переменной, нарушающей внутреннюю В., и “дополнительная” — переменная, уровень которой входит в экспериментальную гипотезу и должен быть адекватно представлен с целью достижения внешней В. Иногда одни и те же факторы могут выступать в эксперименте и как побочные (нарушающие внутреннюю В.), и как дополнительные (влияющие на внешнюю В.). Устранение и унификация побочных факторов, повышающая внутреннюю В., может приводить к несоответствию уровней дополнительных переменных, что снижает внешнюю В. (см. Соответствие).
-операциональная В.—разновидность внешней В. для лабораторного эксперимента; соответствие (или степень соответствия) применяемых методических процедур тем теоретическим понятиям, которые входят в экспериментальную гипотезу.
Угрозы внутренней валидности
«Угрозы внутренней валидности» — выражение, относящееся к плану исслед., к-рое интерпретаторы данных используют для описания ряда вопросов, возникающих в связи с возможными неточностями при интерпретации причинно-следственных связей между изучаемыми переменными. Некоторые из этих угроз уже упоминались, в частности, при описании квазиэкспериментов. Выражение регрессия к среднему показателю используется для описания эффекта неточного измерения текущего и будущих наблюдений, и она представляет собой серьезную угрозу для внутренней валидности плана психол. исслед.
Другой угрозой является естественное развитие, поскольку испытуемые подвержены естественным процессам созревания и развития с течением времени независимо от манипуляций, которые совершает над ними исследователь. Эта последняя гипотеза, в частности, объясняет необходимость использования в исслед. контрольных групп, позволяющих осуществлять сравнения с естественно развивающимися испытуемыми.
Еще одной угрозой является отсев. Систематическое сокращение количественного состава групп вследствие выбывания, неявок, переезда людей в другой город, незаполненных критериальных опросников, и т. д. может делать менее заметной в результатах исслед. роль тех оставшихся участников, к-рые оказываются в меньшей степени подвержены эксперим. воздействию. А ведь чем более заметны улучшения по критерию, тем лучше выглядит эффективность самого изучаемого воздействия.
Угроза отбора возникает на этапе формирования исслед. состава групп участников. Систематический отбор или пассивный отбор (собственное желание) участников для изучаемого воздействия или условия может приводить к возникновению различий среди некоторых групп перед началом исслед. Эти группы будут по-прежнему отличаться от других и после реализации воздействия — даже когда они сами не подвергались воздействию. Поэтому, для достижения высокой внутренней валидности (причинно-следственных) утверждений в отношении взаимосвязей переменных, необходима формулировка и проверка альтернативной гипотезы о том, какими могли бы быть эти эффекты в отсутствие такого воздействия или условия.
Фон относится к тем изменениям контекста проводящегося исслед., которые могут смешиваться с самими изучаемыми воздействиями. Подобное смешение делает невозможным отнесение изменений в испытуемых на счет исследуемого воздействия или внешних изменений.
Инструментальная погрешность являются угрозой внутренней валидности, почти исключительно присущей психологии, поскольку она возникает в результате происходящих со временем изменений стандартов наблюдателя или условий наблюдения. Эти изменения вызывают различия в оценках. Проблема состоит в том, что подобные расхождения в стандартах измерения могут приводить к ошибочным оценкам тех изменений, которые являются следствием изучаемых воздействий.
Эффект тестирования являются примером другой, почти исключительно присущей психологии, угрозы внутренней валидности. Она связана с эффектом улучшения показателей испытуемых просто в результате предыдущего прохождения теста.
Нестабильность, как было указано выше, вытекает из попыток интерпретировать происходящие непосредственно после эксперимента воздействия или спустя к. -л. время естественные изменения испытуемых и измерений.
Существуют также четыре аффективных угрозы внутренней валидности: подражание, компенсаторное соперничество, компенсаторное уравнивание, и деморализация. Они также присущи исключительно психол. науке, поскольку возникают в результате эмоциональных изменений у испытуемых и проводящего измерения персонала как формы адаптации к тому факту, что они не попали в число «избранных» участников исследования, получающих и осуществляющих эксперимент
Внешняя валидность и метаанализ
Наконец, существует понятие внешней валидности — суммы характеристик исследований, к-рая позволяет осуществлять обобщение или распространение получаемых в исследованиях (как результат высокой внутренней валидности) причинно-следственных утверждений на сходные категории людей, воздействий и критериев за пределами данного исследования.
Метаанализ. Внешняя валидность результатов исследования, существенно усиливается, когда объединяется и обобщается целый ряд исследований одной и той же воздействующей переменной. Такая процедура называется метаанализом. В метаанализе определяются величина эффекта, оказываемого эксперимента, воздействием и основными условиями исследования на критериальные переменные. Последние выбираются в зависимости от теоретических интересов проводящего метаанализ исследователя. Т. о., если основной анализ предполагает сравнение связей всех пар переменных, то набор интересующих метааналитика связей является набором из переменных-условий и критериальных переменных, который позволяет судить о величине эффекта изучаемого воздействия на эти критериальные переменные. Величина эффекта для каждого исследования определяется простым делением разности между средними показателями по критериальной переменной в эксперименты группах и контрольной группе на меру изменчивости индивидуальных показателей в этих группах. В результате такого анализа можно продемонстрировать, что целый ряд изучавшихся переменных условий не оказывают влияния на набор критериев, что позволяет исследователям обобщать результаты своих исследований, не оглядываясь на эти, как было установлено в ходе метаанализа, посторонние условия.
Наконец, можно определить степень влияния каждой переменной-воздействия и их различных сочетаний на критерии. Это представляет особый интерес для прикладных областей, где важно знать не только о том, что одна переменная влияет на другую, но и насколько велико такое влияние.
Внешняя действительность | Определение, типы, угрозы и примеры
Опубликован в 8 мая 2020 г. к Прита Бхандари. Отредактировано 30 ноября 2022 г.
Внешняя валидность — это степень, в которой вы можете обобщить результаты исследования на другие ситуации, людей, обстановку и показатели. Другими словами, можете ли вы применить результаты вашего исследования в более широком контексте?
Целью научных исследований является получение обобщаемых знаний о реальном мире. Без высокой внешней валидности вы не сможете применить результаты, полученные в лаборатории, к другим людям или к реальному миру. Эти результаты будут страдать от погрешностей исследования, таких как погрешность недостаточного охвата.
В качественных исследованиях внешняя валидность называется переносимостью.
Содержание
- Типы внешней валидности
- Компромисс между внешней и внутренней валидностью
- Угрозы внешней валидности и способы противодействия им
- Часто задаваемые вопросы о внешней валидности
Типы внешней действительности
Существует два основных типа внешней валидности: популяционная валидность и экологическая валидность.
Валидность населенияВалидность популяции относится к тому, можете ли вы разумно обобщить результаты вашей выборки на большую группу людей (население).
Валидность популяции зависит от выбора популяции и от того, в какой степени исследуемая выборка отражает эту популяцию. Неслучайные методы выборки часто используются для удобства. При таком типе выборки возможность обобщения результатов ограничивается совокупностями, имеющими сходные характеристики с выборкой.
Пример: низкая валидность популяции. Вы хотите проверить гипотезу о том, что люди склонны считать себя умнее других с точки зрения академических способностей. Ваша целевая аудитория — 10 000 студентов бакалавриата вашего университета.Вы набираете более 200 участников. Они специализируются в области науки и техники; большинство из них американцы, мужчины в возрасте 18–20 лет и из высокого социально-экономического положения. В лабораторных условиях вы проводите тест по математике и естественным наукам, а затем просите их оценить, насколько хорошо, по их мнению, они справились. Вы обнаружите, что средний участник считает, что он умнее 66% своих сверстников.
Можете ли вы сделать вывод, что большинство людей считают себя намного лучше других в математике и естественных науках?
Здесь ваша выборка не является репрезентативной для всех студентов вашего университета. Результаты могут быть обоснованно обобщены только на популяции, которые имеют общие характеристики с участниками, т. е. мужчины с высшим образованием и специальности STEM.
Для более высокой валидности населения ваша выборка должна включать людей с разными характеристиками (например, женщин, небинарных людей и студентов из разных специальностей, стран и социально-экономического положения).
Примеры, подобные этому, из западных, образованных, промышленно развитых, богатых и демократических (СТРАННЫХ) стран используются примерно в 96% психологических исследований, хотя они представляют лишь 12% населения мира. Поскольку они являются исключениями с точки зрения визуального восприятия, моральных рассуждений и категоризации (среди многих других тем), СТРАННЫЕ выборки ограничивают валидность широкой популяции в социальных науках.
ЭкологичностьЭкологическая валидность относится к тому, можете ли вы разумно обобщить результаты исследования на другие ситуации и условия «реального мира».
Пример: низкая экологическая валидность. Вы хотите проверить гипотезу о том, что время реакции при вождении становится медленнее, когда люди обращают внимание на то, что говорят другие.В лабораторных условиях вы настраиваете простую компьютерную задачу для измерения времени реакции. Участникам предлагается представить себя едущими по гоночной трассе и дважды щелкнуть мышью всякий раз, когда они видят на экране оранжевого кота. В течение одного раунда участники слушают подкаст. В другом раунде им не нужно ничего слушать. Оценив результаты, вы обнаружите, что время реакции намного медленнее при прослушивании подкаста.
Можете ли вы сделать вывод, что время реакции при вождении медленнее, когда люди слушают, что говорят другие?
В приведенном выше примере трудно обобщить результаты для реальных условий вождения. Компьютерная задача с использованием мыши не похожа на реальные условия вождения с рулевым колесом. Кроме того, статичное изображение оранжевого кота может не отражать обычных реальных препятствий при вождении.
Чтобы улучшить экологическую достоверность в лабораторных условиях, вы можете использовать иммерсивный симулятор вождения с рулевым колесом и педалью вместо компьютера и мыши. Это увеличивает психологический реализм за счет более точного отражения опыта вождения в реальном мире.
В качестве альтернативы, для большей экологической достоверности, вы можете провести эксперимент, используя реальный курс вождения.
Компромисс между внешней и внутренней валидностью
Внутренняя валидность — это степень, в которой вы можете быть уверены, что причинно-следственная связь, установленная в вашем эксперименте, не может быть объяснена другими факторами.
Существует неотъемлемый компромисс между внешней и внутренней валидностью; чем более применимо ваше исследование к более широкому контексту, тем меньше вы можете контролировать посторонние факторы в своем исследовании.
Пример внутренней и внешней валидности В исследовании времени реакции при вождении вы можете контролировать условия эксперимента и гарантировать отсутствие посторонних факторов, которые могли бы объяснить результат. Поскольку эксперимент имеет высокую внутреннюю достоверность, вы можете с уверенностью заключить, что прослушивание подкаста вызывает замедление времени реакции.Перенос эксперимента в реальный курс вождения значительно повышает внешнюю валидность за счет внутренней валидности. Это связано с тем, что вы рискуете ввести посторонние и искажающие факторы (например, погодные условия или условия видимости), которые повлияют на результат.
Угрозы внешней валидности и как им противостоять
Угрозы внешней валидности важно распознавать и противодействовать им при разработке надежного исследования.
Пример исследованияИсследователь хочет проверить гипотезу о том, что люди с клиническими диагнозами психических расстройств могут извлечь пользу из ежедневной практики осознанности всего за два месяца. Они набирают людей, у которых депрессия диагностирована не менее года назад, в возрасте от 20 до 29 лет и которые живут поблизости.Участникам предлагается предварительное и последующее тестирование для определения того, как часто они испытывали тревогу на прошлой неделе. Во время исследования всем участникам проводят индивидуальную тренировку осознанности и просят практиковать осознанность ежедневно в течение 15 минут утром.
Поскольку уровень тревожности снизился между до и после теста, исследователь приходит к выводу, что все клинические группы населения могут извлечь пользу из внимательности.
Угроза | Значение | Пример |
---|---|---|
Систематическая ошибка выборки | Выборка не является репрезентативной для населения. | В выборку вошли только люди с депрессией. У них есть характеристики (например, негативные модели мышления), которые могут сильно отличать их от других клинических популяций, таких как люди с расстройствами личности или шизофренией. |
История | Несвязанное событие влияет на результаты. | Непосредственно перед претестом в соседнем штате происходит стихийное бедствие. В результате показатели тревожности перед тестом выше, чем могли бы быть в противном случае. |
Предвзятость наблюдателя | Характеристики или поведение экспериментаторов непреднамеренно влияют на результаты, что приводит к предвзятости и другим характеристикам спроса. | Тренер на занятиях по внимательности непреднамеренно подчеркнул важность этого исследования для финансирования исследовательского отдела. В результате участники прилагают дополнительные усилия, чтобы снизить уровень тревожности во время исследования. |
Эффект Хоторна | Склонность участников менять свое поведение просто потому, что они знают, что их изучают. | Участники активно избегают вызывающих тревогу ситуаций на период исследования, потому что они осознают свое участие в исследовании. |
Испытательный эффект | Проведение до или после теста влияет на результаты. | Поскольку участники знакомятся с форматом и вопросами предварительного теста, они меньше беспокоятся во время посттеста и вспоминают о меньшем беспокойстве, что приводит к предвзятости припоминания. |
Лечение способностей | Взаимодействия между характеристиками группы и отдельными переменными совместно влияют на зависимую переменную. | Взаимодействия между определенными характеристиками участников с депрессией (например, негативные модели мышления) и упражнениями на внимательность (например, сосредоточение на настоящем) снижают уровень тревоги. Результаты не повторяются с людьми с расстройствами личности или шизофренией. |
Эффект ситуации | Такие факторы, как обстановка, время суток, местоположение, характеристики исследователей и т. д., ограничивают возможность обобщения результатов. | Исследование повторяют с одной заменой; участники практикуют осознанность ночью, а не утром. На этот раз результаты не показывают никаких улучшений. |
Как противостоять угрозам внешней достоверности
Существует несколько способов противодействия угрозам внешней валидности:
- Репликации противостоят почти всем угрозам, повышая универсальность для других настроек, популяций и условий.
- Полевые эксперименты Противодействие испытаниям и ситуационным эффектам с использованием естественных контекстов.
- Вероятностная выборка устраняет предвзятость отбора, гарантируя, что все в популяции имеют равные шансы быть отобранными для выборки исследования.
- Повторная калибровка или повторная обработка также противодействуют систематической ошибке отбора, используя алгоритмы для корректировки взвешивания факторов (например, возраста) в исследуемых выборках.
Часто задаваемые вопросы о внешней валидности
- Каковы угрозы внешней валидности?
Существует семь угроз внешней валидности: предвзятость выбора, история, эффект экспериментатора, эффект Хоторна, эффект тестирования, обработка со способностями и эффект ситуации.
Процитировать эту статью Scribbr
Если вы хотите процитировать этот источник, вы можете скопировать и вставить ссылку или нажать кнопку «Процитировать эту статью Scribbr», чтобы автоматически добавить ссылку в наш бесплатный генератор цитирования.
Бхандари, П. (2022, 30 ноября). Внешняя достоверность | Определение, типы, угрозы и примеры. Скриббр. Проверено 16 мая 2023 г., с https://www.scribbr.com/methodology/external-validity/
Процитировать эту статью
Полезна ли эта статья?
Вы уже проголосовали. Спасибо 🙂 Ваш голос сохранен 🙂 Обработка вашего голоса. ..
Прита имеет академическое образование в области английского языка, психологии и когнитивной нейробиологии. Как междисциплинарный исследователь, она любит писать статьи, объясняющие сложные исследовательские концепции для студентов и ученых.
Важность внешней валидности
Am J Общественное здравоохранение. 2008 г., январь; 98(1): 9–10.
doi: 10.2105/AJPH.2007.126847
, DrPH и , PhD
Информация об авторе Примечания к статье Информация об авторских правах и лицензиях Отказ от ответственности
Как результаты исследований переводятся в практику общественного здравоохранения? Какова ответственность исследователей, финансирующих агентств и журналов за содействие использованию результатов исследований в программах или политике общественного здравоохранения? Мы обращаемся к избранным аспектам этих вопросов и объявляем о новом акценте Журнал о внешней валидности соответствующих рукописей.
Более 40 лет назад Кэмпбелл и Стэнли опубликовали свою основополагающую работу об экспериментальных и квазиэкспериментальных планах исследований, в которой они подняли вопросы об угрозах внутренней валидности (независимо от того, следует ли интерпретировать наблюдаемую ковариацию как причинно-следственную связь), которые существуют. когда исследователи не могут случайным образом назначать участников для лечения.1 В этом томе и последующей работе они также подняли вопросы о других типах валидности, включая0219 , 3:
Достоверность статистического заключения — обоснованы ли выводы о статистических выводах о ковариации между переменными.
Конструктивная достоверность — адекватно ли рабочие переменные представляют теоретические конструкции.
Внешняя валидность — можно ли обобщить причинно-следственные связи на различные меры, людей, обстановку и время.
Часто утверждалось, что внутренняя валидность является приоритетом для исследований. 4 Однако в прикладной дисциплине, цель которой включает работу по улучшению здоровья населения, также важно подчеркивать внешнюю валидность и усиленный.5 – 7 Например, важно знать не только, что программа эффективна, но и то, что она может быть эффективной в других условиях и с другими группами населения.
В влиятельной статье 1985 г. «Испытания эффективности и результативности (и другие этапы исследований) в разработке программ укрепления здоровья» Флэй предлагает модель, которая подчеркивает внутреннюю и внешнюю валидность на разных этапах исследовательского процесса и к переводу исследований в практику.8 Двумя основными уровнями исследований были «испытания эффективности» и «испытания эффективности». Испытания эффективности должны были быть строго контролируемыми исследованиями, которые должны были ответить на вопрос, будет ли предложенное вмешательство иметь желаемые эффекты в идеальных условиях. Испытания эффективности должны были следовать за испытаниями эффективности и должны были быть исследованиями, в которых предложенное вмешательство проводилось в менее контролируемых и более реальных жизненных ситуациях. Аргумент заключался в том, что данное вмешательство в области общественного здравоохранения должно быть успешным в обоих типах испытаний, прежде чем оно будет готово для распространения среди практикующих специалистов в области общественного здравоохранения.
Испытания эффективности должны были иметь высокую внутреннюю валидность, а испытания эффективности должны были иметь высокую внешнюю валидность. Испытания эффективности, скорее всего, были контролируемыми экспериментами, такими как рандомизированные контрольные испытания вмешательств в области общественного здравоохранения, достоинства которых заключаются в высокой внутренней валидности, но часто имеют недостаток низкой внешней валидности9 (т. е. группы, условия или контексты, в которых результаты будет применяться). В социальных науках считается аксиомой, что существует обратная связь между внутренней и внешней валидностью. Ключом к внутренней валидности является хорошее измерение и дизайн исследования, а для вывода необходима репрезентативная выборка9. Однако может быть полезно провести различие между выводом, сделанным на основе плана выборки, и нашей способностью обобщать, которая в большей степени зависит от суждения.
Исторически сложилось так, что исследователи, как правило, сосредотачивались на максимальной внутренней валидности, считая, что более важно знать, работает ли данное вмешательство общественного здравоохранения в строго контролируемых условиях, чем знать, будет ли оно работать среди различных групп населения, организаций или настройки. Точно так же финансирующие организации и журналы, как правило, больше заботятся о научной строгости интервенционных исследований, чем обобщаемости результатов. Следствием этого акцента на внутренней валидности стало отсутствие внимания и информации о внешней валидности, что способствовало нашей неспособности перевести исследования в практику общественного здравоохранения.
Например, в области профилактики рака и борьбы с ним документально подтверждено значительное отставание между открытием и осуществлением эффективных вмешательств. Признание этого отставания было отмечено в течение как минимум 30 лет, с тех пор как первые рабочие группы по борьбе с раком, созванные Национальным институтом рака, опубликовали отчеты в 1970-х годах. Совсем недавно Балас и Борен обнаружили, что требуется около 17 лет, чтобы превратить 14% первоначальных исследований в пользу лечения пациентов.10 Точно так же Национальный исследовательский совет пришел к выводу, что даже при разработке эффективных вмешательств часто остается пробел. между научными знаниями и клинической практикой.11 Кроме того, меньшинства и малообеспеченные сообщества обычно получают доступ к эффективным вмешательствам медленнее, чем другие группы населения.12
Таким образом, идея о том, что исследования будут продвигаться от испытаний эффективности к испытаниям эффективности и к широкому распространению, не стала реальностью по ряду причин, не последней из которых является время и стоимость, связанные с этим поэтапным продвижением исследований к практике. 6 В результате несостоятельности этой модели специалисты-практики часто не могут определить, применимы ли результаты данного исследования к их местным условиям, численности населения или ресурсам. 6 Обзоры показывают, что отчеты о внешней валидности предоставляются гораздо реже, чем отчеты. по другим методологическим вопросам.13 Однако есть несколько причин, по которым отсутствие информации о внешней валидности является важной причиной неспособности перевести исследования в практику общественного здравоохранения.14 Лица, принимающие политические и административные решения, не могут определить обобщаемость или широту применимости результатов исследования. Наконец, систематические обзоры и метаанализы ограничены в выводах, которые можно сделать, когда данные внешней валидности не представлены.
Хотя журнал уже давно признал важность внешней валидности в опубликованных им статьях, относительно недавние отчеты CONSORT и TREND, а также недавний акцент на модели RE-AIM укрепили признание журналом . 90 067 редакторов и редколлегии о необходимости формально подчеркивать внешнюю валидность и собирать информацию о соответствующих рукописях, которая улучшает как вывод, так и потенциальную обобщаемость. 6 , 15 – 18
Недавно два члена редколлегии Journal и редакторы представляли Journal на встрече с 12 другими ведущими журналами о здоровье и представителями Национальных институтов здравоохранения, Центров по контролю за заболеваниями и профилактики, а также Фонд Роберта Вуда Джонсона. Цель встречи заключалась в поощрении и укреплении отчетности о результатах внешней валидности. Одним из результатов встречи стало то, что участники согласились с тем, что повышение качества отчетов о внешней валидности в журнальных статьях требует более высокого приоритета, чем до настоящего времени в публикациях, посвященных исследованиям в области общественного здравоохранения.
Участники встречи определили несколько характеристик внешней валидности, о которых следует сообщать. Как и в случае с другими шкалами и рекомендациями по оценке качества, ожидается, что не каждая статья будет превосходить все критерии; скорее, авторы должны сообщать об этих проблемах, где это уместно, или заявлять об отсутствии информации. Участники встречи определили четыре категории информации о внешней валидности:
Процедуры набора и отбора участников исследования, уровень участия и репрезентативный характер на уровне отдельных лиц, персонала, осуществляющего вмешательство, и условий проведения.
Уровень и согласованность реализации компонентов программы, настроек, персонала и времени.
Влияние на различные результаты, особенно те, которые важны для населения, врачей-практиков и лиц, принимающих решения (например, качество жизни, стоимость программ и неблагоприятные последствия).19 уровни в пункте 1, долгосрочные последствия для результатов в пункте 3 и устойчивость, модификация или прекращение программы.
Хотя мы не собираемся увеличивать нагрузку на авторов, публикующихся в журнале , мы считаем, что многие статьи, которые мы публикуем, выиграют от включения информации о внешней валидности. Самое главное, мы считаем, что эта информация принесет значительную пользу области общественного здравоохранения и практике общественного здравоохранения.
1. Кэмпбелл Д.Т., Стэнли Дж.К. Экспериментальные и квазиэкспериментальные конструкции. Чикаго, штат Иллинойс: Рэнд МакНалли; 1966.
2. Кук Т.Д., Кэмпбелл Д.Т. Планирование и проведение квазиэкспериментов и настоящих экспериментов в полевых условиях. В: Dunnette MD, изд. Справочник по промышленной и организационной психологии . Скоки, Иллинойс: Рэнд МакНалли; 1976: 115–136.
3. Кук Т.Д., Кэмпбелл Д.Т. Квазиэксперимент. Чикаго, штат Иллинойс: Рэнд МакНалли; 1979.
4. Колдер Б.Дж., Филлипс Л.В., Тайбут А.М. Понятие внешней валидности. J Расход Res. 1983; 10(1):112–114. [Академия Google]
5. Зеленый ДВ. Оценка и измерение: некоторые дилеммы санитарного просвещения. Am J Общественное здравоохранение. 1977; 67: 155–161. [Бесплатная статья PMC] [PubMed] [Google Scholar]
6. Glasgow RE, Lichtenstein E, Marcus AC. Почему мы не видим больше практического применения исследований в области укрепления здоровья? Переосмысление перехода от эффективности к эффективности. Am J Общественное здравоохранение. 2003; 93: 1261–1267. [Бесплатная статья PMC] [PubMed] [Google Scholar]
7. Виктора К.Г., Хабихт Дж., Брайс Дж. Общественное здравоохранение, основанное на доказательствах: выход за рамки рандомизированных испытаний. Am J Общественное здравоохранение. 2004;94: 400–405. [Бесплатная статья PMC] [PubMed] [Google Scholar]
8. Flay BR. Испытания эффективности и результативности (и другие этапы исследований) при разработке программ укрепления здоровья. Пред. мед. 1986; 15: 451–474. [PubMed] [Google Scholar]
9. Bernard HR. Методы социальных исследований . Thousands Oaks, Калифорния: Sage Publications; 2000.
10. Балаш Э.А., Борен С.А. Управление клиническими знаниями для улучшения здравоохранения. В: Bemmel J, McCray AT, ред. Ежегодник медицинской информатики . Штутгарт, Германия: Schattauer Publishing; 2000: 65–70. [PubMed]
11. Ryff CD и Singer BH, ред.; Комитет по будущим направлениям поведенческих и социальных исследований в Национальных институтах здравоохранения . Новые горизонты в области здравоохранения: комплексный подход . Вашингтон, округ Колумбия: Издательство Национальной академии; 2001.
12. Янг В.В., Маркс С.М., Колер С.А., Хсу А.Ю. Распространение клинических результатов: мастэктомия по сравнению с лампэктомией и лучевой терапией. Мед уход. 1996 год; 34:1003–1017. [PubMed] [Академия Google]
13. Глазго Р.Э., Клегес Л.М., Дзевалтовски Д.А., Булл С.С., Эстабрукс П. Будущее исследований изменения поведения в отношении здоровья: что необходимо для улучшения перевода исследований в практику укрепления здоровья? Энн Бехав Мед. 2004; 27:3–12. [PubMed] [Google Scholar]
14. Green LW, Glasgow RE. Оценка актуальности, обобщения и применимости исследования: вопросы внешней валидности и методологии перевода. Eval Health Prof. 2006; 29: 126–153. [PubMed] [Академия Google]
15. Тернер Р.Дж., Гарднер Э.А., Хиггинс А.С. Эпидемиологические данные для планирования центра психического здоровья: 1. Методы полевого обследования в социальной психиатрии: проблема потерянного населения. Am J Общественное здравоохранение. 1970; 60: 1040–1051. [Бесплатная статья PMC] [PubMed] [Google Scholar]
16. Luft HS. Регионализация медицинской помощи. Am J Общественное здравоохранение. 1985; 75: 125–126. [Бесплатная статья PMC] [PubMed] [Google Scholar]
17. Мохер Д., Шульц К.Ф., Альтман Д.Г. Заявление CONSORT: пересмотренные рекомендации по улучшению качества отчетов о рандомизированных исследованиях с параллельными группами. Ланцет. 2001;357:1191–1194. [PubMed] [Google Scholar]
18. Des Jarlais DC, Lyles C, Crepaz N; Группа ТРЕНД. Улучшение отчетности о нерандомизированных оценках поведенческих вмешательств и вмешательств в области общественного здравоохранения: Заявление о ТЕНДЕНЦИИ. Am J Общественное здравоохранение. 2001; 94: 361–366. [Бесплатная статья PMC] [PubMed] [Google Scholar]
19. Tunis SR, Stryer DB, Clancey CM. Практические клинические испытания: повышение ценности клинических исследований для принятия решений в области медицины и здравоохранения.