Надежность. Психология развития [Методы исследования]
Надежность
Стандартизованный тест должен обладать не только валидностью, но и удовлетворять критерию надежности. Вопрос надежности в его применении к тестам также довольно очевиден: Согласованы ли результаты измерения данным тестом? Предположим, что мы даем одному ребенку IQ -тест несколько раз подряд, а затем сравниваем результаты. Если они близки, тест обладает хорошей надежностью; значительный разброс результатов свидетельствовал бы о недостаточной надежности.
Пример с IQ иллюстрирует одну из основных форм надежности — ретестовую надежность. Существует два способа оценки ретестовой надежности. Один — дать один и тот же тест дважды. Однако понятно, что если тесты одинаковы, ребенок может вспомнить свои ответы, а это приведет к искусственному завышению надежности (это также может привести к занижению надежности, если ребенок воспримет повторное предъявление теста как сигнал к изменению своих ответов).
Второй из основных типов надежности называется надежностью внутренней согласованности. Теперь суть состоит в согласованности ответов на разные вопросы одного теста, предъявляемого однократно. Как правило, для этого пользуются процедурой «расщепления» теста на нечетные и четные задания с
последующим сравнением ответов между двумя этими категориями. Вновь о высокой надежности будет говорить высокая согласованность ответов.
Важно отличать надежность от других конструктов, которые также имеют отношение к согласованности независимо от полученных результатов. Предположим, что интервал между первым и вторым выполнением теста интеллекта не один день, а два года.
Обнаружив значительное расхождение между этими двумя показателя -ми, должны мы сделать вывод о ненадежности теста или о том, что IQ ребенка действительно изменился за два года? Допустим, мы решили измерять не интеллект, а вес. Если наши измерения показывают, что 9-летний ребенок весит на 15 фунтов больше, чем он весил в 7-летнем возрасте, должны ли мы заключить, что наши весы неисправны? Разумеется, вероятнее всего, что наш ребенок действительно прибавил в весе за прошедшие два года, то есть в период физического развития стабильность веса далека от идеальной. Многие аспекты жизнедеятельности ребенка (включая успешность выполнения IQ -тестов) далеки от идеальной стабильности в период его развития. Поэтому важно понимать разницу между надежностью измерения и стабильностью поведения.Надежность измерения также важно отличать от типичности поведения. Вопрос типичности — это вопрос согласованности поведения в разных ситуациях. Предположим, нас интересует агрессия у дошкольников. Мы идем в детский сад и регистрируем все наблюдаемые там акты агрессии. На основе полученных данных мы вычисляем индекс агрессии для каждого ребенка. Затем мы отправляемся домой к детям и измеряем агрессию там. Обнаруживается, что наши показатели агрессии в домашних условиях слабо связаны с показателями агрессии в детском саду — иными словами, эти показатели существенно расходятся. Заключим ли мы, что один или оба метода измерения ненадежны? Хотя это вполне возможный вывод, более разумно было бы заключить, что уровень агрессии зависит от обстановки. В этом случае обнаруженный факт связан с типичностью поведения, а не с надежностью измерений.
Вероятно, полезно было бы резюмировать сказанное выше. Надежность — это свойство метода измерения; стабильность и типичность — это свойства поведения. Надежность — это то, что исследователь всегда пытается максимизировать. Стабильность и типичность же — это феномены, которые нужно изучать, а не максимизировать. Наконец, эти феномены можно изучать только по достижении достаточно высокого уровня надежности. Только будучи уверенными в надежности наших методов для определенного времени и ситуации, мы можем попробовать оценить согласованность поведения во времени (вопрос стабильности)*и в разных ситуациях (вопрос типичности).
Проблема надежности психологических шкал и ее значение для психодиагностики в научных и практических целях
Ключевыми понятиями для психодиагностики являются понятия надежности и валидности психодиагностических методик как инструментов, разрабатываемых в целях косвенной оценки гипотетических конструктов на основании наблюдаемых данных (ответов на задания и вопросы; Cronbach, Meehl, 1955). В классической теории тестов (КТТ) задания (пункты теста) предположительно представляют собой случайную выборку всех возможных заданий, измеряющих заданный конструкт, и выступают индикаторами эффектов (effect indicators), связанных между собой через общую для них латентную переменную. Разработка психологических шкал, измеряющих гипотетические латентные переменные, осуществляется путем создания определенного количества заданий с целью надежного измерения конструкта; при этом надежность понимается как «степень, в которой [измерения] являются повторяемыми» (Nunnally, 1967, с.
Ни один психологический инструмент не обладает идеальной надежностью, поэтому классической формулой для обозначения балла по любой шкале в рамках КТТ является ScoreTotal = ScoreTrue + ScoreError, где общий балл состоит из двух частей – истинного балла (как среднего балла при прохождении теста бесконечное количество раз) и случайной ошибки измерения, которая признается несистематической в том смысле, что средняя ошибка измерения для группы = 0. Таким образом, включенность в общий балл ошибки измерения иногда ведет к повышению, а иногда – к понижению индивидуальных тестовых показателей по сравнению с истинными баллом. Таким образом, надежность (r) может пониматься как отношение «истинной» дисперсии к общей дисперсии:
Эта формула применима только к группе тестовых показателей, поскольку для отдельного индивида истинная дисперсия всегда равна нулю (есть только один истинный балл).
Включение источников систематических смешений модифицирует обе формулы, что иллюстрируется следующими взаимоотношения между надежностью и валидностью (v) (Judd, Smith, Kidder, 1991):
где CI – интересующий нас конструкт, SE – систематическая ошибка, RE – случайная ошибка измерения. Обсуждение систематической ошибки затрагивает вопросы валидности, но не надежности. Увеличение же случайной ошибки ведет к понижению как показателя надежности, так и валидности. Таким образом, возможно создание надежного, но не валидного инструмента, однако без обеспечения надежности валидизация психологической методики как измерительного инструмента невозможна.
Низкая надежность психологических шкал имеет критические последствия при их использовании как в исследовательских, так и в практических целях. К примеру, точность заключения о высоком уровне развития способностей ребенка, получившего балл 115 (т. е. находящегося в верхней 1/6 популяции), сделанное на основе теста интеллекта с надежностью 0,75, на самом деле ограничивается стандартной ошибкой измерения (standard error or measurement, SEM), вычисляемой по формуле:
где r – надежность, а SDobserved – стандартное отклонение наблюдаемых показателей. Поскольку распределение случайных ошибок принимается нормальным (при M = 0, SD = SEM), можно сделать вывод о том, что в реальности для 96 % испытуемых полученный тестовый балл будет в пределах двух стандартных ошибок измерений от истинного балла, т.е. для указанного выше ребенка его истинный балл может быть как 100, так и 130 при полученном балле в 115 по шкале IQ (SEM = 7,5; William, 2000). Данный пример иллюстрирует, что даже тест с приемлемым уровнем внутренней согласованности может крайне неаккуратно измерять диагностируемые свойства на уровне отдельных испытуемых. Это имеет важные следствия для стратегий обора людей в те или иные группы. Именно поэтому как решения о распределении в программы для одаренных, так и иные решения, связанные с «низким» полюсом шкалы IQ, например, никогда не должны делаться на основании единственный раз проведенных тестов.
При использовании психодиагностических шкал в рамках конкретных исследований, как и при валидизации методик, психологи сталкиваются с несколько иным ограничением: наличие случайной ошибки измерения в наблюдаемых переменных x и y накладывает ограничение на максимальный размер корреляции между ними (rxy), которая будет меньше, чем корреляция между соответствующими x и y конструктами («истинными баллами») X и Y (rXY). Игнорирование этого феномена, названного аттенюацией корреляции (correlation attenuation), может привести к ошибочным заключениям о взаимосвязях между гипотетическими конструктами, в частности, при валидизации методик. Традиционным способом преодоления этого ограничения является использование уравнений коррекций аттенюации, наиболее частым из которых в рамках КТТ является следующее (Fan, 2003):
где r xx и ryy – коэффициенты надежности для переменных x и y соответственно.
Нетрудно увидеть, что если истинная корреляция между интересующими нас конструктами равна 0,60, но обе измеренные переменные имеют надежность 0,50, то корреляция между измеренными переменными составит всего 0,30 (см. рисунок 1). Применение методов коррекции аттенюации хотя вызывает множество споров в литературе, но является вполне обоснованным подходом к преодолению указанного ограничения (вторым подходом является использование методов структурного моделирования для установления связей между латентными переменными при их автоматической коррекции в так называемых моделях измерения, задающих наблюдаемые переменные через латентные переменные и ошибки).
Традиционные источники ненадежности данных – факторы времени, неэквивалентности тестовых форм, эффекты наблюдателя, а также гетерогенность тестовых заданий. Последнее критично для КТТ, поскольку она постулирует, что случайно отобранные тестовые задания должны быть высоко связаны между собой, если предназначены для измерения одного и того же конструкта. На этом основано вычисление одного из самых популярных коэффициентов надежности как внутренней согласованности заданий – коэффициента альфа Кронбаха, определяемого по формуле (Cronbach, 1951):
где k – количество заданий, во второй дроби в числителе находится сумма дисперсий всех заданий, а в знаменателе – общая дисперсия. В случае равенства дисперсий всех заданий альфа равна среднему всех коэффициентов надежности, посчитанных по методу расщепления (split-half), в противном случае альфа меньше этого среднего. Таким образом, альфа Кронбаха является функцией общности (communalities) тестовых заданий или, наоборот, их «уникальности» (uniqueness). Это лишь самое общее описание надежности как внутренней согласованности и альфы как способа ее измерения. Однако обратимся к использованию этого коэффициента в практике разработки психодиагностических методик.
Рис. 1. Эффекты ненадежности психологических шкал при использовании корреляции r Пирсона
В настоящее время в публикациях, посвященных созданию, апробации, валидизации, стандартизации и в целом разработке различных психологических инструментов (от личностных опросников до тестов интеллекта), альфа Кронбаха занимает особое почетное место и считается золотым стандартом описания психометрических свойств методики. При этом чаще всего не учитывается ряд ключевых ограничений, часть из которых прямо вытекает из приведенных выше уравнений (Cortina, 1993; Streiner, 2003).
Во-первых, как отмечает Страйнер (Streiner, 2003), альфа не является фиксированным свойством шкалы, это свойство конкретных полученных баллов: один и тот же инструмент может демонстрировать различные (высокие и низкие) альфы на разных выборках, поэтому не имеет смысла обращение к некому ранее установленному уровню согласованности шкалы. Связано это как с тем, что сама оценка согласованности несвободна от ошибки (ввиду того, что мы никогда не знаем истинный балл), так и с тем, что надежность зависит от дисперсии общего балла по шкале, которая варьирует от выборки к выборке. В связи с этим в публикациях важно указывать не ту величину альфы Кронбаха, которая была установлена при изначальной разработке методики (вне зависимости от разработчика), а то значение, которое получено на представленной в конкретной публикуемой работе выборке.
Во-вторых, не имеет смысла обсуждение альфы без учета количества тестовых заданий: Кортина (1993) показал, что увеличение длины теста с 6 до 18 заданий при константной средней интеркорреляции между заданиями (0,30) увеливает альфу с 0,72 до 0,88. Таким образом, необходимо учитывать как длину теста, так и средний уровень связанности заданий. Увеличение количество тестовых заданий: первый способ повышения внутренней согласованности (William, 2000). При имеющейся же согласованности r, если мы хотим достичь согласованности R, мы должны умножить количество заданий на n, где
В-третьих, альфа является мерой внутренней согласованности, но не дает информации о количестве измеряемых факторов: высокая альфа не означает наличие единого общего для заданий фактора, поскольку может быть получена для заданий, которые являются индикаторами нескольких ортогональных факторов – главное, чтобы внутри этих факторов задания были хотя бы на среднем уровне связаны между собой. Использование же высокой альфы в качестве аргументации в пользу наличия единого фактора недопустимо.
Четвертая проблема связана с конвенциями в отношении уровней, которые принято считать «приемлемыми». Разные авторы рекомендовали от 0,50–0,60 для ранних стадий исследований, 0,80 для исследовательских методов, и 0,90 для клинических (Nunnally, 1967) до меньших значений при учете содержания измеряемого конструкта: принцип «чем больше альфа, тем лучше» Страйнер (Streiner, 2003) называет одним из «мифов об альфе», поскольку альфа связана не только с гомогенностью заданий, но и с гомогенностью конструкта. Даже одномерные и однофакторные конструкты могут быть концептуализированы как имеющие множество различных аспектов, что в итоге приведет к появлению определенной гетерогенности заданий разрабатываемой методики. Увеличение гомогенности заданий через уменьшение рассматриваемых в методике сторон гипотетического конструкта – второй способ повышения ее внутренней согласованности.
Таким образом, учет надежности (и, в частности, внутренней согласованности как одной из ее форм) психологических методик как средств операционализации тех или иных гипотетических конструктов, представляется одинаково важным как при проведении исследований, так и в практике психодиагностики. В первом случае недостаточный учет надежности (или, в крайнем, но распространенном случае полного ее игнорирования при публикации результатов исследований) потенциально ведет к серьезным ошибкам при проверке теоретических гипотез о взаимоотношениях между гипотетическими конструктами, стоящими за измеренными переменными. И даже частый случай инконсистентности получаемых в различных исследованиях результатов может быть функцией различий в показателях надежности примененных исследователями инструментов на конкретных выборках, тогда как скорректированные результаты могут быть схожими. Отдельной проблемой является проблема генерализации надежности, в частности, при использовании ее для корректировки показателей, получаемых в рамках метаанализа (Корнилов, Корнилова, 2010). Во втором случае результаты прикладной диагностики оказываются зависимыми от точности методики на индивидуальном уровне, поэтому любые заключения и выводы на этом уровне должны учитывать надежность используемого психодиагностического инструментария, как минимум полученную на схожих выборках. Важным шагом на пути к преодолению указанных ограничений является выработка «привычки» к рутинной проверке и сообщению в результатах исследованиях и справочных материалах к методикам подробных характеристик надежности разработанных и использованных психологических шкал.
Надежность психологического теста — это… Что такое Надежность психологического теста?
Надёжностью называется один из критериев качества теста, его устойчивость по отношению к погрешностям измерения. Различают два вида надёжности — надёжность как устойчивость и надёжность как внутреннюю согласованность.
Надёжность как устойчивость
Устойчивость результатов теста или ретестовая надежность (англ — test-retest reliability) – возможность получения одинаковых результатов у испытуемых в различных случаях.
Устойчивость определяется с помощью повторного тестирования (ретеста):
В данном методе предлагается провести несколько замеров с некоторым промежутком времени (от недели до года) одним и тем же тестом. Если корреляция между результатами различных замеров будет высокой, следовательно, тест достаточно надежный. Наименьшим удовлетворительным значением для ретестовой надежности является 0,7. Однако надежность не всех тестов можно проверять этим методом, так как оцениваемое качество, явление или эффект могут быть сами по себе нестабильны (например, наше настроение, которое может меняться от одного замера к следующему). Еще один недостаток повторного тестирования – это эффект привыкания. Испытуемые уже знакомы с этим тестом, а может быть, даже помнят большую часть своих ответов после предыдущего заполнения.
В связи с выше сказанным возможно исследование надежности психодиагностических методик с использованием параллельных форм, при которых конструируются эквивалентные или параллельные наборы заданий. Получается, что испытуемые выполняют совершенно другой тест при аналогичных условиях. Однако, имеются трудности в доказательстве того, что обе формы являются действительно эквивалентными. Несмотря на это, на практике параллельные формы тестов оказываются полезными в установлении надежности тестов.
Надёжность как внутренняя согласованность
Внутренняя согласованность(англ. — self-consistent) определяется связью каждого конкретного элемента теста с общим результатом, тем, насколько каждый элемент входит в противоречие с остальными, насколько каждый отдельный вопрос измеряет признак, на который направлен весь тест. Чаще всего тесты, разрабатываются таким образом, чтобы у них была высокая степень внутренней согласованности, а связи с тем, что если одна переменная измеряется частью теста, то тогда в других частях, если они не согласованы с первой, эта же переменная измеряться не может. Таким образом, чтобы тест был валидным, необходимо, чтобы он был согласован.
Однако существует и противоположная точка зрения. Кэттелл говорит о том, что высокая внутренняя согласованность на самом деле является противоположностью валидности: каждый вопрос должен затрагивать меньшую область или иметь более узкое значение, чем критерий, подвергающийся измерению. Если все вопросы являются согласованными в высокой степени, они сильно коррелируют, и, следовательно, надежный тест будет измерять только лишь сравнительно «узкую» переменную с малыми отклонениями. По рассуждениям Кэттелла, максимум валидности существует, когда все задания теста не коррелируют друг с другом, а каждое из них имеет положительную корреляцию с критерием. Однако, такой тест будет характеризоваться низкой надежностью по внутренней согласованности.
Для проверки внутренней согласованности применяются:
- Метод расщепления или метод автономных частей
- Метод эквивалентных бланков
- Альфа Кронбаха
- Метод расщепления (Split-half reliability)
Этот метод заключается в расщеплении/разделении теста на две равные части (например, четные и нечетные вопросы, первая и вторая половина), а затем находится корреляция между ними. Если корреляция высокая, тест можно считать надежным.
- Метод эквивалентных бланков
МЭБ состоит в применении двух сопоставимых друг с другом форм теста для большой выборки (например, формы L и M для измерения в шкале интеллекта Стэнфорда-Бине) Результаты, полученные при выполнении двух форм, сравнивают и высчитывают корреляцию. Если коэффициент корреляции высокий, следовательно, тест надежен. Недостаток этого метода в том, что он подразумевает такой длительный и трудоемкий процесс, как создание двух эквивалентных форм.
- Альфа Кронбаха
В этом методе, предложенном Ли Кронбахом, сравнивается разброс каждого элемента с общим разбросом всей шкалы. Если разброс результатов теста меньше, чем разброс результатов для каждого отдельного вопроса, следовательно, каждый отдельный вопрос направлен на исследование одного и того же признака, свойства или явления. Они вырабатывают значение, которое можно считать истинным. Если такое значение выработать нельзя, то есть получается случайный разброс при ответе на вопросы, тест не надежен и коэффициент альфа Кронбаха будет равен 0. Если же все вопросы измеряют один и тот же признак, то тест надежен и коэффициент альфа Кронбаха в этом случае будет равен 1.
α Кронбаха определяется как
,
где N — число элементов в шкале, — дисперсия общего тестового балла, и — дисперсия элемента i.
См. также
Помимо надежности тестов, есть так же надежность наблюдения – межнаблюдательская надежность. МН – это процент совпадения результатов наблюдения экспертов друг с другом.
Надежность и валидность
Надежность показывает, что результаты проводимого исследования близки к истине, а валидность показывает, что результаты действительно относятся к тому явлению, которое изучается исследователем. Валидное исследование автоматически является надежным, однако обратное следствие не обязательно. Надежное исследование может и не быть валидным.
Литература
Пол Клайн. «Справочное руководство по конструированию тестов», Киев, 1994.
Wikimedia Foundation. 2010.
12.Понятие валидности, надежности, достоверности в психодиагностике
12. Понятие валидности, надежности, достоверности в психодиагностике.
Надёжность – один из критериев проверки методик. В разработку этого критерия внесли свой вклад А. Анастази, Кронбах, Торндайк.
Надёжность – относительное постоянство, устойчивость, согласованность результатов тестов при первичном и повторном измерении на одних и тех же испытуемых. Необходимо повторное измерение на той же выборке. Расхождения возможны, но они должны быть незначительны. Таким образом, надёжность говорит о точности и устойчивости результатов к действию случайных факторов.
Общий разброс может быть результатом двух групп причин:
Изменчивость, присущая самому признаку.
Факторы внешней среды, которые могут повлиять
Процедуры вычисления надёжности:
Проведение одной и той же формы теста. (ретестовая надёжность), вычисление коэффициента корреляции. Интервал между проведением тестирования – от одного до нескольких месяцев.
Проведение параллельных форм тестов. При проведении исследования с помощью эквивалентной формы теста специалист убеждается в правильности выбранного признака. Чтобы формы теста считались эквивалентными необходимо одинаковое количество заданий в обоих тестах, задания должны быть унифицированы, задания должны располагаться одинаково по степени сложности, должны быть одинаковые средние и стандартное отклонение. Используют два подхода для вычисления надёжности при помощи параллельных форм тестов:
Одни и те же испытуемые обследуются при помощи одного теста. А потом другого и если коэффициент корреляции больше 0.7, то надёжность высока.
Испытуемые делятся на две группы, одна группа проходит тест А, другая тест Б, через неделю – наоборот.
Расщепление теста и вычисление коэффициента корреляции. Испытуемые выполняют две части теста, которые равноценны. В одну часть попадают все чётные задания, в другую – нечётные. Эта процедура показывает последовательность теста внутри себя, меру адекватности подбора вопросов. Вычисляется коэффициент корреляции.
Коэффициент надёжности соответствует коэффициенту корреляции Спирмена или Писрона.
Надёжность факторно-дисперсионная — способ определения надежности, основанная дисперсионном анализе результатов теста. Надежность теста соответствует отношению истинной дисперсии (т. е. дисперсии самого исследуемого фактора) к реально полученной эмпирической дисперсии. Последняя складывается из истинной дисперсии и дисперсии погрешности измерения. Факторно-аналитический подход к определению надежности дополнительно расчленяет и дисперсию истинного показателя (Дж. Гилфорд, 1956).
Дисперсия истинного показателя, в свою очередь, может состоять из дисперсии общего фактора для групп аналогичных тестов, особых факторов, обеспечивающих тесты специфической направленности и дисперсии факторов, присущих конкретной тестовой методике. Следовательно, полная дисперсия теста равна сумме дисперсий для общих, специфических и единичных факторов плюс дисперсия погрешности
Факторно-дисперсионный способ определения надежности подходит для оценки уже факторизованного теста, но не для тестов, измеряющих широкий набор разнообразных параметров, так как некоторые из них могут не входить в установленную область валидности методики.
Достоверность и допустимая ошибка измерения:
Достоверность определяется критерием ошибки измерения. Ошибка – это статистический показатель, характеризующий степень точности отдельных измерений. Предполагается, что для любой черты каждый индивид имеет истинный показатель. Любой показатель, полученный в тесте отличается от его истинного значения на какую-то случайную погрешность. И если протестировать человека несколько раз, получится разброс показателя вокруг истинного значения. Это значение колеблется в определённых границах. Колебание данного значения может зависеть от систематических ошибок и случайных. Причинами систематических ошибок может быть неправильное проведение теста, не соблюдение процедуры, неточность в обработке, низкая валидность методики. Вероятны и случайные ошибки, связанные с человеческим фактором. Если в методике не заложены подобные сбои, то её нельзя считать точной. При большом количестве наблюдений индивидуальные оценки образуют определённый тип распределения статистического показателя, которые будут обнаруживать ошибки измерения. Ошибка измерения определяется статистическими методами – величиной квадратичного отклонения, связанной с дисперсией распределения отдельных измерений. Погрешность не должна превышать 5 %.
Валидность:
Валидность – способность теста измерить то, что он должен измерить по замыслу автора. Это понятие относится больше не к тесту, а к его цели. Тест может быть надёжным, но не валидным. Но если тест валиден, то он надёжен.
Источники идей валидности:
Первые идеи появились ещё до создания тестов. Часто исследователи связывали результаты исследования с будущими успехами. Например, Пифагор, связывал мышление и речь при помощи интуиции.
Идея о необходимости практической проверки пригодности теста. Вне практики проблема валидности не может существовать.
Философские идеи: истина- соответствие мысли действительности. Критерий истинности – полезность.
Измерения, которые мы делаем не очевдны, они требуют теоретической основы. Теоретико=эмпирическая валидность.
Развитие статистической науки – корреляции и факторного анализа.
Пять источников породили пять видов валидности.
В начале 20 века ведущую роль играла интуиция. Если создателем теста был известный человек, то вера в валидность принималась на слово.
В 20-30 годы росли запросы практики, стали создаваться тесты на основе эмпирических источников. Было разработано 3 эмпирических подхода:
Все поступающие на работу проходят тест. Через какое-то время измеряется их производительность труда и эффективность. Затем шло коррелирование показателей. Таким образом, тесты использовались для полезности.
Сначала тестируются те, кто успешно уже работает, а затем результаты этого тестирования коррелируются с результатами кандидатов. Если есть взаимосвязь, то тест валидный.
Работы Бине и Симона. Для уверенности, что тест измеряет именно интеллект. Все задания теста проводились на двух группах, которые отбирались не психологами, а учителями. В 1 группе были дети с высокими умственными способностями, во 2 – с невыраженными способностями.этот способ получил название «экспертного». Далее проводилось тестирование. И если в обеих группах большинство отвечало в соответствии с ожиданиями авторов, то тест признавался валидным.
Таким образом, эмпирические методы обоснования валидности просуществовали до 50ых годов. Стали считать, что доказывать валидность можно не только с помощью практики. Анализ и соответствие теории и практики. Валидность по содержанию, сравнение с программой исследования и содержания теста. Сравнение облегчается, когда в программе выделяется проблема, цель и основные понятия. Концептуальная валидность, так как психологи интересуются соотнесением научных понятий с эмпирически наблюдаемыми фактами.
В эмпирический методах доказательства валидностиособую роль играют внешние критерии, которые служат доказательством валидности. Американские психологи Тиффани и МакКормик провели анализ использования внешних критериев и выделили их 4 типа:
Критерий исполнения – количество выполненной работы, темп роста мастерства
Субъективный критерий – включение различных видов ответов, которые отражают отношение к чему-либо.
Физиологический критерий — используется при изучении окружающей среды.
Критерий случайности – учет многих факторов.
Внешние критерии должны отвечать требованиям релевантности, свободы от помех, надёжности. Релевантность – смысловое соответствие между тестом и независимым от него жизненноважным критерием. Свобода от помех (контаминация) считается важной так как на деятельность влияет сам человек и условия его труда. Надёжность – постоянство результатов
Диагностическая (конкурентная) В. отражает способность теста дифференцировать испытуемых по изучаемому признаку. Анализ диагностической В. имеет отношение к установлению соответствия показателей теста реальному состоянию психологических особенностей испытуемого в момент обследования. Примером определения этого типа В. может быть исследование по методу контрастных групп. Проведение теста интеллекта у нормально развивающихся детей и их сверстников с нарушениями в интеллектуальном развитии может выявить глубокие количественные и качественные различия в выполнении заданий сравниваемыми группами. Степень надежности дифференциации детей первой и второй групп по данным теста будет характеристикой диагностической В. оценки умственного развития, получаемой с помощью данной методики.
Валидность содержательная (внутренняя, логическая) — комплекс сведений о репрезентативности заданий теста по отношению к измеряемым свойствам и особенностям. Одним из основных требований при валидизации методики в этом направлении является отражение в содержании теста ключевых сторон изучаемого психологического феномена. Если область поведения или особенность очень сложна, то содержательная В. требует представления в заданиях теста всех важнейших составных элементов исследуемого явления.
Дифференциальная В. — валидность, рассматривающая внутренние взаимоотношения между психологическими факторами, диагностируемыми с помощью психодиагностической методики. Содержание Д.В. может быть иллюстрировано на примере тестов интересов, которые в своем большинстве обычно умеренно коррелируют с показателями общей академической успеваемости, однако в различной степени связаны с успеваемостью по отдельным дисциплинам. В. д. особенно важна как показатель диагностической ценности методик, используемых в профотборе.
Иллюзорная В. (ложная) — иллюзия соответствия заключения по результатам тестирования личностным характеристикам обследуемого. Возникает как следствие использования предельно общих, а поэтому применимых практически ко всем обследуемым формулировок, таких, например, как «разумный в выборе цели», «стремящийся к лучшей жизни» и т. п. Такого рода утверждения принимаются почти всеми людьми в качестве точного описания их личности, что создает почву для деятельности различного рода прорицателей и предсказателей.
Инкрементная В. — (англ. incremental — приращение, прибыль) — один из компонентов критериальной валидности, прогностической валидности теста, отражающий практическую ценность методики при проведении отбора. В. и. может быть выражена количественно при помощи валидности коэффициента.
Консесусная В. (consensual validity) — тип валидности, основывающейся на установлении связи (корреляции) тестовых данных с данными, полученными от внешних экспертов, хорошо знакомых с теми лицами, которые были подвергнуты тестированию. Понятие и процедура В. к. введены Р. Мак-Краэ в 1982 г. с целью обеспечения валидизации опросников личностных, которая нередко затруднена ( а иногда и невозможна) в связи с отсутствием необходимых для установления валидности критериев.
Конструктная В.—один из основных типов валидности, отражающий степень репрезентации исследуемого психологического конструкта в результатах теста. В качестве конструкта могут выступать практический или вербальный интеллект, эмоциональная неустойчивость, интроверсия, понимание речи, переключаемость внимания и т. д. Иначе говоря, В. к. определяет область теоретической структуры психологических явлений, измеряемых тестом.
Следует, однако, заметить, что, в отличие от критериальной валидизации, при анализе В. к. не требуется высокой степени связи результатов двух тестов. Если окажется, что новый и эталонный тесты практически идентичны по содержанию и результатам и разрабатываемая методика не обладает преимуществами краткости или легкости применения, это означает лишь дублирование теста, оправданное только с т. з. создания параллельной формы теста. Смысл процедуры В. к. состоит в установлении одновременно как сходства, так и различия психологических феноменов, измеряемых новым тестом по сравнению с известным.
Важным аспектом В. к. является внутренняя согласованность, отражающая то, насколько определенные пункты (задания, вопросы), составляющие материал теста, подчинены основному направлению теста как целого, ориентированы на изучение одних и тех же конструктов. Анализ внутренней согласованности осуществляется путем коррелирования ответов на каждое задание с общим результатом теста. При определении В. к. важное место принадлежит изучению динамики измеряемого конструкта. При этом мы можем опираться на гипотезы о его возрастном развитии, влиянии тренировок, обучения, освоения профессии и т. д.
Критериальная В. — комплекс характеристик, включающий валидность текущую и прогностическую методики и отражающий соответствие диагноза и прогноза определенному кругу критериев измеряемого явления. В качестве валидизации критерия выступают независимые от результатов теста и непосредственные меры исследуемого качества, такие как уровень достижений в какой-либо деятельности, степень развития способности, выраженность определенного свойства личности и т. д. При валидизации тестов достижений результат измерений сравнивается с мнением педагогов о знаниях обследуемого в определенной области, с академическими оценками, контрольными проверками и т. д. В случае валидизации профориентационных тестов и методик тестовые оценки сравниваются как с экспертными оценками коллег и руководителей, так и с объективными показателями достижений в профессиональной сфере.
Очевидная В. — пред ставление о тесте, сфере его применения, результативности и прогностической ценности, которое возникает у испытуемого или другого лица, не располагающего специальными сведениями о характере использования и целях методики. В. о. не является компонентом объективно устанавливаемой валидности. Вместе с тем высокая В. о. в большинстве случаев является весьма желательной. Она выступает в качестве фактора, побуждающего испытуемых к обследованию, способствует более серьезному и ответственному отношению к работе по выполнению заданий теста и к заключениям, формулируемым психологом.
Достаточный уровень В. о. особенно значим для методик обследования взрослых. Представления испытуемых и пользователей психодиагностической информацией о В. о. в немалой степени определяются названием методики, поскольку эта часть сведений о тесте наиболее доступна неспециалистам. В. о. существенно улучшает применение понятных формулировок и терминов, а также заданий, по содержанию являющихся наиболее естественными с учетом возрастной, половой, профессиональной специфики испытуемых. Неадекватно завышенная В. о. способствует более выраженному проявлению эффекта контаминации критерия.
В. о. иногда носит название внешней (face validity), или «доверительной» (faith validity), валидности.
В. по возрастной дифференциации — один из компонентов валидности конструктной, связанный с возрастной динамикой изменений исследуемого качества. Характеристика валидности по конструкту здесь заключается в определении соответствия результатов теста теоретически ожидаемым и практически наблюдаемым возрастным изменениям данного конструкта или свойства.
Прогностическая В. — информация о том, с какой степенью точности и обоснованности методика {тест) позволяет судить о диагностируемом психологическом качестве спустя определенное время после измерения. В. п. отражает временной интервал, на который распространяется обоснование такого суждения. Сведения о В. п. имеют самое непосредственное отношение к раскрытию предсказательной силы методики, выяснению степени обоснованности сформулированного на ее основе ближайшего и более отдаленного прогноза, анализу значимости получаемых в тесте показателей с т. з. экстраполирования результатов на будущее.
В качестве валидизации критерия могут выступать не только показатели актуального поведения, но и ожидаемые результаты деятельности, лечения, обучения и т. д. Процедура определения В. «п. опирается на анализ корреляции между оценками по тесту и предсказанными результатами деятельности, формирующимися свойствами личности, исходом лечения и т. п. Вместе с тем различие двух видов критериальной валидности связано не только с временными пределами критериальных сопоставлений. Валидность текущая и В. п. отражают разные цели применения методики: текущий диагноз, оценка настоящего положения, с одной стороны, и прогнозирование развития качества или успеха в деятельности — с другой.
Важность показателей В. п. при анализе тестовых процедур, направленных на отбор, подчеркивается введением специального понятия валидности инкрементной. Этот показатель В. п. дает информацию о том, насколько улучшается процедура отбора с применением данного теста по сравнению с традиционной (основывающейся лишь на формальных сведениях о предыдущей деятельности, анализе документов личного дела, беседах).
Содержательная В. — один из основных типов валидности методики, характеризующий степень репрезентативности содержания заданий теста измеряемой области психических свойств.
Комплекс сведений В. с. традиционно имеет наибольшее значение для тестов, исследующих деятельность, близкую или совпадающую с реальной (чаще всего учебной или профессиональной). Изучаемая деятельность носит, как правило, синтетический характер, складывается из многих, подчас разнородных факторов (проявления личностных особенностей, комплекс необходимых знаний и навыков, специфические способности и т. д.). Поэтому одной из важнейших задач создания адекватной модели тестируемой деятельности является подбор таких заданий, которые будут охватывать главные аспекты изучаемого феномена в правильной пропорции к реальной деятельности в целом.
Текущая В. (диагностическая, конкурентная)— характеристика теста, отражающая его способность различать испытуемых на основании диагностического признака, являющегося объектом исследования в данной методике. В качестве таких признаков могут выступать уровни общих способностей, притязаний, вербальный интеллект, тревожность и т. д. В более узком значении В. т. — установление соответствия результатов валидизируемого теста независимому критерию, отражающему состояние исследуемого тестом качества в момент проведения исследования.
Своеобразным показателем В. т. является комплекс сведений о том, насколько удобен, экономичен тест по сравнению с получением информации об исследуемом качестве из других источников (наблюдение, анализ объективных данных, экспертная оценка и т. д.).
Экологическая В. — валидность теста по отношению к измеряемому свойству в контексте определенной ситуации. В. э. является свойством теста, проявляющимся в том, что его применение при решении различных практических задач ведет к качественно различной интерпретации результатов тестирования (В. Н. Дружинин, 1990).
Эмпирическая В.—совокупность характеристик валидности теста, полученных сравнительным статистическим способом оценивания. Имеет отношение главным образом к области валидности критериальной и двум ее видам: валидности текущей и валидности прогностической. Если при определении валидности содержательной оценка теста проводится с помощью различных качественных процедур получения информации описательными методами с использованием экспертных оценок и других источников информации (для вынесения суждения о соответствии заданий теста содержанию предмета измерения), то В. э. измеряется всегда с помощью статистического коррелирования. Проводится корреляционный анализ связи двух рядов значений — оценок теста и показателей по внешнему параметру изучаемого свойства (или результатов другого теста, валидность которого известна).
Качество информации
Вышла книга автора сайта!
Теоретическая валидизация в социологическом исследовании: Методология и методы
Качество получаемой информации: валидность и надежность
Построение выборки >> Качество информацииДля ученого-практика рассуждать о проблемах качества информации — высший пилотаж. Тебе тоже не помешает кое-что знать об этом.
0 Нажми, если пригодилось =ъ
Ссылка на эту страницу для научных и учебных работДембицкий С. Качество получаемой информации: валидность и надежность [Электронный ресурс]. — Режим доступа: http://soc-research.info/principles/7.html
Традиционно «валидность» является одной из ключевых категорий в анализе эмпирических данных как психологических, так и социологических исследований. В дальнейшем под валидностью будет пониматься степень соответствия результатов исследовательского процесса действительности [Johnston, 1980: р.190-191].
В рамках количественных исследований принято выделять конструктную, внешнюю и внутреннюю валидность. Первая связана с обеспечением правильности измерения, вторая и третья – с выявлением причинно следственных связей в рамках экспериментальных исследований [Lahm, 2007: р. 5173-5175]. Несмотря на то, что Дональд Кэмпбелл в свое время уделил немало внимания всем трем типам валидности [Кэмпбелл, 1996; Campbell and Fiske, 1959], сегодня все еще часто встречаются случаи «межурментизации» понятия валидность, во время которых в ранг ключевой возводится конструктная валидность, интегрирующая в себе очевидную, содержательную, внешнюю и другие виды валидности валидности [Messick, 1995: р. 745]. С точки зрения разработки тестов и других измерительных методик это может звучать логично. Однако в более широком контексте эмпирических исследований «межурментизация» является классическим примером косности, догматизма и нежелания признать очевидное. Такая позиция «оставляет за бортом» даже количественную экспериментальную традицию, не говоря уже о широком спектре подходов качественного толка.
Что касается качественных исследований, то проблема валидности не получила здесь однозначного решения. Вместе с тем, ее состояние полностью отвечает принципу пролиферации, предложенному в ранних работах Феерабента – каждый сможет найти то, что будет отвечать его личной методологической позиции.
Наибольшей известностью пользуется концепция Губы и Линкольн, впервые представленная еще в 1985 году [Miles and Hernandez Jozefowicz-Simbeni, 2010: p. 421-422]. В своей работе они говорят даже не о валидности, а о критериях оценки качества или строгости (rigor) качественных исследований. По мнению Губы и Линкольн, в качественных исследованиях необходимо говорить не о внутренней валидности, а о достоверности (credibility), не о внешней валидности, а о переносимости (transferability), не о надежности, а о функциональной надежности (dependability), наконец не об объективности, а о подтверждаемости (confirmability). Все они характеризуют достоверность (trustworthiness) исследования. Правдоподобие основывается на согласии участников исследования с формулировками, интерпретацией и вообще результатами анализа исследователя. Переносимость относится к способности концептов или конструктов, полученных в ходе исследования, быть применимыми к более широкому социальному контексту. Функциональная надежность имеет отношение к тому насколько правильно выбран тип данных и соответствующие методы их сбора в рамках того или иного качественного проекта. Подтверждаемость переносит «бремя» объективности с исследования на данные. Поэтому исследователь должен сделать все возможное для подтверждения полученных данных.
В еще одной известной работе [Patton, 2002: p. 552] интегральной характеристикой является уже достоверность (credibility), основывающаяся на строгости использования методов (rigorous methods), достоверности самого исследователя (credibility of the researcher) и его философских взглядах относительно особенностей качественного исследования (philosophical belief in the value of qualitative inquiry). Строгость использования методов необходима для получения высококачественных данных, открывающих возможность проведения систематического анализа. Достоверность исследователя основывается на его тренировках, опыте, достижениях и самопрезентации. А его философские взгляды должны включать признание натуралистичного исследования, качественных методов, индуктивного анализа, целенаправленной выборки и целостного мышления.
И даже в таких подходах, где одной из центральных категорией остается валидность, она сопоставляется с другими, центральными с точки зрения качественных исследований, понятиями. Так, в своей работе Максвелл [Maxwell, 1992: p. 285-293] указывает на то, что понимание является более важным понятием, чем валидность. Поэтому типы последней выводятся именно из специфики понимания, присущего качественным исследованиям (типы валидности характеризуют типы понимания). При этом он не считает, что качественный и количественный подходы к валидности являются несопоставимыми. Главное же условие соответствующей интеграции – их правильное понимание в их собственных терминах.
Максвелл выделяет три типа валидности – описательную, интерпретативную и теоретическую. Описательная валидность связана с тем правильно ли исследователь излагает в своей работе то, что он увидел и услышал во время исследования. Это первый и важнейший аспект валидности – неправильное описание поступков и слов людей перечеркнет дальнейшие попытки в достижении понимания изучаемого феномена. Вместе с тем, исследователь не только описывает слова и поступки людей, но объясняет их значение – интерпретирует данные. Отсюда понимание исследователем того, что принято называть перспективой участников исследования (особенности их интенции, восприятия, чувств, убеждений, оценок и т.д.), напрямую связано с интерпретативной валидностью. После того как исследователь достиг понимания на описательном и интерпретативном уровне, он готов перейти к построению теории, позволяющей подняться на более высокий уровень абстракции как в смысле выводов, так и в смысле терминологии. Если на предыдущих этапах исследователь фокусируется на понимании, то здесь он переходит к объяснению, являющемуся его завершающей фазой. Теоретическая валидность, имеющая решающее значение на этом этапе, должна давать оценку двум главным составляющим любой теории – используемым понятиям и взаимоотношениям, существующим между ними. В соответствии с этими двумя аспектами теории можно выделить и два аспекта теоретической валидности – валидность используемых понятий и валидность постулируемых взаимосвязей между ними.
Подход Максвелла представляется наиболее приемлемым в решении проблемы совместной валидизации в рамках качественных и количественных исследований. В этом случае в состав валидности входят такие ее типы: теоретическая, конструктная, внешняя, внутренняя и предсказательная. Теоретическая валидность указывает насколько теоретический конструкт, положенный в основу исследования, соответствует реальному социальному феномену. Конструктная валидность демонстрирует насколько измерительная методика и полученные на ее основе результаты соответствуют теоретическому конструкту. Внешняя валидность связана с тем насколько выборочная совокупность может выступать основой для обобщений в отношении других людей, контекстов и периодов. Внутренняя валидность показывает насколько измерения исследования подтверждают существование связей между переменными, а также насколько такие связи могут быть подтверждением причинно-следственной зависимости между ними. Предсказательная валидность связана с тем насколько теоретическая, внешняя и внутренняя валидности обеспечивают предсказательный потенциал исследования [Дембицкий, 2010].
По большей части достижение теоретической валидности является прерогативой качественного исследования, так как теория, построенная на основе тщательного изучения эмпирического мира, будет гораздо обоснованней, чем теория, основывающаяся на изучении литературы и, тем более, на здравом смысле исследователя. После достижения теоретической валидности можно переходить к решению других задач валидизации в рамках количественной парадигмы.
Категория «надежность» имеет отношение к устойчивости и согласованности полученных результатов. Остановимся на трех основных видах надежности:
А. Ретестовая надежность является характеристикой, показывающей, насколько результаты опроса с помощью конкретной методики меняются с течением времени. Определение ретестовой надежности приемлемо в случаях измерения устойчивых свойст, слабо подверженных изменениям в долгосрочной перспективе. Если соответствующая методика является надежной, то результаты первого и второго опросов должны показать устойчивые результаты. Если же первый и второй опрос согласованы слабо, то методика является ненадежной и не может использоваться в исследованиях. Величина ретестовой надежности определяется с помощью коэффициентов корреляции.
Важно помнить, что использование ретестовой надежности не подходит для тех методик, которые предназначены для измерения характеристик, находящихся в постоянном изменении. В данном случае низкая устойчивость укажет не на недостатки опросного инструмента, а на изменение социальной/психологической ситуации.
Б. Внутренняя надежность показывает, насколько согласованны результаты, полученные с помощью разных индикаторов, измеряющих один признак. Таким образом, этот вид надежности подходит для сложных составных шкал, опирающихся на группу показателей. Высокая внутренняя надежность будет продемонстрирована в том случае, когда результаты показателей изменяются в одном направлении. Одним из главных способов определения внутренней надежности является использование коэффициента Альфа Кронбаха.
Проверка внутренней согласованности необходима, прежде всего, для того, чтобы удостовериться измеряют ли индикаторы методики одно и то же свойство.
В. Надежность кодировки определяется в исследованиях с применением контент-анализа или же в других исследованиях, требующих кодировки текстового материала. Этот вид надежности показывает качество инструкций, служащих руководством при кодировке различных частей текста. Высокая согласованность работы различных кодировщиков говорит о том, что соответствующая инструкция составлена правильно.
Коэффициенты, используемые для определения надежности кодировки, зависят от характера свойств, подлежащих кодировки. Если свойство является количественным, можно использовать один из коэффициентов корреляции. Если же свойство является качественным, то подойдет, например, коэффициент Каппа Кохена.
В зависимости от особенностей исследования необходима проверка тех или иных видов валидности и надежности. В противном случае исследователь рискует получить результаты-артефакты, то есть результаты, порожденные особенностями проведения исследования, а не свойствами изучаемых объектов.
- default_titleJohnston J., Pennypacker H. Strategies and tactics of human behavioral research. – New Jersey: Erlbaum, 1980. – 210 p.
- default_titleLahm K. Quantitative validity // The Blackwell Encyclopedia of Sociology / ed. by George Ritzer. — Malden, Oxford, Carlton: Blackwell Publishing, 2007. — P. 5173-5175.
- default_titleКэмпбелл Д. Модели экспериментов в социальной психологии и прикладных исследованиях. – М.: Социально-психологический центр, 1996. – 392 с.
- default_titleCampbell D., Fiske D. Convergent and Diskriminant Validation by the Multitrait-multimethod Matrix // Psychological Bulletin. – 1959. – № 2. – Р. 81–105.
- default_titleMessick S. Validity of Psychological Assessment // American Psychologist. — 1995. — №9. — P. 741-749.
- default_titleMiles B., Hernandez Jozefowicz-Simbeni D. Naturalistic Inuiry // The Handbook of Social Work Research Methods / ed. by B. Thyer. – Los Angeles; London; New Delhi; Singapore; Washington DC: Sage, 2010. — P. 415-424.
- default_titlePatton M. Qualitative evaluation and research methods. – Thousand Oaks: Sage, 2002.
- default_titleMaxwell J. Understanding and Validity in Qualitative Research // Harvard Educational Review. — 1992. — №3. — P. 279-300.
- default_titleДембицкий С. Теоретическая валидность и смещение данных в социологическом исследовании [Электронный ресурс]. – Режим доступа: http://www.ecsocman.edu.ru/soc-ua/msg/337817.html (обновленный вариант статьи)
- Show More
Определение надежности теста
Тест обычно считается надежным, если с его помощью получаются одни и те же показатели для каждого обследуемого при повторном тестировании.
В психометрике термин надежность имеет два значения. На одном из них — надежности по внутренней согласованности — мы не будем останавливаться подробно, отсылая читателя к соответствующим справочникам и руководствам, отметив только, что требование к внутренней согласованности теста не случайно. Вполне естественно считать, что если некоторая переменная измеряется частью теста, то другие его части, не будучи согласованными с первой, измеряют нечто другое. Для того чтобы быть валидным, тест должен быть согласованным. Существует несколько способов определения надежности.
Надежность ретестовая — предполагает повторное предъявление того же самого теста тем же испытуемым и примерно в тех же условиях, что первоначальное, а затем установление корреляции между двумя рядами данных. При использовании этого способа определения надежности нужно отдавать себе отчет в том, что испытуемые могут запомнить свои ответы и воспроизвести их во второй раз, поэтому повторное тестирование должно быть отделено от первого более-менее значительным временным интервалом, обычно не менее месяца. Некоторые психологи настаивают на интервале между тестированиями не менее 6 месяцев (Клайн, 1994).
Мы не считаем требование П. Клайна об обязательном 6 месячном интервале между тестированиями безусловным. В подтверждение сошлемся на результаты исследования канадских психологов. С помощью личностного опросника были обследованы 302 студента с интервалом в 3 недели. Условия повторного тестирования варьировались. Стандартный коэффициент ретестовой надежности, равный 0,872, не отличался от коэффициентов надежности, полученных в трех группах испытуемых, получавших одну из трех специфических инструкций: 1) продумывать ответы; 2) использовать воспоминания о прошлых ответах; 3) выполнять параллельную форму теста. Было обнаружено, что стандартный коэффициент надежности выше коэффициента, полученного при инструкции воспроизводить прошлые ответы.
Наименьшим удовлетворительным значением для ретестовой надежности является коэффициент корреляции, равный 0,7. Правда, для некоторых тестов этот показатель может быть несколько ниже.
Надежность параллельных форм предусматривает создание эквивалентных форм опросника и предъявление их одним и тем же испытуемым для того, чтобы затем оценить корреляцию между полученными результатами. Основная проблема, препятствующая широкому распространению этого способа определения надежности, — необходимость подготовки двух наборов заданий, что чрезвычайно сложно, поскольку требуются убедительные доказательства их эквивалентности.
Надежность частей теста определяется путем деления опросника на две части (обычно на четные и нечетные задания), после чего и рассчитывается корреляция между этими частями. Обычно к этому способу определения надежности рекомендуется прибегать только в тех случаях, когда необходимо быстро получить результаты.
Для определения ретестовой надежности и надежности параллельных форм корреляции подсчитывается на основе коэффициента произведения моментов Пирсона. Эта процедура подсчета рассматривалась нами ранее, в разделе, посвященном анализу заданий. Для определения надежности частей теста ранее рассчитанный коэффициент произведения моментов Пирсона (между двумя половинами теста) используется в формуле Спирмена—Брауна.
Подчеркнем, что наилучшей процедурой определения надежности является проведение повторных исследований через более или менее значительные временные интервалы.
Все исследования надежности должны выполняться на достаточно больших (рекомендуется 200 и более испытуемых) и репрезентативных выборках. Надежность — важная характеристика теста, но сама по себе ценности не представляет. Она необходима для достижения валидности.
Исследование надежности малых групп в социально-психологическом эксперименте
WWW.PRO.RSU.RU
22
Вместе с тем, проблема надёжности группы в напряженных и экстремальных
ситуациях недостаточно исследована в социальной психологии. Не существует
приемлемого теоретического объяснения фактов неоднозначности групповой
динамики и эффективности совместной деятельности в напряженных и экстре-
мальных ситуациях. Теоретическое осмысление и эмпирическое исследование
социально-психологических основ надёжности группы позволит более глубоко
изучить и совместную деятельность, и малую группу.
В условиях кардинальных социальных и научно-технических изменений про-
блематика надёжности наполняется новым содержанием и требует современных
средств решения [14]. Необходимость изучения надёжности обусловлена также
тем, что в напряженных и экстремальных ситуациях изучалась главным образом
деятельность индивида, а совместная деятельность группы в указанных ситуациях
исследована явно недостаточно.
Проблема применения экспериментального метода к исследованию надеж-
ности группы. Мы считаем, что основным методом исследования надежности
группы в экстремальных и напряженных ситуациях совместной деятельности
является эксперимент. Мы опирались на следующие соображения. Психологи и
социологи, разрабатывающие проблемы эксперимента в общественных науках
(В. Вундт, В.Н. Дружинин, А.П. Куприян, Т.В. Корнилова, Д. Кэмпбелл, А.Ф. Лазур-
ский, К. Левин, Б.Ф. Ломов, С. Милграм, Д.С. Милль, В.Д. Небылицын, С. Стауффер,
Б.М. Теплов, Г.И Челпанов и др.) исходили их того, что экспериментальный метод
имеет активный характер [4; 5; 8; 9; 10; 11; 16; 17]. Кроме того, по мнению К. Леви-
на, эксперимент в психологии должен давать объяснительную характеристику,
объяснять детерминацию человеческого поведения, а не ограничиваться только
установлением факта [9]. Эта точка зрения основывается на предположении о
динамическом характере причинно-следственных связей и активном содействии
исследователя изменениям в объекте. Генеральный путь научного исследования
в социальной психологии, таким образом, заключается в движении от теории
к эксперименту, цель которого заключается в нахождении психологических за-
кономерностей, установлении законов, предсказании психологических явлений
(психологический прогноз).
Важной методологической проблемой социальной психологии является рас-
смотрение структуры эксперимента как способа проверки гипотезы. В эксперимен-
тальном исследовании, предметом которого являются социальные и социально-
психологические явления, на отдельных этапах могут быть использованы такие
методы, как интервью, беседа, наблюдение, анкетирование, тесты. По мнению
отечественных исследователей Г.М. Андреевой, В.Н. Дружинина, А.П. Куприяна
и др. эти методы могут предшествовать эксперименту, подготавливать его или
создавать соответствующие условия для него, сопутствовать ему, следовать после
этапа активного воздействия на экспериментальные переменные. Эксперимент
в данном случае является не только измерением и контролем переменных, но и
способом организации исследования, интегрирующим другие методы [1; 4; 7].
Что такое психология надежности | Betterhelp
Автор: Никола Киркпатрик
Обновлено 12 февраля 2020 г.
Медицинское освидетельствование: Эрика Шад, LCP, CWLC
Источник: rawpixel.com
Надежность определение психология относится к то способность из а исследовать изучение или же контрольная работа к предоставлять то одно и тоже полученные результаты после существование выполнено на более чем один случай.В Другие слова если то Выводы из а контрольная работа или же изучение доказывать время а также очередной раз к быть то одно и тоже, или же Закрыть к то одно и тоже, Они находятся считается надежный. Если то одно и тоже контрольная работа было предложил к то одно и тоже участник на два разные случаи а также то полученные результаты повернулся вне разные, Это было бы быть жесткий к доверять что контрольная работа. Что контрольная работа было бы быть объявлен в виде ненадежный.
Из курс, каждый изучение является разные так как Это вовлекает люди, ситуации, а также предметы что находятся все разные на ан физическое лицо основа но если то полученные результаты находятся Закрыть, то контрольная работа является сказал к быть надежный.
Для пример, если а общий симптом среди 500 участники в а исследовать изучение о агорафобия повороты вне к быть беспокойство, Это может быть надежно заключил что там является а сильный корреляция между фобии а также беспокойство. Возможно вне из те 500 люди, 470 отчет беспокойство но 30 делать нет. Там находятся достаточно экземпляры из беспокойство сообщил среди наиболее из то контрольная работа предметы что то изучение является сказал к имеют произведено а надежный результат.
Тем не мение, так как а контрольная работа является надежный, это делает нет гарантия что Это является эффективный в измерение какие Это является предполагаемый к мера.Некоторый тесты может быть полагался на к предоставлять неточный полученные результаты. Эти тесты может быть полезный в их способ от доказывая что Они недостаток то качество к Продолжать существование управляемый так как Они находятся нет получение то полученные результаты то исследователи находятся Ищу для. В это дело, то исследователи знать к идти назад к то Рисование доска а также прийти вверх с участием разные аспекты к контрольная работа, или же разные способы из тестирование то одно и тоже аспекты.
Источник: rawpixel.com
С использованием В Корреляция Коэффициент К Определять НадежностьНадежность в то поле из психология относится к то данные собраны из то администрация из тесты нравиться интеллект тесты а также поведенческий оценки.Любой время а Исследователь является заинтересованный в сбор данные или же спрашивая участники а круглый из вопросов, она должен быть Конечно что то инструменты она является с использованием к захватывать что данные находятся надежный. Иначе, то изучение является ничего такого более чем а трата из каждый время.
В надежность из а контрольная работа является определенный от расчет какие является известен в виде то «корреляция коэффициент» между оценка оценки собраны из то повторяется администрация из а контрольная работа. А корреляция коэффициент работает нравиться а процент. Если то корреляция коэффициент из а контрольная работа является.80 или же более, то контрольная работа может быть считается надежный. Этот является нравиться говоря что если в наименее 80 процентов из то данные собраны доказывает что а корреляция существуют между то концепции существование измеренный, тогда то контрольная работа имеет доказано к быть надежный.
Это является интересно что а контрольная работа делает нет имеют к получить а идеально 1.0 корреляция коэффициент (или же, ставить Другой способ, 100 процентов) к быть считается надежный. Этот является так как четный то наиболее осторожно разработан тесты может никогда быть идеально. Факторы нравиться Плохо вопросов а также бедные форматирование может оказывать воздействие то оценки на а контрольная работа а также уменьшать то тест корреляция коэффициент.Способствовать, несколько раз разоблачение контрольная работа предметы к то одно и тоже вопросов может оказывать воздействие их ответы а также в конечном счете перекос то полученные результаты из то контрольная работа.
Внутренний А также Внешний Надежность
А надежность психология определение может быть сломанный вниз в два типы из надежность: внутренний надежность а также внешний надежность. Внутренний надежность относится к то последовательность из полученные результаты через несколько экземпляры в то одно и тоже контрольная работа, такой в виде то фобии а также беспокойство пример представлен выше.Внешний надежность, на то Другие рука, относится к как хорошо то полученные результаты отличаться под похожий но отдельный обстоятельства.
Источник: rawpixel.com
Какие следует находятся некоторый Примеры из тесты что находятся управляемый на Другие тесты к определять ли то полученные результаты из те тесты мог быть считается надежный.
В Тест-повторный тест Метод
В тест-ретест метод является использовал к определять внешний надежность от создание ли а контрольная работа останки надежный над время.Тесты из это иже включать анкеты а также психометрический тесты.
Обычно то тест-ретест метод было бы быть проведенный от первый давая участники то одно и тоже контрольная работа на два разные поводов. Если то одно и тоже полученные результаты находятся полученный из оба попытки или же в наименее Закрыть достаточно попытки в любом случае, тогда то контрольная работа может быть сказал к имеют внешний надежность. В обратная сторона является что, так как ты нужно к гарантировать что достаточно время проходит между то два тестирование сеансы, Это берет дольше чем обычный к получать то полученные результаты.
Inter-Rater Надежность
Интер-оценщик надежность является использовал к гарантировать что исследователи изготовление субъективный оценки находятся все на то одно и тоже страница. Все имеет разные стандарты когда изготовление их измерения. В ключ является к учреждать а уровень из консенсус среди те исследователи к Создайте а нужно степень из беспристрастность. От создание ли то исследователи дать согласие с участием каждый Другие, Они может тогда прибыть в а более определенный заключение когда обзор их накоплен данные.
Интер-оценщик надежность является измеренный от два методы: Спирмена Ро а также Коэна Каппа. Коэна Каппа меры как хорошо то исследователи дать согласие с участием каждый Другие на полученные результаты что делать нет зависеть на а конкретный заказывать, против как Они было бы дать согласие если Они мы оценка данные в случайный. Спирмена Ро является использовал в учеба в которой то исследователи зависеть на непрерывный Информация в а ряд или же набор заказывать, такой в виде то решение к показатель факторы на а шкала из 1-10. Спирмена Ро проясняет а потенциал корреляция среди то оценки дано от то исследователи.
В Сплит-Половина Метод
В половинка метод меры как хорошо каждый часть из а контрольная работа способствует к это общий весь постольку в виде измерение ан пример из надежность. Это является называется «половина пополам» так как то полученные результаты один половина из а контрольная работа находятся по сравнению к то полученные результаты из то Другие половина.
Тесты может быть расколоть в многие способами. Исследователи может исследовать то первый половина по сравнению к то второй половина, или же четный мера сходство среди то странный или же четный вопросов.Если оба половинки из то контрольная работа предложение похожий полученные результаты, тогда то контрольная работа является сказал к имеют внутренний надежность. Следовательно, то половинка метод может быть использовал к улучшать то надежность из а контрольная работа.
Тем не мение, то половинка метод может Только быть реализовано в тесты состоящий из длительный анкеты в которой все то вопросов находятся измерение аспекты из то одно и тоже концепция. Если то контрольная работа является измерение разные концепции тогда то половинка метод было бы нет быть действительный постольку в виде определение ли то контрольная работа одержимый внутренний надежность.
Для пример, предполагать а анкета было при условии к 100 предметы к определять который симптомы находятся наиболее обычно связанный с участием депрессия. В половинка метод мог тогда быть применяемый к это контрольная работа к определять это надежность так как Это меры Только один концепция: депрессия.
На то Другие рука, а контрольная работа использовал к сравнивать симптомы из депрессия с участием то предметы’ финансовый фоны было бы быть фокусировка на приносящий все вместе два полностью разные концепции. Следовательно, то половинка метод было бы нет быть ан соответствующий метод из тестирование это исследование надежность.
В Важность Из Создание Надежность
Создание надежность в психологический тестирование является ключевой. Этот является так как, без Это, народ условия май нет быть точно поставлен диагноз а также, в виде а результат, Они будут нет быть при условии с участием то соответствующий лечение.
В время из то контрольная работа может также оказывать воздействие это надежность, особенно когда реализация то тест-ретест метод. Если то исследователи не ждать длинный достаточно между тесты тогда то участники май помнить Информация из то первый контрольная работа что может предвзятость их ответы к то второй.Наоборот, если то время между тесты является тоже длинный, то участников ситуации май имеют измененный к то степень что Это может предвзятость то полученные результаты.
Источник: rawpixel.com
Для пример, если то предмет существование проверено является депрессия а также это эффекты, некоторый участники май имеют началось лечение их условие с участием медикамент в между то первый а также второй тесты. Такой а лечение может перекос то полученные результаты из то второй контрольная работа если то участники отчет а снижение в симптомы ведущий к то облегчение из их депрессия.Если то симптомы не там больше к изучение, тогда то полученные результаты из то контрольная работа имеют был скомпрометирован.
Улучшение А Тесты Надежность
Иногда, несмотря на с использованием то тест-ретест метод или же то половинка метод а контрольная работа или же изучение доказывает просто к быть ненадежный. Там находятся способы к устранение неполадок какие пошли неправильный к улучшать то надежность из то контрольная работа. Для один вещь, то исследователи может двойная проверка что то категории существование проверено имеют был определенный.
Для пример, если то исследователи находятся наблюдение а возможный корреляция между депрессия а также жестокий поведение, каждый Исследователь май имеют его или же ее идея из какие составляет жестокий поведение.В исследователи было бы, следовательно, неудача к категоризировать поведенческий черты по аналогии, а также то контрольная работа было бы быть считается ненадежный. Тем не мение, создание Чисто категории верно из то начало, такой в виде классифицирующий а толкать или же а пинать в виде жестокий поведение, обеспечивает что все будут быть запись данные в то одно и тоже способ а также что то контрольная работа будут доказывать к быть надежный.
Если то контрольная работа является вне экономия тогда шаги может быть взятый к гарантировать что будущее тестирование является проведенный более эффективно. Для пример, то исследователи должен учреждать а также уточнить их техники для сбор данные а также гарантировать что все соглашается с участием те техники перед идущий вне в то поле а также проведение его или же ее тесты.
Заинтересованы В Став А Участник В А Исследовать Изучение?
Если ты было бы нравиться к стали а участник в а исследовать изучение, ты май хочу к рассмотреть возможность достигая вне к один из наш советники в BetterHelp.com. В добавление к предоставление терапевтический служба поддержки к пациенты по всему миру, мы может также найти а также соединять ты к то учеба в который ты было бы быть наиболее заинтересованный в участие.
Источники:
https://www.simplypsychology.org/reliability.html
https://study.com/academy/lesson/reliability-in-psychology-definition-lesson-quiz.html
https://study.com/academy/lesson/inter-rater-reliability-in-psychology-definition-formula-quiz.html
Надежность — IResearchNet
Надежность можно определить как степень, в которой оценки меры не подвержены влиянию ошибки измерения. Ошибка измерения отражается в случайных отклонениях баллов, наблюдаемых при измерении, от истинных баллов респондентов, которые представляют собой ожидаемые значения баллов респондентов, если они выполнили измерение бесконечное количество раз.Математически надежность определяется как отношение истинной дисперсии оценок к наблюдаемой дисперсии оценок или, что то же самое, квадрат корреляции между истинными оценками и наблюдаемыми оценками. На основе этих индексов надежность может варьироваться от нуля (нет истинной дисперсии оценки) до единицы (нет ошибки измерения).
Надежность важна как для практических, так и для теоретических целей. Практически он позволяет оценить стандартную ошибку измерения, показатель точности результатов теста человека.Теоретически надежность способствует развитию теории, позволяя исследователям корректировать смещающий эффект ошибки измерения на наблюдаемые корреляции между показателями психологических построений и предоставляя исследователям оценку того, нужно ли улучшить их процесс измерения (например, если надежность низкая. ).
Источники ошибок измерения
Множественные источники ошибок измерения могут повлиять на наблюдаемую человеком оценку. Следующие источники являются общими психологическими мерами.
Ошибка случайного ответа
Ошибка случайного ответа вызвана мгновенными изменениями внимания, умственной работоспособности или отвлечением в данном случае. Это характерно для момента, когда человек реагирует на элемент меры. Например, человек может по-разному ответить на один и тот же элемент в разных местах меры.
Временная ошибка
В то время как ошибка случайного ответа возникает в одном случае, временная ошибка возникает во всех случаях.Временные ошибки возникают из-за временных изменений настроения и чувств респондентов в зависимости от ситуации. Например, любой респондент может по-разному набрать баллы по методу, применяемому в двух случаях. Теоретически такие временные различия являются случайными и, следовательно, не являются частью истинной оценки человека, потому что они не коррелируют с оценками из измерения, выполненного в других случаях (т. Е. Они зависят от конкретного случая).
Ошибка конкретного фактора
Удельная факторная ошибка отражает идиосинкразические реакции на некоторый элемент ситуации измерения.Например, отвечая на вопросы теста, респонденты могут по-разному интерпретировать формулировку элемента. Теоретически конкретные факторы не являются частью истинной оценки человека, потому что они не коррелируют с оценками по другим элементам (например, пунктам) меры.
Ошибка рейтера
Ошибка оценщика возникает только тогда, когда наблюдаемая оценка человека (рейтинг) получена от другого человека или группы лиц (оценщиков). Ошибка оценщика возникает из-за идиосинкразических представлений оценщика о его положении в отношении интересующей конструкции.Теоретически идиосинкразические факторы оценщика не являются частью истинной оценки человека, потому что они не коррелируют с оценками, предоставленными другими оценщиками (т. Е. Они зависят от оценщика).
Типы коэффициентов надежности
Надежность индексируется с помощью коэффициента надежности. Есть несколько типов коэффициентов надежности, и они различаются в зависимости от источников наблюдаемой дисперсии оценки, которую они рассматривают как истинную оценку и дисперсию ошибок. Источники дисперсии, которые рассматриваются как дисперсия ошибок в одном типе коэффициентов, могут рассматриваться как истинная дисперсия оценок в других типах.
Внутренняя согласованность
Этот тип коэффициента надежности чаще всего встречается в психологических исследованиях (например, альфа Кронбаха, разделенная половина). Коэффициенты надежности внутренней согласованности, также известные как коэффициенты эквивалентности, требуют только одного применения меры и индексируют влияние конкретной факторной ошибки и ошибки случайного ответа на наблюдаемые баллы. Они отражают степень согласованности между оценками на уровне заданий по мере. Поскольку все элементы данного показателя вводятся в одно и то же время, у них есть общий источник расхождений (т.е., временная ошибка), которая может быть не связана с целевой конструкцией, представляющей интерес, но тем не менее вносит вклад в истинную дисперсию оценок в этих коэффициентах (поскольку это общий источник дисперсии по всем пунктам).
Тест-повторный тест
Коэффициенты надежности повторного тестирования, также известные как коэффициенты стабильности, индексируют влияние ошибки случайного ответа и временной ошибки на наблюдаемые баллы. Коэффициенты повторного тестирования отражают степень стабильности результатов теста в разных случаях и могут рассматриваться как корреляция между одним и тем же тестом, проведенным в разных случаях.Поскольку один и тот же тест проводится в каждом случае, оценки в каждом случае имеют общий источник дисперсии (т. Е. Конкретную факторную ошибку), которая может не иметь отношения к интересующей целевой конструкции, но, тем не менее, вносит свой вклад в истинную дисперсию оценок в этих коэффициентах (поскольку она является общим источником расхождений в разных случаях).
Коэффициенты эквивалентности и устойчивости
Коэффициенты эквивалентности и индекса стабильности: влияние конкретной факторной ошибки, временной ошибки и ошибки случайного ответа на наблюдаемые баллы.Эти коэффициенты отражают согласованность оценок по пунктам теста и стабильность оценок в разных случаях; их можно рассматривать как корреляцию между двумя параллельными формами меры, применяемой в разных случаях. Использование различных форм позволяет оценить конкретную факторную ошибку и ошибку случайного ответа, а администрирование в разных случаях позволяет оценить временную ошибку и ошибку случайного ответа. Следовательно, этот коэффициент можно рассматривать как комбинацию коэффициента эквивалентности и коэффициента устойчивости.Следовательно, коэффициент эквивалентности и стабильности является рекомендуемой оценкой надежности для большинства самоотчетов, поскольку он должным образом учитывает все три источника ошибок измерения, не оставляя ни один из этих источников дисперсии для оценки истинной дисперсии оценок.
Внутриоперационная надежность
Коэффициенты внутренней надежности — тип коэффициента внутренней согласованности, который характерен для показателей, основанных на рейтингах — индексирует влияние конкретной факторной ошибки и ошибки случайного ответа на наблюдаемую дисперсию оценок.Эти коэффициенты отражают степень соответствия между пунктами, оцененными данным оценщиком в одном случае. Поскольку элементы оцениваются одним и тем же оценщиком (внутренним оценщиком) в одном и том же случае, у них есть два общих источника дисперсии (т. Е. Ошибка оценщика и временная ошибка), которые могут не иметь отношения к интересующей конструкции, но тем не менее вносят вклад в истинную дисперсию оценок в этих коэффициенты (поскольку они являются общими источниками дисперсии по элементам).
Надежность между экспертами
Как и коэффициенты внутриэкспертной надежности, межэкспертные коэффициенты также специфичны для оценок, основанных на оценках.Тем не менее, коэффициенты межэкспертной надежности индексируют влияние ошибки оценщика и ошибки случайного ответа на наблюдаемую дисперсию оценок. Они отражают степень согласованности оценок, выставленных разными оценщиками, и могут рассматриваться как корреляция между оценками от разных оценщиков, использующих единую меру в одном случае. Поскольку одна и та же мера оценок применяется к разным оценщикам (интероценкам) в одном и том же случае, оценки имеют два общих источника дисперсии (то есть, конкретная факторная ошибка и временная ошибка), которые могут не иметь отношения к интересующей целевой конструкции, но, тем не менее, вносить свой вклад в истинное значение. оценка дисперсии этих коэффициентов (поскольку они являются общим источником дисперсии для разных оценщиков).
Оценка коэффициентов надежности
Методы оценки только что описанных коэффициентов обеспечиваются двумя психометрическими теориями: классической теорией тестирования и теорией обобщаемости (G). Исследователи, которые применяют подход классической теории тестирования к оценке коэффициентов, часто вычисляют корреляции Пирсона между элементами меры (например, элементами, оценщиками и случаями), а затем используют формулу пророчества Спирмена-Брауна для корректировки оценки количества элементов. , оценщики или случаи, когда были собраны наблюдения по данному показателю.И наоборот, исследователи, которые применяют подход G-теории, сначала сосредотачиваются на оценке компонентов коэффициентов надежности (т. Е. Истинной дисперсии оценки или дисперсии универсальной оценки в терминах G-теории и дисперсии ошибок), а затем формируют соотношение с этими оценками, чтобы получить при оценочном коэффициенте надежности (коэффициент обобщаемости в терминах G-теории).
Факторы, влияющие на оценку надежности
Несколько факторов могут повлиять на величину коэффициентов надежности, которые исследователи сообщают для меры.Их потенциальное влияние на любую данную оценку должно быть рассмотрено, чтобы сделать соответствующую интерпретацию оценки.
Ограничения проектирования измерений
Величина коэффициента надежности частично зависит от источников отклонения, которые рассматриваются как ошибки. К сожалению, не все схемы измерения позволяют оценивать все типы коэффициентов надежности. Таким образом, даже если исследователь может пожелать рассматривать источник отклонений в своей оценке как ошибку, не всегда возможно учесть ее в плане измерения.Например, исследователи не могут индексировать величину временной дисперсии ошибок в наблюдаемых оценках, если мера (или, по крайней мере, ее часть) не применялась несколько раз. В таком случае исследователю, возможно, придется сообщить коэффициент надежности, который переоценивает истинную надежность меры.
Измеряемые конструкции
Элементы, измеряющие различные конструкции, могут быть по-разному восприимчивы к источникам ошибок измерения. Например, предметы для более широких построений (например,g., добросовестность), скорее всего, будет сильнее зависеть от конкретной факторной ошибки, чем элементы для более узких конструкций (например, упорядоченность). Точно так же элементы, измеряющие устойчивые конструкты личности (например, Большая пятерка), могут быть менее подвержены временной ошибке, чем элементы, измеряющие конструкции, связанные с аффектами.
Неоднородность образца
Хорошо известно, что ограничение диапазона ослабляет корреляцию между переменными. Поскольку коэффициенты надежности можно интерпретировать как квадрат корреляции между наблюдаемыми и истинными оценками, они также подлежат ограничению диапазона.Оценки надежности, как правило, выше, когда они получены из выборки людей, которые сильно различаются по измеряемому конструкту, и ниже, если люди в выборке не сильно различаются по конструкту.
Длина теста
Баллы по мере обычно формируются путем суммирования или усреднения ответов по элементам. Поскольку конкретные факторные ошибки, связанные с элементами, не связаны с корреляцией, их вклад в наблюдаемую дисперсию оценок при суммировании или усреднении уменьшается пропорционально количеству элементов, включенных в меру.Значит, при прочих равных, чем больше на мерке позиций, тем выше ее надежность.
Ссылки:
- Feldt, L. S., & Brennan, R. L. (1989). Надежность. В Р. Л. Линн (ред.), Образовательное измерение (3-е изд., Стр. 105-146). Нью-Йорк: Американский совет по образованию.
- Nunnally, J.C. & Bernstein, I.H. (1994). Психометрическая теория (3-е изд.). Нью-Йорк: Макгроу-Хилл.
- Schmidt, F. L., & Hunter, J. E. (1996). Ошибка измерения в психологическом исследовании: уроки из 26 сценариев исследования.Психологические методы, 1, 199–223.
- Schmidt, F. L., Le, H., & Ilies, R. (2003). За пределами альфы: эмпирическое исследование влияния различных источников ошибок измерения на оценки надежности для мер индивидуальных конструктов различий. Психологические методы, 8, 206–224.
- Трауб Р. Э. (1994). Надежность для социальных наук: теория и приложения. Таузенд-Оукс, Калифорния: Сейдж.
Общество промышленной и организационной психологии> Исследования и публикации> СОВЕТ> Предыдущие выпуски СОВЕТ> 2017> Октябрь
Майкл Литано, Университет Олд Доминион
Остановите меня, если вы слышали, что я говорил это раньше: научное изучение людей сложно.Люди различаются почти всеми мыслимыми способами; от физических (например, рост, вес) до психологических (например, интеллекта, личности) характеристик. Эти индивидуальные различия помогают нам понять, почему люди ведут себя определенным образом. Учитывая нашу миссию как психологов I-O описывать, понимать, объяснять и, в конечном итоге, прогнозировать изменчивость применительно к людям на рабочем месте (Cascio & Aguinis, 2011), для нас очень важно иметь возможность точно и надежно измерить эти индивидуальные различия.Наша работа, несомненно, была бы проще, если бы мы могли полагаться исключительно на объективные измерения физических характеристик. Тем не менее, десятилетия исследований показывают, что именно ненаблюдаемые явления наиболее предсказуемы для поведения сотрудников, особенно в сложных и производящих знания рабочих местах (например, когнитивные способности, черты характера; Hunter & Hunter, 1984; Ree & Earles, 1992; Schmidt & Хантер, 1998). Поэтому нам часто ставят задачу измерить психологические явления, которые мы не можем напрямую увидеть или объективно измерить.
Психологи I-O используют несколько методов для измерения ненаблюдаемых явлений, влияющих на поведение человека. Но как мы узнаем, что мы точно и надежно измеряем конструкции, которые мы не можем наблюдать? Лично мне нравится думать о себе как о прокуроре, цель которого — предоставить вне разумных сомнений доказательства того, что я измеряю конструкции, которые собираюсь использовать. Вместо того, чтобы собирать ДНК и опровергать алиби, я должен предоставить доказательства, подтверждающие надежность и достоверность моей оценки.Эта практика, как правило, хорошо принимается в академических кругах и среди ученых-практиков, но в меньшей степени в деловом мире, не потому, что надежность и обоснованность менее важны, а потому, что эффективное донесение их ценности до незнакомой аудитории может быть сложной задачей.
В прикладном мире я столкнулся с множеством возможностей заявить о важности надежности и достоверности. Несмотря на некоторые успехи, иногда я терялся в переводе.Как объяснить кому-то, кто не обучался I-O, что использование одного единственного оценщика для кодификации тем комментариев может не привести к получению достоверных данных? Как вы скажете менеджеру по найму, что использование структурированных вопросов на собеседовании, основанных на анализе работы, поможет принимать лучшие решения о найме, чем если бы он или она задавали свои собственные? Как вы войдете в компанию, которая использовала одни и те же вопросы для опроса сотрудников в течение последних 20 лет, и объясните, что они, возможно, не измеряют конструкции, которые они намереваются использовать? Психометрические свойства, которые мы считаем основополагающими для измерения людей, могут показаться чуждыми понятиям непсихологам.Таким образом, я взял интервью у трех опытных и уважаемых психологов-IO, чтобы понять, как они устно передают доказательства достоверности и достоверности аудитории, не связанной с IO, простым и понятным способом: президент SIOP Фред Освальд , Джефф Джолтон и Дон. Чжан (см. Биографии ниже).
Этот столбец отличается от предыдущих статей Трудности перевода тем, что в нем основное внимание уделяется тому, что говорят эти специалисты по вводу-выводу, описывая, что такое надежность и достоверность и почему они важны.Это контрастирует с предыдущими колонками, в которых больше внимания уделялось тому, как следует подготовиться к своему опыту перевода, и тонкостям конкретных ситуаций. Я надеюсь, что это смещение акцента предоставит аспирантам, специалистам на начальном и среднем этапе карьеры или всем, кто «теряется в переводе», набор ресурсов, которые помогут отдельным психологам-IO развить свои навыки перевода, и в этом , способствует повышению осведомленности и использованию психологии IO в организациях.
Каждый из экспертов представил уникальные примеры того, как они сообщают доказательства достоверности и достоверности.Д-р Освальд подчеркнул важность создания основы для вашего опыта перевода и изложил каждую тему, используя терминологию, понятную любой аудитории. Как практик со значительным прикладным опытом, доктор Джолтон описал, как он по-разному сообщает о надежности и валидности в зависимости от того, заинтересован ли его клиент в отборе или опросах. Наконец, д-р Чжан привел соответствующие аналогии и примеры повествования, которые упрощают перевод.
Подготовка к переводу
Прежде чем перейти к примерам перевода, я хотел бы выделить Dr.Совет Освальда по подготовке к переводу (дополнительные советы по подготовке см. В столбце 2). Он подчеркнул два момента. Во-первых, нам нужно знать о наших когнитивных предубеждениях. В частности, наш глубокий опыт приводит к «проклятию знаний», которое возникает при общении с не-I-O, что заставляет нас ошибочно предполагать, что у них есть фон для понимания некоторых сложных тем в нашей области. Во-вторых, чтобы преодолеть это «проклятие», нам необходимо провести предварительные беседы с нашей целевой аудиторией, которые помогут нам понять их цели, перспективы и базовые уровни понимания.Создание этой основы для перевода очень важно; во многих случаях ваша аудитория может не знать, почему им нужно заботиться о надежности и достоверности — или о любой другой теме ввода-вывода.
Надежность
В общих чертах, надежность касается того, будет ли тест или оценка надежными, стабильными и / или последовательными с течением времени. Учитывая, что мы не можем объективно измерить большинство представляющих интерес психологических конструктов, в том, что мы пытаемся оценить, заложена неотъемлемая ошибка.Оценка надежности меры предоставляет пользователю информацию о том, какая часть изменчивости ответов вызвана истинными индивидуальными различиями, а какая — случайной ошибкой. Говоря о важности надежности, легко потеряться в переводе. С одной стороны, описание «стабильности» или «согласованности» меры может показаться слишком упрощенным: поймет ли конечный пользователь , почему важно наличие надежного показателя ? С другой стороны, объясняя последствия использования ненадежной меры, легко оказаться слишком техническим.
Джефф Джолтон : Часть разговора ориентирована на то, кто моя аудитория. Когда я имею дело с отбором, я склоняюсь к более техническим аспектам, тогда как со стороны опроса он не имеет такого большого юридического разветвления. В целом, я описываю надежность как согласованность наших измерений во времени или в рамках конструкции. Если измерение не показывает согласованности во времени и в том, какие конструкции они представляют, то оно не может быть хорошим предсказателем, потому что в следующий раз оно может измениться.Надежность — необходимый компонент для анализа или интерпретации. По сути, это мусор, если он ненадежен, потому что в следующий раз он будет измерять другую конструкцию.
Дон Чжан : Если вы хотите узнать что-то о физических характеристиках человека, например о его весе, вы можете использовать весы для ванной, чтобы измерить, сколько этот человек весит. Хорошие весы для ванной должны давать стабильные результаты каждый раз, когда вы встаете на эти весы (при условии, что мы не теряли и не набирали вес).В психологии мы пытаемся измерить более неуловимые характеристики, такие как личность, интересы и т. Д., И нам приходится довольствоваться менее точными весами, чем весы для ванной. В таких ситуациях мы используем опросы или экспертов-судей для измерения характеристик, которые мы не видим. Но наши измерительные приборы работают очень похоже. Как и весы для ванной, мы хотим, чтобы наш психологический инструмент каждый раз давал стабильные результаты, что намного сложнее. Наша задача — создать максимально точную шкалу, даже если мы пытаемся измерить более неуловимые вещи.Если вы хотите что-то узнать о сотрудниках, вам следует использовать точные и надежные весы. Вы бы не поверили своим весам, если бы ваш вес через день изменился на 20 фунтов, не так ли?
Фред Освальд : Надежность существенно помогает нам понять, измеряет ли тест то, что он должен. Например, чтобы выяснить, измеряет ли тест добросовестность, мы можем проанализировать элементы сознательности, чтобы увидеть, «ведут ли они себя» так, как мы ожидали бы, если бы все они действительно измеряли добросовестность.
Например, элементы сознательности должны все «держаться вместе» (или положительно коррелировать), потому что все они измеряют одну и ту же основную тему (или конструкцию) сознательности. Если это так, то внутренняя согласованность , статистика , такая как альфа Кронбаха, должна быть высокой. Надежность альтернативных форм говорит нам, что элементы добросовестности в тестах также будут «держаться вместе» — до тех пор, пока все эти элементы измеряют добросовестность.Если д-р Освальд и д-р Литано создают два разных теста, но оба они измеряют добросовестность одинаково и хорошо, то они должны положительно коррелировать.
Предметы, связанные с добросовестностью, должны не только слипаться друг с другом, но и с течением времени «слипаться». В конце концов, вся причина проверки добросовестности кандидатов в ходе тестирования перед приемом на работу состоит в том, что это стабильный измеримый признак и полезный показатель эффективности работы даже после того, как кандидаты приняты на работу.Другими словами, ваша оценка или результативность теста на сознательность должны быть примерно одинаковыми независимо от того, когда вы проходили тест. Этот факт проявляется как высокая надежность повторного тестирования, когда люди имеют одинаковую позицию в отношении добросовестности независимо от времени, когда они проходят тестирование.
Как следует из названий, надежность и согласованность между экспертами подразумевают согласованность или сближение оценок экспертов, а не пунктов. С оценщиками обращаются как с элементами шкалы, а это означает, что хорошие оценщики также должны «держаться вместе» друг с другом и с течением времени.Надежность между экспертами означает, что рейтинги людей имеют одинаковый порядок ранжирования. Соглашение между экспертами означает, что оценки людей сходятся на одном и том же значении для данного оцениваемого человека. Обычно мы хотим согласия в настройке выбора.
Представьте, что интервьюеры проводят собеседование с кандидатами на работу и оценивают их по добросовестности. Если существует высокая степень согласия между экспертами, они будут «держаться вместе» и давать каждому кандидату одинаковую оценку.Чем больше у вас будет интервьюеров, которые выставляют вам оценки, тем точнее становятся средние оценки, аналогично тому, как если бы большее количество вопросов приводило к более надежному измерению. Если вы пытаетесь убедить менеджеров, что им нужно несколько оценщиков, спросите их, могут ли они подбросить монету только один раз, чтобы определить, является ли это справедливой монетой. Мы понятия не имеем, пока не подбросим монетку несколько раз и не соберем больше данных. Точно так же нам нужно несколько оценщиков, чтобы обеспечить твердую надежность и согласие между экспертами.
И последнее, что нужно добавить, это то, что все, что я сказал до сих пор, относится к общей надежности для нескольких элементов или к общему соглашению для нескольких экспертов.Есть способы более детально проанализировать отдельные элементы или отдельных оценщиков, чтобы определить, «принадлежат ли они». Это полезно в тех случаях, когда менеджеры или вспомогательный персонал имеют возможность доработать или заменить элементы, переобучить или заменить оценщиков. Статистические инструменты, такие как факторный анализ и корреляция элементов-итогов, — это те анализы, которые помогают нам в случае заданий, и есть аналогичные инструменты, доступные для анализа оценщиков.
Срок действия
Нас хорошо учат, что надежность — необходимая, но недостаточная характеристика для того, чтобы измерительный прибор был полезен.В конечном счете, мы заинтересованы в получении точных измерений ненаблюдаемых конструкций и использовании этих измерений для прогнозирования человеческого поведения и других значимых результатов. На самом высоком уровне валидность касается того, что измеряет оценка, насколько хорошо она ее измеряет и предсказывает ли она то, что должна. Но демонстрация достоверности доказательств может быть трудоемким и строгим процессом, и мудрый психолог-консультант однажды сказал мне, что высшие руководители хотят, чтобы их решения предоставлялись быстро, дешево и качественно, но у вас может быть только два.Учитывая эти ограничения, я обратился к экспертам, чтобы понять, как они эффективно сообщают о различных типах достоверных свидетельств и почему они так важны для измерения количества людей.
Джефф Джолтон : С практической точки зрения валидность говорит нам, измеряет ли шкала то, что она должна измерять, и предсказывает ли она то, что она должна предсказывать.
Дон Чжан : По сути, достоверность говорит вам, измеряет ли ваш прибор то, что вы хотите.Например, если вы хотите измерить рост, вы не будете использовать весы для ванной, вы должны использовать линейку. Если вы являетесь генеральным менеджером New York Giants и хотите найти лучших футболистов колледжа, оценив их атлетизм на скаутском комбинате НФЛ, то валидность зависит от того, измеряет ли задача на комбинате атлетизм человека.
Срок действия, связанный с содержанием
Фред Освальд : В психологии обычно невозможно измерить все, что представляет собой сложные рабочие навыки, вовлеченность сотрудников, командную работу или другие подобные психологические конструкции.Поэтому вам следует тщательно разрабатывать свои предметы. Например, вы хотите дать плотникам тест на знание геометрии. Вероятно, вам не стоит задавать 10 вопросов о равнобедренных треугольниках, а затем забывать о других важных фактах, таких как измерение периметра или деление угла пополам. Здесь на помощь приходит валидность, связанная с содержанием, а это означает, что измеряемый тестовый контент должен не только оказаться надежным и действительным, но и должен охватывать все желаемые концептуальные основы и в желаемых пропорциях.
Даже тесты личности должны учитывать валидность содержания. Если бы мы создавали критерий добросовестности, мы, вероятно, хотели бы создать ряд различных элементов, охватывающих все его аспекты (например, достижения, следование правилам).
Дон Чжан : Валидность, связанная с содержанием, отвечает на вопрос: «Соответствует ли содержание моего теста конструкции, которую мы пытаемся измерить?» Используя предыдущий пример НФЛ, все тесты на комбайне должны иметь отношение к построению спортивных способностей.Бег на 40 ярдов был бы лучшим испытанием, чем соревнования по поеданию хот-догов, потому что теоретически скорость является одним из аспектов спортивных способностей, а поедание хот-догов — нет. Вы также должны убедиться, что все аспекты атлетизма измерены: если вы используете только жим лежа, но не просите игроков бегать, вы упускаете важные аспекты спортивных способностей человека. Точно так же действуют и психологические меры. Если опрос предназначен для измерения добросовестности, он должен содержать все элементы, относящиеся к концепции добросовестности.
Срок действия конструкции
Джефф Джолтон : Вы хотите представить доказательства того, что мы измеряем то, что мы говорим. При измерении вовлеченности согласуется ли наша конструкция с другими показателями вовлеченности? Если бы я нашел аналогичную меру, была бы между ними значимая связь? Если нет, это заставляет меня задуматься, что я действительно измеряю правильные вещи.
Фред Освальд : Конструктивная валидность — это общий термин, охватывающий любую информацию о том, «действует» ли мера так, как она была разработана. По сути, он сообщает вам, являются ли ответы на показатель ожидаемыми или неожиданными с точки зрения их взаимосвязи с аналогичными показателями, с разными показателями, с групповыми различиями и т. Д. Поскольку существует практически бесконечное количество способов информировать меру, конструирование валидности — это бесконечный процесс.В идеале это дает многим психологам-специалистам по I-O некоторую уверенность в работе.
Дон Чжан: Достоверность конструкции — это степень, в которой прибор измеряет конструкт, который он намеревается измерить. Легко смотреть на цифры на весах для ванной и быть уверенным, что это ваш вес , вес . Но если вы получили 4,5 балла за тест на сознательность, как мы можем быть уверены, что эта оценка отражает вашу добросовестность, а не что-то еще? Если вы пройдете тест на Buzzfeed под названием «Что ваш любимый фильм Райана Гослинга говорит о вашем эмоциональном интеллекте», вы думаете, что результаты теста действительно что-то говорят о вашем эмоциональном интеллекте? Чтобы определить валидность конструкции теста, мы ищем несколько источников доказательств: 1) выглядит ли содержание теста так, как будто оно измеряет эмоциональный интеллект? Это чистая правда.2) охватывает ли содержание теста все аспекты эмоционального интеллекта, такие как эмоциональная осведомленность и контроль? Это называется достоверностью содержимого. И 3) предсказывают ли результаты теста ваше поведение в реальном мире? люди, получившие высокие баллы по тесту, ведут себя более эмоционально? Это называется критерия действительности.
Срок действия по критерию
Дон Чжан : [продолжение примера с НФЛ] мы хотим знать, связана ли конкретная характеристика с интересующим результатом.Связаны ли спортивные способности с успехом в НФЛ? Если они не имеют ничего общего друг с другом, то мы знаем, что спортивные способности не являются важным критерием при прогнозировании успеха НФЛ. С корреляцией мы могли бы сказать, что по мере того, как люди оцениваются выше по нашему показателю спортивных способностей, в среднем их успехи в НФЛ также возрастают. С помощью регрессии мы хотим что-то измерить о человеке и использовать это для прогнозирования будущего. Таким образом, это не только говорит нам кое-что о взаимосвязи между переменными, но также и о том, насколько хорошо мы объясняем эту взаимосвязь.Когда у вас есть несколько предикторов [пример НФЛ жима лежа, 40-ярдового рывка и т. Д.], Важно понимать, вносят ли предикторы новую или уникальную информацию. Итак, может ли новая информация о человеке сделать ваш прогноз еще более точным? Если вы уже знаете, насколько быстро кто-то пробегает 40-метровый рывок, дополнительная информация о его 100-метровом рывке, вероятно, не поможет вам больше. Инкрементальная достоверность говорит вам, может ли новая информация о человеке улучшить прогноз его деятельности на основе того, что вы уже знаете.
Джефф Джолтон : Я никогда не говорю об этом [как о достоверности, связанной с критериями]. Поскольку я обычно работаю с опросами сотрудников, я называю это исследованием деловых связей. По сути, наша мера должна быть прогнозирующей или должна определять определенные бизнес-результаты, такие как текучесть кадров. Мы также можем проверить, являются ли определенные элементы более сильными предикторами или изменения чего-либо в опросе со временем приводят к изменению бизнес-результатов. Когда речь идет о индивидуальной оценке или выборе, валидность, связанная с критериями, становится еще более важной из-за правовой защиты.Итак, мы делаем дополнительный шаг, чтобы показать, что люди, получившие высокие баллы по этой оценке, с большей вероятностью будут иметь высокие результаты в этой роли, чем люди, получившие более низкие баллы.
Фред Освальд : Критериальная валидность относится к эффективному прогнозированию результатов (критериев), представляющих интерес. Скажем, сотрудники оцениваются по вовлеченности, командной работе, удовлетворенности, производительности труда и текучести кадров после 6 месяцев работы. Вы возвращаетесь к их файлам HR и обнаруживаете, что они прошли тест на знание работы и личностный тест Большой пятерки.В той мере, в какой эти тесты предсказывают эти результаты, они демонстрируют закономерности валидности, связанной с критериями.
Наш традиционный линейный регрессионный анализ определяет, предсказывают ли «связки» этих тестов результат, например, тесты на знание работы и добросовестность, предсказывающие эффективность работы. Это более эффективно, чем рассматривать валидность каждого теста по критерию отдельно.
Большие данные — современный пример критериальной достоверности.Например, используя методы анализа больших данных, вы можете предсказать, как долго пациент будет находиться в больнице, учитывая информацию «X», а затем попытаться сократить время пребывания в больнице на основе того, что вы узнали. Подходы к большим данным основаны на гибких моделях прогнозирования. Традиционные концепции надежности и достоверности, которые мы только что обсудили, должны быть не менее важны в сфере больших данных; но о них необходимо эффективно сообщать ключевым заинтересованным сторонам (например, надежность помогает усилить «сигнал в шуме» больших данных).
Что касается прогнозов на основе регрессии или больших данных, когда я разговариваю с людьми за пределами I-O, я не люблю использовать термины R-квадрат, корреляция или даже дисперсия. Вместо этого я бы предпочел показать им визуализацию, например двухмерный график фактических результатов по оси Y и прогнозируемых результатов (на основе регрессии или анализа больших данных) по оси X. Здесь может быть эффективна даже традиционная диаграмма ожиданий, где вы наносите прогнозируемые значения результата на разные уровни предиктора (возможно, добавляя несколько полос ошибок).Предполагая, что переменная результата имеет значение для организации, заинтересованные стороны могут оценить, как уровень прогнозируемого результата увеличивается с увеличением предиктора. Они также могут видеть, где прогнозируемый результат выше среднего значения или как прогнозируемые результаты сравниваются с базовым уровнем (среднее значение результата, которое вы бы предсказали, если бы у вас не было никаких предикторов). Этот подход не так точен с научной точки зрения, как представление результатов регрессии, но он может облегчить понимание регрессии другим людям.
Сводка
Как психологи I-O, наша цель — описывать, понимать, объяснять и предсказывать человеческое поведение. Достижение этой цели зависит от нашей способности надежно и точно измерять психологические конструкции, которые мы не можем наблюдать напрямую. Для повышения осведомленности и использования психологии I-O нам (в совокупности, как области) необходимо иметь возможность эффективно сообщать, почему точное и надежное «измерение людей» так важно для управления, основанного на фактах.Я надеюсь, что информация, представленная в этой статье, послужит источником для облегчения этого перевода, и я особенно хотел бы поблагодарить Фреда Освальда, Дона Чжана и Джеффа Джолтона за то, что они поделились своим опытом с этой областью.
Что дальше для «Трудностей перевода»?
Теперь, когда мы научились устно сообщать доказательства надежности и достоверности от экспертов в данной области, мы обратим свое внимание на визуальную передачу этих тем.У вас есть уникальные и простые для понимания визуализации данных, подтверждающие достоверность данных? Отправьте мне сообщение: [email protected]. Я бы с удовольствием представил ваши примеры в следующей колонке.
Некоторые интересные новости для Трудности перевода : Групповая дискуссия SIOP 2018, основанная на этой серии, была принята Исполнительным советом SIOP в качестве специальной сессии. Приходите к нам в Чикаго, чтобы узнать больше способов эффективно донести ценность I-O до аудитории, не связанной с I-O!
Биографии собеседников
Фред Освальд — нынешний президент SIOP и профессор кафедры психологии Университета Райса, обладающий исследовательским опытом в области разработки показателей, психометрии, больших данных и систем отбора персонала.Для получения дополнительной информации см. Http://www.owlnet.rice.edu/~foswald/
.Джеффри Джолтон (Jeffrey Jolton) — директор отдела кадровой аналитики и опросов в PwC. Он работает с различными клиентами над опросом сотрудников, измерением жизненного цикла, оценкой талантов и усилиями по изменениям. Он работал с рядом компаний For t une 500 из различных отраслей над проектами, связанными с повышением вовлеченности сотрудников, пониманием жизненного цикла сотрудников, формированием организационной культуры и опыта работы, оценкой лидерских компетенций и способностей и другими аспектами сотрудников. связанная с аналитикой.Джефф получил степень магистра и доктора в области промышленной и организационной психологии в Университете Огайо. С ним можно связаться по адресу: [email protected]
.Дон С. Чжан — доцент кафедры психологии Университета штата Луизиана. Он получил докторскую степень в Государственном университете Боулинг-Грин. Его исследования сосредоточены на принятии решений, статистической коммуникации и отборе сотрудников. Его особенно интересует, почему многие менеджеры не хотят использовать научно обоснованные методы найма, такие как структурированные интервью и механические методы комбинирования данных.С ним можно связаться по адресу: [email protected]
.Список литературы
Cascio W. F. и Aguinis H. (2011). Прикладная психология в управлении человеческими ресурсами . Река Аппер Сэдл, Нью-Джерси: Пирсон Прентис Холл. 7-е изд.
Хантер, Дж. Э. и Хантер, Р. Ф. (1984). Достоверность и полезность альтернативных предикторов производительности труда. Психологический бюллетень , 96 , 72-98.
Ри, М. Дж., И Эрлз, Дж. А. (1992). Интеллект — лучший показатель эффективности работы. Текущие направления психологической науки , 1 , 86-89.
Шмидт Ф. Л. и Хантер Дж. Э. (1998). Обоснованность и полезность методов отбора в психологии персонала: практические и теоретические последствия 85-летних результатов исследований. Психологический бюллетень , 124 , 262-274.
границ | Установление достоверности и надежности инвентаризации талантов проекта
Введение
Project Talent — это национальное лонгитюдное исследование, начавшееся в 1960 году. Первоначальная выборка включала более 440 000 старшеклассников из 1353 школ по всей территории Соединенных Штатов, что составило 5% репрезентативной выборки старшеклассников.Первоначальная оценка включала измерения интеллекта, интересов, образовательных устремлений, школьного опыта, отношения, а также исчерпывающий список исходных факторов. В результате большой выборки и богатого набора мер данные Project Talent использовались для исследования широкого круга тем, от опыта войны во Вьетнаме (Card, 1983) до исследования когнитивных способностей (например, Humphreys, 1988). ; Hedges and Nowell, 1995) и профессиональные интересы (например, Steel et al., 1982; Таннен, 1983; Остин и Ханиш, 1990). Однако одна важная мера, которая была включена в первоначальную оценку Project Talent в 1960 году, была почти полностью упущена: мера личностных черт (далее — Project Talent Personality Inventory, или PTPI). В связи с тем, что исследование Project Talent привлекает все больше внимания сейчас, когда участники проходят через важные этапы, такие как выход на пенсию, возобновился интерес к содержащемуся в нем измерению личностных качеств.К сожалению, имеется очень мало информации о разработке и действии PTPI.
Учитывая потенциальный интерес и использование PTPI в предстоящих исследованиях, цели настоящей статьи заключались в том, чтобы установить (а) конструктивную и прогностическую валидность и (б) внутреннюю непротиворечивость и надежность повторного тестирования проекта Talent Personality Inventory ( ПТПИ). Эта информация будет полезна исследователям, которые могут быть заинтересованы в использовании PTPI для прогнозирования результатов жизненного цикла, таких как смертность (Zhang et al., 2013), профессиональный успех, успех в отношениях и здоровье. Исследование 1 рассматривает конструктивную и прогностическую достоверность, а также надежность внутренней согласованности PTPI. Исследование 2 посвящено проверке надежности PTPI при повторном тестировании.
Реестр талантов проекта
PTPI был разработан для измерения личностных характеристик, характерных для обычных школьников. Тест был создан для того, чтобы исследовать связь между личностью в подростковом возрасте и успехами в жизни после окончания школы.Таким образом, на этапе генерации заданий PTPI задания были созданы для удовлетворения двух основных критериев: они должны были отражать аспекты поведения в старшей школе, и они должны были быть ясными и понятными для старшеклассников (см. Flanagan et al., 1960). Задания были созданы на основе (а) рационального анализа (т. Е. Интуитивного мозгового штурма поведения, актуального для старшеклассников), (б) анализа прилагательных (т. Е. Лексического подхода, рассматривающего 2000 прилагательных и 200 слов из тезауруса, которые были относящиеся к поведению в старшей школе), (c) анализ исчерпывающего списка черт Олпорта и Одберта (1936), и (d) соответствие выбранных элементов широким личностным чертам, ранее выявленным в исследованиях того времени, таким как доминирование , общительность, драйв, самодостаточность, мужественность и зрелость.
Приведенный выше подход к генерации заданий привел к получению в общей сложности 300 заданий, формирующих 18 шкал характеристик, которые были протестированы на предварительной выборке из 736 старшеклассников из четырех разных школ. После анализа заданий около половины заданий было исключено, потому что (а) они не соответствовали остальным заданиям, (б) в них был зафиксирован высокий процент «пропусков», (в) они показали неадекватное распределение ответов по заданным элементам, или (г) весы оказались ненадежными (Flanagan et al., 1960).Кроме того, несколько шкал были исключены, а некоторые шкалы были объединены, в результате чего была получена окончательная версия описи, которая содержала 150 позиций и 10 стандартных шкал (см. Приложение и Таблицу A1). 10 шкал были обозначены как «Энергия», «Спокойствие», «Зрелая личность», «Импульсивность», «Самоуверенность», «Культура», «Общительность», «Лидерство», «Социальная чувствительность» и «Опрятность».
Хотя валидационное исследование PTPI никогда не публиковалось в рецензируемых изданиях, первоначальные попытки построения валидации показали, что PTPI, как и ожидалось, связан с другими популярными в то время мерами черт личности, включая Калифорнийский психологический инвентарь (Gough, 1957 ) и График личных предпочтений Эдвардса (Эдвардс, 1953).Более того, PTPI также продемонстрировал хорошую прогностическую достоверность в отношении различных результатов, включая академические достижения, самооценку здоровья, участие в занятиях спортом, культурную деятельность и организованную социальную деятельность (Flanagan et al., 1964). Например, шкала зрелой личности предсказывала более высокие показатели успеваемости и способностей, а также лучшее здоровье, участие в большем количестве социальных мероприятий и более высокое намерение поступить в колледж. Шкала Культуры предсказывала большее участие в общественной, религиозной и художественной деятельности.Шкалы уверенности в себе и коммуникабельности предсказывали большее участие в общественной деятельности, а шкала лидерства предсказывала большее вовлечение в организационную деятельность и более высокое намерение поступить в колледж.
Учитывая недостаточную осведомленность о существовании меры, PTPI использовался в очень немногих рецензируемых статьях. Одно исследование (Hynes et al., 1979) показало, что из подшкал PTPI, уверенность в себе, зрелая личность, социальная чувствительность и энергичность предсказывали большее лидерское поведение, о чем свидетельствуют объективные биографические показатели, такие как членство в различных клубах средней школы, общественные организации и роли в этих группах.Другое исследование (Bonaccio and Reeve, 2006) показало, что подшкала спокойствия PTPI сильно (и отрицательно) коррелировала со шкалой невротизма из Международного пула элементов личности Голдберга и его коллег (IPIP; 2006). Наконец, в контексте статьи, посвященной изучению связей между личностью и интеллектом (Reeve et al., 2006), было проведено небольшое пилотное исследование, в котором аспекты PTPI подвергались факторному анализу вместе со шкалами NEO с использованием краткой формы IPIP (Goldberg, 1999). ). Авторы обнаружили предварительное свидетельство того, что 10 аспектов PTPI загружены в пятифакторную модель следующим образом: социальная чувствительность, нагруженная доброжелательностью; Коммуникабельность, лидерство, импульсивность, энергичность и уверенность в себе, наполненные экстраверсией; Спокойствие, наполненное эмоциональной стабильностью; Опрятность и зрелость, наполненные сознательностью; и Культура, наполненная открытостью.
Предварительная работа над PTPI предоставляет некоторые доказательства валидности шкал, но недостаточно информации для исследователей, чтобы по-настоящему понять значение каждой из 10 основных шкал, имеющихся в базе данных Project Talent. Чтобы установить этот тип информации, мы коррелировали шкалы PTPI с более широким и более подробным набором шкал личностных черт, а также с широким набором потенциальных коррелятов, таких как удовлетворенность жизнью, благополучие и физическое здоровье.
Исследование 1
Исследование 1 рассматривало конструктивную и прогностическую достоверность, а также надежность внутренней согласованности PTPI. Чтобы исследовать валидность конструкта PTPI, мы изучили его связь с шестью другими существующими и хорошо зарекомендовавшими себя личностными инвентаризацией, включая: (а) развитие среднего возраста по шкале личности США (MIDUS; Росси, 2001), (б) международный пул элементов личности. «Версия» Пересмотренного реестра личности NEO (NEO-PI-R; Коста и МакКрэй, 1992; IPIP-NEO; Goldberg et al., 2006), (c) Шкала сознательности Чернышенко (CCS; Hill and Roberts, 2011), (d) Перечень большой пятерки (BFI; John et al., 1991), (e) Шкала краткости (Grit-S ; Дакворт и Куинн, 2009) и (е) опросник нарциссической личности (NPI; Раскин и Терри, 1988). Чтобы исследовать прогностическую достоверность PTPI, мы изучили его связь с показателями физического здоровья и благополучия — Контрольный список поведения в отношении здоровья (HBC; Vickers et al., 1990) и SF-36 (Ware et al., 2000) — как а также его отношение к удовлетворенности жизнью, измеренное по шкале удовлетворенности жизнью (SWLS; Diener et al., 1985). Мы также исследовали личностные различия по шкалам PTPI в зависимости от возраста и пола.
Методы
Участников
Шесть тысяч четыреста тридцать два участника были набраны осенью 2011 года с помощью Zoomerang, компании, проводящей онлайн-исследования, которая использует общенациональную основу выборки. 6432 участника (3934 после очистки данных; см. Процедуры ниже) были случайным образом распределены по трем различным наборам обследований; все три набора опросов включали PTPI, но различались по другим оцениваемым параметрам личности и здоровья.Это необходимо было сделать, чтобы сохранить продолжительность опроса около 1 часа, чтобы предотвратить утомление участников. Таким образом, подгруппа из 2124 человек (1235 после очистки данных) заполнила PTPI, IPIP-NEO и MIDUS; другая подгруппа из 2114 человек (1431 после очистки данных) заполнила PTPI, CCS, BFI, Grit-S, HBC и SF-36; оставшиеся 2194 человека (1268 после очистки данных) заполнили PTPI, NPI и SWLS. Анализ мощности показал, что окончательные размеры выборки были подходящими, поскольку для обнаружения небольшого эффекта 0.2 (что типично для психологических исследований) с степенью 0,8, необходимое количество участников составит 193.
Из исходных 6432 участников 2498 участников были удалены до проведения любого анализа по следующим причинам: (а) 422 из них ответили «нет» на информированное согласие, (б) 1424 из них ответили менее чем на половину всех включенных вопросов. в конкретном подмножестве опросов, в котором они участвовали, (c) 542 из них не прошли проверку целостности, встроенную в опрос, и (d) 110 из них завершили все подмножество опросов менее чем за 15 минут, что примерно на два стандартных отклонения ниже средняя продолжительность.Такие моменты предполагают, что участники не смогли ответственно заполнить анкеты, особенно с учетом того, что простое нажатие на каждый вопрос, не прочитав ни единого слова, занимало у исследовательской группы до 12 минут. Кроме того, если участники пропустили слишком много элементов по определенной шкале (то есть более 1 из 8 элементов), это среднее значение по конкретной шкале не вычислялось и, следовательно, не учитывалось в анализе.
Из оставшихся 3934 участников было 1374 мужчины, 2484 женщины и 76 неустановленных лиц.Возраст участников варьировался от 17 до 90 лет ( M, = 49,98, SD, = 19,32), а выборка включала представителей разных расовых групп (3455; европейцы / европейцы, 211 афроамериканцев, 112 американцев азиатского происхождения, 58 коренных американцев, 13 жителей островов Тихого океана и 85 неуказанных). Выборка участников в этом наборе данных была в основном сосредоточена на молодых (возраст 20 лет) и старших (возраст 60 лет) группах, чтобы проверить достоверность PTPI в выборках, близких к возрасту выборки PT, когда они проходили тест (т.е., 18) и возраст выборки PT (т.е.68).
Все данные, полученные из ответов участников на опросы, были зашифрованы для обеспечения безопасности данных. Через эту систему участникам платили в Zoompoints, которые можно было потратить в онлайн-системе Zoomerang. Сумма баллов, полученных ими за этот опрос, была примерно эквивалентна 2 долларам США. Все меры, синтаксис и обезличенные данные, используемые в этой статье, можно найти по следующей ссылке: https://openscienceframework.org/project/aTJXc/
Меры
Демография .Участники ответили на вопросы об их возрасте, поле, этнической принадлежности, семейном положении, уровне образования, доходе, политической и религиозной принадлежности.
Проверки целостности . Несколько пунктов проверки целостности были включены в подмножества опроса случайным образом, чтобы убедиться, что участники обратили внимание на вопросы и поняли их. В этих заданиях участникам предлагалось выбрать конкретный ответ (например, , ответ № 3 на этот вопрос ).
Реестр талантов проекта .Участники выполнили 150 пунктов PTPI, из которых были выставлены 10 шкал PTPI. Первоначальная версия PTPI включала 150 пунктов и 13 шкал, но только 10 из этих шкал (включая 108 пунктов) были фактически оценены в Project Talent и поэтому полезны для исследователей. Это предметы и весы, на которых мы здесь сосредоточились. По каждому пункту участники оценили, насколько хорошо этот пункт их описывает по 5-балльной шкале от 1 ( Не очень хорошо), до 5 ( Очень хорошо, ). Шкала Vigor измеряет уровень физической активности человека (напр.г., часами играю в игры не уставая ). Шкала спокойствия измеряет способность адекватно реагировать на эмоциональные ситуации, не проявляя крайних эмоций (например, Я редко теряю самообладание ). Шкала зрелой личности измеряет способность эффективно выполнять работу, работать над проектом до конца и принимать на себя возложенные на него обязанности (например, Я работаю быстро и много делаю, люди говорят, что могут рассчитывать на меня ). Шкала импульсивности измеряет склонность к быстрому принятию решений без полного учета результатов (например,г., Я обычно действую по первому плану, который приходит в голову ). Шкала уверенности в себе измеряет чувство социальной приемлемости и готовность действовать и мыслить независимо (например, Я равняюсь на все случаи жизни ). Шкала культуры измеряет тенденцию признавать ценность эстетических вещей и демонстрировать изысканность и хороший вкус (например, Мне нравятся произведения искусства ). Шкала общительности измеряет тенденцию получать удовольствие от общения с людьми, а также быть оптимистичным (например,г., Я много занимаюсь общественной деятельностью, большую часть времени добродушен (). Шкала лидерства измеряет такие действия, как принятие на себя ответственности и поиск обязанностей (например, , я люблю принимать решения, ). Шкала социальной чувствительности измеряет склонность ставить себя на место другого (например, Мне не нравится, когда чьи-то чувства задеты ). Наконец, шкала опрятности измеряет стремление к порядку и чистоте в окружающей среде (например, Я делаю домашнее задание максимально аккуратно, ).Чтобы набрать 10 шкал, мы использовали непрерывные 5-балльные оценки Лайкерта и усреднили их по соответствующим пунктам, при необходимости обратная оценка пунктов, как указано в Таблице A1 Приложения. Надежность шкалы и описательная статистика представлены в таблицах 1 и 2. Все анализы, представленные в документе, используют непрерывное кодирование по шкале Лайкерта от 1 ( не очень хорошо, ) до 5 ( очень хорошо, ). Несмотря на то, что оригинальные задания 1960 года, использованные в Project Talent, включали 5 вариантов ответов с одинаковыми привязками, варианты ответов были помечены как A, B, C, D и E (в отличие от 5–1), и они были закодированы в дихотомия до построения шкалы.Первоначальное дихотомическое кодирование было следующим: ответы A ( очень хорошо, ) и B ( довольно хорошо, ) были закодированы как 1, тогда как ответы C ( довольно хорошо, ), D (, слегка, ) и E (). не очень хорошо ) были закодированы как 0; в случае заданий с обратной оценкой ответы D и E были закодированы как 1, тогда как ответы A, B и C были закодированы как 0. Мы также провели анализ надежности с использованием исходного дихотомического кодирования и сообщаем результаты, где это необходимо.
Таблица 1. Достоверность, средние значения и стандартные отклонения в шкалах инвентаризации талантов и личности проекта с разбивкой по возрасту лет.
Таблица 2. Достоверность, средние значения и стандартные отклонения в шкалах инвентаризации талантов проекта с разбивкой по полу .
Развитие среднего возраста по шкале личности США (MIDUS; Росси, 2001 ). Участники заполнили шкалу MIDUS, состоящую из 25 пунктов, состоящих из одного слова, предназначенных для измерения параметров личности Большой пятерки: Приятность (e.ж., теплый ), невротизм (например, тревожный ), сознательность (например, ответственный ), экстраверсия (например, исходящий ) и открытость (например, творческий ). Участников попросили оценить, насколько информативным каждый из пунктов был сам по себе по 4-балльной шкале от 1 (, совсем не ) до 4 ( много) . В настоящей выборке пять подшкал обзора показали хорошую надежность внутренней согласованности в диапазоне от 0.От 68 (Добросовестность) до 0,85 (Доброжелательность).
Международный пул предметов личности Шкалы NEO (Goldberg et al., 2006) . Шкалы IPIP-NEO содержат 300 пунктов, предназначенных для измерения параметров личности Большой пятерки аналогично NEO-PI-R. Участники оценили, насколько точно каждый предмет их описал по 5-балльной шкале от 1 ( Очень неточно, ) до 5 ( Очень точно) . 30 гранных шкал (невротизм: тревога, гнев, депрессия, самосознание, неумеренность, уязвимость; экстраверсия: дружелюбие, общительность, напористость, уровень активности, стремление к возбуждению, жизнерадостность; открытость: воображение, художественные интересы, эмоциональность, авантюризм, интеллект, либерализм; дружелюбие: доверие, мораль, альтруизм, сотрудничество, скромность, сочувствие; сознательность: самоэффективность, упорядоченность, послушание, стремление к достижению, самодисциплина и осторожность) — все они имели хорошую внутреннюю устойчивость надежности с альфами в диапазоне от 0.61 для уровня активности (экстраверсия) до 0,90 для депрессии (невротизм). На уровне факторов все показатели надежности внутренней согласованности были равны 0,90 или выше.
Шкала добросовестности Чернышенко (CCS; Hill and Roberts, 2011) . CCS содержит 60 пунктов, измеряющих шесть аспектов сознательности: порядок (например, меня раздражает, когда вещи вокруг меня дезорганизованы, ), трудолюбие (например, я прилагаю все усилия, чтобы делать больше, чем от меня ожидают ), самость -Контроль (например,г., Я редко прыгаю во что-то, не задумываясь об этом ), Традиционализм (например, Я поддерживаю давно установленные правила и традиции ), Ответственность (например, Я выполняю свои обязательства в меру своих возможностей ) и добродетели (например, , я бы солгал без колебаний, если это послужит моей цели , с обратным счетом). Участников попросили оценить свое согласие с каждым из пунктов по 4-балльной шкале от 1 ( категорически не согласен, ) до 4 ( категорически не согласен, ).Надежность внутренней согласованности этих шкал была хорошей с альфа-коэффициентом выше 0,74.
Инвентаризация большой пятерки (BFI; John et al., 1991) . BFI состоит из 44 пунктов, предназначенных для измерения Большой пятерки параметров личности: доброжелательность (например, я считаю себя внимательным и добрым почти ко всем, ), невротизм (например, я считаю себя эмоционально эмоциональным человеком). стабильный, нелегко расстроить , результат обратный), Добросовестность (напр.g., Я считаю себя надежным работником (), Экстраверсией (например, Я вижу себя общительным, общительным ) и Открытостью (например, Я вижу себя тем, кому интересно много разного ). Участников попросили оценить, насколько хорошо каждая характеристика применима к ним, по 5-балльной шкале от 1 ( категорически не согласен, ) до 5 ( категорически не согласен, ). Шкалы показали хорошую надежность внутренней согласованности с альфа-коэффициентами, превышающими 0.82.
Мелкозернистая шкала (Grit-S; Duckworth and Quinn, 2009) . Grit-S состоит из восьми пунктов, предназначенных для измерения упорства людей, определяемого как страсть к долгосрочным целям в сочетании с настойчивостью и мощной мотивацией преодолевать препятствия и достигать соответствующих целей. Таким образом, Grit-S имеет два аспекта, а именно интерес к долгосрочным целям (например, Мне трудно сосредоточиться на проектах, выполнение которых занимает более нескольких месяцев. , с обратной оценкой) и настойчивость перед лицом препятствий. (е.г., Неудачи меня не обескураживают ). Участников попросили оценить, насколько хорошо каждое из описаний применимо к ним, по 5-балльной шкале от 1 ( Совсем не похоже на меня, ) до 5 ( Очень похоже на меня, ). Весы показали хорошую надежность внутренней согласованности, а именно: интерес (0,80), настойчивость (0,70) и общая выдержка (0,80).
Опись нарциссической личности (NPI; Раскин и Терри, 1988) . NPI состоит из 40 пар противоположных утверждений (например,g., Мне нравится иметь власть над людьми vs. Я не против выполнения приказов ). Для каждой из этих пар участники должны были сделать вынужденный выбор, определив один элемент, который их лучше всего представлял. Пункты можно сгруппировать по семи различным аспектам нарциссизма: авторитет (например, у меня есть врожденный талант влиять на людей, ), самодостаточность (например, , я люблю брать на себя ответственность за принятие решений, ), превосходство (например, Я считаю себя особенным человеком ), Эксгибиционизм (эл.g., Я обычно выпендриваюсь, если у меня есть шанс ), Эксплуататорство (например, Я могу заставить кого угодно поверить во что угодно, ), Тщеславие (например, Я люблю смотреть на свое тело ), и Права (например, Я никогда не буду удовлетворен, пока не получу все, что заслуживаю ). Надежность внутренней согласованности для различных аспектов варьировалась от 0,49 (самодостаточность и права) до 0,81 (полномочия), а общая надежность NPI составляла 0,88.
Контрольный список поведения в отношении здоровья (HBC; Vickers et al., 1990) . HBC состоит из 40 пунктов, предназначенных для измерения разнообразного поведения, связанного со здоровьем, которые определяют четыре шкалы: поддержание хорошего самочувствия (например, Я занимаюсь спортом, чтобы оставаться здоровым, ), контроль несчастных случаев (например, У меня дома есть аптечка, ) , риск дорожного движения (например, Я строго соблюдаю правила дорожного движения, чтобы не попасть в аварию, ) и риск употребления психоактивных веществ (например, Я не курю ). Участники указали, насколько они согласны с каждым пунктом по 5-балльной шкале от 1 ( категорически не согласен, ) до 5 ( категорически не согласен, ).Надежность внутренней согласованности для этих шкал составила 0,46 для риска употребления психоактивных веществ и более 0,73 для трех других показателей.
SF-36 Ware et al., 2000 . SF-36 представляет собой инвентарь из 36 пунктов, измеряющий восемь шкал функционального здоровья и благополучия: физическое функционирование, ролевые ограничения из-за физического здоровья, ролевые ограничения из-за эмоциональных проблем, энергия, эмоциональное благополучие, социальное функционирование, телесная боль. , и общее состояние здоровья. В заданиях использовались различные шкалы, от дихотомических шкал вовлеченности в различное поведение, связанное со здоровьем, до 5-балльной шкалы Лайкерта ( Полностью не согласен, – Полностью согласен, ), где участники указали свой уровень согласия с субъективными оценками здоровья.Поскольку формат элементов существенно различается внутри шкал и между ними, z-баллы были вычислены для всех элементов до вычисления баллов по шкале. Надежность внутренней согласованности для шкал в этой выборке была выше 0,79.
Шкала удовлетворенности жизнью (SWLS; Diener et al., 1985) . SWLS состоит из пяти пунктов, измеряющих удовлетворенность жизнью (например, В большинстве случаев моя жизнь близка к идеалу ). Участники оценили свое согласие по каждому пункту по 7-балльной шкале от 1 ( Совершенно не согласен, ) до 7 ( Совершенно согласен, ).Надежность внутренней согласованности этой шкалы составила 0,91.
Результаты
PTPI: описательная статистика, надежность внутренней непротиворечивости и субмасштабные корреляции
Надежность внутренней согласованности и описательная статистика для шкал PTPI представлены в таблице 1 для всей выборки, возрастной группы 20 и возрастной группы 60 лет. Надежность в целом была хорошей с большинством альфа шкалы, превышающей 0,81, единственным исключением была импульсивность, надежность которой была равна 0.67. При использовании первоначального дихотомического кодирования пунктов PTPI в исследовании 1 (см. Раздел «Меры») надежными показателями внутренней согласованности были: энергичность (0,82), спокойствие (0,85), зрелая личность (0,91), импульсивность (0,56), уверенность в себе. (0,77), культура (0,79), коммуникабельность (0,79), лидерство (0,76), социальная чувствительность (0,82), аккуратность (0,85). Таким образом, среднее уменьшение альфа составило 0,05.
Как показано в Таблице 1, средние значения для всех шкал были достаточно близки к теоретическим средним точкам (т.е., 3,00), а стандартные отклонения были достаточно большими. Не было доказательств значительного перекоса или куртотических данных.
Корреляции между 10 шкалами PTPI показаны в Таблице 3. Корреляции между шкалами были в основном положительными, за исключением Импульсивности, которая отрицательно коррелировала с пятью шкалами (Спокойствие, Зрелая личность, Культура, Социальная чувствительность и Опрятность. ). Шкалы, как правило, сильно коррелировали друг с другом, причем большинство корреляций превышало 0.30, и следующие корреляции были выше 0,60: спокойствие коррелировало 0,66 со зрелой личностью и 0,61 с социальной чувствительностью; Зрелая личность коррелировала 0,63 с социальной чувствительностью и 0,62 с опрятностью; и Культура коррелировали 0,65 с социальной чувствительностью.
Таблица 3. Взаимосвязь между шкалами инвентаризации талантов и личности проекта .
Срок действия конструкции
Корреляция между шкалой PTPI и ранее установленной личностной шкалой показана в таблице 4.10 шкал PTPI коррелировали со шкалой личности MIDUS, аспектами и факторами IPIP-NEO, CCS, BFI, Grit-S и NPI. Здесь отмечены высокие корреляции (выше 0,50), и они организованы по шкале PTPI.
Таблица 4. Корреляция между шкалами PTPI и установленными шкалами личности .
Vigor сильно коррелировал со шкалами экстраверсии по MIDUS, IPIP-NEO (особенно с фасетом уровня активности) и BFI.
Спокойствие сильно и отрицательно коррелировало со шкалами невротизма по MIDUS, IPIP-NEO (особенно с аспектами тревожности, гнева, депрессии и уязвимости) и BFI. Спокойствие также сильно и положительно коррелировало со шкалой согласия по IPIP-NEO (особенно с аспектом альтруизма) и BFI, а также со шкалой сознательности по IPIP-NEO (особенно с аспектами самоэффективности, послушания и стремления к достижению ), CCS (общий балл и аспект ответственности) и BFI.Спокойствие также сильно коррелировало с общей выдержкой.
Зрелая личность высоко коррелировала со шкалами добросовестности по MIDUS, IPIP-NEO (особенно с аспектами Самоэффективность, Послушание, стремление к достижению и Самодисциплина), CCS (общий балл и аспекты Ответственность и Трудолюбие). ) и BFI. Зрелая личность также высоко и положительно коррелировала со шкалами доброжелательности по IPIP-NEO (особенно с аспектом альтруизма) и BFI, и отрицательно со шкалой невротизма IPIP-NEO (особенно с аспектами депрессии и уязвимости).Зрелая личность также была связана с большей настойчивостью и твердостью.
Импульсивность сильно и отрицательно коррелировала с аспектом осмотрительности в отношении сознательности в IPIP-NEO и с аспектом самоконтроля — сознательностью в CCS.
Уверенность в себе сильно и отрицательно коррелировала со шкалами невротизма по MIDUS, IPIP-NEO (особенно с аспектами тревоги, гнева, депрессии, самосознания и уязвимости) и BFI.Уверенность в себе также положительно коррелировала со шкалами экстраверсии IPIP-NEO (особенно с аспектами дружелюбия и напористости) и BFI, а также со шкалой сознательности IPIP-NEO (особенно с аспектом самоэффективности) и общим оценка твердости.
Культура сильно коррелировала со шкалой открытости в MIDUS и с аспектом открытости художественного интереса в IPIP-NEO.
Общительность сильно коррелировала со шкалами экстраверсии по MIDUS, IPIP-NEO (особенно с аспектами Дружелюбие, Общительность и Бодрость) и BFI.
Лидерство сильно коррелировало со шкалой экстраверсии IPIP-NEO (в частности, аспект уверенности) и нарциссизмом по шкале NPI (в частности, аспект авторитета).
Социальная чувствительность сильно коррелировала со шкалами согласия по MIDUS, IPIP-NEO (особенно с аспектами альтруизма и симпатии) и BFI. Социальная чувствительность также сильно коррелировала со шкалами добросовестности по шкалам IPIP-NEO (особенно с аспектами самоэффективности и стремления к достижению) и CCS (общий балл и аспекты ответственности и трудолюбия).
Порядок высоко коррелировал со шкалами добросовестности по шкалам MIDUS, IPIP-NEO (особенно с аспектами упорядоченности и самодисциплины), CCS (общий балл и аспекты порядка и трудолюбия) и BFI.
Гендерные и возрастные различия по шкалам PTPI
Когда средние значения были разбиты по полу (см. Таблицу 2), были обнаружены умеренные гендерные различия в ожидаемых направлениях (см. Schmitt et al., 2008): женщины получили более высокие баллы по культуре, социальной чувствительности и опрятности.Мужчины получали более высокие баллы по Энергичности, Импульсивности, Самоуверенности и Лидерству. Аналогичным образом, возрастные различия в шкалах PTPI соответствовали ранее опубликованным различиям в личностных чертах Большой пятерки (см. Roberts et al., 2006). Таким образом, возрастная группа 60-х (по сравнению с возрастной группой 20-ти) была выше по спокойствию, зрелой личности, уверенности в себе, общительности, социальной чувствительности и опрятности, но была ниже по энергичности.
Некоторые исследователи могут быть заинтересованы в объединении шкал PTPI для максимального представления каждого из доменов Большой пятерки.Чтобы проинформировать об этой возможности, мы провели 15 отдельных многомерных моделей, в которых регрессировали каждую из черт высшего порядка из трех инвентаризаций Большой пятерки (MIDUS, IPIP-NEO и BFI) по всем 10 чертам PTPI. В таблице 5 мы сообщаем, какая часть дисперсии каждого из признаков Большой пятерки может быть объяснена всеми 10 признаками PTPI, включенными в одну модель, а также мы сообщаем стандартизованные веса регрессии для каждого признака PTPI.
Таблица 5. Многомерные регрессии каждой шкалы личности большой пятерки по 10 шкалам PTPI (включены в ту же модель) .
Прогностическая достоверность
Как видно из таблицы 6, корреляции между шкалами PTPI и шкалами благополучия, здоровья и удовлетворенности жизнью выявили несколько значимых взаимосвязей (ниже указаны только те, которые выше 0,30).
Таблица 6. Корреляция между шкалами PTPI, благополучием, физическим здоровьем и удовлетворенностью жизнью .
Vigor предсказал большее поддержание хорошего самочувствия, контроль несчастных случаев, физическое функционирование, энергию, общее состояние здоровья, удовлетворенность жизнью и меньше боли. Спокойствие предсказало больше контроля над несчастными случаями, энергии, эмоционального благополучия и удовлетворенности жизнью. Зрелая личность предсказывала большее поддержание хорошего самочувствия, контроль несчастных случаев и эмоциональное благополучие. Импульсивность предсказывала больший риск дорожного движения. Уверенность в себе предсказал больше контроля над несчастными случаями, энергии, эмоционального благополучия, социального функционирования и удовлетворенности жизнью. Культура предсказывала улучшение состояния здоровья и борьбы с несчастными случаями. Общительность , лидерство, и социальная чувствительность — все они предсказывали больший контроль над несчастными случаями.Наконец, аккуратность предсказала улучшение состояния здоровья и предотвращения несчастных случаев.
Исследование 2
В этом исследовании мы исследовали надежность теста-ретеста PTPI.
Методы
Участников
Летом 2013 года для оценки 1 волны мы набрали 84 англоговорящих участника из США через онлайн-платформу SocialSci. Через две недели после завершения первой оценки с участниками связались и пригласили снова пройти PTPI (волна 2).Участники получили 50 баллов SocialSci за прохождение первой волны и 100 баллов SocialSci за прохождение второй волны (300 баллов SocialSci равны подарочной карте Amazon на 5 долларов США).
Из первоначальных 84 человек, доступных в Волне 1, 50 повторно прошли тест в Волне 2. Перед любым анализом мы исключили 12 участников, потому что они завершили весь PTPI менее чем за 5 минут, что означает, что им потребовалось менее 2 секунд на каждую. вопрос, что делает их данные сомнительного качества. После этого исключения последняя тестовая выборка, использованная для анализа, состояла из 38 человек.Анализ мощности показал, что этот размер выборки является подходящим, потому что для обнаружения умеренного эффекта 0,5 при мощности 0,8 необходимое количество участников будет 29.
Демография . Из оставшихся 38 участников было 20 мужчин и 18 женщин. Возраст участников варьировался от 17 до 74 лет ( M, = 31,87, SD, = 13,58), и в выборку входили представители различных расовых групп (33 американца европеоидной расы, 2 афроамериканца, 1 американец азиатского происхождения, 1 американец латиноамериканского происхождения и 1 участник смешанной гонки).
Мероприятие . Как и в исследовании 1, мы использовали показатель PTPI, который включает 150 пунктов, из которых мы оценили 10 различных подшкал. По каждому пункту участники оценивали, насколько хорошо этот пункт их описывает по 5-балльной шкале Лайкерта в диапазоне от 1 ( Не очень хорошо), до 5 ( Очень хорошо, ).
Результаты
Все 10 шкал PTPI показали очень высокую надежность повторного тестирования, а именно: энергичность (0,91), спокойствие (0,89), зрелая личность (0.89), импульсивность (0,79), уверенность в себе (0,91), культура (0,89), коммуникабельность (0,92), лидерство (0,85), социальная чувствительность (0,90), аккуратность (0,93).
При использовании исходного дихотомического кодирования пунктов PTPI в исследовании 2 (см. Раздел «Меры») надежность повторного тестирования была следующей: энергичность (0,81), спокойствие (0,77), зрелая личность (0,79), импульсивность (0,61), Уверенность в себе (0,89), культура (0,82), коммуникабельность (0,80), лидерство (0,76), социальная чувствительность (0,85), аккуратность (0.88). Таким образом, среднее снижение надежности повторного тестирования составило 0,09.
Общие обсуждения
Целью текущих исследований было установить надежность внутренней согласованности, построить валидность, прогностическую валидность и надежность повторного тестирования PTPI. В исследовании 1 мы исследовали конструктную валидность шкал PTPI, оценивая их взаимосвязь со шкалой личности MIDUS, IPIP-NEO, CCS, BFI, Grit-S и NPI. Мы изучили прогностическую достоверность шкал PTPI, оценив их связь с физическим здоровьем и благополучием с помощью HBC и SF-36, а также с удовлетворенностью жизнью с помощью SWLS.Мы также исследовали различия в баллах PTPI по возрасту и полу. В исследовании 2 мы исследовали надежность повторного тестирования PTPI.
Все шкалы PTPI показали хорошую надежность внутренней согласованности и надежность повторного тестирования. Что касается определения содержания шкал PTPI, в целом, PTPI достаточно хорошо измеряет личностные черты Большой пятерки. Мы использовали «большую пятерку» в качестве организационной основы для нашего теста конвергентной и дискриминантной валидности по нескольким причинам. Во-первых, «Большая пятерка» предоставляет систематизирующую систематизацию личностных качеств, которую можно применить даже к инвентарным данным, предшествующим появлению «большой пятерки».На ранних этапах исследования личностных качеств не было единого мнения относительно соответствующего количества и содержания, необходимых для организации и описания личности. Таким образом, согласно Айзенку (1983) было три фактора, согласно Комри (1970) было восемь факторов, согласно Кеттеллу и др. (1970) было 16 факторов, и согласно Flanagan et al. (1960), создавших ПТПИ, их было десять. Однако в последние годы исследователи личности наконец пришли к общепринятой модели, а именно к пятифакторной модели или «большой пятерке».”
Влияние и важность пятифакторной модели можно проследить, посмотрев на количество публикаций с течением времени, в которых использовалась эта модель, а не более старые модели. Начиная с конца 1990-х годов, количество публикаций «большой пятерки» значительно превысило количество более старых моделей. Например, в 2006 году количество публикаций Большой пятерки превышало 300 в год по сравнению с менее чем 50 для двух более старых моделей (John et al., 2008). Таким образом, на данный момент большая пятерка надежно используется в тысячах исследований, демонстрирующих влияние личности на здоровье, достижения, отношения и множество других важных результатов.Это подчеркивает важность валидационных документов, таких как настоящая, где показатели более старшей личности проверяются на основе доминирующей пятифакторной модели, чтобы помочь исследователям интегрировать новые выводы из более старых, но ценных наборов данных (таких как Project Talent) в контекст современных исследование личности.
Однако мы не обнаружили, что у PTPI есть прямые и уникальные аналоги для каждой из шкал Большой пятерки, и названия шкал PTPI могут вводить в заблуждение. Например, ярлык «Социальная чувствительность» можно интерпретировать как невротизм, тогда как на самом деле шкала наиболее тесно коррелирует с доброжелательностью.Ниже мы описываем, какие из шкал PTPI лучше всего охватывают каждую из характеристик Большой пятерки по шкалам проверки конструкции. Как видно из таблицы 4, результаты были воспроизведены в MIDUS, IPIP-NEO, BFI и CCS.
Эмоциональная стабильность лучше всего отражалась в PTPI по шкале уверенности в себе (которая была отрицательно связана с тревогой, депрессией, самосознанием и уязвимостью) и в меньшей степени по шкале спокойствия (которая была отрицательно связана с Злость).
Экстраверсия лучше всего отражалась в PTPI по шкале коммуникабельности (которая была особенно связана с дружелюбием, общительностью и жизнерадостностью) и в меньшей степени по шкалам энергичности и уверенности в себе.
Открытость лучше всего отражалась в PTPI по шкале культуры (которая была особенно связана с художественными интересами) и в меньшей степени по шкалам энергичности и лидерства.
Приятность лучше всего отражалась в PTPI шкалой социальной чувствительности (которая была особенно связана с альтруизмом и симпатией) и, в меньшей степени, шкалой спокойствия.
Наконец, добросовестность лучше всего отражалась в PTPI по шкале зрелой личности (которая тесно связана с самоэффективностью, послушанием, стремлением к достижению и самодисциплиной) и в меньшей степени по шкале аккуратности (которая была высоко оценена). связанных с упорядоченностью).
Таким образом, хотя шкалы уверенности в себе, общительности, культуры, социальной чувствительности и зрелой личности могут использоваться в качестве заместителей для эмоциональной стабильности, экстраверсии, открытости, доброжелательности и сознательности, соответственно, следует учитывать различные комбинации шкал PTPI, учитывая большая величина общей дисперсии между шкалами PTPI и тот факт, что ни одна из пяти шкал PTPI полностью не покрывает аспекты IPIP-NEO соответствующей большой пятерки. Например, шкалы зрелой личности и аккуратности могут быть объединены, чтобы сформировать более всеобъемлющий показатель добросовестности.Кроме того, исследователи должны иметь в виду, что некоторые шкалы PTPI не очень хорошо охватываются какой-либо одной чертой Большой пятерки. Например, импульсивность сильно коррелирует как с экстраверсией (положительно), так и с сознательностью (отрицательно), а лидерство сильно коррелирует с экстраверсией и открытостью (положительно) и с невротизмом (отрицательно).
Шкалы PTPI также показали хорошую прогностическую достоверность, поскольку они ожидаемым образом относились к результатам физического здоровья, благополучия и удовлетворенности жизнью.Таким образом, Энергичность, Спокойствие, Зрелая личность, Культура и Порядок были наиболее тесно связаны с профилактическими действиями в отношении здоровья, такими как контроль несчастных случаев и поддержание хорошего самочувствия, тогда как Импульсивность была связана с опасным поведением на дорогах. Кроме того, Vigor больше всего был связан с самооценкой общего состояния здоровья, тогда как самоуверенность в большей степени была связана с самооценкой эмоционального благополучия. Уверенность в себе и Энергичность были шкалами, наиболее тесно связанными с удовлетворением жизнью.
Таким образом, в настоящей статье представлены доказательства того, что шкалы PTPI (в их нынешней форме) демонстрируют хорошую надежность и валидность и могут использоваться (хотя и с осторожностью) в качестве личностных показателей Большой пятерки при изучении различных результатов, измеряемых в Проект «Исследование талантов».С помощью этих личностных шкал исследователи могут использовать данные Project Talent для исследования предполагаемой роли личности в образовательных и профессиональных достижениях, здоровье, доходе и социальном статусе, а также предполагаемой роли взаимодействий между личностью, интересами, социумом. -экономический статус, семейное положение, сведения о достижениях и результатах в отношении здоровья.
Заявление о конфликте интересов
Авторы заявляют, что исследование проводилось при отсутствии каких-либо коммерческих или финансовых отношений, которые могут быть истолкованы как потенциальный конфликт интересов.
Сноски
Список литературы
Олпорт, Г. У., и Одберт, Х. С. (1936). Имена черт: психолексическое исследование. Psychol. Моногр . 47, и-171. DOI: 10,1037 / h0093360
CrossRef Полный текст
Остин, Дж. Т., и Ханиш, К. А. (1990). Профессиональный уровень как функция способностей и интересов: продольный анализ с использованием данных Project TALENT. J. Appl. Психол . 75, 77–86. DOI: 10.1037 / 0021-9010.75.1.77
Pubmed Реферат | Pubmed Полный текст | CrossRef Полный текст
Боначчо, С.и Рив, К. Л. (2006). Дифференциация когнитивных способностей в зависимости от уровня невротизма: анализ эквивалентности / инвариантности измерений. Интеллект 34, 403–417. DOI: 10.1016 / j.intell.2005.11.002
CrossRef Полный текст
Кард, Дж. Дж. (1983). Жизни после Вьетнама: личные последствия военной службы . Лексингтон, Массачусетс: Lexington Books.
Кеттелл, Р. Б., Эбер, Х. У., и Тацуока, М. М. (1970). Справочник по анкете по шестнадцати личностным факторам .Шампейн, Иллинойс: Институт тестирования личности и способностей.
Комри, А. Л. (1970). Руководство к личным весам Комри . Сан-Диего, Калифорния: РЕДАКТИРОВАТЬ.
Коста П. Т. младший и МакКрэй Р. Р. (1992). NEO PI-R Профессиональное руководство . Одесса, Флорида: Psychological Assessment Resources, Inc.
Эдвардс, А. Л. (1953). График предпочтений Эдвардса . Нью-Йорк, Нью-Йорк: Psychological Corp.
Айзенк, С. Б. Г.(1983). Один подход к кросс-культурным исследованиям личности. Aust. Дж. Психол . 35, 381–391. DOI: 10.1080 / 00049538308258750
CrossRef Полный текст
Фланаган, Дж. К., Дэвис, Ф. Б., Дейли, Дж. Т., Шейкофт, М. Ф., Орр, Д. Б., Голдберг, И. и др. (1964). Американский школьник: выявление, развитие и использование человеческих талантов . Заключительный отчет по совместному исследовательскому проекту № 635. Питтсбург, Пенсильвания: Офис проекта TALENT, Университет Питтсбурга.
Фланаган, Дж. К., Дейли, Дж. Т., Шайкофт, М. Ф., Горхэм, В. А., Орр, Д. Б., и Голдберг, И. (1960). Разработка исследования . Технический отчет для Управления образования США, совместный исследовательский проект № 635. Питтсбург, Пенсильвания: офис проекта TALENT, Университет Питтсбурга.
Гольдберг, Л. Р. (1999). «Широкополосный, общедоступный, личностный инвентарь, измеряющий низкоуровневые аспекты нескольких пятифакторных моделей», в Psychology in Europe , Vol.7. Под ред. И. Мервельда, И. Дири, Ф. Де Фрюйта и Ф. Остендорфа (Тилбург: издательство Тилбургского университета), 7–28.
Голдберг, Л. Р., Джонсон, Дж. А., Эбер, Х. У., Хоган, Р., Эштон, М. К., Клонингер, К. Р. и др. (2006). Международный пул элементов личности и будущее показателей личности, являющихся общественным достоянием. J. Res. Перс . 40, 84–96. DOI: 10.1016 / j.jrp.2005.08.007
CrossRef Полный текст
Гоф, Х. Г. (1957). Калифорнийский психологический опросник .Пало-Альто, Калифорния: Consulting Psychologies Press, Inc.
Хамфрис, Л. Г. (1988). Тенденции в уровне академической успеваемости чернокожих и других меньшинств. Интеллект 12, 231–260. DOI: 10.1016 / 0160-2896 (88) -6
CrossRef Полный текст
Хайнс К., Ричардсон В. Б. и Ашер В. (1979). Повторный визит к проекту ТАЛАНТ: перекрестная проверка самоотчетных показателей лидерства. J. Exp. Educ . 47, 106–111.
Джон, О. П., Донахью, Э.М. и Кентл Р. Л. (1991). Перечень большой пятерки — версии 4a и 54 . Беркли, Калифорния: Калифорнийский университет, Беркли, Институт личности и социальных исследований.
Джон, О. П., Науман, Л. П., и Сото, К. Дж. (2008). Сдвиг парадигмы к интегративной таксономии «Большой пятерки»: история, измерение и концептуальные вопросы . Нью-Йорк, Нью-Йорк: Guilford Press.
Раскин Р. и Терри Х. (1988). Анализ основных компонентов нарциссического личностного инвентаря и дальнейшее доказательство его конструктной валидности. J. Pers. Soc. Психол . 54, 890–902. DOI: 10.1037 / 0022-3514.54.5.890
Pubmed Реферат | Pubmed Полный текст | CrossRef Полный текст
Рив, К. Л., Мейер, Р. Д., и Боначчо, С. (2006). Пересмотр ассоциаций интеллекта и личности. Важность различения общих и узких измерений интеллекта. Интеллект 34, 387–402. DOI: 10.1016 / j.intell.2005.11.001
CrossRef Полный текст
Робертс, Б. В., Уолтон, К.Э., и Фихтбауэр В. (2006). Паттерны изменения среднего уровня личностных черт на протяжении жизни: метаанализ лонгитюдных исследований. Psychol. Бык . 132, 1–25. DOI: 10.1037 / 0033-2909.132.1.1
Pubmed Реферат | Pubmed Полный текст | CrossRef Полный текст
Росси А.С. (2001). Забота и забота о других: социальная ответственность в сфере семьи, работы и общества . Чикаго, Иллинойс: Издательство Чикагского университета.
Шмитт, Д.П., Реало А., Ворачек М. и Аллик Дж. (2008). Почему мужчина не может быть больше похож на женщину? Половые различия в личностных качествах Большой пятерки в 55 культурах. J. Pers. Soc. Психол . 94, 168–182. DOI: 10.1037 / 0022-3514.94.1.168
Pubmed Реферат | Pubmed Полный текст | CrossRef Полный текст
Стил Л., Абелес Р. П. и Кард Дж. Дж. (1982). Гендерные различия в формировании ролей взрослых как детерминант гендерных различий в профессиональных достижениях. Гендерные роли 8, 1009–1024.DOI: 10.1007 / BF002
CrossRef Полный текст
Таннен, М. Б. (1983). Профессиональное образование и заработки белых мужчин: новые данные из лонгитюдных данных. Юг. Экон. J . 50, 369. DOI: 10.2307 / 1058212
CrossRef Полный текст
Уэр, Дж. Э., Косински, М., и Дьюи, Дж. Э. (2000). Как подсчитать балл Вторая версия исследования состояния здоровья SF-36 . Линкольн, Род-Айленд: QualityMetric Incorporated.
Чжан, Дж., Эйстер, С., Ребок, Г., Робертс, Б. В., Хейворд, М., и Лэпэм, С. (2013). Подростковая личность, когнитивные способности и смертность взрослых: экспериментальное исследование от Project Talent ., Новый Орлеан, Лос-Анджелес: доклад, представленный Американской ассоциацией народонаселения.
Приложение
Инструкции PTPI
Для каждого утверждения ниже отметьте, какой из пяти вариантов лучше всего описывает, как это утверждение применимо к вам. Что касается того, что я делаю, и того, как я это делаю, это утверждение описывает меня: 1 (не очень хорошо), 2 (немного), 3 (довольно хорошо), 4 (довольно хорошо), 5 (очень хорошо).
Таблица A1. Пункты PTPI упорядочены по шкале .
Что такое психология надежности и как она влияет на человека
Обновлено 3 января 2020 г.
Медицинское заключение: Аарон Хорн
Источник: pixabay.com
В психология, там находятся многие уникальный термины что ты должен знать если ты хочу к понимать то полный картина из психология.Сегодня, мы будут быть Ищу в какие надежность средства в то психологический контекст. Какие является Это? Как делает Это оказывать воздействие кто-то? Давайте найти вне.
Какие Является Надежность?
В то контекст из психология, надежность является использовал в течение а изучение к мера это последовательность. В любой научный контрольная работа, один должен имеют последовательность если Они хочу то контрольная работа к жить вверх к внимательное изучение. Давайте сравнивать Это к измерение ваш высота. В измерение Лента что ты использовать к мера ваш высота будут имеют дюймы измеренный в то одно и тоже способ каждый время.Какие если каждый время ты взял вне то Лента, то длина из то дюймы было разные? В Лента было бы быть ненадежный. В одно и тоже было бы случаться если ты взвешенный сам на а шкала что дал ты радикально разные чтения каждый время.
Когда Вы изучение что-нибудь, то Выводы в ваш исследовать нужно к быть последовательный. Если ваш полученные результаты находятся всегда разные, то изучение является нет надежный а также будут нет стоять вверх к внимательное изучение. Для пример, если Вы изучение то эффекты из медицина на кто-то, то эффекты Это имеет должен быть по большей части последовательный каждый время ты контрольная работа или же рассмотрение Это.
Продолжая с участием то медицина сравнение, там находятся некоторый случаи где то полученные результаты будут быть разные, в виде люди будут реагировать к то медицина по-другому в некоторый случаи. Последовательность не иметь в виду что Это будут случаться каждый время, но Это будут случаться надежно, а также это то точка.
Надежность приходит в два типы, который мы будут обсуждать сейчас.
Внутренний НадежностьВнутренний надежность будут оценивать как надежный то полученные результаты находятся из то контрольная работа сам.К делать что, мы будут использовать то половинка метод.
Сплит-Половина Метод
В половинка метод выглядит в как внутри последовательный а контрольная работа является. От контрольная работа, мы иметь в виду тесты использовал к мера один психология, такой в виде анкеты. Это будут смотрю в то части из а контрольная работа а также видеть который те будут способствовать в ан равный манера.
В половинка метод является Выполнено от Ищу в то два половинки из а контрольная работа а также сравнение как Они работал. Ты может расколоть а контрольная работа в два с использованием разные методы.Ты может номер Это, или же просто резать Это в два. Эти два половинки должен дайте ты похожий полученные результаты. Этот будут доказывать то внутренний надежность из а контрольная работа.
Как надежный а контрольная работа является может быть улучшен если ты половинка Это. Ты может получать избавлять из части из то контрольная работа что имеют а низкий уровень из корреляция или же в наименее исправлять то факторы до того как все части из то контрольная работа имеют то одно и тоже количество из последовательность.
К учреждать один надежность, то половинка метод является один ты должен пытаться. Тем не мение, это нет идеально.Ты может Только расколоть что-нибудь в половина если это а большой анкета а также Это спрашивает похожий вопросов через то контрольная работа. Если разные конструкции находятся использовал к мера то тесты это мог иметь в виду то надежность из то контрольная работа является ниже.
Источник: pixabay.com
Давайте смотрю в то Миннесота Многофазный Личность Инвентарь в виде ан пример. В что, разные напольные весы может мера все то факторы в отдельности. Они май мера то расстройства в разные манеры разделение депрессия шизофрения, а также Другие факторы.Там находятся многие разные факторы существование измеренный, так то половинка метод не будет быть способный к точно перерыв вниз то полученные результаты. Так как из то сложность из то полученные результаты, это метод было бы нет быть тоже надежный.
Внешний НадежностьВ внешний надежность, мы мера то степень из то переменные к видеть как Они Работа. Внешний надежность имеет это собственный метод а также это является называется то тест-ретест метод.
Какие Является Тест-повторный тест?
Тест-ретест является использовал к мера то последовательность из то внешний факторы из а контрольная работа.Нравиться расколоть половина, это май иметь дело с участием анкеты. Itl делает Конечно а контрольная работа является измеренный стабильно над время так что там является минимальный номер для ошибки.
Когда Это приходит к тест-ретест, Давайте смотрю в ваш типичный оценка. Ты май дайте то предметы то одно и тоже контрольная работа но делать Это дважды на разные поводов. Потом, ты может сравнивать оба полученные результаты. Если то полученные результаты находятся то одно и тоже, тогда ты будут учреждать внешний надежность. Тест-ретест может проверять если факторы имеют раскрытый Зачем то полученные результаты май быть похожий или же разные.Тем не мение, там является а недостаток к то тест-ретест метод а также это то факт что там является а время зазор между получение полученные результаты.
Тест-ретест надежность имеет был использовал в многие тесты. Бек et др., проведенный а контрольная работа в 1996, а также Это смотрел в 26 год амбулаторные больные а также их ответы. Эти тесты мы дано а неделя отдельно. В корреляция было довольно высокая, доказывая что депрессия инвентарь дает ты а высокая тест-ретест надежность.
Этот помогает нас понимать как нужно тест-ретест является в то Мир из диагноз.Если то надежность было нет там, некоторый люди мощь нет имеют был поставлен неверный диагноз с участием депрессия. Этот помогает получать клиенты точный а также эффективный лечение. Лечение депрессия является жизненно важный в то Мир из психология.
Так является время для что иметь значение. Если то контрольная работа является рассчитанный тоже быстро, тогда то полученные результаты май быть тоже похожий так как то люди кто взял то контрольная работа по-прежнему помнить это содержание. Тем не мение, если то повторный тест случается тоже далеко отдельно, тогда там является а шанс что то полученные результаты мог быть более пристрастный.
Источник: pixabay.com
Inter-Rater Надежность
Сейчас, Давайте смотрю в интерэксперт надежность. Этот является Другой метод что меры как внешне последовательный а контрольная работа является. Интер-оценщик надежность относится к как последовательно то рейтеры проведение то контрольная работа будут дайте ты то одно и тоже оценки из поведение что находятся похожий. Этот является полезный для интервью а также Другие типы из качественный исследования.
Этот может также быть известен в виде наблюдатель надежность в то контекст из наблюдательный исследовать.В поведение будут быть смотрел в через ан независимый объектив к делать Конечно там является нет предвзятость, а также тогда то данные будут быть по сравнению. Если там является а сходство что данные может быть считается надежный.
Когда там является нет корреляция в наблюдатель оценки, ты может улучшать надежность от ввод в действие поведение категории а также делать Конечно Они находятся поддающийся количественной оценке. В Другие слова ты нужно к делать Конечно эти методы имеют был определенный в виде объективно в виде возможный. Потом, ты может тренироваться наблюдатели в то техники использовал для наблюдение.Ты нужно к смотрю в то наблюдатели а также видеть если все соглашается к те термины. Если нет, ты должен переоценить ваш тестирование критерии.
Давайте смотрю в то концепция из два исследователи кто находятся Ищу в детский поведение что является агрессивный. Они находятся наблюдение поведение в а питомник а также Они май имеют их собственный мнения на агрессия. Этот ситуация мог Свинец к их нет быть запись то Дети агрессивный поведение по аналогии. Этот мог делать то данные ненадежный. К делать то данные более цель, один должен ввести в действие.Они может выполнить ввод в действие то поведение из агрессия от изготовление Это более цель. Этот является так как это много Полегче к смотрю для конкретный поведение скорее чем а широкий диапазон из поведение что находятся нет определенный.
В срок «агрессивный поведение» является довольно нечеткий а также субъективно. Является получающий раздраженный агрессивный? Является некоторый хулиганство агрессивный? Там является нет верно или же неправильный отвечать. Тем не мение, если ты категоризировать конкретный поведение в виде агрессивный это много Полегче к найти то полученные результаты. Для пример, то поведение перечисленные май быть «толкать.» От листинг то поведение нравиться что, то исследователи находятся сейчас Ищу для когда дети толкать один Другой. Этот делает Это много, много Полегче для то наблюдатель к найти приметы из толкать.
В любой изучение, Это является императив к имеют ясность. Исследования где то предмет иметь значение является нечеткий, будут урожай полученные результаты что май быть все над то место, изготовление то изучение меньше полезный. Один должен гарантировать что то полученные результаты находятся в виде надежный в виде возможный если Они хочу к имеют а изучение что обеспечивает точный а также полезный данные.
В Вывод
Источник: pixabay.com
В то Мир из психология, все является всегда наблюдение а также видя как то разум работает а также как люди работать. Так как из это, там нужно к быть строгий критерии в измерение как надежный то полученные результаты мы. Если там не были, мы б прийти к все сортирует из выводы. А контрольная работа что не могу имеют это полученные результаты повторяется является нет а хорошо контрольная работа к имеют. Пока то полученные результаты май нет быть повторяется каждый время, так как есть всегда ан странный один вне, имея надежность средства что то полученные результаты находятся, хорошо, более надежный.Это то способ то научный метод работает.
Тест на надежность и действительность неявной ассоциации
Я помню, как проходил курс Experimental Methods для бакалавриата по психологии, где мой профессор часами обсуждал надежность и обоснованность экспериментальных исследований. В то время я не совсем понимал, почему мой профессор так «одержим» вопросами достоверности и надежности.В те дни кажется, что это было несколько десятилетий назад, но слова моего профессора становятся все более и более актуальными, поскольку я участвую в исследованиях и разработке экспериментов. К сожалению, вопросы надежности и достоверности часто игнорируются в маркетинговых исследованиях. В этом блоге будет обсуждаться важность надежности и валидности в исследованиях в целом, более подробно рассмотрено соотношение этих проблем в тестировании неявных ассоциаций (IAT) и изучено, как исследователи рынка должны их решать.
Какая действительность и надежность имеется ввиду, а зачем заморачиваться?
Надежность — это постоянство меры.Надежный показатель включает надежность повторного тестирования, что означает, что баллы должны быть одинаковыми при тестировании на одной и той же группе людей в разное время. Надежная мера также должна иметь внутреннюю согласованность, то есть согласованность ответов людей по всем пунктам при измерении, состоящем из нескольких пунктов. Все элементы меры должны отражать одну и ту же основную конструкцию, поэтому оценки по этим элементам должны коррелировать друг с другом. Наконец, надежный показатель должен иметь согласованность между экспертами, что означает, что разные люди, оценивающие одни и те же стимулы, должны получать одинаковые баллы (Drost, 2011).
Исследователи также должны быть обеспокоены валидность, способность исследования измерить то, что оно намеревается измерить. Там есть несколько типов действительности, но исследователи рынка должны особенно платить внимание к достоверности содержания, конструктивной валидности и прогностической валидности. Содержание валидность — это степень, в которой мера охватывает вопросы, соответствующие исследованию. цели. Действительная мера также должна иметь конструктивную валидность, степень которой оценка соответствует другим переменным, как это было предсказано каким-либо обоснованием или теория.Несмотря на важность и центральное место в академических исследованиях, построение обоснованность часто не рассматривается в маркетинговых исследованиях. Прогнозная достоверность на с другой стороны, похоже, больше подходит для исследователей рынка, поскольку он оценивает насколько хорошо измерение может предсказать будущие действия или поведение (Drost, 2011).
Действительность и надежность не всегда совпадают. Надежность необходима, но ее недостаточно для подтверждения достоверности. Можно получить высокую надежность, но низкую достоверность (например, когда неправильные вопросы задаются повторно).Также возможно иметь действительную, но ненадежную меру, например, когда результаты показывают большие вариации. Поэтому крайне важно убедиться, что ваше исследование одновременно и надежно, и достоверно. Если измерение недействительно, оно не имеет смысла для исследования, потому что результаты не могут быть использованы для ответа на вопрос исследования. Точно так же, если результаты исследования ненадежны, исследователи рынка не должны использовать их для каких-либо процессов принятия решений.
Тест неявной ассоциации
IAT — популярный показатель в социальных сетях. психологию для измерения относительной силы ассоциации между парами концепции (Greenwald, McGhee, & Schwartz, 1998).Теория, лежащая в основе этой формы тестирования заключается в том, что дать ответ должно быть проще, если он тесно связан элементы имеют один и тот же ключ ответа. IAT также является одним из самых быстрорастущих подходов к исследованию рынка на предмет его объективности и рентабельности в захват немедленных, интуитивных инстинктов и подсознательных реакций потребителей на бренды, концепции новых продуктов и другие маркетинговые продукты (Calvert, 2015). IAT был разработан в ответ на сообщения о низкой достоверности явных (самоотчет) меры, поскольку большинство людей не желают сообщать о своих истинных личных мыслях или чувства к стимулу.Однако, несмотря на популярность IAT как в в научных кругах и в исследованиях рынка, его надежность и валидность по-прежнему вызывают проблемы, которые стоит обсудить.
В психологии считается мера надежен, если он имеет надежность повторного тестирования не менее 0,7, хотя он предпочтительно больше 0,8. Исследования показали, что исследования IAT на расовой почве оценка надежности повторного тестирования составляет всего 0,44, в то время как общий IAT всего лишь около 0,5. Вторая важная проблема, связанная с IAT, — это ее достоверность.Срок действия лучший установлено, показывая, что результаты теста могут точно предсказать поведение в реальной жизни. Однако с 2009 по 2015 год четыре отдельных метаанализа вышли все предположения, что IAT является слабым предиктором дискриминирующего поведения (Голдхилл, 2017).
Хотя эти цифры могут показаться тревожными, Важно отметить, что эти статистические данные в основном относятся к исследованиям IAT, которые пытался понять скрытую расовую предвзятость. Как уже упоминалось, действительность и надежность часто не рассматривается в маркетинговых исследованиях; следовательно, литература При проведении маркетинговых исследований мало внимания уделяется ранее упомянутым проблемам IAT.Возможно, было бы несправедливо использовать несколько тревожную статистику из расовые исследования IAT, довольно большая и сложная проблема в нашем обществе, чтобы сделать вывод о том, что IAT не следует использовать в маркетинговых исследованиях. Фактически, исследования среди разных контексты (кроме расового предубеждения) показали, что IAT лучше предсказывает последующее поведение, чем явные ответы. Эти исследования включают такие темы, как как потребительский выбор, рискованное поведение и реакция на стресс (Calvert, 2015).
Некоторые рекомендации
Несмотря на некоторые опасения по поводу достоверности и надежности IAT, IAT все же может быть мощным инструментом для понимания скрытого отношения потребителей, если он разработан и изучен должным образом.Ниже мы включим элементы, которые исследователи рынка должны знать и учитывать при выборе IAT для своих исследований.
- IAT измеряет только относительную сила ассоциации . Например, он исследует относительная благосклонность к двум концепциям; таким образом, результаты могут сказать нам только предпочитает ли кто-то A над B, не любит ли он B или является нейтральным в сторону Б. Важно, чтобы исследователи знали об этой разнице, поэтому что если цель исследования — изучить отношение к единственному объекту, возможно, IAT не был бы их идеальным методом.Были применены разные подходы предложили обойти это ограничение IAT, но они по-прежнему требуют дополнительной работы пока они не смогут широко применяться (Brunel, Tietje, & Greenwald, 2004).
- Использование времени реакции делает IAT уязвимый . IAT использует время реакции для измерения силы ассоциация. Хотя это удобное измерение, время реакции как мера силы ассоциации делает тест уязвимым при оценке его валидности и надежность (Rezaei, 2011). Это потому, что даже «десятая доля секунды может последовательно влияют на оценку человека »(Blanton & Jaccard, 2008).Исследователи рынка должны помнить об этом факте при анализе своей IAT. результаты, чтобы не делать поспешных выводов о ненадежности теста.
- Знакомство с IAT может помочь улучшить надежность теста. По предложению Резаи (2011), возможно, исследователям рынка было бы полезно включить испытания где участники практикуют тест перед фактическим изучением, чтобы улучшить меры надежности.
- Предупреждения при выборе стимула . При выборе стимулов для IAT важно, чтобы они были достаточно знакомы. и однозначно попадают в одну из двух категорий (Brunel, Tietje, & Гринвальд, 2004).Кроме того, исследователи также должны быть осторожны с длина слов / выражений, которые они включают в IAT (Neuromarketing Science & Бизнес Ассоциация). Опять же, потому что IAT использует время реакции в качестве своего мера для ассоциации, очень важно использовать слова одинаковой длины, желательно отдельные слова, чтобы гарантировать достоверность теста в отношении отдельных различия во времени чтения и понимания прочитанного.
- Получите результаты вашего исследования IAT соотносить с другими явными мерами? Хотя IAT был показано как лучший индикатор поведения, чем явные меры, это может быть полезно по-прежнему включать явные меры в ваше исследование вместе с неявный компонент.Сравнение результатов явных мер с результатами IAT может достичь двух целей. Во-первых, его можно использовать для проверки действительности и надежность IAT. Теоретически, явные меры и IAT должны давать результаты, которые, хотя и различны, все еще коррелированы на некоторых уровнях, потому что они, по сути, измеряют одно и то же построить. Во-вторых, расхождение результатов неявного и явного меры могут дополнять друг друга при прогнозировании поведения потребителей. (Maison et al., 2004).
Хотя этот список можно продолжать и продолжать, этот
blog включает, пожалуй, наиболее важные компоненты IAT для решения. IAT может
быть отличным инструментом для исследователей рынка, чтобы понять своих потребителей
более глубокий, неявный уровень, в дополнение к явным мерам. IAT предоставляет
второй слой для полной картины мыслей, убеждений и
поведение.
Цитаты:
Блэнтон, Х. и Жаккар Дж. (2008). Бессознательный расизм: концепция в поисках мера. Годовой обзор социологии, 34 , 277–297.
Brunel, F. F., Tietje, B.C., & Greenwald, А. Г. (2004). Является ли тест на неявные ассоциации действительным и ценным показателем неявное потребительское социальное познание ?. Журнал психологии потребителей , 14 (4), 385-404.
Калверт, Г. (2015, 30 сентября). Все, что вам нужно знать о неявной реакции Время (IRT). Получено с http://gemmacalvert.com/everything-you-need-to-know-about-implicit-reaction-time/
.Дрост, Э.А. (2011). Обоснованность и надежность в исследованиях в области социальных наук . Образовательные исследования и перспективы, 38 (1), 105.
Голдхилл, О. (2017, 3 декабря). Мир полагается на ошибочный психологический тест, чтобы бороться с расизмом. Получено с https://qz.com/1144504/the-world-is-relying-on-a-flawed-psychological-test-to-fight-racism/
.Гринвальд, А. Г., МакГи, Д. Э., и Шварц, Дж. Л. (1998). Измерение индивидуального различия в неявном познании: тест неявных ассоциаций. Личный и социальный журнал Психология, 74 (6), 1464.
переулок, К. А., Банаджи, М. Р., Носек, Б. А., и Гринвальд, А. Г. (2007). Понимание и использование теста неявных ассоциаций: IV. Неявные меры отношения , 59-102.
Дом, Д., Гринвальд А.Г. и Бруин Р. (2004). Прогностическая достоверность Тест неявной ассоциации в исследованиях брендов, отношения потребителей и поведение. Журнал потребительской психологии, 14 , 405–415.
Нейромаркетинг Ассоциация науки и бизнеса. Неявные меры: что это такое? Как использовать Это?. Получено с https://www.nmsba.com/buying-neuromarketing/neuromarketing-techniques/implicit-measures-what-is-it-how-to-use-it
.Rezaei, А. Р. (2011). Валидность и надежность IAT: измерение пола и этнической принадлежности стереотипы. Компьютеры у человека поведение, 27 (5), 1937-1941.
оценка личности | Определение, типы, значение, использование и факты
Оценка личности , измерение личностных характеристик.Оценка — это конечный результат сбора информации, предназначенной для продвижения психологических теорий и исследований, а также для повышения вероятности принятия мудрых решений в прикладных условиях (например, при выборе наиболее перспективных людей из группы соискателей). Подход, выбранный специалистом по оценке личности, основан на предположении, что большая часть наблюдаемой вариативности поведения от одного человека к другому является результатом различий в степени, в которой люди обладают определенными лежащими в основе личностными характеристиками (чертами).Специалист по оценке стремится определить эти черты, объективно измерить их и связать с социально значимыми аспектами поведения.
Отличительной чертой научного подхода к измерению личности является стремление по возможности описать человеческие характеристики в количественном выражении. Насколько сильно черта проявляется в человеке? Сколько черт присутствует? Количественное измерение личности особенно полезно при сравнении групп людей и отдельных лиц.Различаются ли группы людей с разным культурным и экономическим происхождением, если рассматривать их в свете их конкретных личностных качеств или черт? Насколько велики групповые различия?
Открытое поведение — это отражение взаимодействия между широким спектром основных факторов, включая физическое состояние человека и последствия прошлого личного опыта этого человека. Следовательно, узконаправленный подход недостаточен для того, чтобы отдать должное сложному человеческому поведению, которое происходит в постоянно меняющемся наборе проблем, удовольствий, требований и стрессов повседневной жизни.Сложное измерение человеческой личности неизбежно зависит от использования различных концепций для определения черт характера и влечет за собой применение различных методов наблюдения и оценки. Теоретики и исследователи личности стремятся определить и понять разнообразие человеческих черт, то есть разные способы мышления, восприятия, обучения и эмоций. Такие нематериальные человеческие измерения, типы и атрибуты являются конструкциями — в данном случае выводами, сделанными на основе наблюдаемого поведения.Широко изучаемые личностные конструкции включают тревогу, враждебность, эмоциональность, мотивацию и интроверсию-экстраверсию. Например, тревога — это концепция или конструкция, которую люди выводят из того, что они говорят, их выражений лица и движений тела.
Личность интерактивна в двух смыслах. Как указывалось выше, личные характеристики можно рассматривать как продукты взаимодействия основных психологических факторов; например, человек может испытывать напряжение, потому что он или она одновременно стесняются и стремятся к социальному успеху.Эти продукты, в свою очередь, взаимодействуют с типами ситуаций, с которыми люди сталкиваются в своей повседневной жизни. Человек, который беспокоится о том, чтобы его оценили, может демонстрировать слабую работоспособность в оценочных ситуациях (например, при сдаче тестов), но хорошо функционирует в других ситуациях, в которых оценочный акцент отсутствует. Макияж личности может быть активом или пассивом в зависимости от ситуации. Например, некоторые люди подходят к оценочным ситуациям со страхом и дурными предчувствиями, в то время как другие, по-видимому, мотивированы в желаемом направлении давлением конкуренции, связанным с производительностью.
Получите подписку Britannica Premium и получите доступ к эксклюзивному контенту. Подпишитесь сейчасКонструкции измерительные
Попытки измерить личностные конструкции берут начало из множества источников. Часто они возникают из теорий личности; тревога и подавление (забвение неприятных переживаний), например, являются одними из центральных концепций теории психоанализа. Понятно, что будут предприняты усилия, например, для количественной оценки степени тревожности и использования полученных таким образом баллов для оценки и прогнозирования будущего поведения.Среди основных вопросов в изучении измерения личности стоит вопрос о том, какие из множества личностных конструктов, которые были количественно определены, являются базовыми или фундаментальными и которые, как можно ожидать, потребуют напрасных усилий при их измерении, поскольку представляют собой плохо определенные комбинации большего количества элементарных конструктов. ; какие методы измерения наиболее эффективны и удобны для оценки; и лучше ли опросить людей для измерения личности или попросить их сказать, например, о чем им напоминает чернильное пятно или облако в небе.
Попытки измерить любой заданный конструкт личности могут потерпеть неудачу в результате несоответствий в формулировке или определении характеристики, которую необходимо измерить, и недостатков в используемых методах оценки. Исследователь может пожелать количественно определить степень покорности индивидов в социальных и конкурентных ситуациях. Его эффективность будет зависеть от конкретной теории покорности, которую он применяет к проблеме; о реальных процедурах, которые он выбирает или изобретает для измерения покорности; и об адекватности исследования, которое он проводит, чтобы продемонстрировать полезность меры.Каждая из этих задач должна быть тщательно рассмотрена при оценке усилий по измерению характеристик личности.
Методы, используемые при описании и измерении личности, делятся на несколько категорий, которые различаются по типу собираемой информации и методам ее получения.