Регрессия в психологической практике – польза или вред?
Как происходит развитие? Что подразумевается под этим? В психологической и психотерапевтической практике, в психоаналитической работе с клиентом развитие мы можем понимать, как часть процесса излечения и решения проблем, без которого желаемое исцеление и решение проблем не могут состояться.
И в динамике сложного процесса исцеления мы сталкиваемся с таким явлением как защитные механизмы психики, цель которых состоит в том, чтобы избежать соприкосновения с нежелательными представлениями и переживаниями, болезненными для психики, которые могут актуализироваться в процессе нашей работы с клиентом.
В данной статье мы обсуждаем такой универсальный защитный механизм психики как регрессия, границы этого понятия, и сопоставляем его с описанной Мелани Кляйн концепцией движения между параноидно-шизоидной и депрессивной позиций, описывающей процесс развития.
Регрессия как защитный механизм психики
Регрессия – универсальный психический процесс движения от уже достигнутого к прежним, более ранним формам функционирования и организации. Человек, пытаясь защититься от тревоги и конфликтов, бессознательно прибегает к менее зрелым и адекватным формам поведения и реагирования, которые субъективно кажутся ему безопасными и дающими защиту.
Практически для всех людей в напряженные моменты жизни характерно стремление «утешить» себя получением каких-либо удовольствий. В определенной мере – это нормальная защитная реакция на стресс, способствующая уменьшению общего напряжения в психике и в организме в целом. Сам процесс сна, видения сновидений, ритуал ухода в сон – является проявлением адаптивных регрессивных состояний.
Психическая и физическая усталость способствуют процессу регрессии. Мы возвращаемся к привычкам, характерным для более ранних этапов развития. Чувствуем усталость, голод, раздражительность по мелочам, можем ощущать слабость и недомогание, даже заболеть. Все эти реакции и проявления могут быть проявлением регрессивных состояний.
«Регрессия – это понятие, которое часто используется в психоанализе и современной психологии; обычно оно означает возврат к предыдущим формам развития мысли, объектных отношений, структуры поведения» (Лапланш, Понталис).
Фрейд рассматривал регрессию как форму возврата психического функционирования человека к функционированию, характерному для более ранних этапов развития индивида. Следует отметить, что саму патологию, от которой страдал клиент, Фрейд рассматривал как своего рода регрессию к так называемым ранним точкам фиксации.
Фрейд наблюдал различные типы регрессии, которые не совпадают друг с другом:Топическую, обусловленную функционированием психического аппарата, сменой психических систем, через которые движется возбуждение (как, например, в сновидении).
Формальную, заменяющую обычные способы выражения и образного представления более примитивными (переход к менее сложным и структурно упорядоченным способам выражения и поведения).
Временную, при которой вновь вступают в действие прежние способы психической организации, возврат к уже пройденным этапам или фазам развития. Временную регрессию Фрейд, в свою очередь, разделял на регрессию по отношению к объекту, регрессию по отношению к либидинальной стадии и регрессию по отношению к эволюции Я (самоотождествление).
Следует отметить, что в целом эти формы регрессии по своей сути едины, и все эти процессы могут происходить одновременно. Но в каждый отдельный момент фокус нашего внимания или главный акцент может оказаться на чем-то одном. Но при этом мы понимаем, что этапы развития, более ранние по времени являются одновременно и более простыми по форме и структуре, и располагаются в топически соответствующих для этих восприятий психических структурах.
Итак, согласно Фрейду, регрессия представляет собой возврат к более раннему паттерну объектных отношений, к более примитивному эмоциональному выражению, а также к более простому стилю умственной деятельности, которое ближе непосредственно к восприятию, чем к мышлению.
Для регрессивных состояний характерно более примитивное эмоциональное выражение, способы поведения и выражения становятся менее упорядоченными и организованными, формы мышления и объектных отношений также возвращаются к предшествующим более ранним моделям. Говоря о регрессии, Фрейд писал: «Первичные состояния всегда могут возникнуть вновь. Первичная психика в собственном смысле слова неуничтожима».
При этом мы понимаем процесс развития как некое движение, имеющее очень сложную траекторию, и этот процесс не может происходить линейно, поступательно и последовательно, периодически мы можем наблюдать колебания и скачки, откаты назад, то продвижение вперед.
Подобные регрессивные скачки и колебания мы наблюдаем также и в ходе психотерапии и психоанализа. О каких именно скачках и колебаниях может идти речь? В этом нам поможет разобраться рассмотрение того, как концепт регрессии развивался в теоретических разработках психоаналитиков.
Судьбы регрессии в психоанализе
Что же происходит с концептом регрессия в психоанализе. Мы можем в общих чертах проследить его дальнейшую теоретическую судьбу.
Ряд авторов, исходя из опыта клинической практики, видели регрессию как необходимую и полезную часть продвижения в работе с пациентом.
Эрнст Крис одним из первых поднял важную тему о полезности регрессии в психоаналитической ситуации, обосновывая взгляд, что регрессия находится на службе Эго.
Дональд Винникотт также придерживался взгляда на регрессию как на полезный феномен. Полезную регрессию Винникотт назвал организованной регрессией. «Организованную регрессию иногда путают с патологическим уходом и защитными расщеплениями различного типа. Эти состояния имеют отношение к регрессии в том смысле, что они являются защитными организациями» (Винникотт).
Организованный тип регрессии, согласно Винникотту, противоположен уходу в защитные организации, т.к. организованная регрессия дает шанс разблокировать некую застывшую ситуацию во внутреннем мире пациента.
Майкл Балинт в свою очередь говорил о важности регрессии ради признания. Согласно Балинту, в оптимальном варианте в психоаналитическом процессе регрессия должна произойти на стадию, предшествующую получению травмы. Если эта стадия достигается пациентом, вступает «новое начало», когда может быть заново начато и пройдено новое развитие личности. Для того, чтобы это произошло, Балинт считал важным создать такие условия для пациента в психоаналитическом пространстве, в которых пациент мог бы регрессировать все глубже, тем самым приоткрывая глубины своего Я, свои базовые потребности, не страшась осуждения или отвержения со стороны аналитика.
Герберт Розенфельд говорил о частичном отыгрывании как необходимой части всякого анализа, что также предполагает важность и полезность регрессии в психоаналитическом процессе.
Но, естественно, что мнения в психоаналитическом мире в отношении регрессии разделяются, есть и совсем иной взгляд на регрессивные феномены в психоаналитическом процессе, который рассматривает регрессию как негативное и гораздо более опасное явление, чем это представлено в работах вышеперечисленных авторов. В частности, тот же Балинт говорил о возможности злокачественного процесса в ходе масштабной регрессии.
Мелани Кляйн ввела концепцию депрессивной позиции, в дальнейшем параноидно-шизоидной позиции, а впоследствии описала внутренние связи и возможные переходы между ними, что позже выросло в теорию психологического развития и возможных патологий, связанных с этим процессом.
Концепция депрессивной и параноидно-шизоидной позиции позволяет нам глубже понимать и исследовать как регрессивные процессы и защиты в ходе анализа, так и процессы, ведущие к позитивным сдвигам, изменениям и развитию.
Для параноидно-шизоидной позиции характерно переживание хаоса и дезинтеграции, а для депрессивной — достижение психического порядка с одновременным принятием неизбежных ограничений и потерь.
Кляйн описывала переходы к параноидно-шизоидной позиции как защиту от депрессивной позиции, как регрессию с депрессивной позиции, а также как часть процесса развития. Таким образом, в свете концепции Кляйн, регрессия представляет собой переход, обратное движение от депрессивной позиции к параноидно-шизоидной. Кляйн видела в регрессии нежелательный процесс, который не ведет к развитию.
Сьюзен Айзекс и Паула Хайманн, рассматривая концепт регрессии в свете работ Мелани Кляйн, писали о том, что параллельно регрессии либидо происходит регрессия деструктивного инстинкта, и это лежит в основе возникновения психопатологии у пациента. И, таким образом, регрессия может приводить к весьма негативным серьезным последствиям.
Джон Стайнер ввел концепцию психических убежищ — патологических личностных организаций, к которым может регрессировать пациент в ходе психоаналитического процесса. Патологические организации – установившиеся в личности нарциссические организации, являющиеся одновременно внутренней системой подавления и в то же время альтернативой реальности и объектным отношениям. Таким образом, патологическая организация представляет собой регрессию к более ранним формам организации и мышления.
Психическое убежище – своего рода аутистический анклав, укрытие, в котором пациент прячется от невыносимой боли и тревог, связанных с эмоциональным контактом с аналитиком. «Иногда можно наблюдать, как с большой осторожностью они появляются, подобно тому как улитка высовывается из своей раковины и как она снова прячется, если контакт приводит к боли и тревоге» (Стайнер).
Бетти Джозеф описывает регрессию как процесс перехода от депрессивной позиции к защитной системе, которая была сформирована в более ранний период. Для данной защитной системы, к которой регрессирует пациент, характерно функционирование, присущее параноидно-шизоидной позиции с ее примитивными видами защит — расщеплением и проективными идентификациями.
Модель Рональда Бриттона рассматривает регрессию как нежелательный феномен в ходе психоаналитического процесса. Он предлагает обозначать термином «регрессия» отступление в патологическую организацию, которое повторяет прошлое и избегает будущего, например, негативно-терапевтическая реакция.
Бриттон делает важный акцент на различении движения к позитивному психическому развитию, вызывающего смятение у пациента, и патологической регрессии. Когда в анализе есть поступательное движение, ведущее к прогрессу, даже если при этом пациент находится в смятенном состоянии, при котором активизируется вытесненный психический материал и утрачивается ранее достигнутая психическая организация и связное функционирование, тем не менее, мы не можем называть это состояние регрессией, по мнению Бриттона.
Бриттон подчеркивал нормальность движения от депрессивной на пост-депрессивную параноидно-шизоидную позицию. Термином регрессия он предлагает называть как процессы перехода от нормальной пост-депрессивной позиции на параноидно-шизоидную, но также и на квази-депрессивную – патологическую депрессивную позицию (так называемая патологическая организация).
Уилфред Бион не использовал термин регрессия в своем творчестве. Бион говорил о том, что защитная организация, «застывшая ситуация» (которую, как предполагали некоторые аналитики, призвана растопить регрессия), представляет собой патологическую организацию, актуальную в текущий момент для пациента. В этом смысле, как предполагает Бион, пациент уже регрессировал, поэтому регрессия не может представлять собой новые возможности для прогрессивного движения и развития.
И все-таки — полезна ли регрессия в анализе?
Итак, мы видим, что в психоаналитической мысли под феноменом регрессии зачастую понимаются совершенно различные процессы. И обсуждая этот феномен в анализе, его полезность или нежелательность, мы сталкиваемся с проблематикой существования разных аспектов функционирования этого понятия и необходимости определения границ его использования.
Концепция Мелани Кляйн о параноидно-шизоидной и депрессивной позиции с переходами между ними позволяет нам наблюдать, дифференцировать и описывать эти разные процессы, которые неоправданно зачастую объединяются единым термином «регрессия».
Обратные движения от депрессивной позиции, для которой характерно ощущение психического порядка, к параноидно-шизоидной позиции, где достигнутый ранее порядок утрачивается, – такие переходы могут быть как формой регрессии, возвратом прошлого, активизацией патологической организации, проявлением негативно-терапевтической реакции.
Но эти же движения от депрессивной к параноидно-шизоидному функционированию не всегда регрессивны, они могут быть и возвратом в так называемую нормальную параноидно-шизоидную позицию с характерной для нее утратой определенности и связной системы убеждений, необходимых для возможности дальнейшего развития в объектных отношениях, когнитивного и эмоционального развития, развития моральной сферы. Мы ведь понимаем, что нормальное развитие не является автоматическим, когда само собой что-то происходит, должно прийти творческое решение, которое и приходит на параноидно-шизоидной волне.
Т.е. есть процесс исцеления, который производит впечатление болезни, а есть крайне болезненные состояния, связанные с патологическими организациями личности, которые на внешнем уровне демонстрируют себя как «правильность и здоровье». С подобным парадоксом сталкивается каждый аналитик.
Концепция депрессивной позиции Мелани Кляйн описывает дальнейший переход от нормальной параноидно-шизоидной позиции к достижению новой депрессивной позиции, и связанную с ним проработку депрессивной позиции, что дает возможность смягчения ненависти любовью, возможность репарации деструктивных побуждений, позволяет развиваться символическому мышлению (Ханна Сигал).
Как показывает Рональд Бриттон, регрессивное состояние присуще не только переходам к шизоидно-параноидному существованию, а также и квази-депрессивному – когда происходит регрессивный переход от депрессивного функционирования к параноидно-шизоидной позиции и обратно, но уже к превдо депрессивной позиции — защитная организация режима депрессивной позиции.
«Защитное состояние напоминает депрессивную позицию своей связностью, режимом самопонимания и нравственной добродетельности, но отличается отсутствием страдания и чувства утраты» (Рональд Бриттон).
Мы видим, что у разных авторов под термином «регрессия» описываются как процессы, ведущие к развитию, так и процессы, связанные с патологическим возвратом к защитным организациям. Поэтому, используя этот термин, для нас важно обращать внимание на то, что за ним стоит, с чем мы сталкиваемся – речь идет о злокачественном процессе или, напротив, нормальном и желательном ходе аналитического погружения и связанного с ним размывания устоявшихся, уже мешающих дальнейшему развитию структур и представлений пациента.
защитный механизм, примеры регрессии в психологии
Регрессия – это такой способ защиты, когда психика прибегает к возврату в детское состояние с целью понижения тревоги или разрешения конфликта. Соответственно детская модель поведения оказывается незрелой, менее эффективной, затрудняет адаптацию. При этом у окружающих она часто вызывает состояние родителя, бессознательное желание опекать будь-то более слабую или ущербную личность. Однако механизм регрессии включается не лишь в межличностном взаимодействии, человек может активировать его также наедине с собой, во внутренней психологической реальности, ведь детская модель поведения кажется ему более безопасной и успокаивающей.
Что такое регрессия в психологии
Регрессия есть возвращение к своим более ранним формам поведения. Она происходит оттого, что нынешним, зрелым поведением человек не имеет возможности добиться желаемых целей. Например, девушка не может убедить своего мужчину в действительности какого-то факта. Что выбирает она? Часто это слезы, и плач, которые не являются рациональным способом в разрешении ситуации, это тот способ, которым она пользовалась в детстве, дабы привлечь внимание и добиться желаемого.
Спортсмены, занимающиеся боевыми искусствами и изучающие множество приемов в зале, выходя на ринг, используют лишь несколько приемов регрессии, что происходит из-за фрустрации, стресса, в котором человеку свойственно возвращаться к наиболее эффективным ранним формам поведения, которые его никогда не подводили. Хотя их эффективность – очень спорный вопрос, на деле было бы уместнее использовать другие формы поведения. Но есть навыки, какие содержатся в основе психики, как говорят, «на подкорке», вернуться к которым легко, и это происходит бессознательно. Проблему это не решает, но временно успокаивает человека, снижает уровень его тревоги.
Каждый сохраняет из детства воспоминания о приятных моментах, легком разрешении проблем и хоть раз задумывался, чтобы вернуться в детство. Личности же, что используют регрессию как доминирующий механизм защиты, когда она становится стратегией жизни, называются инфантильными, такая длительная регрессия в психологии это синоним инфантилизма.
Регрессия как явление была описана впервые Фрейдом. Регрессия по Фрейду есть отказ от прогрессивного движения желания в сторону действий, возврат к образам или галлюцинациям. Также регрессия по Фрейду находит себя в сновидениях и неврозах, в каких он рассматривал возврат к архаическим формам жизни как индивидуальным, так и филогенетическим.
Регрессия – защитный механизм
Регрессия в психологии это механизм защиты, развивающийся при слабости Я личности, именно к регрессии чаще всего прибегает личность незрелая, поскольку этот способ ей ближе остальных и не требует никаких дополнительных усилий.
В регрессии человек стремится к бессознательному воссоединению, полному комфорту и удовлетворению потребностей, какое он получал от матери. Отсутствие необходимости прилагать усилия, пробуя новые стратегии проведения, при недостатке энергии и инертности личности делает регрессию доступным и простым способом приспособления. Другой вопрос уже, что адаптация затрудняется и в итоге оказывается неполной. Построить зрелые отношения с окружающими при доминирующей регрессивной защите, инфантилизме, становится невозможным. Взаимодействие выстраивается только в случае наличия у партнера дополняющей стратегии, активного состояния родителя, отношения тогда скорее напоминают детско-родительский симбиоз.
Более сильная, стеническая личность прибегает к регрессии, только когда остальные механизмы защиты оказались неэффективными, наступило состояние фрустрации. Регрессия в таком случае чаще всего частичная и непродолжительная, возвратившись к детским формам удовлетворения потребностей и получив желаемую разрядку, снизив напряжение, личность возвращается к другим видам защит. Потому, определив, что регрессия длительное время доминирует в арсенале защит, следует направить внимание на развитие личности, признав ее незрелость. В характере при этом преобладают такие черты, как зависимость от окружающих и их мнения, несамостоятельность, легкая внушаемость и поддавание влиянию других, отсутствие глубоких стабильных интересов, быстрая смена настроений, плаксивость, обидчивость, неумение доводить начатое до конца, безответственность и страх будущего. В крайних случаях это может выразиться в тунеядстве, злоупотреблении алкоголем, зависимости от наркотических препаратов.
Регрессия в психологии – примеры
Частым примером регрессии как отката назад, в прошлое, к более ранним своим паттернам, является поведение старшего ребенка при рождении младшего. Старшему становится тяжело вынести то, что появился еще один объект для родительской любви, и он начинает плакать и капризничать, как несколько лет назад, может начать лезть в коляску, брать одежду, соску и погремушки младшего, есть его еду, гулить, ползать, изображая из себя малыша. Часто даже появляется возврат к непроизвольному мочеиспусканию. Это помогает ему справиться с напряжением, обидой и ревностью, появившимися в связи с конкуренцией, «предательством» родителей, привлечь к себе внимание, чтобы его полюбили так же, как малыша. Более старшему ребенку в данной ситуации кажется, что о нем забыли, хотя в том же возрасте ему уделяли обычно такое же количество внимания.
Регулярные детские болезни также могут говорить о потребности в родительском внимании, при нежелании идти в сад или школу быстро появляются симптомы простуды, а в запущенных ситуациях развиваются и серьезные хронические болезни, имеющие психосоматическую природу. Стоит чаще показывать ребенку свою любовь, а если причина и в плохих отношениях в детском коллективе – поговорить об этом или поменять садик или школу.
То же может происходить и с взрослым человеком, когда он заболевает. Невысокая температура переживается уже как серьезная, тяжелая болезнь, что может бессознательно демонстрироваться окружающим, чтобы получить ту полноту заботы и внимания, какую взрослый помнит из детства. Это то, что в психологии рассматривается как получение вторичной выгоды.
Здесь может иметь место и соматизация, когда и сама болезнь наступает по причине потребности снизить психическое напряжение, словно вернуться в детство и передохнуть. Если действительной причиной болезни была регрессия, то излечение становится очень сложным, усилия докторов часто не приносят нужных результатов, болезнь может менять свои формы или даже переходить в другую, проявляя высокую резистентность к различным врачебным вмешательствам, развивается ипохондрия. Своевременная успешная диагностика психологической причины болезни позволяет не только идти в верном направлении к излечению, но и сохраняет действительное физическое здоровье пациента.
В других случаях уставший взрослый человек может начать хныкать как ребенок, топнуть ногой или обидеться, невесть на кого, развернуться и уйти. Сюда относятся и несдержанность в эмоциях, какую часто прощают детям, бунт против авторитетов, хаотичное поведение, любовь к быстрой и неосторожной езде на машине, не задумываясь о последствиях. В ситуациях перегрузки практически каждый испытывал желание закутаться в одеяло, есть конфеты и смотреть мультики. Некоторые взрослые на всю жизнь сохраняют любовь к детской мультипликации, носят одежду в ребяческом стиле, играют в игры. Компьютерная зависимость также связана с регрессивным уходом от взрослой реальности в детский мир на экране, к которому человек привык еще будучи ребенком.
Примеры регрессии в психологии. Психологи часто наблюдают регрессию у своих клиентов на консультации. Как только психолог с клиентом подходят к сверхважному для последнего вопроса, в котором нужно принять решение – клиент часто не выносит этой эмоциональной перегрузки и начинает дурачиться: накручивать волосы на нос, снимать и играть кольцом, крутиться на кресле, шутить. Регресс в детское поведение оттаскивает человека назад, чтобы снизить критический уровень напряжения, и психолог должен отследить это и проработать с клиентом.
Регрессивный откат в детство свойственен практически всем людям в ситуации, когда желаемое можно получить от кого-то из близких. Так ребенок начинает выпрашивать конфеты у матери более детским голосом, капризничая и давя на жалость. Также может поступать и жена, прося у мужа, например, купить ей платье, бессознательно активируя в себе поведение маленькой девочки. А муж может проситься на рыбалку с друзьями, обещая свое хорошее поведение, словно мальчишка.
Склонность к мистике часто также является регрессивной защитой, когда человек не желает разбираться в реальных причинах происходящего, что потребует от него усилий и ответственности в разрешении проблемы, а, к примеру, оправдывает сложности наложенной порчей или родовым проклятием.
Регрессивность часто находит выражение в откате к более ранним психосексуальным формам развития, что связано с возникновением неврозов. В случае регрессии либидо в полном объеме генитальность замещается прегенитальными способами проявления сексуальности, откуда развивается анально-садистичные или инцестуозные наклонности, бисексуальность, нарциссизм.
К механизмам регрессии часто прибегают маркетологи, создавая в рекламе предпосылки для эмоционального возвращения в детские ощущения полного комфорта, тотальной продуманности и контроля производителем своего продукта, приобретя который человек может, словно погрузиться в идеальную реальность.
Автор: Практический психолог Ведмеш Н.А.
Спикер Медико-психологического центра «ПсихоМед»
Эготизм, регрессия и еще 5 подсознательных механизмов защиты психики
© Piotr Chrobot/Unsplash
Автор Ирина Рудевич
20 января 2020
Психологическая защита действует на подсознательном уровне помимо воли. Рассказываем, какие нестандартные механизмы использует психика в стрессовых ситуациях, зачем они нужны и как могут помешать.
Почему и от чего мы защищаемся
Понятие психологической защиты ввел австрийский психоаналитик Зигмунд Фрейд. Он считал ее результатом конфликта неосознанных потребностей, социальных запретов и истинных чувств. Современные ученые развили теорию и обнаружили, что большинство людей используют сложные комбинации механизмов защиты. Проблема в том, что все они призваны помогать в исключительных случаях, а их постоянная активация ведет к излишнему стрессу, психологическим и социальным проблемам.
Алгоритмы подключения защиты
Нейробиологи тоже активно изучают эту сферу. Исследования с помощью магнитно-резонансной томографии помогают понять, как работает мозг под воздействием стресса. Подсознательные механизмы формируются на фоне опыта человека, а он у всех разный. С самого рождения и на протяжении жизни мозг создает новые нейронные связи и учится защищать организм от стрессовых факторов. Иногда эти способы могут сыграть злую шутку, потому что их трудно контролировать. Так, базовые методы вроде отрицания, регрессии и проекции могут стать помощниками или врагами.
Если стрессовая ситуация выходит из-под контроля, человек может представить ее со стороны так, будто это происходит не с ним. Это помогает правильно реагировать на происходящее, экономить ресурсы и не принимать поспешных решений. Диссоциация может возникнуть как из-за негативных, так и из-за очень приятных, крайне позитивных эмоций. Иногда люди неосознанно прибегают к этому методу при малейших тревожных событиях, а их в течение дня могут быть десятки. Это неизбежно ведет к автоматизму действий, снижению эмпатии и вовлеченности, а в крайних случаях может повлечь потерю связи с реальностью.
Этот защитный механизм стоит на первой ступени пяти стадий осознания неизбежного: отрицание, гнев, торг, депрессия и принятие. Он распространен и свойственен большинству людей в самых обычных ситуациях. Если вы узнаете плохие новости, то первым желанием становится оградить себя от них. «Этого не может быть!» — примерно так описывают реакцию большинство тех, кому сообщили печальные известия. Отрицание — это отвержение существующей реальности и связанных с нею чувств, эмоций, событий и мыслей. Вопрос лишь в том, как быстро человек сможет принять произошедшее, не пытаясь от него спрятаться. Отрицание касается не только трагических новостей, но и течения жизни: человек будто не видит, что находится в токсичных отношениях, или не может избавиться от вредной привычки, которая, очевидно, ему мешает.
Не путайте со здоровым эгоизмом. Эготизм — это ретрофлексия, то есть человек вместо внешних изменений реальности концентрируется на самом себе. Чаще всего этот механизм формируется у людей, которым не хватало внимания, и они убеждены, что позаботиться о себе могут только они сами. В результате мир будто сужается до внутреннего Я. При этом человек находится в напряжении из-за невозможности спонтанных действий и активно избавляется от всего «чужого» в своей жизни: мыслей, идей и общения. Хронический эготизм может привести к подавлению всех внутренних импульсов, потере равновесия между самоконтролем и спонтанным, живым поведением. При частом обособлении от окружающего мира и его веяний человек рискует остаться в одиночестве.
Иногда поступить так, как хочется, мешают внутренние установки, общественные правила и страх. Тогда человек направляет агрессию внутрь себя. Например, начинает грызть ногти из-за стресса и злоупотребляет алкоголем как инструментом саморазрушения. В особо сложных случаях подобное поведение может привести к самоубийству. Механизм особенно опасен для детей, которым сложно признать, что родители поступают плохо; поэтому они начинают винить себя в неадекватном поведении старших. Дело в том, что психике проще направить отрицательную энергию внутрь, а не на реальный объект агрессии. Психолог Нэнси МакВильямс, автор книги «Психоаналитическая диагностика. Понимание структуры личности в клиническом процессе», считает, что этот механизм присущ людям, склонным к депрессии и мазохизму.
Впадаете в детство? Один из защитных механизмов психики позволяет человеку подсознательно вернуться в то состояние, когда было комфортно и безопасно. Чаще всего это ранний возраст, когда серьезные трудности еще не существовали. При регрессии можно на некоторое время почувствовать «почву под ногами», контроль, собраться с мыслями. К сожалению, переизбыток защиты ведет к перекладыванию ответственности на окружающих. Человек, склонный к регрессии, всегда найдет виноватых в сложившейся ситуации, начиная от родителей, которые не так воспитали, и заканчивая начальником-самодуром. Он будто мгновенно превращается из взрослого, способного отвечать за свои поступки, в ребенка, который не готов сталкиваться со сложностями.
© Joshua Reddekopp/Unsplash
Механизм проецирования выражается в том, что человек наделяет окружающих людей, а иногда и неживые предметы, качествами, которые не признает в себе. Так, ему может показаться, что сосед негативно настроен, хотя на самом деле сам проецирующий не желает с ним общаться без особых причин. Такая защита позволяет рассмотреть пугающие нас личные качества, если их сложно понять в себе. Но она же становится причиной паранойи и жизни в ощущении, что «кругом враги». Причем мозг ищет и находит подтверждения этим мыслям. Злоупотребление проекцией ведет к переложению вины на других и отсутствию необходимости разобраться в себе.
Обесценивание
Невозможно постоянно побеждать; у каждого случаются промахи и поражения, на которых надо учиться. Но если трудно пережить неудачу, включается обесценивание: поиск подтверждений тому, что результат был не так уж важен. Например, расставшись по инициативе партнера, человек ищет у него изъяны. Или после провального собеседования находит аргументы в пользу того, что вакансия на самом деле ужасна и можно найти работу получше. С одной стороны, это оптимизм, который позволяет двигаться дальше. С другой — при злоупотреблении механизмом можно обесценить истинные потребности, близких, свои сильные стороны и мир вокруг. Так психика сохраняет ощущение безопасности и надежности, но приводит к разочарованию.
Корреляция и регрессия
Когда вы исследуете закономерности в своих данных, как вы можете определить, насколько тесно связаны между собой две переменные? Можете ли вы использовать одну переменную для предсказания другой?
В этом модуле вы познакомитесь с концепциями корреляции и регрессии, которые могут помочь вам в дальнейшем изучении, понимании и обмене данными.
Видео 1
Видео 2
Цели
По завершении этого модуля вы сможете:
- Различать сильную и слабую корреляцию.
- Различать характеристики корреляции и линейной регрессии.
Раздел 1. Корреляция
В этом модуле вы познакомитесь с двумя концепциями, которые помогут вам в изучении взаимосвязей между переменными: корреляция и регрессия. Начнем с корреляции.
Что такое корреляция?
Корреляция – это техника, которая может показать, насколько сильно связаны пары количественных переменных. Например, количество ежедневно потребляемых калорий и масса тела взаимосвязаны, но эта связь не абсолютная.
Многие из нас знают кого-то, кто очень худой, несмотря на то, что он/она регулярно потребляет большое количество калорий, и мы также знаем кого-то, у кого есть проблемы с лишним весом, даже когда он/она сидит на диете с пониженным содержанием калорий.
Однако средний вес людей, потребляющих 2000 калорий в день, будет меньшим, чем средний вес людей, потребляющих 2500, а их средний вес будет еще меньше, чем у людей, потребляющих 3000, и так далее.
Корреляция может сказать вам, насколько тесно разница в весе людей связана с количеством потребляемых калорий.
Корреляция между весом и потреблением калорий – это простой пример, но иногда данные, с которыми вы работаете, могут содержать корреляции, которых вы никак не ожидаете. А иногда вы можете подозревать корреляции, не зная, какие из них самые сильные. Корреляционный анализ помогает лучше понять связи в ваших данных.
Диаграммы разброса или Точечные диаграммы используются для графического представления взаимосвязей между количественными показателями. Диаграмма показывает данные и позволяет нам проверить свои предположения, прежде чем устанавливать корреляции. Глядя на взаимосвязь между продажами и маркетингом, можно предположить наличие в них корреляции. По мере того, как одна переменная растет, другая, похоже, тоже увеличивается.
Диаграмма, указывающая на корреляцию между двумя количественными переменными
Корреляция против причинно-следственной связи
Теперь вы знаете, как определяется корреляция и как ее можно представить графически. Теперь давайте посмотрим, как понимать корреляцию.
Во-первых, важно понимать, что корреляция никогда не доказывает наличие причинно-следственной связи.
Корреляция говорит нам только о том, насколько сильно пара количественных переменных линейно связана. Она не объясняет, как и почему.
Например, продажи кондиционеров коррелируют с продажами солнцезащитных кремов. Люди покупают кондиционеры, потому что они купили солнцезащитный крем, или наоборот? Нет. Причина обеих покупок явно в чем-то другом, в данном случае – в жаркой погоде.
Измерение корреляции
Корреляция Пирсона, также называемая коэффициентом корреляции, используется для измерения силы и направления (положительного или отрицательного) линейной связи между двумя количественными переменными. Когда корреляция измеряется в выборке данных, используется буква r. Критерий Пирсона r может находиться в диапазоне от –1 до 1.
Когда r = 1, существует идеальная положительная линейная связь между переменными, это означает, что обе переменные идеально коррелируют с увеличением значений. Когда r = –1, существует идеальная отрицательная линейная связь между переменными, это означает, что обе переменные идеально коррелируют при уменьшении значений. Когда r = 0, линейная связь между переменными не наблюдается.
На графиках разброса ниже показаны корреляции, где r = 1, r = –1 и r = 0.
Переверните каждую карту ниже, чтобы увидеть значение для этой совокупности.
Идеальная положительная корреляция
Когда r = 1, есть идеальная положительная линейная связь между переменными, и это означает, что обе переменные идеально коррелируют с увеличением значений.
Идеальная отрицательная корреляция
Когда r = –1, существует идеальная отрицательная линейная связь между переменными, и это означает, что обе переменные идеально коррелируют при уменьшении значений.
Нет линейной корреляции
Когда r = 0, линейная зависимость между переменными не наблюдается.
С реальными данными вы никогда не увидите значений r «–1», «0» или «1».
Как правило, чем ближе r к 1 или –1, тем сильнее корреляция, это показано в следующей таблице.
r = | Сила корреляции |
---|---|
От 0.90 до 1 | Очень сильная корреляция |
От 0.70 до 0.89 | Сильная корреляция |
От 0.40 до 0.69 | Умеренная корреляция |
От 0.20 до 0.39 | Слабая корреляция |
От 0 to 0.19 | Очень слабая корреляция или ее нет вообще |
Условие корреляции
Чтобы корреляции были значимыми, они должны использовать количественные переменные, и описывать линейные отношения, при этом не может быть выбросов.
В 1973 году статистик по имени Фрэнсис Анскомб разработал показатель «квартет Анскомба», он показывает важность визуального представления данных в виде графиков, а не простого выполнения статистических тестов.
Выделенный график разброса в верхнем левом углу – единственный, который удовлетворяет условиям корреляции.
Четыре визуализации в его квартете показывают одну и ту же линию тренда, поэтому значение r будет одинаковым для всех четырех.
Что вы заметили? Только один из графиков рассеяния соответствует критериям линейности и отсутствия выбросов.
Другими словами, мы не должны проводить корреляции на трех из четырех примерах, потому что не имеет смысла устанавливать сильные отношения.
Проверка знаний
Силу корреляции при значении r, равному –0,52, лучше всего можно описать как:
- Очень сильная отрицательная корреляция
- Очень сильная положительная корреляция
- Умеренная отрицательная корреляция
- Умеренная положительная корреляция
Резюме
Итак, вы ознакомились с концепциями статистической техники корреляции. На следующем уроке вы узнаете о линейной регрессии.
Раздел 2. Линейная регрессия
На предыдущем уроке вы узнали, что корреляция относится к направлению (положительному или отрицательному) и силе связи (от очень сильной до очень слабой) между двумя количественными переменными.
Линейная регрессия также показывает направление и силу взаимосвязи между двумя числовыми переменными, но регрессия использует наиболее подходящую прямую линию, проходящую через точки на диаграмме рассеяния, чтобы предсказать, как X вызывает изменение Y. При корреляции значения X и Y взаимозаменяемы. При регрессии результаты анализа изменятся, если поменять местами X и Y.
Диаграмма рассеяния с линией регрессии
Видео 1
Видео 2
Линия регрессии
Как и в случае с корреляциями, для того, чтобы регрессии были значимыми, они должны:
- Использовать количественные переменные
- Быть линейными
- Не содержать выбросов
Как и корреляция, линейная регрессия отображается на диаграмме рассеяния
Линия регрессии на диаграмме рассеяния – это наиболее подходящая прямая линия, которая проходит через точки на диаграмме рассеяния. Другими словами, это линия, которая проходит через точки с наименьшим расстоянием от каждой из них до линии (поэтому в некоторых учебниках вы можете встретить название «регрессия наименьших квадратов»).
Почему эта линия так полезна? Мы можем использовать вычисление линейной регрессии для вычисления или прогнозирования нашего значения Y, если у нас есть известное значение X.
Чтобы было понятнее, давайте рассмотрим пример.
Пример регрессии
Представьте, что вы хотите предсказать, сколько вам нужно будет заплатить, чтобы купить дом площадью 1,500 квадратных футов.
Давайте используем для этого линейную регрессию.
- Поместите переменную, которую вы хотите прогнозировать, цену на жилье, на ось Y (зависимая переменная).
- Поместите переменную, на которой вы основываете свои прогнозы, квадратные метры, на ось x (независимая переменная).
Вот диаграмма рассеяния, показывающая цены на жилье (ось Y) и площадь в квадратных футах (ось x).
Вы можете видеть, что дома с большим количеством квадратных футов, как правило, стоят дороже, но сколько именно вам придется потратить на дом размером 1500 квадратных футов?
Диаграмма рассеяния цен на дома и квадратных метров
Чтобы помочь вам ответить на этот вопрос, проведите линию через точки. Это и будет линия регрессии. Линия регрессии поможет вам предсказать, сколько будет стоить типовой дом определенной площади в квадратных метрах. В этом примере вы можете видеть уравнение для линии регрессии.
Уравнение линии регрессии
Уравнение линии регрессии: Y = 113x + 98,653 (с округлением).
Что означает это уравнение? Если вы купили просто место без площади (пустой участок), цена составит 98,653 доллара. Вот как можно решить это уравнение:
Чтобы найти Y, умножьте значение X на 113, а затем добавьте 98,653. В этом случае мы не смотрим на квадратные метры, поэтому значение X равно «0».
- Y = (113 * 0) + 98,653
- Y = 0 + 98,653
- Y = 98,653
Значение 98,653 называется точкой пересечения по оси Y, потому что здесь линия пересекает ось Y. Это – значение Y, когда X равно «0».
Но что такое 113? Число «113» – это наклон линии. Наклон – это число, которое описывает как направление, так и крутизну линии. В этом случае наклон говорит нам, что за каждый квадратный фут цена дома будет расти на 113 долларов.
Итак, сколько вам нужно будет потратить на дом площадью 1500 квадратных футов?
Y = (113 * 1500) + 98,653 = $268,153
Взгляните еще раз на эту диаграмму рассеяния. Синие отметки – это фактические данные. Вы можете видеть, что у вас есть данные для домов площадью от 1100 до 2450 квадратных футов.
Насколько можно быть уверенным в результате, используя приведенное выше уравнение, чтобы спрогнозировать цену дома площадью в 500 квадратных футов? Насколько можно быть уверенным в результате, используя приведенное выше уравнение, чтобы предсказать цену дома площадью 10,000 квадратных футов?
Поскольку оба этих измерения находятся за пределами диапазона фактических данных, вам следует быть осторожными при прогнозировании этих значений.
Величина достоверности аппроксимации
Наведите курсор на линию регрессии, чтобы увидеть значение величины достоверности аппроксимации r.
В дополнение к уравнению в этом примере мы также видим значение величины достоверности аппроксимации r (также известная как коэффициент детерминации).
Это значение является статистической мерой того, насколько близки данные к линии регрессии или насколько хорошо модель соответствует вашим наблюдениям. Если данные находятся точно на линии, значение величины достоверности аппроксимации будет 1 или 100%, и это означает, что ваша модель идеально подходит (все наблюдаемые точки данных находятся на линии).
Для наших данных о ценах на жилье значение величины достоверности аппроксимации составляет 0,70, или 70%.
Корреляция против причинно-следственной связи
Теперь давайте рассмотрим, как отличить линейную регрессию от корреляции.
Линейная регрессия
- Показывает линейную модель и прогноз, прогнозируя Y из X.
- Использует величину достоверности аппроксимации для измерения процента вариации, которая объясняется моделью.
- Не использует X и Y как взаимозаменяемые значения (поскольку Y предсказывается из X).
Корреляция
- Показывает линейную зависимость между двумя значениями.
- Использует r для измерения силы и направления корреляции.
- Использует X и Y как взаимозаменяемые значения.
Готовы проверить свои знания? В следующем упражнении определите, чему соответствует каждое из описаний: корреляции или регрессии.
Варианты для категорий: «корреляция» или «регрессия».
Измеряется величиной достоверности аппроксимации
Прогнозирует значения Y на основе значений X.
Не предсказывает значения Y из значений X, только показывает взаимосвязь.
Переменные оси X и Y взаимозаменяемы.
Измеряется r
Если поменять местами X и Y, результаты анализа изменятся.
Резюме
Итак, здесь вы познакомились со статистическими концепциями корреляции и регрессии. Это поможет вам лучше исследовать и понимать данные, с которыми вы работаете, путем изучения взаимосвязей в них.
#dataliteracy, #информационная грамотность, #DataLiteracyProject
Следующая статья: Дополнительно
это, определение слова, понятие. Что такое Регрессия, значение, словарь, энциклопедия
Философский словарь
— переход к менее сложным, менее структурно упорядоченным, менее дифференцированным способам выражения и поведения; предполагает возврат субъекта к уже пройденным этапам развития. При ряде условий происходит возврат к предыдущим формам развития мысли, объектных отношений,…
Новейший философский словарь
РЕГРЕССИЯ (лат regressio — движение назад) — 1) в наиболее распространенном значении — процесс, механизм и результат возвращения объекта в своей эволюции к ранее пройденным этапам, состояниям, формам и способам функционирования; 2) в психологии — форма и механизм психической…
Психологический словарь
— форма психологической защиты — . Характеризуется тем, что при ее реализации происходит возврат к более примитивным формам поведения — и мышления — , которые были свойственны для более ранней стадии онтогенетического развития.
Психологическая энциклопедия
(Regression). Защитный механизм, который проявляется в виде возврата к более раннему уровню развития, то есть к более примитивному или ребячливому способу самовыражения.
Психологическая энциклопедия
(Regression; Regression) — возвратное движениелибидо к более раннему способу адаптации, часто сопровождаемому инфантильными фантазиями и желаниями.», со своей стороны, выступает как адаптация к условиям внутреннего мира, вытекающая из жизненной потребности удовлетворять…
Психологическая энциклопедия
(лат. regredere — движение вспять) [Freud S., 1900]. Один из механизмов психологической защиты, при котором субъект возвращается к формам поведения, типичным для предшествующих стадий его развития. В трудных ситуацияхчеловек, подобно ребенку, проявляет свою зависимость от…
Психологическая энциклопедия
Очень многозначный термин в психологии. Основное его значение — возвращение, движение назад, отступление; противоположностьпрогрессу. Таким образом: 1. Возвращение к более ранней, более примитивной или более детской модели поведения. Когда термин употребляется в этом смысле,…
Психологическая энциклопедия
Любая нелинейная регрессия, в которой уравнение регрессии для изменений в одной переменной (у) как функции t изменений в другой (х) является квадратичным, кубическим или уравнение более высокого порядка. Хотя математически всегда возможно получить уравнение регрессии, которое…
Психологическая энциклопедия
Любая регрессия, которая представлена линейным уравнением регрессии. Линейные регрессии всегда представляются прямыми линиями; ср. с криволинейной регрессией.
Психологическая энциклопедия
Регрессия, вызванная при помощи гипноза. Этот феномен был предметом дискуссий. Некоторые утверждали, что истинная регрессия (1) фактически происходит при обстоятельствах, отличных от тех, когда загипнотизированный субъект просто отыгрывает (то есть подражает) свое незрелое…
Что такое регрессия программного обеспечения?
Программная регрессия — это ошибка в программном программировании, которая приводит к эффективной регрессии программного обеспечения в одной или нескольких областях. Существует два основных типа программного регресса: функциональный и нефункциональный. Функциональный означает, что программа работает с правильной скоростью, но одна или несколько функций не работают, в то время как нефункциональный означает, что все функции работают, но скорость резко снижается. Событие, такое как обновление, обычно является причиной регрессии. Регрессионное тестирование проверяет программное обеспечение, чтобы убедиться в отсутствии регрессии.
Функциональная программная регрессия — это один из способов проявления программной регрессии. Когда это произойдет, программа продолжит работу на полной скорости, поэтому пользователь может сначала не заметить регресс. В этом проявлении есть определенные функции, которые больше не работают. Например, если программа может искать файлы, эта функция может больше не работать. Это может повлиять на вспомогательные функции — те, которые обычно не используются — или на основную функцию программы.
Нефункциональная программная регрессия более опасна и ее легче заметить, хотя все функции все еще работают. В этом случае регрессия замедляет выполнение программы, иначе вывод программы будет значительно меньше. Недостаток скорости означает, что программа также может стать уязвимой для злонамеренного кодирования и атак, в результате чего как программа, так и компьютер, на котором она запущена, подвергаются риску взлома. Скорость может стать настолько низкой, что использование программы может оказаться невозможным.
Чтобы произошла регрессия программного обеспечения, должно произойти так называемое событие. Это событие меняет код программного обеспечения и вводит эти ошибки, преднамеренно — что редко — или непреднамеренно. Разработчик может пытаться исправить ошибку или обновить версию, но неправильно вводит некоторый код, который ограничивает программу. Наиболее типичным событием является обновление, поскольку это напрямую влияет на кодирование программы. Другие события включают изменения версии или конфигурации.
Чтобы снизить вероятность регрессии программного обеспечения, обычно используется регрессионное тестирование. Этот тип тестирования смотрит на новую программу и сравнивает ее со всеми старыми версиями программы. Затем он запускает программирование через тест, чтобы увидеть, есть ли какие-либо признаки регрессии, и убедиться, что все кодирование функционирует. Любые признаки регрессивного или неработающего кода будут возвращены разработчику или пользователю и сообщат о том, что регрессировало или где регрессия обнаружена.
ДРУГИЕ ЯЗЫКИ
Логистическая регрессия | BaseGroup Labs
Логистическая регрессия – популярный алгоритм построения моделей бинарной классификации и вероятностного предсказания. С помощью данного обработчика можно оценивать вероятность того, что событие наступит для конкретного объекта (больной/здоровый, возврат кредита/дефолт…).
Примеры применения
Кредитный скоринг. С помощью данного алгоритма решается одна из ключевых задач управления кредитными рисками в банковской сфере — оценка кредитоспособности заемщиков. Согласно опросам риск-аналитиков, 99% моделей анкетного скоринга сегодня строится на базе логистической регрессии.
Оценка диагностических тестов. С помощью алгоритма можно подобрать оптимальные пороги диагностических показателей, оценить чувствительность и специфичность модели, рассчитать ложноположительные и ложноотрицательные результаты. Это позволяет сделать тесты более эффективными в сравнении с традиционными методиками.
Диагностика финансового состояния. Алгоритм оценивает зависимость состояния предприятия от показателей финансовой устойчивости, ликвидности, рентабельности, деловой активности. Это позволяет предупреждать возможности возникновения кризисной ситуации, сохранить устойчивое финансовое состояние и повысить эффективность предпринимательской деятельности.
Описание алгоритма
Логистическая регрессия – это разновидность множественной регрессии, предназначенная для классификации записей на основании значений входных полей. При этом выходная переменная является категориальной или бинарной (т.е. может принимать только два значения).
В бинарной классификации каждый объект или наблюдение должны быть отнесены к одному из двух классов (например, А и Б). Тогда с каждым исходом связано событие: объект принадлежит к классу А и объект принадлежит к классу Б. Результатом будет оценка вероятности соответствующего исхода.
Если в процессе анализа будет установлено, что вероятность принадлежности объекта с заданным набором значений признаков (входных переменных) к классу А больше, чем вероятность его принадлежности к классу Б, то он будет классифицирован, как объект класса А.
Например, если рассматривается исход по займу, задается переменная y со значениями 1 и 0, где 1 означает, что соответствующий заемщик расплатился по кредиту, а 0, что имел место дефолт.
Несомненным преимуществом логистической регрессии является наличие эффективного инструмента оценки качества моделей — ROC-анализа.
Подробнее алгоритм и ROC-анализ описан в статье «Логистическая регрессия и ROC-анализ — математический аппарат».
Определение регрессии
Что такое регрессия?
Регрессия — это статистический метод, используемый в финансах, инвестициях и других дисциплинах, который пытается определить силу и характер взаимосвязи между одной зависимой переменной (обычно обозначаемой Y) и рядом других переменных (известных как независимые переменные).
Регрессия помогает инвестиционным и финансовым менеджерам оценивать активы и понимать взаимосвязь между переменными, такими как цены на сырьевые товары и акции предприятий, занимающихся этими товарами.
Объяснение регрессии
Двумя основными типами регрессии являются простая линейная регрессия и множественная линейная регрессия, хотя существуют методы нелинейной регрессии для более сложных данных и анализа. Простая линейная регрессия использует одну независимую переменную для объяснения или прогнозирования результата зависимой переменной Y, тогда как множественная линейная регрессия использует две или более независимых переменных для прогнозирования результата.
Регрессия может помочь специалистам в области финансов и инвестиций, а также специалистам в других сферах бизнеса.Регрессия также может помочь прогнозировать продажи компании на основе погоды, предыдущих продаж, роста ВВП или других типов условий. Модель оценки капитальных активов (CAPM) — это часто используемая регрессионная модель в финансах для оценки активов и определения стоимости капитала.
Общая форма каждого типа регрессии:
- Простая линейная регрессия: y = A + BX + U
- Множественная линейная регрессия: y = A + B 1 x 1 + B 2 x 2 + B 3 X 3 + … + б т Х т + у
Где:
- Y = переменная, которую вы пытаетесь предсказать (зависимая переменная).
- X = переменная, которую вы используете для прогнозирования Y (независимая переменная).
- а = точка пересечения.
- b = уклон.
- u = остаток регрессии.
Существует два основных типа регрессии: простая линейная регрессия и множественная линейная регрессия.
Регрессия берет группу случайных величин, которые, как считается, предсказывают Y, и пытается найти математическую связь между ними.Эта зависимость обычно представляет собой прямую линию (линейная регрессия), которая лучше всего аппроксимирует все отдельные точки данных. При множественной регрессии отдельные переменные различаются с помощью индексов.
Ключевые выводы
- Регрессия помогает инвестиционным и финансовым менеджерам оценивать активы и понимать отношения между переменными
- Регрессия может помочь специалистам в области финансов и инвестиций, а также специалистам в других сферах бизнеса.
Реальный пример использования регрессионного анализа
Регрессия часто используется для определения того, сколько конкретных факторов, таких как цена товара, процентные ставки, конкретные отрасли или сектора, влияют на движение цены актива. Вышеупомянутый CAPM основан на регрессии и используется для прогнозирования ожидаемой доходности акций и определения стоимости капитала. Доходность акции регрессируется по сравнению с доходностью более широкого индекса, такого как S&P 500, для получения коэффициента бета для конкретной акции.
Бета — это риск акции по отношению к рынку или индексу, который отражается в виде наклона в модели CAPM. Доходность рассматриваемой акции будет зависимой переменной Y, а независимой переменной X будет премия за рыночный риск.
Дополнительные переменные, такие как рыночная капитализация акций, коэффициенты оценки и недавняя доходность, могут быть добавлены в модель CAPM, чтобы получить более точные оценки доходности. Эти дополнительные факторы известны как факторы Фама-Френча, названные в честь профессоров, которые разработали модель множественной линейной регрессии для лучшего объяснения доходности активов.
Определение регрессии— Voxco
Существует два основных типа регрессии:
- Простая линейная регрессия : В этом типе регрессии есть только одна переменная x и одна переменная y.
- Множественная линейная регрессия : В этом типе регрессии имеется одна переменная y и две или более переменных x.
Важно отметить, что вышеупомянутые регрессии являются методами линейной регрессии и не могут использоваться для нелинейных данных.Линейная регрессия включает в себя связывание переменных прямой линией, в то время как нелинейная регрессия связывает переменные в нелинейной (кривой) зависимости. Для более сложных данных и анализа существуют другие методы нелинейной регрессии.
Простая линейная регрессияПростая линейная регрессия предполагает использование одной независимой переменной (x) для объяснения результата зависимой переменной (y).
Формула простой линейной регрессии:
Y = a + bX + u
Где,
- Y = переменная, которую вы пытаетесь предсказать (зависимая переменная).
- X = переменная, которую вы используете для прогнозирования Y (независимая переменная).
- а = точка пересечения.
- b = уклон.
- u = остаток регрессии
Чтобы понять, когда уместно использовать линейную регрессию, давайте рассмотрим следующий пример:
Если бы мы предположили, что рост является единственным определяющим фактором массы тела, мы могли бы использовать простую модель линейной регрессии. предсказать или объяснить влияние изменения роста на вес.
Множественная линейная регрессияМножественная линейная регрессия предполагает использование двух или более независимых переменных (x) для объяснения результата зависимой переменной (y).
Формула множественной линейной регрессии выглядит следующим образом:
Y = a + b1X1 + b2X2 + b3X3 + … + btXt + u
Множественная линейная регрессия используется, когда простой линейной регрессии недостаточно для учета множества реальных жизненные факторы, влияющие на результат зависимой переменной.
Продолжим предыдущий пример с ростом и весом. На самом деле рост не является единственным фактором, определяющим вес. На вес человека влияет множество различных факторов, таких как диета и физические упражнения, поэтому более реалистичная модель будет содержать несколько переменных x (независимая переменная).
Методы регрессии в машинном обучении
Обзор
- Узнайте о различных типах регрессии в машинном обучении, включая линейную и логистическую регрессию
- Каждый метод регрессии имеет собственное уравнение регрессии и коэффициенты регрессии
- В этой статье мы рассмотрим 7 различных типов регрессии
Введение
Линейная и логистическая регрессии обычно являются первыми алгоритмами, которые люди изучают в науке о данных.Из-за их популярности многие аналитики даже думают, что это единственная форма регрессии. Те, кто вовлечен чуть больше, считают, что они наиболее важны среди всех форм регрессионного анализа.
Правда в том, что существует бесчисленное множество форм регрессий, которые можно выполнить. Каждая форма имеет свое значение и особые условия, в которых они лучше всего подходят для применения. В этой статье я просто объяснил 7 наиболее часто используемых типов регрессии в науке о данных.
Благодаря этой статье я также надеюсь, что люди разовьют представление о широте регрессий, вместо того, чтобы просто применять линейную/логистическую регрессию к каждой проблеме машинного обучения, с которой они сталкиваются, и надеяться, что они просто подойдут!
У нас также есть видеоформат основного метода регрессионного анализа в следующем бесплатном курсе — Основы регрессионного анализа
А если вы новичок в науке о данных и ищете место, с которого можно начать свое путешествие, у нас есть несколько комплексных курсов, которые могут вас заинтересовать-
Содержание
- Что такое регрессионный анализ?
- Почему мы используем регрессионный анализ?
- Какие существуют типы регрессий?
- Линейная регрессия
- Логистическая регрессия
- Полиномиальная регрессия
- Пошаговая регрессия
- Регрессия хребта
- Регрессия Лассо
- Регрессия ElasticNet
- Как выбрать правильную модель регрессии?
Что такое регрессионный анализ?
Регрессионный анализ — это форма метода прогнозного моделирования, который исследует взаимосвязь между зависимой (целевой) и независимой переменной (-ями) (предиктор).Этот метод используется для прогнозирования, моделирования временных рядов и поиска причинно-следственной связи между переменными. Например, взаимосвязь между необдуманным вождением и количеством дорожно-транспортных происшествий с участием водителя лучше всего изучать с помощью регрессии.
Регрессионный анализ — важный инструмент для моделирования и анализа данных. Здесь мы подгоняем кривую/линию к точкам данных таким образом, чтобы разница между расстояниями между точками данных и кривой или линией была сведена к минимуму.Я объясню это более подробно в следующих разделах.
Почему мы используем регрессионный анализ?
Как упоминалось выше, регрессионный анализ оценивает взаимосвязь между двумя или более переменными. Давайте разберемся с этим на простом примере:
.Допустим, вы хотите оценить рост продаж компании исходя из текущих экономических условий. У вас есть последние данные компании, которые показывают, что рост продаж примерно в два с половиной раза превышает рост экономики.Используя это понимание, мы можем прогнозировать будущие продажи компании на основе текущей и прошлой информации.
Использование регрессионного анализа дает множество преимуществ. Они следующие:
- Указывает на существенных взаимосвязей между зависимой переменной и независимой переменной.
- Указывает силу воздействия нескольких независимых переменных на зависимую переменную.
Регрессионный анализ также позволяет нам сравнивать влияние переменных, измеренных в разных масштабах, таких как влияние изменения цен и количество рекламных мероприятий.Эти преимущества помогают исследователям рынка/аналитикам данных/специалистам по обработке и анализу данных исключить и оценить лучший набор переменных, который будет использоваться для построения прогностических моделей.
Сколько типов методов регрессии у нас есть?
Существуют различные виды регрессионных методов для прогнозирования. Эти методы в основном основаны на трех показателях (количество независимых переменных, тип зависимых переменных и форма линии регрессии). Мы подробно обсудим их в следующих разделах.
Для творческих людей можно даже придумать новые регрессии, если вы чувствуете необходимость использовать комбинацию параметров выше, которые люди не использовали раньше. Но прежде чем вы начнете, давайте разберемся с наиболее часто используемыми регрессиями:
1. Линейная регрессия
Это один из самых широко известных методов моделирования. Линейная регрессия обычно входит в число первых тем, которые люди выбирают при изучении прогнозного моделирования.В этом методе зависимая переменная является непрерывной, независимая переменная (переменные) может быть непрерывной или дискретной, а характер линии регрессии является линейным.
Линейная регрессия устанавливает связь между зависимой переменной (Y) и одной или несколькими независимыми переменными (X) с использованием прямой линии наилучшего соответствия (также известной как линия регрессии).
Представляется уравнением Y=a+b*X + e , где a — точка пересечения, b — наклон линии, а e — член ошибки.Это уравнение можно использовать для прогнозирования значения целевой переменной на основе заданных переменных-предикторов.
Разница между простой линейной регрессией и множественной линейной регрессией заключается в том, что множественная линейная регрессия имеет (> 1) независимых переменных, тогда как простая линейная регрессия имеет только 1 независимую переменную. Теперь возникает вопрос: «Как нам получить линию наилучшего соответствия?».
Как получить линию наилучшего соответствия (значение a и b)?
Эту задачу легко решить методом наименьших квадратов.Это наиболее распространенный метод подбора линии регрессии. Он вычисляет наиболее подходящую линию для наблюдаемых данных путем минимизации суммы квадратов вертикальных отклонений от каждой точки данных до линии. Поскольку отклонения сначала возводятся в квадрат, при добавлении между положительными и отрицательными значениями нет компенсации.
Мы можем оценить производительность модели, используя метрику R-квадрат . Чтобы узнать больше об этих показателях, вы можете прочитать: Метрики производительности модели, часть 1, часть 2 .
Важные моменты:
- Должна быть линейная зависимость между независимыми и зависимыми переменными
- Множественная регрессия страдает от мультиколлинеарности, автокорреляции, гетероскедастичности .
- Линейная регрессия очень чувствительна к выбросам . Это может ужасно повлиять на линию регрессии и, в конечном итоге, на прогнозируемые значения.
- Мультиколлинеарность может увеличить дисперсию оценок коэффициентов и сделать оценки очень чувствительными к незначительным изменениям в модели.В результате оценки коэффициентов нестабильны
- В случае нескольких независимых переменных мы можем использовать прямой выбор , обратное исключение и пошаговый подход для выбора наиболее значимых независимых переменных.
2. Логистическая регрессия
Логистическая регрессия используется для определения вероятности события=Успеха и события=Неудачи. Мы должны использовать логистическую регрессию, когда зависимая переменная является бинарной (0/1, Истина/Ложь, Да/Нет) по своей природе.Здесь значение Y колеблется от 0 до 1 и может быть представлено следующим уравнением.
шансы = p/ (1-p) = вероятность возникновения события / вероятность отсутствия события ln(шансы) = ln(p/(1-p)) logit(p) = ln(p/(1-p)) = b0+b1X1+b2X2+b3X3....+bkXk
Выше p — вероятность наличия интересующей характеристики. Здесь вам следует задать вопрос: «Почему мы использовали логарифм в уравнении?».
Поскольку здесь мы работаем с биномиальным распределением (зависимая переменная), нам нужно выбрать функцию связи, которая лучше всего подходит для этого распределения.И это функция логит . В приведенном выше уравнении параметры выбираются так, чтобы максимизировать вероятность наблюдения выборочных значений, а не минимизировать сумму квадратов ошибок (как в обычной регрессии).
Важные моменты:
- Логистическая регрессия широко используется для задач классификации
- Логистическая регрессия не требует линейной зависимости между зависимыми и независимыми переменными. Он может обрабатывать различные типы взаимосвязей, поскольку применяет нелинейное логарифмическое преобразование к прогнозируемому отношению шансов 90 020.
- Чтобы избежать переподгонки и подгонки, мы должны включить все значимые переменные.Хорошим подходом для обеспечения этой практики является использование пошагового метода для оценки логистической регрессии .
- Требуется больших размеров выборки потому что оценки максимального правдоподобия менее эффективны при малых размерах выборки, чем обычные наименьшие квадраты
- Независимые переменные не должны коррелировать друг с другом, т. е. нет мультиколлинеарности . Однако у нас есть возможность включить эффекты взаимодействия категориальных переменных в анализ и в модель.
- Если значения зависимой переменной порядковые, то она называется Порядковая логистическая регрессия
- Если зависимая переменная является мультиклассовой, то она известна как Полиномиальная логистическая регрессия .
Примечание. Вы можете ознакомиться с приведенными выше методами регрессии в формате видео – Основы регрессионного анализа
3. Полиномиальная регрессия
Уравнение регрессии является уравнением полиномиальной регрессии, если мощность независимой переменной больше 1.2
В этом методе регрессии линия наилучшего соответствия не является прямой линией. Это скорее кривая, которая соответствует точкам данных.
Важные моменты:
- Хотя может возникнуть соблазн подобрать полином более высокой степени, чтобы получить меньшую ошибку, это может привести к переподгонке. Всегда стройте отношения, чтобы увидеть соответствие, и сосредоточьтесь на том, чтобы убедиться, что кривая соответствует характеру проблемы. Вот пример того, как может помочь построение графика:
- Особенно обратите внимание на изгибы к концам и посмотрите, имеют ли смысл эти формы и тенденции.Более высокие полиномы могут привести к странным результатам при экстраполяции.
4. Пошаговая регрессия
Эта форма регрессии используется, когда мы имеем дело с несколькими независимыми переменными. В этом методе выбор независимых переменных выполняется с помощью автоматического процесса, который включает вмешательство человека.
Этот подвиг достигается путем наблюдения за статистическими значениями, такими как R-квадрат, t-статистика и метрика AIC, чтобы различать важные переменные.Пошаговая регрессия в основном соответствует регрессионной модели, добавляя/удаляя сопутствующие переменные по одной за раз на основе указанного критерия. Некоторые из наиболее часто используемых методов пошаговой регрессии перечислены ниже:
- Стандартная пошаговая регрессия делает две вещи. Он добавляет и удаляет предикторы по мере необходимости для каждого шага.
- Прямой выбор начинается с наиболее значимого предиктора в модели и добавляет переменную для каждого шага.
- Обратное исключение начинается со всех предикторов в модели и удаляет наименее значимую переменную для каждого шага.
Целью этого метода моделирования является максимизация мощности предсказания с минимальным количеством предикторов. Это один из методов обработки многомерного набора данных.
5. Регрессия хребта
Ридж-регрессия — это метод, используемый, когда данные страдают от мультиколлинеарности (независимые переменные сильно коррелированы). В мультиколлинеарности, хотя оценки методом наименьших квадратов (OLS) несмещены, их дисперсия велика, что сильно отклоняет наблюдаемое значение от истинного значения.Добавляя степень смещения к оценкам регрессии, гребневая регрессия уменьшает стандартные ошибки.
Выше мы видели уравнение линейной регрессии. Помните? Это может быть представлено как:
у=а+ б*х
Это уравнение также содержит погрешность. Полное уравнение становится:
y=a+b*x+e (термин ошибки), [термин ошибки – это значение, необходимое для исправления ошибки прогноза между наблюдаемым и прогнозируемым значением]
=> у=а+у= а+ b1x1+ b2x2+....+e, для нескольких независимых переменных.
В линейном уравнении ошибки прогнозирования можно разложить на две подкомпоненты. Во-первых, из-за смещения , а во-вторых, из-за дисперсии . Ошибка прогноза может возникнуть из-за любого из этих двух или обоих компонентов. Здесь мы обсудим ошибку, вызванную дисперсией.
Регрессия хребта решает проблему мультиколлинеарности с помощью параметра усадки λ (лямбда). Посмотрите на уравнение ниже.
В этом уравнении есть два компонента.Первый — это член наименьших квадратов, а другой — лямбда суммы β2 (бета-квадрат), где β — коэффициент. Это добавляется к члену наименьших квадратов, чтобы уменьшить параметр, чтобы иметь очень низкую дисперсию.
Важные моменты:
- Допущения для этой регрессии такие же, как и для регрессии по методу наименьших квадратов, за исключением того, что не предполагается нормальность
- Регрессия хребта уменьшает значение коэффициентов, но не достигает нуля, что предполагает отсутствие функции выбора признаков
- Это метод регуляризации, использующий регуляризацию l2.
6. Лассо-регрессия
Подобно хребтовой регрессии, лассо (оператор наименьшего абсолютного сокращения и выбора) также снижает абсолютный размер коэффициентов регрессии. Кроме того, он способен уменьшить изменчивость и повысить точность моделей линейной регрессии. Посмотрите на приведенное ниже уравнение: регрессия Лассо отличается от регрессии гребня тем, что в ней используются абсолютные значения в штрафной функции, а не квадраты.Это приводит к наложению штрафа (или, что то же самое, к ограничению суммы абсолютных значений оценок) значений, в результате чего некоторые оценки параметров оказываются точно равными нулю. Чем больше применяемый штраф, тем больше оценки уменьшаются до абсолютного нуля. Это приводит к выбору переменной из заданных n переменных.
Важные моменты:
- Предположения для регрессии лассо такие же, как и для регрессии методом наименьших квадратов, за исключением того, что не следует предполагать нормальность
- Лассо-регрессия сужает коэффициенты до нуля (точно до нуля), что, безусловно, помогает при выборе признаков
- Лассо — это метод регуляризации, использующий регуляризацию l1
- Если группа предикторов сильно коррелирована, лассо выбирает только один из них и уменьшает остальные до нуля
7.Регрессия ElasticNet
ElasticNet представляет собой гибрид методов Lasso и Ridge Regression. Он обучается с помощью L1 и L2 в качестве регуляризатора. Эластичная сеть полезна, когда есть несколько взаимосвязанных функций. Lasso, скорее всего, выберет один из них случайным образом, в то время как эластичная сеть, скорее всего, выберет оба.
Практическое преимущество компромисса между Lasso и Ridge заключается в том, что он позволяет Elastic-Net унаследовать некоторую стабильность Ridge при вращении.
Важные моменты:
- Поощряет групповой эффект в случае сильно коррелированных переменных
- Нет ограничений на количество выбранных переменных
- Может страдать двойной усадкой
Помимо этих 7 наиболее часто используемых методов регрессии, вы также можете ознакомиться с другими моделями, такими как байесовская, экологическая и робастная регрессия.
Как выбрать правильную модель регрессии?
Жизнь обычно проста, когда знаешь всего одну-две техники. Один из известных мне учебных заведений говорит своим студентам: если результат непрерывен, применяйте линейную регрессию. Если он бинарный — используйте логистическую регрессию! Однако чем выше количество вариантов, доступных в нашем распоряжении, тем сложнее становится выбрать правильный. Аналогичный случай происходит с регрессионными моделями.
В рамках нескольких типов регрессионных моделей важно выбрать наиболее подходящий метод, основанный на типе независимых и зависимых переменных, размерности данных и других основных характеристиках данных.Ниже приведены ключевые факторы, которые следует учитывать при выборе правильной модели регрессии:
.- Исследование данных — неизбежная часть построения прогностической модели. Это должен быть ваш первый шаг перед выбором правильной модели, например определение взаимосвязи и влияния переменных .
- Чтобы сравнить качество подгонки для разных моделей, мы можем проанализировать различные показатели, такие как статистическая значимость параметров, R-квадрат, скорректированный r-квадрат, AIC, BIC и член ошибки. Еще один критерий Мэллоу Cp.По сути, это проверяет возможную предвзятость в вашей модели, сравнивая модель со всеми возможными подмоделями (или их тщательным отбором).
- Перекрестная проверка — лучший способ оценить модели, используемые для прогнозирования. Здесь вы делите свой набор данных на две группы (обучение и проверка). Простая среднеквадратичная разница между наблюдаемыми и прогнозируемыми значениями дает вам меру точности прогноза.
- Если в вашем наборе данных есть несколько смешанных переменных, вам не следует выбирать метод автоматического выбора модели, поскольку вы не хотите включать их в модель одновременно.
- Это также будет зависеть от вашей цели. Может случиться так, что менее мощную модель легче реализовать по сравнению с моделью с высокой статистической значимостью. Методы регуляризации регрессии
- (Lasso, Ridge и ElasticNet) хорошо работают в случае высокой размерности и мультиколлинеарности переменных в наборе данных.
Проекты
Теперь пришло время сделать решительный шаг и поиграть с некоторыми другими реальными наборами данных. Попробуйте методы, изученные в этом посте, на наборах данных, представленных в следующих практических задачах, и сообщите нам в разделе комментариев, как это сработало для вас!
Конец примечания
Надеюсь, к настоящему моменту вы получили общее представление о регрессии.Эти методы регрессии следует применять с учетом состояния данных. Один из лучших способов выяснить, какой метод использовать, — это проверить семейство переменных, то есть дискретных или непрерывных.
В этой статье я рассказал о 7 типах регрессии и некоторых ключевых фактах, связанных с каждым методом. Как новичок в этой отрасли, я бы посоветовал вам изучить эти методы, а затем применить их в своих моделях.
Для лучшего понимания рекомендуем наш бесплатный курс — Основы регрессионного анализа
Была ли эта статья полезной для вас? Поделитесь своим мнением/взглядом в разделе комментариев ниже.
Примечание. Обсуждение этой статьи продолжается на портале обсуждения AV. Присоединиться здесь!
Если вам нравится то, что вы только что прочитали, и вы хотите продолжить изучение аналитики, подпишитесь на наши электронные письма, следите за нами в Твиттере или лайкните нашу страницу в Facebook.
РодственныеЧто такое регрессионный анализ и зачем его использовать?
Alchemer — невероятно надежная программная платформа для онлайн-опросов. Он постоянно признается одним из лучших инструментов для проведения опросов, доступных на G2, FinancesOnline и других.Чтобы сделать это еще проще, мы создали серию блогов, которые помогут вам лучше понять, как получить максимальную отдачу от вашей учетной записи Alchemer.
Регрессионный анализ — это мощный статистический метод, позволяющий исследовать взаимосвязь между двумя или более интересующими переменными.
Хотя существует множество типов регрессионного анализа, по своей сути все они исследуют влияние одной или нескольких независимых переменных на зависимую переменную.
Регрессионный анализ дает подробные сведения, которые можно применить для дальнейшего улучшения продуктов и услуг.
Здесь, в Alchemer, мы предлагаем практические обучающие мероприятия, во время которых клиенты учатся тому, как стать суперпользователями нашего программного обеспечения.
Чтобы понять ценность этих учебных мероприятий, мы рассылаем участникам дополнительные опросы с целью узнать, что им понравилось, а что нет, и что мы можем улучшить для будущих занятий.
Данные, собранные в ходе этих опросов, позволяют нам измерить уровни удовлетворенности, которые наши посетители связывают с нашими мероприятиями, и какие переменные влияют на эти уровни удовлетворенности.
Может быть, это темы, затронутые на отдельных сессиях мероприятия? Продолжительность сеансов? Предоставляемые услуги питания или общественного питания? Стоимость участия? Любая из этих переменных может повлиять на уровень удовлетворенности посетителей.
Выполнив регрессионный анализ данных этого опроса, мы можем определить, повлияли ли эти переменные на общую удовлетворенность посетителей, и если да, то в какой степени.
Затем эта информация информирует нас о том, какие элементы сеансов были хорошо восприняты и на чем нам следует сосредоточить внимание, чтобы участники были более удовлетворены в будущем.
Что такое регрессионный анализ и что означает выполнение регрессии?
Регрессионный анализ — это надежный метод определения того, какие переменные влияют на интересующую тему. Процесс выполнения регрессии позволяет уверенно определить, какие факторы имеют наибольшее значение, какие факторы можно игнорировать и как эти факторы влияют друг на друга.
Чтобы полностью понять регрессионный анализ, необходимо понимать следующие термины:
- Зависимая переменная: Это основной фактор, который вы пытаетесь понять или предсказать.
- Независимые переменные: Это факторы, которые, по вашему предположению, влияют на вашу зависимую переменную.
В приведенном выше примере обучения работе с приложением удовлетворенность посетителей мероприятием является нашей зависимой переменной. Охватываемые темы, продолжительность сеансов, питание и стоимость билета — наши независимые переменные.
Как работает регрессионный анализ?
Для проведения регрессионного анализа вам потребуется определить зависимую переменную, на которую, как вы предполагаете, влияет одна или несколько независимых переменных.
Затем вам нужно будет создать полный набор данных для работы. Проведение опросов интересующей вас аудитории — отличный способ создать этот набор данных. Ваш опрос должен включать вопросы, касающиеся всех интересующих вас независимых переменных.
Давайте продолжим использовать наш пример обучения работе с приложением. В этом случае мы хотели бы измерить исторические уровни удовлетворенности событиями за последние три года или около того (или любой период времени, который вы считаете статистически значимым), а также любую возможную информацию в отношении независимых переменных.
Возможно, нам особенно любопытно, как цена билета на мероприятие повлияла на уровень удовлетворенности.
Чтобы начать исследовать, существует ли взаимосвязь между этими двумя переменными, мы начнем с нанесения этих точек данных на график, который будет выглядеть как следующий теоретический пример.
(Построение графика ваших данных — это первый шаг к выяснению того, есть ли связь между вашими независимыми и зависимыми переменными)
Наша зависимая переменная (в данном случае уровень удовлетворенности событием) должна быть нанесена на ось ординат, а наша независимая переменная (цена билета на мероприятие) должна быть нанесена на ось абсцисс.
После того, как ваши данные нанесены на график, вы можете начать видеть корреляции. Если бы приведенная выше теоретическая диаграмма действительно отражала влияние цен на билеты на удовлетворенность мероприятием, то мы могли бы с уверенностью сказать, что чем выше цена билета, тем выше уровень удовлетворенности мероприятием.
Но как определить, в какой степени цена билета влияет на удовлетворенность мероприятием?
Чтобы начать отвечать на этот вопрос, проведите линию через середину всех точек данных на диаграмме.Эта линия называется вашей линией регрессии, и ее можно точно рассчитать с помощью стандартной статистической программы, такой как Excel.
Мы снова воспользуемся теоретической диаграммой, чтобы изобразить, как должна выглядеть линия регрессии.
Линия регрессии представляет отношение между вашей независимой переменной и вашей зависимой переменной.
Excel даже предоставит формулу для наклона линии, которая добавит дополнительный контекст взаимосвязи между вашими независимыми и зависимыми переменными.
Формула для линии регрессии может выглядеть примерно так: Y = 100 + 7X + член ошибки .
Это говорит вам о том, что если «X» отсутствует, то Y = 100. Если X — это наше увеличение цены билета, это сообщает нам, что, если цена билета не увеличивается, удовлетворенность событием все равно увеличится на 100 баллов.
Вы заметите, что формула наклона, рассчитанная в Excel, включает погрешность. Линии регрессии всегда учитывают член ошибки, потому что в действительности независимые переменные никогда не являются точными предикторами зависимых переменных.Это имеет смысл, если посмотреть на влияние цен на билеты на удовлетворенность мероприятием — явно есть и другие переменные, которые влияют на удовлетворенность мероприятием помимо цены.
Ваша линия регрессии является просто оценкой, основанной на доступных вам данных. Таким образом, чем больше ваш член ошибки, тем менее определенно ваша линия регрессии.
Почему вашей организации следует использовать регрессионный анализ?
Регрессионный анализ — полезный статистический метод, который можно использовать в организации для определения степени влияния конкретных независимых переменных на зависимые переменные.
Возможные сценарии проведения регрессионного анализа для получения ценных и действенных бизнес-идей безграничны.
В следующий раз, когда кто-то в вашем бизнесе выдвинет гипотезу о том, что один фактор, независимо от того, можете ли вы контролировать этот фактор или нет, влияет на часть бизнеса, предложите провести регрессионный анализ, чтобы определить, насколько вы должны быть уверены в этом. гипотеза! Это позволит вам принимать более обоснованные бизнес-решения, более эффективно распределять ресурсы и, в конечном счете, увеличивать прибыль.
Что такое регрессионный анализ? Типы и области применения
Введение
Область искусственного интеллекта и машинного обучения должна покорить большинство человеческих дисциплин; от искусства и литературы к коммерции и социологии; от вычислительной биологии и анализа решений до игр и головоломок». ~Ананд Криш
Регрессионный анализ — это способ выявления тенденций в данных.
Например, вы можете догадаться, что существует связь между тем, сколько вы едите, и тем, сколько вы весите; регрессионный анализ может помочь вам количественно оценить это уравнение.
Регрессионный анализ предоставит вам уравнение для графика, чтобы вы могли делать прогнозы относительно ваших данных.
Например, если вы набирали вес в течение последних нескольких лет, он может предсказать, сколько вы будете весить через десять лет, если продолжите набирать вес с той же скоростью.
Он также предоставит вам множество статистических данных (включая p-значение и коэффициент корреляции), чтобы сказать вам, насколько точна ваша модель.
Введение в регрессионный анализ
Регрессионный анализ — это статистический метод анализа и понимания связи между двумя или более интересующими переменными. Методология, используемая для проведения регрессионного анализа, помогает понять, какие элементы являются важными, какие можно игнорировать и как они взаимодействуют друг с другом.
Регрессия — это статистический подход, используемый в финансах, инвестициях и других областях для определения силы и типа связи между одной зависимой переменной (обычно представляемой Y) и последовательностью других переменных (известных как независимые переменные).
Регрессионный анализ — это математический метод определения того, какой из этих факторов оказывает влияние. Он дает ответы на следующие вопросы:
Какие факторы наиболее важны
Какие из них мы можем игнорировать
Как эти элементы взаимодействуют друг с другом и, что наиболее важно, насколько мы уверены во всех этих переменных
Эти элементы называются переменными в регрессионном анализе.У вас есть зависимая переменная, которая является ключевым аспектом, который вы пытаетесь понять или спрогнозировать. Тогда есть ваши независимые переменные, которые являются элементами, которые, как вы предполагаете, влияют на вашу зависимую переменную.
(Наиболее связанный блог: 7 типов методов регрессии в машинном обучении)
Типы регрессионного анализа
Типы регрессионного анализа
Связь между зависимой переменной и одной независимой переменной описывается с использованием базовой методологии линейной регрессии.Модель простой линейной регрессии показывает отношение линейной или наклонной прямой линии, отсюда и название.
Простая линейная модель выражается с помощью следующего уравнения:
Y = а + bX + ϵ
Где:
- Y – зависимая переменная
- X – Независимая (объясняющая) переменная
- а – Перехват
- б – Склон
- ϵ – Остаток (ошибка)
Зависимая переменная должна быть непрерывной/действительной, что является наиболее важным компонентом простой линейной регрессии.С другой стороны, независимая переменная может быть оценена с использованием либо непрерывных, либо категориальных значений.
- Множественная линейная регрессия
Множественная линейная регрессия (MLR), часто называемая множественной регрессией, представляет собой статистический процесс, использующий несколько объясняющих факторов для прогнозирования результата переменной отклика.
MLR — это метод представления линейной зависимости между независимыми переменными и переменными отклика (зависимыми).
Математическое представление множественной линейной регрессии:
y=ß0+ ß1 x1+ …………..ßn xn + ϵ
Где y = предсказанное значение зависимой переменной
B0 = точка пересечения с осью Y
B1X1= B1 — это коэффициент регрессии первой независимой переменной X1 (влияние увеличения значения независимой переменной на прогнозируемое значение y обозначается как X1.)
… = Повторите для стольких независимых переменных, сколько вы тестируете.
BnXn = коэффициент регрессии последней независимой переменной
ϵ = ошибка модели (т.е. насколько гибка наша оценка y)
Для множественной линейной регрессии используются те же критерии, что и для одиночной линейной регрессии. Из-за огромного количества независимых переменных в множественной линейной регрессии есть дополнительная потребность в модели:
Отсутствие связи между двумя независимыми переменными с низкой корреляцией называется неколлинеарностью.Было бы трудно определить истинные корреляции между зависимыми и независимыми переменными, если бы независимые переменные были сильно коррелированы.
(Блог по теме: Коэффициент корреляции Пирсона «r»)
Разновидность регрессионного анализа, в котором данные подгоняются к модели, а затем отображаются в числовом виде, называется нелинейной регрессией.
Простая линейная регрессия связывает две переменные (X и Y) прямой линией (y = mx + b), тогда как нелинейная регрессия связывает две переменные (X и Y) нелинейной (кривой) связью.
Цель модели — минимизировать сумму квадратов, насколько это возможно. Сумма квадратов — это статистика, которая отслеживает, насколько наблюдения Y отличаются от нелинейной (кривой) функции, которая использовалась для прогнозирования Y.
Точно так же, как моделирование линейной регрессии направлено на графическое отслеживание конкретной реакции от набора факторов, моделирование нелинейной регрессии направлено на то же самое.
Поскольку функция создается серией приближений (итераций), которые могут зависеть от метода проб и ошибок, нелинейные модели разрабатывать сложнее, чем линейные модели.
Методология Гаусса-Ньютона и подход Левенберга-Марквардта являются двумя хорошо известными подходами, используемыми математиками.
(Обязательно проверить: Статистический анализ данных)
Какие приложения регрессионного анализа ?
Большая часть регрессионного анализа выполняется для выполнения процессов в области финансов. Итак, вот 5 приложений регрессионного анализа в области финансов и других, связанных с ним.
Применение регрессионного анализа
- Прогнозирование:
Чаще всего регрессионный анализ в бизнесе используется для прогнозирования будущих возможностей и угроз. Анализ спроса, например, прогнозирует количество вещей, которые клиент может купить.
Однако когда дело доходит до бизнеса, спрос не является единственной зависимой переменной.Регрессивный анализ может предвидеть значительно больше, чем просто прямой доход.
Например, мы можем предсказать самую высокую цену за рекламу, прогнозируя количество потребителей, которые пройдут перед определенным рекламным щитом.
Страховые компании в значительной степени полагаются на регрессионный анализ для прогнозирования кредитоспособности держателей полисов и суммы требований, которые могут быть поданы в определенный период времени.
- CAPM:
Модель оценки капитальных активов (CAPM), которая устанавливает связь между прогнозируемой доходностью актива и соответствующей премией за рыночный риск, основана на модели линейной регрессии.
Он также часто используется в финансовом анализе финансовыми аналитиками для прогнозирования корпоративной прибыли и операционных показателей.
Коэффициент бета акции рассчитывается с помощью регрессионного анализа. Бета — это мера волатильности доходности по отношению к общему рыночному риску.
Поскольку он отражает наклон регрессии CAPM, мы можем быстро вычислить его в Excel с помощью инструмента НАКЛОН.
- По сравнению с конкурентами:
Может использоваться для сравнения финансовых показателей компании с показателями определенного контрагента.
Его также можно использовать для определения взаимосвязи между курсами акций двух фирм (можно расширить, чтобы найти взаимосвязь между 2 конкурирующими компаниями, 2 компаниями, работающими в несвязанной отрасли и т. д.).
Он может помочь фирме определить, какие аспекты влияют на ее продажи, в отличие от сравнительной фирмы. Эти методы могут помочь малым предприятиям добиться быстрого успеха за короткий промежуток времени.
- Выявление проблем:
Регрессия полезна не только для получения фактических данных о выборе руководства, но и для обнаружения ошибок суждений.
Менеджер розничного магазина, например, может предположить, что увеличение времени работы магазинов значительно повысит продажи.
Однако RA может предположить, что увеличение дохода недостаточно для покрытия увеличения операционных расходов в результате увеличения продолжительности рабочего дня (например, дополнительных затрат на оплату труда сотрудников).
В результате это исследование может предоставить количественную поддержку выбора и помочь менеджерам избежать ошибок, основанных на их интуиции.
- Надежный источник
Многие компании и их топ-менеджеры в настоящее время применяют регрессионный анализ (и другие виды статистического анализа), чтобы принимать более эффективные бизнес-решения и уменьшить количество догадок и интуиции.
Регрессия позволяет фирмам применять научный подход к управлению. Как малые, так и крупные предприятия часто сталкиваются с чрезмерным объемом данных.
Менеджеры могут использовать регрессионный анализ для фильтрации данных и выбора соответствующих факторов для принятия наилучших возможных решений.
Заключение
В течение долгого времени регрессионный анализ широко использовался предприятиями для преобразования данных в полезную информацию, и он продолжает оставаться ценным активом для многих ведущих секторов.
Значение регрессионного анализа заключается в том, что все дело в данных: данные относятся к статистике и статистике, которые идентифицируют вашу компанию.
Преимущество регрессионного анализа заключается в том, что он позволяет существенно обработать данные, чтобы помочь вам принимать лучшие бизнес-решения сейчас и в будущем.
Простая линейная регрессия | Введение в статистику
Что такое простая линейная регрессия?
Простая линейная регрессия используется для моделирования связи между двумя непрерывными переменными.Часто цель состоит в том, чтобы предсказать значение выходной переменной (или отклика) на основе значения входной (или предиктора) переменной.
Когда использовать регрессию
Нам часто интересно понять взаимосвязь между несколькими переменными. Диаграммы рассеяния и матрицы диаграмм рассеяния можно использовать для изучения потенциальных взаимосвязей между парами переменных. Корреляция обеспечивает меру линейной связи между парами переменных, но не говорит нам о более сложных отношениях.Например, если связь криволинейная, корреляция может быть близка к нулю.
Вы можете использовать регрессию для более формального понимания отношений между переменными. В регрессии и статистическом моделировании в целом мы хотим смоделировать взаимосвязь между выходной переменной или откликом и одной или несколькими входными переменными или факторами.
В зависимости от контекста выходные переменные также могут называться зависимыми переменными, результатами или просто Y переменными, а входные переменные могут называться объясняющими переменными , эффектами , предикторами или X переменные .
Мы можем использовать регрессию и результаты регрессионного моделирования, чтобы определить, какие переменные влияют на реакцию или помогают объяснить реакцию. Это известно как объяснительное моделирование.
Мы также можем использовать регрессию для прогнозирования значений переменной отклика на основе значений важных предикторов. Обычно это называется прогнозным моделированием. Или мы можем использовать регрессионные модели для оптимизации, чтобы определить настройки факторов для оптимизации ответа.Наша цель оптимизации может состоять в том, чтобы найти настройки, которые приводят к максимальному или минимальному отклику. Или цель может состоять в том, чтобы поразить цель в пределах приемлемого окна.
Допустим, мы пытаемся повысить производительность процесса.
- Мы можем использовать регрессию, чтобы определить, какие переменные способствуют высокой производительности,
- Мы можем быть заинтересованы в прогнозировании производительности процесса для будущего производства, учитывая значения наших предикторов, или
- Мы можем захотеть определить параметры факторов, которые приводят к оптимальной производительности .
Мы также можем использовать знания, полученные с помощью регрессионного моделирования, для разработки эксперимента, который улучшит наши знания о процессах и приведет к дальнейшему совершенствованию.
Пример линейной регрессии
Рассмотрим пример, когда нас интересует очистка металлических деталей.
У нас есть 50 деталей с различными внутренними диаметрами, внешними диаметрами и шириной. Детали очищаются с использованием одного из трех типов контейнеров. Чистота является мерой твердых частиц на деталях.Это измеряется до и после прохождения деталей через процесс очистки. Интересующий ответ — удаление. В этом разница между мерами предварительной и последующей очистки.
Нас интересует, влияют ли внутренний диаметр, внешний диаметр, ширина детали и тип контейнера на чистоту, но нас также интересует природа этих эффектов. Отношение, которое мы разрабатываем, связывая предикторы с откликом, представляет собой статистическую модель или, точнее, регрессионную модель.
Термин регрессия описывает общий набор методов, используемых при моделировании реакции как функции предикторов. Единственные модели регрессии, которые мы рассмотрим в этом обсуждении, — это линейные модели.
Ниже показан пример линейной модели для данных очистки.
В этой модели при увеличении наружного диаметра на 1 единицу при неизменной ширине удаление увеличивается на 1,2 единицы. Аналогичным образом, если ширина детали увеличивается на 1 единицу, а наружный диаметр остается фиксированным, удаление увеличивается на 0.2 единицы. Эта модель позволяет прогнозировать удаление деталей с заданными внешними диаметрами и шириной.
Например, прогнозируемый съем для деталей с внешним диаметром 5 и шириной 3 составляет 16,6 единиц. В этом примере у нас есть два непрерывных предиктора. Когда используется более одного предиктора, процедура называется множественной линейной регрессией .
Когда используется только один непрерывный предиктор, мы называем процедуру моделирования простой линейной регрессией .В оставшейся части этого обсуждения мы сосредоточимся на простой линейной регрессии.
Диаграмма рассеяния показывает, что существует довольно сильная положительная связь между удалением и OD (наружный диаметр). Чтобы понять, можно ли использовать OD для прогнозирования или оценки удаления, мы подгоняем линию регрессии. Подогнанная линия оценивает среднее значение удаления для заданного фиксированного значения OD. Значение 4,099 — это точка пересечения, а 0,528 — коэффициент наклона. Точка пересечения, которая используется для закрепления линии, оценивает удаление, когда внешний диаметр равен нулю.Поскольку диаметр не может быть равен нулю, точка пересечения не представляет прямого интереса.
Коэффициент наклона оценивает среднее увеличение удаления при увеличении наружного диаметра на 1 единицу. То есть на каждую единицу увеличения наружного диаметра удаление увеличивается в среднем на 0,528 единицы.
Модель простой линейной регрессии
В приведенном выше примере мы собрали данные по 50 деталям. Мы подгоняем регрессионную модель для прогнозирования удаления в зависимости от OD деталей.Но что, если бы мы выбрали другой набор из 50 частей и построили линию регрессии, используя эти данные? Приведет ли это к тому же уравнению регрессии? Сопоставляя линию регрессии с наблюдаемыми данными, мы пытаемся оценить истинную, неизвестную связь между переменными. Это подобранное уравнение регрессии является лишь одной оценкой истинной линейной модели. На самом деле истинная линейная модель неизвестна.
В простой линейной регрессии мы предполагаем, что для фиксированного значения предиктора X среднее значение ответа Y является линейной функцией X.Мы обозначаем эту неизвестную линейную функцию уравнением, показанным здесь, где b 0 — точка пересечения, а b 1 — наклон. Линия регрессии, которую мы подгоняем к данным, является оценкой этой неизвестной функции.
Уравнение подобранной линии обозначается следующим уравнением:
Здесь b 0 и b 1 — оценки бета 0 и бета 1 соответственно. Обозначение $ \hat{Y} $ (в данном случае Y = Удаление ) указывает на то, что ответ оценивается на основе данных и что это не фактическое наблюдение.В примере очистки точка пересечения b 0 равна 4,099, а наклон b 1 равен 0,528.
Если мы выберем другой образец деталей, наша подгоночная линия будет другой. Для иллюстрации мы используем обучающий модуль «Демонстрация регрессии» в каталоге примеров сценариев JMP.
Регрессия и дисперсионный анализ
Давайте сравним регрессию и ANOVA. В простой линейной регрессии и ответ, и предиктор непрерывны. В ANOVA ответ является непрерывным, но предиктор или фактор является номинальным.Результаты связаны статистически. В обоих случаях мы строим общую линейную модель. Но цели анализа разные.
Регрессия дает нам статистическую модель, которая позволяет предсказывать ответ при различных значениях предиктора, включая значения предиктора, не включенные в исходные данные.
ANOVA измеряет среднее смещение отклика для различных категорий фактора. Таким образом, он обычно используется для сравнения средних значений для разных уровней фактора.
Главная Онлайн-помощь Анализ Введение в регрессию ВведениеРегрессионный анализ используется, когда вы хотите предсказать непрерывную зависимость переменная из ряда независимых переменных. Если зависимая переменная дихотомически, то следует использовать логистическую регрессию. (Если разрыв между двух уровней зависимой переменной близко к 50-50, то и логистическая, и линейная регрессия в конечном итоге даст вам аналогичные результаты.) Независимый переменные, используемые в регрессии, могут быть либо непрерывными, либо дихотомическими. Независимые переменные с более чем двумя уровнями также могут использоваться в регрессии. анализы, но их сначала нужно преобразовать в переменные, имеющие только два уровни. Это называется фиктивным кодированием и будет обсуждаться позже. Как правило, регрессионный анализ используется с естественными переменными, в отличие от экспериментально управляемые переменные, хотя вы можете использовать регрессию с экспериментально управляемые переменные.Один момент, о котором следует помнить при регрессии Анализ заключается в том, что причинно-следственные связи между переменными не могут быть определены. Хотя терминология такова, что мы говорим, что X «предсказывает» Y, мы не можем сказать что X «вызывает» Y. Допущения регрессииКоличество ящиковПри выполнении регрессии отношение случаев к независимым переменным (IV) должно в идеале 20:1; то есть 20 случаев для каждого IV в модели.Самый низкий ваш соотношение должно быть 5:1 (т. е. 5 случаев для каждой IV в модели). Точность данныхЕсли вы ввели данные (а не использовали установленный набор данных), это хорошая идея проверить правильность ввода данных. Если вы не хотите перепроверять каждой точки данных, вы должны, по крайней мере, проверить минимальное и максимальное значение для каждую переменную, чтобы убедиться, что все значения для каждой переменной являются «действительными». За Например, переменная, измеряемая по шкале от 1 до 5, не должна иметь значение 8. Отсутствующие данныеВы также хотите найти недостающие данные. Если конкретные переменные имеют много отсутствующие значения, вы можете принять решение не включать эти переменные в свой анализ. Если только в нескольких случаях отсутствуют какие-либо значения, вы можете удалить их. случаи. Если отсутствуют значения для нескольких наблюдений разных переменных, то вы, вероятно, не хотите удалять эти дела (потому что многие ваши данные будет потерян).Если не слишком много недостающих данных и не кажется быть каким-либо шаблоном с точки зрения того, чего не хватает, то вам действительно не нужно волноваться. Просто запустите свою регрессию, и любые случаи, которые не имеют значений для переменные, используемые в этой регрессии, не будут включены. Хотя заманчиво, сделайте не предполагайте, что шаблона нет; проверьте это. Для этого отделите набор данных на две группы: те случаи, когда отсутствуют значения для определенной переменной, и те, у которых нет значения для этой переменной.Используя t-тесты, вы можете определить, две группы различаются по другим переменным, включенным в выборку. Например, вы можете обнаружить, что случаи, в которых отсутствуют значения для переменной «зарплата», моложе, чем те случаи, которые имеют значения для заработной платы. Вы хотели бы сделать t-тесты для каждой переменной с большим количеством пропущенных значений. если есть систематическая разница между двумя группами (т. е. пропущенные значения группы по сравнению с группа не пропускает значения), то вам нужно помнить об этом, когда интерпретировать ваши выводы и не обобщать. Изучив свои данные, вы можете решить, что хотите заменить отсутствующие значения с каким-либо другим значением. Проще всего использовать в качестве замещающего значения является средним значением этой переменной. В некоторых статистических программах есть опция регрессия, где вы можете заменить отсутствующее значение средним значением. В качестве альтернативы вы можете заменить групповое среднее (например, среднее для женщины), а не общее среднее значение. Параметр пакетов статистики по умолчанию — исключить отсутствующие случаи. значения для любой переменной, включенной в регрессию.(Но этот случай может быть включены в другую регрессию, если в ней не было пропущенных значений ни по одному из переменные, включенные в этот анализ.) Вы можете изменить этот параметр, чтобы ваш регрессионный анализ не исключает случаи отсутствия данных для любого переменная, включенная в регрессию, но тогда у вас может быть другое число случаев для каждой переменной. ВыбросыВам также необходимо проверить свои данные на наличие выбросов (т.е., экстремальное значение на конкретный элемент) Выброс часто операционно определяется как значение, которое находится на уровне не менее чем на 3 стандартных отклонения выше или ниже среднего. Если вы чувствуете, что случаи которые произвели выбросы, не являются частью той же «популяции», что и другие случаях, то вы можете просто удалить эти дела. В качестве альтернативы вы можете хотите посчитать эти экстремальные значения как «отсутствующие», но сохраните случай для других переменные. В качестве альтернативы вы можете сохранить выброс, но уменьшить его экстремальность. Это.В частности, вы можете захотеть перекодировать значение, чтобы оно самое высокое (или самое низкое) значение, не являющееся выбросом. НормальностьВы также хотите убедиться, что ваши данные нормально распределены. Для этого вы может строить гистограммы и «смотреть» на данные, чтобы увидеть их распределение. Часто гистограмма будет включать линию, изображающую, как выглядела бы фигура, если бы распределение было действительно нормальным (и вы можете «на глазок», сколько фактического распределение отклоняется от этой линии).Эта гистограмма показывает, что возраст нормально распределенный: Вы также можете построить график нормальной вероятности. В этом сюжете фактический баллы ранжируются и сортируются, вычисляется ожидаемое нормальное значение и по сравнению с фактическим нормальным значением для каждого случая. Ожидаемое нормальное значение равно положение, которое случай с этим рангом занимает в нормальном распределении. Нормальный значение — это позиция, которую оно занимает в фактическом распределении. В принципе, вы бы нравится видеть, как ваши фактические значения выстраиваются вдоль диагонали, идущей от нижней слева направо вверх.Этот график также показывает, что возраст распределяется нормально: Вы также можете проверить нормальность в рамках регрессионного анализа, взглянув на сюжет «Остатков». Остатки – это разница между полученным и прогнозируемые показатели ДВ. (Остатки будут объяснены более подробно позже. раздел.) Если данные нормально распределены, то остатки должны быть нормально распределяется вокруг каждого прогнозируемого показателя DV. Если данные (и остатки) нормально распределены, диаграмма рассеяния остатков покажет большинство остатков в центре графика для каждого значения прогнозируемого счет, с некоторыми остатками, отстающими симметрично от центра.Ты мог бы хотите сделать остаточный график, прежде чем графически отображать каждую переменную отдельно, потому что, если этот график остатков выглядит хорошо, тогда вам не нужно делать отдельные графики. Ниже приведен остаточный график регрессии, где возраст пациента и время (в месяцев с момента постановки диагноза) используются для прогнозирования размера опухоли молочной железы. Эти данные не идеально нормально распределены в том смысле, что остатки относительно нулевой линии кажутся немного более разбросанными, чем те, что находятся ниже нулевой линии. Тем не менее, они кажутся довольно нормально распределенными. В дополнение к графическому анализу данных вы также можете статистически проверить нормальность данных. В частности, статистические программы, такие как SPSS рассчитает асимметрию и эксцесс для каждой переменной; экстремальное значение для любой из них сказал бы вам, что данные не распределены нормально. «Асимметрия» — это мера того, насколько симметричны данные; асимметричная переменная тот, среднее значение которого не находится в середине распределения (т.е., среднее и медианы совсем другие). «Куртозис» связан с тем, насколько распределение либо слишком пикообразное, либо слишком плоское. «Экстремальные значения» для асимметрии и эксцесс — значения больше +3 или меньше -3. Если какая-либо переменная не нормально распределенный, то вы, вероятно, захотите преобразовать его (что будет обсуждается в следующем разделе). Проверка на выбросы также поможет проблема нормальности. ЛинейностьРегрессионный анализ также предполагает линейность.Линейность означает, что существует прямая связь между IVs и DV. Этот предположение важно, потому что регрессионный анализ проверяет только линейную отношения между IVs и DV. Любая нелинейная связь между IV и DV игнорируются. Вы можете проверить линейность между IV и DV с помощью глядя на двумерную диаграмму рассеяния (т. е. график с IV на одной оси и DV с другой). Если две переменные связаны линейно, то диаграмма рассеяния будет овальным. Глядя на приведенную выше двумерную диаграмму рассеяния, вы можете видеть, что друзья линейно связанные со счастьем. В частности, чем больше у вас друзей, тем больше вы уровень счастья. Однако можно также представить, что может существовать криволинейные отношения между друзьями и счастьем, такие, что счастье увеличивается с количеством друзей до точки. Однако за пределами этой точки счастье снижается с большим количеством друзей.Об этом свидетельствуют график ниже: Вы также можете проверить линейность, используя остаточные графики, описанные ранее. Это связано с тем, что если IVs и DV линейно связаны, то связь между остатками и прогнозируемыми показателями DV будет линейной. Нелинейность проявляется, когда большая часть остатков находится выше нулевой линии. на графике при некоторых предсказанных значениях и ниже нулевой линии при других предсказанных ценности.Другими словами, общая форма сюжета будет изогнутые, а не прямоугольные. Ниже приведен график остатков, полученный, когда счастье предсказывалось по количеству друзей и возрасту. Как видите, данные не линейны: Ниже приведен пример графика остатков, снова предсказывающего счастье от друзья и возраст. Но в этом случае данные линейны: Если ваши данные нелинейны, то обычно вы можете сделать их линейными, преобразовав IV или DV так, чтобы между ними существовала линейная зависимость.Иногда преобразование одной переменной не сработает; IV и DV просто нелинейны Связанный. Если существует криволинейная связь между DV и IV, вы можете хотите дихотомизировать IV, потому что дихотомическая переменная может иметь только линейную связь с другой переменной (если она вообще имеет какую-либо связь). В качестве альтернативы, если существует криволинейная связь между IV и DV, тогда вам может понадобиться включить квадрат IV в регрессию (это также известный как квадратичная регрессия). Нарушение линейности в регрессии не так сильно обесценит ваш анализ. как ослабить его; коэффициент линейной регрессии не может полностью отразить степень криволинейной зависимости. Если есть криволинейная и линейная связь между IV и DV, то регрессия, по крайней мере, зафиксирует линейная зависимость. ГомоскедастичностьПредположение о гомоскедастичности состоит в том, что остатки приблизительно равны для всех прогнозируемых показателей DV.Другой способ думать об этом состоит в том, что вариабельность оценок для ваших IV одинакова при всех значениях DV. Ты сможешь проверьте гомоскедастичность, взглянув на тот же график остатков, о котором говорилось в участки линейности и нормальности. Данные гомоскедастичны, если на графике остатков имеет одинаковую ширину для всех значений прогнозируемого DV. Гетероскедастичность обычно показывается группой точек, которая шире, чем значения для прогнозируемый DV становится больше. Кроме того, вы можете проверить гомоскедастичность с помощью глядя на диаграмму рассеяния между каждым IV и DV.Как и в случае с графиком остатков, вы хотите, чтобы группа точек была примерно одинаковой ширины повсюду. То Следующий график остатков показывает данные, которые являются довольно гомоскедастичными. На самом деле это график остатков показывает данные, которые соответствуют предположениям о гомоскедастичности, линейность и нормальность (поскольку остаточный график прямоугольный, с концентрация точек по центру): Гетероскедазитичность может возникнуть, когда одни переменные искажены, а другие нет.Таким образом, проверка того, что ваши данные нормально распределены, должна сократить проблема гетероскедастичности. Как и предположение о линейности, нарушение предположение о гомоскедастичности не делает вашу регрессию недействительной как ослабить его. Мультиколлинеарность и сингулярностьМультиколлинеарность — это состояние, при котором IV очень сильно коррелированы. (0,90 или больше), а сингулярность — это когда IV идеально коррелированы и один IV представляет собой комбинацию одного или нескольких других IV.Мультиколлинеарность и сингулярность может быть вызвана высокими двумерными корреляциями (обычно 0,90 или больше) или высокими многомерными корреляциями. Высокие двумерные корреляции легко обнаружить, просто запустив корреляции между вашими IV. Если у вас высокий двумерные корреляции, ваша проблема легко решается удалением одного из двух переменные, но вы должны сначала проверить свое программирование, часто это ошибка когда вы создали переменные. Сложнее определить высокую многовариантность корреляции.Для этого нужно рассчитать SMC для каждого IV. SMC — это квадрат множественной корреляции ( R2 ) IV, когда он служит DV, который предсказано остальными ИВ. Допуск, родственное понятие, рассчитывается по формуле 1-СМЦ. Допуск — это доля дисперсии переменной, которая не учитываются другими IV в уравнении. Вам не нужно слишком беспокоиться о толерантности в том, что большинство программ не позволит переменной войти в модель регрессии, если допуск слишком низкий. Статистически вам не нужна сингулярность или мультиколлинеарность, потому что расчет коэффициентов регрессии осуществляется путем обращения матрицы. Следовательно, при наличии особенности инверсия невозможна, а если существует мультиколлинеарность, инверсия неустойчива. Логично, что вы не хотите мультиколлинеарность или сингулярность, потому что если они существуют, то ваши IV избыточны друг с другом. В таком случае один IV не добавляет предсказательной силы. значение по сравнению с другим IV, но вы теряете степень свободы.Таким образом, имея мультиколлинеарность/сингулярность может ослабить ваш анализ. В общем, ты вероятно, не хотелось бы включать два IV, которые коррелируют друг с другом на уровне 0,70. или больше. ПреобразованияКак упоминалось в разделе выше, когда одна или несколько переменных обычно не распределены, вы можете преобразовать их. Вы также можете использовать преобразования для исправления гетероскедастичности, нелинейности и выбросов. Некоторым людям не нравится делать преобразования, потому что становится труднее интерпретировать анализ.Таким образом, если ваши переменные измеряются в «значимых» единицы, такие как дни, вы можете не захотеть использовать преобразования. Если, однако, ваши данные являются просто произвольными значениями на шкале, тогда преобразования не действительно затрудняют интерпретацию результатов. Поскольку цель преобразований — нормализовать ваши данные, вы хотите повторно проверьте нормальность после того, как вы выполнили свои преобразования. Принятие решения Какое преобразование лучше, часто является методом проб и ошибок, когда вы используйте несколько преобразований и посмотрите, какое из них дает наилучшие результаты.»Лучший результаты» означает преобразование, распределение которого является наиболее нормальным. конкретное используемое преобразование зависит от степени отклонения от нормальность. Если распределение умеренно отличается от нормального, квадратный корень преобразование часто является лучшим. Логарифмическое преобразование обычно лучше, если данные более существенно ненормальны. Обратное преобразование должно быть пробовал для сильно ненормальных данных. Если ничего нельзя сделать, чтобы «нормализовать» переменная, то вы можете захотеть дихотомизировать переменную (как было объяснено в раздел линейности).Также важно направление отклонения. Если данные имеют отрицательную асимметрию, вы должны «отразить» данные, а затем применить трансформация. Чтобы отразить переменную, создайте новую переменную там, где исходная значение переменной вычитается из константы. Константа вычисляется путем добавления 1 к наибольшему значению исходной переменной. Если вы преобразовали свои данные, вам нужно помнить об этом, когда интерпретация ваших выводов.Например, представьте, что ваша исходная переменная была измеряется в днях, но для более нормального распределения данных нужно было сделать обратное преобразование. Теперь вам нужно иметь в виду, что чем выше значение для этой преобразованной переменной, тем ниже значение исходной переменной, дней. То же самое произойдет, когда вы «отразите» переменную. Больше значение исходной переменной преобразуется в меньшее значение для отраженная переменная. Простая линейная регрессияПростая линейная регрессия — это когда вы хотите предсказать значения одной переменной, данные значения другой переменной.Например, вы можете захотеть предсказать рост человека (в дюймах) от его веса (в фунтах). Представьте себе выборку из десяти люди, для которых вы знаете их рост и вес. Вы можете нанести значения на график с весом по оси x и высотой по оси y. Если бы был идеальная линейная зависимость между ростом и весом, то все 10 баллов на график укладывался на прямую. Но это никогда не бывает (если только вы не данные сфальсифицированы). Если существует (несовершенная) линейная зависимость между ростом и вес (предположительно положительный), то вы получите набор точек на графике, который наклонен вверх.Другими словами, люди, которые много весят, должны быть выше тех людей, которые имеют меньший вес. (См. график ниже.) Цель регрессионного анализа состоит в том, чтобы составить уравнение прямой, проходит через тот кластер точек с минимальным количеством отклонений от линия. Отклонение точек от линии называется «ошибкой». Однажды ты есть это уравнение регрессии, если бы вы знали вес человека, вы могли бы тогда спрогнозировать их высоту.Простая линейная регрессия фактически аналогична двумерная корреляция между независимой и зависимой переменной. Стандартная множественная регрессияСтандартная множественная регрессия — это та же идея, что и простая линейная регрессия. за исключением того, что теперь у вас есть несколько независимых переменных, предсказывающих зависимое Переменная. Чтобы продолжить предыдущий пример, представьте, что вы хотите предсказать рост человека по полу человека и по весу.Вы бы использовали стандартную множественную регрессию, в которой пол и вес были независимыми переменными, а рост – зависимой переменной. Результирующий output скажет вам несколько вещей. Во-первых, он расскажет вам, сколько разница в росте объяснялась совместной предсказательной силой знание веса и пола человека. Это значение обозначается как «R2». Выход также скажет вам, позволяет ли модель предсказать рост человека в оценка лучше, чем случайность.Об этом свидетельствует уровень значимости общая F модели. Если значимость равна 0,05 (или меньше), то модель считается значительным. Другими словами, есть только 5 из 100 шансов (или меньше), что на самом деле нет никакой связи между ростом и весом и Пол. По какой-то причине в социальных науках уровень значимости 0,05 часто считается стандартом приемлемости. Если значение уровень находится между .05 и .10, то модель считается маргинальной. В других словами, модель довольно хорошо предсказывает рост человека, но есть между 5-10% вероятностью того, что действительно нет связи между рост и вес и пол. В дополнение к информации о прогностической ценности модели в целом, стандартные Множественная регрессия показывает, насколько хорошо каждая независимая переменная предсказывает зависимая переменная, контролирующая каждую из других независимых переменных.В Тогда в нашем примере регрессия покажет вам, насколько хорошо вес предсказывает рост человека, контроль пола, а также то, насколько хорошо пол предсказал рост человека, контроль веса. Чтобы увидеть, является ли вес «значительным» предиктором роста, вы должны посмотреть на уровень значимости, связанный с весом на распечатке. И снова значимость уровни 0,05 или ниже будут считаться значимыми, а уровни значимости .05 и .10 будут считаться маргинальными. После того, как вы определили этот вес был значимым предиктором роста, то вы хотели бы более точно исследовать взаимосвязь между двумя переменными. Другими словами, является ли отношение положительное или отрицательное? В этом примере мы ожидаем, что существует будут положительные отношения. Другими словами, мы ожидаем, что чем больше вес человека, тем больше его рост. (Отрицательное отношение будет обозначаться случаем, когда чем больше вес человека, тем короче его рост.) Мы можем определить направление зависимости между весом и рост, глядя на коэффициент регрессии, связанный с весом. Существует два вида коэффициентов регрессии: B (нестандартизированный) и бета. (стандартизированный). Вес B, связанный с каждой переменной, дается в терминах единицы этой переменной. Для веса единицей измерения будут фунты, а для высота, единица измерения — дюймы. В бета-версии используются стандартные единицы измерения, одинаковые для все переменные в уравнении.В нашем примере это будет единица измерение, которое было бы общим для веса и роста. Бета-веса полезны потому что тогда вы можете сравнить две переменные, которые измеряются в разных единицах, как и рост и вес. Если коэффициент регрессии положительный, то взаимосвязь между ростом и весом. Если это значение отрицательное, то отрицательная связь между ростом и весом. Мы можем более конкретно определить взаимосвязь между ростом и весом, посмотрев на бета коэффициент на вес.Например, если бета = 0,35, это будет означать что при увеличении веса на одну единицу рост увеличился бы на 0,35 единицы. Если бета=-0,25, то при увеличении веса на одну единицу рост уменьшится на .25 единиц. Конечно, эта связь действительна только при проведении гендерных постоянный. Аналогичная процедура будет выполнена, чтобы увидеть, насколько хорошо пол предсказывает рост. Однако, поскольку пол является дихотомической переменной, интерпретация распечатки немного отличаются.Как и в случае с весом, вы должны проверить, пол был важным предиктором роста с учетом веса. То разница возникает при определении точного характера отношений между пол и рост. То есть говорить о влиянии на рост по мере увеличения или уменьшения пола (пол не измеряется как непрерывная переменная). Представьте, что пол был кодируется как 0 или 1, где 0 = женщина и 1 = мужчина. Если бы бета-коэффициент пола был положительным, это означало бы, что мужчины выше женщин.Если коэффициент бета пол был отрицательным, это означало бы, что самцы короче самок. Глядя на величину бета, вы можете более точно определить взаимосвязь между ростом и полом. Представьте, что бета пола были .25. Это означает, что мужчины будут на 0,25 единицы выше женщин. Наоборот, если бы бета-коэффициент был -0,25, это означало бы, что у мужчин было 0,25 единицы. короче самок. Конечно, это соотношение будет верным только тогда, когда контроль за весом. Как уже упоминалось, уровни значимости, данные для каждой независимой переменной указывает, является ли эта конкретная независимая переменная значимой предиктор зависимой переменной, помимо других независимых переменные. Из-за этого независимая переменная, которая является значимой предиктор зависимой переменной в простой линейной регрессии может не быть значимы при множественной регрессии (т. е. когда другие независимые переменные добавить в уравнение).Это могло произойти из-за того, что дисперсия первой доли независимой переменной с зависимой переменной могут пересекаться с дисперсия, которая делится между второй независимой переменной и зависимая переменная. Следовательно, первая независимая переменная больше не однозначно предсказуемы и, следовательно, не будут значимыми в множественная регрессия. Благодаря этому можно получить весьма значительное R2, но ни одна из независимых переменных не является значимой. На основе документа Деборы Р. Абрамс |