Пример регрессия: 4 примера использования линейной регрессии в реальной жизни

4 примера использования линейной регрессии в реальной жизни


Линейная регрессия является одним из наиболее часто используемых методов в статистике. Он используется для количественной оценки взаимосвязи между одной или несколькими переменными-предикторами и переменной отклика.

Самая основная форма линейной регрессии известна как простая линейная регрессия , которая используется для количественной оценки взаимосвязи между одной переменной-предиктором и одной переменной-ответом.

Если у нас есть более одной переменной-предиктора, мы можем использовать множественную линейную регрессию, которая используется для количественной оценки взаимосвязи между несколькими переменными-предикторами и переменной отклика.

В этом руководстве представлены четыре различных примера использования линейной регрессии в реальной жизни.

Реальный пример линейной регрессии №1

Компании часто используют линейную регрессию, чтобы понять взаимосвязь между расходами на рекламу и доходами.

Например, они могут соответствовать простой модели линейной регрессии, используя расходы на рекламу в качестве переменной-предиктора и доход в качестве переменной-отклика. Регрессионная модель будет иметь следующий вид:

доход = β 0 + β 1 (расходы на рекламу)

Коэффициент β 0 будет представлять общий ожидаемый доход, когда расходы на рекламу равны нулю.

Коэффициент β 1 будет представлять собой среднее изменение общего дохода, когда расходы на рекламу увеличиваются на одну единицу (например, на один доллар).

Если β 1 отрицательное, это будет означать, что большие расходы на рекламу связаны с меньшими доходами.

Если β 1 близко к нулю, это будет означать, что расходы на рекламу мало влияют на доход.

И если β 1 положителен, это будет означать, что чем больше расходов на рекламу, тем больше доход.

В зависимости от значения β 1 компания может решить уменьшить или увеличить свои расходы на рекламу.

Реальный пример линейной регрессии № 2

Медицинские исследователи часто используют линейную регрессию, чтобы понять взаимосвязь между дозировкой лекарств и артериальным давлением пациентов.

Например, исследователи могут вводить пациентам различные дозы определенного препарата и наблюдать за реакцией их кровяного давления. Они могут соответствовать простой модели линейной регрессии, используя дозировку в качестве предиктора и артериальное давление в качестве переменной отклика. Регрессионная модель будет иметь следующий вид:

кровяное давление = β 0 + β 1 (дозировка)

Коэффициент β 0 будет представлять ожидаемое кровяное давление, когда доза равна нулю.

Коэффициент β 1 будет представлять собой среднее изменение артериального давления при увеличении дозы на одну единицу.

Если β 1 отрицательный, это будет означать, что увеличение дозы связано со снижением артериального давления.

Если β 1 близок к нулю, это будет означать, что увеличение дозы не связано с изменением артериального давления.

Если β 1 положительный, это будет означать, что увеличение дозы связано с повышением артериального давления.

В зависимости от значения β 1 исследователи могут принять решение об изменении дозировки, данной пациенту.

Реальный пример линейной регрессии № 3

Ученые-агрономы часто используют линейную регрессию для измерения влияния удобрений и воды на урожайность.

Например, ученые могут использовать разное количество удобрений и воды на разных полях и посмотреть, как это повлияет на урожайность. Они могут соответствовать модели множественной линейной регрессии, используя удобрения и воду в качестве переменных-предикторов и урожайность в качестве переменной отклика. Регрессионная модель будет иметь следующий вид:

урожайность = β 0 + β 1 (количество удобрений) + β 2 (количество воды)

Коэффициент β 0 будет представлять ожидаемую урожайность без удобрений и воды.

Коэффициент β 1 будет представлять собой среднее изменение урожайности при увеличении количества удобрений на одну единицу при условии, что количество воды остается неизменным.

Коэффициент β 2 будет представлять собой среднее изменение урожайности при увеличении количества воды на одну единицу при условии, что количество удобрений остается неизменным.

В зависимости от значений β 1 и β 2 ученые могут изменить количество удобрений и воды, используемых для получения максимальной урожайности.

Реальный пример линейной регрессии № 4

Исследователи данных для профессиональных спортивных команд часто используют линейную регрессию для измерения влияния различных режимов тренировок на производительность игроков.

Например, специалисты по данным в НБА могут проанализировать, как разное количество еженедельных занятий йогой и тяжелой атлетикой влияет на количество очков, набранных игроком. Они могут соответствовать модели множественной линейной регрессии, используя занятия йогой и занятия тяжелой атлетикой в качестве переменных-предикторов и общее количество баллов, набранных в качестве переменной отклика. Регрессионная модель будет иметь следующий вид:

набранные баллы = β 0 + β 1 (занятия йогой) + β 2 (занятия тяжелой атлетикой)

Коэффициент β 0 будет представлять собой ожидаемое количество очков, набранных игроком, который участвует в нулевых занятиях йогой и нулевых занятиях тяжелой атлетикой.

Коэффициент β 1 будет представлять собой среднее изменение в баллах, набранных при увеличении количества еженедельных занятий йогой на единицу, при условии, что количество еженедельных занятий тяжелой атлетикой остается неизменным.

Коэффициент β 2 будет представлять собой среднее изменение в баллах, набранных при увеличении количества еженедельных занятий тяжелой атлетикой на единицу, при условии, что количество еженедельных занятий йогой остается неизменным.

В зависимости от значений β 1 и β 2 исследователи данных могут порекомендовать игроку участвовать в более или менее еженедельных занятиях йогой и тяжелой атлетикой, чтобы максимизировать свои очки.

Линейная регрессия используется в самых разных реальных ситуациях в самых разных отраслях. К счастью, статистическое программное обеспечение позволяет легко выполнять линейную регрессию.

Не стесняйтесь изучить следующие учебные пособия, чтобы узнать, как выполнять линейную регрессию с использованием различных программ:

Как выполнить простую линейную регрессию в Excel
Как выполнить множественную линейную регрессию в Excel
Как выполнить множественную линейную регрессию в R
Как выполнить множественную линейную регрессию в Stata
Как выполнить линейную регрессию на калькуляторе TI-84

Линейная регрессия (linear regression): определение модели, формула, примеры

Линейная регрессия (Linear regression) — это это математическая модель, которая описывает связь нескольких переменных. Модели линейной регрессии представляют собой статистическую процедуру, помогающую прогнозировать будущее. Она применяется в научных сферах и в бизнесе, а в последние десятилетия используется в машинном обучении.

Для чего нужна линейная регрессия

Задача регрессии в машинном обучении — это предсказание одного параметра (Y) по известному параметру X, где X — набор параметров, характеризующий наблюдение.

Как работает линейная регрессия

Возьмем небольшой набор данных. Предположим, что это группа коттеджей, расположенных в одном районе. На оси Х обозначена их площадь, а на оси Y — рыночная стоимость. Чтобы увидеть, как стоимость дома зависит от его площади, построим регрессию.

Набор данных для построения регрессии. Источник

Это будет простая линейная регрессия с одной переменной. Изменится площадь дома — изменится и стоимость. Для вычисления используем стандартное уравнение регрессии: f (x) = b + m⋅x, где m — это наклон линии, а b — ее сдвиг по оси Y. То есть изменение коэффициентов m и b будет влиять на расположение прямой:

  • если изменить m — прямая наклонится сильнее влево или вправо;
  • если изменить b — прямая сместится вверх или вниз по оси Y.

Провести прямую линию через все точки на графике не получится, если они расположены в хаотичном порядке. Поэтому с помощью линейной регрессии определяется оптимальный вариант расположения этой прямой. Некоторые точки все равно останутся на расстоянии, но оно должно быть минимальным. Расчет этого минимального расстояния от прямой до каждой точки называется

функцией потерь.

С помощью функции потерь вычисляется минимальное расстояние между объектами и прямой. Источник

Для оценки точности регрессии используют разные метрики, например MSE (от англ. mean squared error — средняя квадратическая ошибка). Чем ниже MSE, тем лучше модель.

Источник

В первом случае MSE будет равна 0,17, во втором — 0,08, а в третьем — 0,02. Получается, что третья прямая лучше всего показывает зависимость цены дома от его площади.

Расчет линейной регрессии в Python

Построим регрессию, чтобы узнать, как кассовые сборы фильма зависят от бюджета, который вложили в его производство.

В открытом доступе есть информация о каждом фильме, вышедшем в прокат. Например, самый кассовый фильм планеты «Аватар» собрал в прокате $2 743 577 587 при затратах $237 000 000, то есть окупился больше чем 10 раз. Культовый фильм «Карты, деньги, два ствола» собрал кассу $28 300 000 при бюджете всего $1 350 000, то есть окупился 20 раз. При этом сборы второго фильма не дотягивают даже до бюджета первого. Как на основе этих данных выбрать оптимальный бюджет?

Для расчета понадобится csv-файл, который содержит информацию о бюджетах и сборах 5 034 фильмов, которые когда-то выходили в прокат. Эти данные станут базой для исследования.

Построим модель линейной регрессии с помощью Python. Для этого нужно импортировать несколько библиотек:

  • pandas поможет прочитать данные;
  • matplotlib будет отвечать за визуализацию результата;
  • sklearn поможет создать саму модель линейной регрессии.

Модель линейной регрессии, которую нужно будет обучить, импортируется с помощью библиотеки

sklearn. В качестве X будет колонка production_budget_usd, а в качестве Y – колонка worldwide_gross_usd.

На основе этих данных определяется нужный наклон прямой и расположение относительно осей координат. Это и будет нужной линейной регрессией, по которой можно предсказать сборы собственного фильма, выбрав подходящий бюджет.

В итоге получится график того, как соотносятся бюджеты и кассы у фильмов в списке. Каждая точка — это отдельная кинолента. На оси Х показаны затраты на производство, а на оси У — сколько она заработала. Теперь через эти точки нужно провести прямую так, чтобы она была максимально близка ко всем точкам на графике.

Так выглядит линейная регрессия, которая показывает зависимость кассовых сборов фильма от его бюджета

Множественная линейная регрессия

В жизни кассовые сборы кино зависят не от одной переменной, а от совокупности разных факторов: популярности жанра, режиссера, каста актеров и затрат на промокампанию. Если рассчитать все факторы, влияющие на сборы, то уравнение изменится:

Было f (x) = b + m⋅x

Стало f(x) = b + m1*x1 + … + mn*xn

Каждый коэффициент в нем показывает важность признаков. То есть множественная регрессия демонстрирует, как каждый параметр влияет на расположение прямой, и выбирает оптимальный вариант точно так же, как и линейная — с помощью функции потерь.

2.9 — Примеры простой линейной регрессии

Пример 1: данные о рождаемости подростков и уровне бедности

Этот набор данных размером

n = 51 относится к 50 штатам и округу Колумбия в США (poverty.txt). Переменные: y = уровень рождаемости в 2002 году на 1000 женщин в возрасте от 15 до 17 лет и x = уровень бедности, который представляет собой процент населения штата, проживающего в домохозяйствах с доходами ниже установленного на федеральном уровне уровня бедности. (Источник данных: Mind On Statistics , 3-е издание, Уттс и Хекард).

График данных ниже (уровень рождаемости по вертикали) показывает в целом линейную зависимость, в среднем с положительным наклоном. По мере увеличения уровня бедности рождаемость девочек в возрасте от 15 до 17 лет также имеет тенденцию к увеличению.

На следующем графике показана линия регрессии, наложенная на данные.

Уравнение подобранной линии регрессии приведено в верхней части графика. В уравнении действительно должно быть указано, что оно относится к «среднему» коэффициенту рождаемости (или «прогнозируемому» коэффициенту рождаемости тоже подойдет), потому что уравнение регрессии описывает среднее значение

y как функция одной или нескольких переменных x. В статистической записи уравнение можно было бы записать \ (\ шляпа {у} = 4,267 + 1,373x \).

  • Интерпретация наклона (значение = 1,373) заключается в том, что коэффициент рождаемости в возрасте от 15 до 17 лет увеличивается в среднем на 1,373 единицы на каждую единицу (один процент) увеличения уровня бедности.
  • Интерпретация отрезка (значение = 4,267) заключается в том, что если бы были штаты с уровнем бедности = 0, прогнозируемое среднее значение коэффициента рождаемости в возрасте от 15 до 17 лет было бы 4,267 для этих штатов. Поскольку нет государств с уровнем бедности = 0, такая интерпретация отрезка не имеет практического смысла для этого примера.

На графике с линией регрессии мы также видим информацию о том, что s = 5,55057 и r 2 = 53,3%.

  • Значение s говорит нам примерно о стандартном отклонении различий между значениями y отдельных наблюдений и предсказаниями y на основе линии регрессии.
  • Значение r 2 можно интерпретировать как означающее, что уровень бедности «объясняет» 53,3% наблюдаемой вариации среднего уровня рождаемости в возрасте от 15 до 17 лет в штатах.

Значение R 2 (adj) (52,4%) является корректировкой R 2 на основе количества переменных x в модели (здесь только одна) и размера выборки. Только с одной переменной x скорректированное значение R 2 не имеет значения.

Пример 2: Функция легких у детей в возрасте от 6 до 10 лет

Данные взяты из n = 345 детей в возрасте от 6 до 10 лет.

Переменные: y = объем форсированного выдоха (ОФВ), мера того, сколько воздуха человек может принудительно выдохнуть из легких, и x = возраст в годах. (Источник данных: приведенные здесь данные являются частью набора данных, приведенного в Kahn, Michael (2005). «Выдающаяся проблема для обучения статистике», 9.0005 Журнал статистического образования , 13(2).

Ниже приведен график данных с наложенной простой линией линейной регрессии.

  • Расчетное уравнение регрессии таково, что средний ОФВ = 0,01165 + 0,26721 × возраст. Например, для 8-летнего ребенка мы можем использовать уравнение, чтобы оценить, что средний ОФВ = 0,01165 + 0,26721 × (8) = 2,15.
  • Интерпретация наклона заключается в том, что средний ОФВ увеличивается на 0,26721 на каждый год увеличения возраста (в наблюдаемом возрастном диапазоне).

Интересной и, возможно, важной особенностью этих данных является то, что отклонение отдельных значений y от линии регрессии увеличивается с возрастом. Эта особенность данных называется непостоянной дисперсией . Например, значения ОФВ у 10-летних детей более изменчивы, чем значения ОФВ у 6-летних. Это видно, если посмотреть на вертикальные диапазоны данных на графике. Это может привести к проблемам при использовании простой модели линейной регрессии для этих данных, что мы рассмотрим более подробно в уроке 49.0013

Выше мы проанализировали только часть всего набора данных. Полный набор данных (fev_dat.txt) показан на графике ниже:

Как мы видим, диапазон возрастов теперь охватывает от 3 до 19 лет, а расчетное уравнение регрессии: ОФВ = 0,43165 + 0,22204 × возраст. И наклон, и точка пересечения заметно изменились, но дисперсия по-прежнему кажется непостоянной. Это показывает, что важно знать, как вы анализируете свои данные. Если вы используете только подмножество ваших данных, которое охватывает более короткий диапазон значений предикторов, вы можете получить заметно отличающиеся результаты, чем если бы вы использовали полный набор данных.

‹ 2.8 — R-квадрат Предостережения вверх

Простая линейная регрессия | Простое введение и примеры

Опубликован в 19 февраля 2020 г. к Ребекка Беванс. Отредактировано 15 ноября 2022 г.

Простая линейная регрессия используется для оценки связи между двумя количественными переменными . Вы можете использовать простую линейную регрессию, когда хотите знать:

  1. Насколько сильна взаимосвязь между двумя переменными (например, взаимосвязь между осадками и эрозией почвы).
  2. Значение зависимой переменной при определенном значении независимой переменной (например, степень эрозии почвы при определенном уровне осадков).

Модели регрессии описывают взаимосвязь между переменными путем подгонки линии к наблюдаемым данным. В моделях линейной регрессии используется прямая линия, а в моделях логистической и нелинейной регрессии — кривая. Регрессия позволяет оценить, как изменяется зависимая переменная по мере изменения независимой переменной (переменных).

Пример простой линейной регрессии. Вы — социолог, интересующийся взаимосвязью между доходом и счастьем. Вы опрашиваете 500 человек с доходами от 15 до 75 тысяч и просите их оценить свое счастье по шкале от 1 до 10.

Ваша независимая переменная (доход) и зависимая переменная (счастье) являются количественными, поэтому вы можете провести регрессионный анализ, чтобы увидеть, существует ли между ними линейная зависимость.

Если у вас есть более одной независимой переменной, используйте множественную линейную регрессию.

Содержание

  1. Допущения простой линейной регрессии
  2. Как выполнить простую линейную регрессию
  3. Интерпретация результатов
  4. Представление результатов
  5. Можете ли вы предсказать значения вне диапазона ваших данных?
  6. Часто задаваемые вопросы о простой линейной регрессии

Допущения простой линейной регрессии

Простая линейная регрессия — это параметрический тест , что означает, что он делает определенные предположения о данных. Эти предположения таковы:

  1. Однородность дисперсии (гомоскедастичность) : размер ошибки в нашем прогнозе существенно не меняется в зависимости от значений независимой переменной.
  2. Независимость наблюдений : наблюдения в наборе данных были собраны с использованием статистически достоверных методов выборки, и между наблюдениями нет скрытых взаимосвязей.
  3. Нормальность : Данные имеют нормальное распределение.

Линейная регрессия делает одно дополнительное предположение:

  1. Отношение между независимой и зависимой переменной является линейным : линия наилучшего соответствия точкам данных является прямой линией (а не кривой или каким-либо группирующим фактором).

Если ваши данные не соответствуют предположениям о гомоскедастичности или нормальности, вы можете вместо этого использовать непараметрический критерий, такой как ранговый критерий Спирмена.

Пример: данные, которые не соответствуют предположениям. Вы считаете, что существует линейная зависимость между потреблением вяленого мяса и заболеваемостью колоректальным раком в США. Однако вы обнаруживаете, что при высоком уровне потребления мяса было собрано гораздо больше данных, чем при низком. потребления мяса, в результате чего существует гораздо больше различий в оценке показателей заболеваемости раком в низком диапазоне, чем в высоком диапазоне. Поскольку данные нарушают предположение о гомоскедастичности, они не работают для регрессии, но вместо этого вы выполняете ранговый тест Спирмена.

Если ваши данные нарушают предположение о независимости наблюдений (например, если наблюдения повторяются во времени), вы можете выполнить линейную модель смешанных эффектов, которая учитывает дополнительную структуру данных.

Как выполнить простую линейную регрессию

Формула простой линейной регрессии

Формула простой линейной регрессии:

  • y — прогнозируемое значение зависимой переменной ( y ) для любого заданного значения независимой переменной ( x ).
  • B 0 — это точка пересечения , прогнозируемое значение y , когда x равно 0.
  • B 1 — это коэффициент регрессии — насколько мы ожидаем, что y изменится при увеличении x .
  • x — независимая переменная (переменная, которую мы ожидаем, влияет на y ).
  • e — это ошибка оценки, или степень вариации в нашей оценке коэффициента регрессии.

Линейная регрессия находит линию наилучшего соответствия вашим данным путем поиска коэффициента регрессии (B 1 ), который минимизирует общую ошибку (e) модели.

Хотя вы можете выполнить линейную регрессию вручную, это утомительный процесс, поэтому большинство людей используют статистические программы, которые помогают им быстро анализировать данные.

Простая линейная регрессия в R

R — бесплатная, мощная и широко используемая статистическая программа. Загрузите набор данных, чтобы попробовать сами, используя наш пример дохода и счастья.