4 примера использования линейной регрессии в реальной жизни
Линейная регрессия является одним из наиболее часто используемых методов в статистике. Он используется для количественной оценки взаимосвязи между одной или несколькими переменными-предикторами и переменной отклика.
Самая основная форма линейной регрессии известна как простая линейная регрессия , которая используется для количественной оценки взаимосвязи между одной переменной-предиктором и одной переменной-ответом.
Если у нас есть более одной переменной-предиктора, мы можем использовать множественную линейную регрессию, которая используется для количественной оценки взаимосвязи между несколькими переменными-предикторами и переменной отклика.
В этом руководстве представлены четыре различных примера использования линейной регрессии в реальной жизни.
Реальный пример линейной регрессии №1Компании часто используют линейную регрессию, чтобы понять взаимосвязь между расходами на рекламу и доходами.
Например, они могут соответствовать простой модели линейной регрессии, используя расходы на рекламу в качестве переменной-предиктора и доход в качестве переменной-отклика. Регрессионная модель будет иметь следующий вид:
доход = β 0 + β 1 (расходы на рекламу)
Коэффициент β 0 будет представлять общий ожидаемый доход, когда расходы на рекламу равны нулю.
Коэффициент β 1 будет представлять собой среднее изменение общего дохода, когда расходы на рекламу увеличиваются на одну единицу (например, на один доллар).
Если β 1 отрицательное, это будет означать, что большие расходы на рекламу связаны с меньшими доходами.
Если β 1 близко к нулю, это будет означать, что расходы на рекламу мало влияют на доход.
И если β 1 положителен, это будет означать, что чем больше расходов на рекламу, тем больше доход.
В зависимости от значения β 1 компания может решить уменьшить или увеличить свои расходы на рекламу.
Реальный пример линейной регрессии № 2Медицинские исследователи часто используют линейную регрессию, чтобы понять взаимосвязь между дозировкой лекарств и артериальным давлением пациентов.
Например, исследователи могут вводить пациентам различные дозы определенного препарата и наблюдать за реакцией их кровяного давления. Они могут соответствовать простой модели линейной регрессии, используя дозировку в качестве предиктора и артериальное давление в качестве переменной отклика. Регрессионная модель будет иметь следующий вид:
кровяное давление = β 0 + β 1 (дозировка)
Коэффициент β 0 будет представлять ожидаемое кровяное давление, когда доза равна нулю.
Коэффициент β 1 будет представлять собой среднее изменение артериального давления при увеличении дозы на одну единицу.
Если β 1 отрицательный, это будет означать, что увеличение дозы связано со снижением артериального давления.
Если β 1 близок к нулю, это будет означать, что увеличение дозы не связано с изменением артериального давления.
Если β 1 положительный, это будет означать, что увеличение дозы связано с повышением артериального давления.
В зависимости от значения β 1 исследователи могут принять решение об изменении дозировки, данной пациенту.
Реальный пример линейной регрессии № 3Ученые-агрономы часто используют линейную регрессию для измерения влияния удобрений и воды на урожайность.
Например, ученые могут использовать разное количество удобрений и воды на разных полях и посмотреть, как это повлияет на урожайность. Они могут соответствовать модели множественной линейной регрессии, используя удобрения и воду в качестве переменных-предикторов и урожайность в качестве переменной отклика. Регрессионная модель будет иметь следующий вид:
урожайность = β 0 + β 1 (количество удобрений) + β 2 (количество воды)
Коэффициент β 0 будет представлять ожидаемую урожайность без удобрений и воды.
Коэффициент β 1 будет представлять собой среднее изменение урожайности при увеличении количества удобрений на одну единицу при условии, что количество воды остается неизменным.
Коэффициент β 2 будет представлять собой среднее изменение урожайности при увеличении количества воды на одну единицу при условии, что количество удобрений остается неизменным.
В зависимости от значений β 1 и β 2 ученые могут изменить количество удобрений и воды, используемых для получения максимальной урожайности.
Реальный пример линейной регрессии № 4Исследователи данных для профессиональных спортивных команд часто используют линейную регрессию для измерения влияния различных режимов тренировок на производительность игроков.
Например, специалисты по данным в НБА могут проанализировать, как разное количество еженедельных занятий йогой и тяжелой атлетикой влияет на количество очков, набранных игроком. Они могут соответствовать модели множественной линейной регрессии, используя занятия йогой и занятия тяжелой атлетикой в качестве переменных-предикторов и общее количество баллов, набранных в качестве переменной отклика. Регрессионная модель будет иметь следующий вид:
набранные баллы = β 0 + β 1 (занятия йогой) + β 2 (занятия тяжелой атлетикой)
Коэффициент β 0 будет представлять собой ожидаемое количество очков, набранных игроком, который участвует в нулевых занятиях йогой и нулевых занятиях тяжелой атлетикой.
Коэффициент β 1 будет представлять собой среднее изменение в баллах, набранных при увеличении количества еженедельных занятий йогой на единицу, при условии, что количество еженедельных занятий тяжелой атлетикой остается неизменным.
Коэффициент β 2 будет представлять собой среднее изменение в баллах, набранных при увеличении количества еженедельных занятий тяжелой атлетикой на единицу, при условии, что количество еженедельных занятий йогой остается неизменным.
В зависимости от значений β 1 и β 2 исследователи данных могут порекомендовать игроку участвовать в более или менее еженедельных занятиях йогой и тяжелой атлетикой, чтобы максимизировать свои очки.
Линейная регрессия используется в самых разных реальных ситуациях в самых разных отраслях. К счастью, статистическое программное обеспечение позволяет легко выполнять линейную регрессию.
Не стесняйтесь изучить следующие учебные пособия, чтобы узнать, как выполнять линейную регрессию с использованием различных программ:
Как выполнить простую линейную регрессию в Excel
Как выполнить множественную линейную регрессию в Excel
Как выполнить множественную линейную регрессию в R
Как выполнить множественную линейную регрессию в Stata
Как выполнить линейную регрессию на калькуляторе TI-84
Линейная регрессия (linear regression): определение модели, формула, примеры
Линейная регрессия (Linear regression) — это это математическая модель, которая описывает связь нескольких переменных. Модели линейной регрессии представляют собой статистическую процедуру, помогающую прогнозировать будущее. Она применяется в научных сферах и в бизнесе, а в последние десятилетия используется в машинном обучении.
Для чего нужна линейная регрессияЗадача регрессии в машинном обучении — это предсказание одного параметра (Y) по известному параметру X, где X — набор параметров, характеризующий наблюдение.
Как работает линейная регрессияВозьмем небольшой набор данных. Предположим, что это группа коттеджей, расположенных в одном районе. На оси Х обозначена их площадь, а на оси Y — рыночная стоимость. Чтобы увидеть, как стоимость дома зависит от его площади, построим регрессию.
Набор данных для построения регрессии. ИсточникЭто будет простая линейная регрессия с одной переменной. Изменится площадь дома — изменится и стоимость. Для вычисления используем стандартное уравнение регрессии: f (x) = b + m⋅x, где m — это наклон линии, а b — ее сдвиг по оси Y. То есть изменение коэффициентов m и b будет влиять на расположение прямой:
- если изменить m — прямая наклонится сильнее влево или вправо;
- если изменить b — прямая сместится вверх или вниз по оси Y.
Провести прямую линию через все точки на графике не получится, если они расположены в хаотичном порядке. Поэтому с помощью линейной регрессии определяется оптимальный вариант расположения этой прямой. Некоторые точки все равно останутся на расстоянии, но оно должно быть минимальным. Расчет этого минимального расстояния от прямой до каждой точки называется
Для оценки точности регрессии используют разные метрики, например MSE (от англ. mean squared error — средняя квадратическая ошибка). Чем ниже MSE, тем лучше модель.
ИсточникВ первом случае MSE будет равна 0,17, во втором — 0,08, а в третьем — 0,02. Получается, что третья прямая лучше всего показывает зависимость цены дома от его площади.
Расчет линейной регрессии в PythonПостроим регрессию, чтобы узнать, как кассовые сборы фильма зависят от бюджета, который вложили в его производство.
В открытом доступе есть информация о каждом фильме, вышедшем в прокат. Например, самый кассовый фильм планеты «Аватар» собрал в прокате $2 743 577 587 при затратах $237 000 000, то есть окупился больше чем 10 раз. Культовый фильм «Карты, деньги, два ствола» собрал кассу $28 300 000 при бюджете всего $1 350 000, то есть окупился 20 раз. При этом сборы второго фильма не дотягивают даже до бюджета первого. Как на основе этих данных выбрать оптимальный бюджет?
Для расчета понадобится csv-файл, который содержит информацию о бюджетах и сборах 5 034 фильмов, которые когда-то выходили в прокат. Эти данные станут базой для исследования.
Построим модель линейной регрессии с помощью Python. Для этого нужно импортировать несколько библиотек:
- pandas поможет прочитать данные;
- matplotlib будет отвечать за визуализацию результата;
- sklearn поможет создать саму модель линейной регрессии.
Модель линейной регрессии, которую нужно будет обучить, импортируется с помощью библиотеки
На основе этих данных определяется нужный наклон прямой и расположение относительно осей координат. Это и будет нужной линейной регрессией, по которой можно предсказать сборы собственного фильма, выбрав подходящий бюджет.
В итоге получится график того, как соотносятся бюджеты и кассы у фильмов в списке. Каждая точка — это отдельная кинолента. На оси Х показаны затраты на производство, а на оси У — сколько она заработала. Теперь через эти точки нужно провести прямую так, чтобы она была максимально близка ко всем точкам на графике.
Так выглядит линейная регрессия, которая показывает зависимость кассовых сборов фильма от его бюджетаМножественная линейная регрессияВ жизни кассовые сборы кино зависят не от одной переменной, а от совокупности разных факторов: популярности жанра, режиссера, каста актеров и затрат на промокампанию. Если рассчитать все факторы, влияющие на сборы, то уравнение изменится:
Было f (x) = b + m⋅x
Стало f(x) = b + m1*x1 + … + mn*xn
Каждый коэффициент в нем показывает важность признаков. То есть множественная регрессия демонстрирует, как каждый параметр влияет на расположение прямой, и выбирает оптимальный вариант точно так же, как и линейная — с помощью функции потерь.
2.9 — Примеры простой линейной регрессии
Пример 1: данные о рождаемости подростков и уровне бедности
Этот набор данных размером n = 51 относится к 50 штатам и округу Колумбия в США (poverty.txt). Переменные: y = уровень рождаемости в 2002 году на 1000 женщин в возрасте от 15 до 17 лет и x = уровень бедности, который представляет собой процент населения штата, проживающего в домохозяйствах с доходами ниже установленного на федеральном уровне уровня бедности. (Источник данных: Mind On Statistics , 3-е издание, Уттс и Хекард).
График данных ниже (уровень рождаемости по вертикали) показывает в целом линейную зависимость, в среднем с положительным наклоном. По мере увеличения уровня бедности рождаемость девочек в возрасте от 15 до 17 лет также имеет тенденцию к увеличению.
На следующем графике показана линия регрессии, наложенная на данные.
Уравнение подобранной линии регрессии приведено в верхней части графика. В уравнении действительно должно быть указано, что оно относится к «среднему» коэффициенту рождаемости (или «прогнозируемому» коэффициенту рождаемости тоже подойдет), потому что уравнение регрессии описывает среднее значение
- Интерпретация наклона (значение = 1,373) заключается в том, что коэффициент рождаемости в возрасте от 15 до 17 лет увеличивается в среднем на 1,373 единицы на каждую единицу (один процент) увеличения уровня бедности.
- Интерпретация отрезка (значение = 4,267) заключается в том, что если бы были штаты с уровнем бедности = 0, прогнозируемое среднее значение коэффициента рождаемости в возрасте от 15 до 17 лет было бы 4,267 для этих штатов. Поскольку нет государств с уровнем бедности = 0, такая интерпретация отрезка не имеет практического смысла для этого примера.
На графике с линией регрессии мы также видим информацию о том, что s = 5,55057 и r 2 = 53,3%.
- Значение s говорит нам примерно о стандартном отклонении различий между значениями y отдельных наблюдений и предсказаниями y на основе линии регрессии.
- Значение r 2 можно интерпретировать как означающее, что уровень бедности «объясняет» 53,3% наблюдаемой вариации среднего уровня рождаемости в возрасте от 15 до 17 лет в штатах.
Значение R 2 (adj) (52,4%) является корректировкой R 2 на основе количества переменных x в модели (здесь только одна) и размера выборки. Только с одной переменной x скорректированное значение R 2 не имеет значения.
Пример 2: Функция легких у детей в возрасте от 6 до 10 лет
Данные взяты из n = 345 детей в возрасте от 6 до 10 лет.
Ниже приведен график данных с наложенной простой линией линейной регрессии.
- Расчетное уравнение регрессии таково, что средний ОФВ = 0,01165 + 0,26721 × возраст. Например, для 8-летнего ребенка мы можем использовать уравнение, чтобы оценить, что средний ОФВ = 0,01165 + 0,26721 × (8) = 2,15.
- Интерпретация наклона заключается в том, что средний ОФВ увеличивается на 0,26721 на каждый год увеличения возраста (в наблюдаемом возрастном диапазоне).
Интересной и, возможно, важной особенностью этих данных является то, что отклонение отдельных значений y от линии регрессии увеличивается с возрастом. Эта особенность данных называется непостоянной дисперсией . Например, значения ОФВ у 10-летних детей более изменчивы, чем значения ОФВ у 6-летних. Это видно, если посмотреть на вертикальные диапазоны данных на графике. Это может привести к проблемам при использовании простой модели линейной регрессии для этих данных, что мы рассмотрим более подробно в уроке 49.0013
Выше мы проанализировали только часть всего набора данных. Полный набор данных (fev_dat.txt) показан на графике ниже:
Как мы видим, диапазон возрастов теперь охватывает от 3 до 19 лет, а расчетное уравнение регрессии: ОФВ = 0,43165 + 0,22204 × возраст. И наклон, и точка пересечения заметно изменились, но дисперсия по-прежнему кажется непостоянной. Это показывает, что важно знать, как вы анализируете свои данные. Если вы используете только подмножество ваших данных, которое охватывает более короткий диапазон значений предикторов, вы можете получить заметно отличающиеся результаты, чем если бы вы использовали полный набор данных.
‹ 2.8 — R-квадрат Предостережения вверх
Простая линейная регрессия | Простое введение и примеры
Опубликован в 19 февраля 2020 г. к Ребекка Беванс. Отредактировано 15 ноября 2022 г.
Простая линейная регрессия используется для оценки связи между двумя количественными переменными . Вы можете использовать простую линейную регрессию, когда хотите знать:
- Насколько сильна взаимосвязь между двумя переменными (например, взаимосвязь между осадками и эрозией почвы).
- Значение зависимой переменной при определенном значении независимой переменной (например, степень эрозии почвы при определенном уровне осадков).
Модели регрессии описывают взаимосвязь между переменными путем подгонки линии к наблюдаемым данным. В моделях линейной регрессии используется прямая линия, а в моделях логистической и нелинейной регрессии — кривая. Регрессия позволяет оценить, как изменяется зависимая переменная по мере изменения независимой переменной (переменных).
Пример простой линейной регрессии. Вы — социолог, интересующийся взаимосвязью между доходом и счастьем. Вы опрашиваете 500 человек с доходами от 15 до 75 тысяч и просите их оценить свое счастье по шкале от 1 до 10.Ваша независимая переменная (доход) и зависимая переменная (счастье) являются количественными, поэтому вы можете провести регрессионный анализ, чтобы увидеть, существует ли между ними линейная зависимость.
Если у вас есть более одной независимой переменной, используйте множественную линейную регрессию.
Содержание
- Допущения простой линейной регрессии
- Как выполнить простую линейную регрессию
- Интерпретация результатов
- Представление результатов
- Можете ли вы предсказать значения вне диапазона ваших данных?
- Часто задаваемые вопросы о простой линейной регрессии
Допущения простой линейной регрессии
Простая линейная регрессия — это параметрический тест , что означает, что он делает определенные предположения о данных. Эти предположения таковы:
- Однородность дисперсии (гомоскедастичность) : размер ошибки в нашем прогнозе существенно не меняется в зависимости от значений независимой переменной.
- Независимость наблюдений : наблюдения в наборе данных были собраны с использованием статистически достоверных методов выборки, и между наблюдениями нет скрытых взаимосвязей.
- Нормальность : Данные имеют нормальное распределение.
Линейная регрессия делает одно дополнительное предположение:
- Отношение между независимой и зависимой переменной является линейным : линия наилучшего соответствия точкам данных является прямой линией (а не кривой или каким-либо группирующим фактором).
Если ваши данные не соответствуют предположениям о гомоскедастичности или нормальности, вы можете вместо этого использовать непараметрический критерий, такой как ранговый критерий Спирмена.
Пример: данные, которые не соответствуют предположениям. Вы считаете, что существует линейная зависимость между потреблением вяленого мяса и заболеваемостью колоректальным раком в США. Однако вы обнаруживаете, что при высоком уровне потребления мяса было собрано гораздо больше данных, чем при низком. потребления мяса, в результате чего существует гораздо больше различий в оценке показателей заболеваемости раком в низком диапазоне, чем в высоком диапазоне. Поскольку данные нарушают предположение о гомоскедастичности, они не работают для регрессии, но вместо этого вы выполняете ранговый тест Спирмена.Если ваши данные нарушают предположение о независимости наблюдений (например, если наблюдения повторяются во времени), вы можете выполнить линейную модель смешанных эффектов, которая учитывает дополнительную структуру данных.
Как выполнить простую линейную регрессию
Формула простой линейной регрессии
Формула простой линейной регрессии:
- y — прогнозируемое значение зависимой переменной ( y ) для любого заданного значения независимой переменной ( x ).
- B 0 — это точка пересечения , прогнозируемое значение y , когда x равно 0.
- B 1 — это коэффициент регрессии — насколько мы ожидаем, что y изменится при увеличении x .
- x — независимая переменная (переменная, которую мы ожидаем, влияет на y ).
- e — это ошибка оценки, или степень вариации в нашей оценке коэффициента регрессии.
Линейная регрессия находит линию наилучшего соответствия вашим данным путем поиска коэффициента регрессии (B 1 ), который минимизирует общую ошибку (e) модели.
Хотя вы можете выполнить линейную регрессию вручную, это утомительный процесс, поэтому большинство людей используют статистические программы, которые помогают им быстро анализировать данные.
Простая линейная регрессия в R
R — бесплатная, мощная и широко используемая статистическая программа. Загрузите набор данных, чтобы попробовать сами, используя наш пример дохода и счастья.
Набор данных для простой линейной регрессии (.csv)
Загрузите набор данных yield.data в среду R, а затем выполните следующую команду, чтобы сгенерировать линейную модель, описывающую взаимосвязь между доходом и счастьем:
Код R для простой линейной регрессии доход.счастье.lm <- lm(счастье ~ доход, данные = доход.данные)
Этот код берет данные, которые вы собрали данные = доход.данные
, и вычисляет эффект, который независимая переменная доход
оказывает на зависимую переменную счастье
, используя уравнение для линейной модели: lm()
.
Чтобы узнать больше, следуйте нашему полному пошаговому руководству по линейной регрессии в R.
Что может сделать корректура для вашей статьи?
Редакторы Scribbr не только исправляют грамматические и орфографические ошибки, но и улучшают качество письма, следя за тем, чтобы в статье не было нечетких выражений, избыточных слов и неуклюжих формулировок.
См. пример редактирования
Интерпретация результатов
Чтобы просмотреть результаты модели, вы можете использовать функцию summary()
в R:
summary(income.happiness.lm)
Эта функция берет наиболее важные параметры из линейной модели и помещает их в таблицу, которая выглядит следующим образом:
В этой выходной таблице сначала повторяется формула, которая использовалась для получения результатов («Вызов»), а затем обобщаются остатки модели («Остатки»), которые дают представление о том, насколько хорошо модель соответствует реальным данным.
Далее идет таблица «Коэффициенты». Первая строка дает оценки y-отрезка, а вторая строка дает коэффициент регрессии модели.
Строка 1 таблицы помечена как (Перехват)
. Это y-пересечение уравнения регрессии со значением 0,20. Вы можете включить это в свое уравнение регрессии, если хотите предсказать значения счастья в диапазоне доходов, который вы наблюдали:
Следующая строка в таблице «Коэффициенты» — доход. Это строка, описывающая предполагаемое влияние дохода на сообщаемое счастье:
. Столбец Estimate
представляет собой оцененный эффект , также называемый коэффициентом регрессии или значением r 2 . Число в таблице (0,713) говорит нам о том, что на каждую единицу увеличения дохода (где одна единица дохода = 10 000) соответствует увеличение сообщаемого счастья на 0,71 единицы (где счастье — это шкала от 1 до 10).
Стандарт . Столбец Error
отображает стандартную ошибку оценки. Это число показывает, насколько сильно различаются наши оценки взаимосвязи между доходом и счастьем.
В столбце t value
отображается статистика теста . Если не указано иное, тестовая статистика, используемая в линейной регрессии, представляет собой значение t из двустороннего теста t . Чем больше статистика теста, тем меньше вероятность того, что наши результаты были получены случайно.
В столбце Pr(>| t |)
отображается значение p . Это число говорит нам, насколько вероятно, что мы увидим оценочное влияние дохода на счастье, если нулевая гипотеза об отсутствии эффекта верна.
Поскольку значение p такое низкое ( p < 0,001), мы можем отклонить нулевую гипотезу и заключить, что доход оказывает статистически значимое влияние на счастье.
Последние три строки сводной информации о модели представляют собой статистические данные о модели в целом. Самое важное, на что следует обратить внимание, это число 9.0005 p значение модели. Здесь оно значимо ( p < 0,001), что означает, что эта модель хорошо подходит для наблюдаемых данных.
Представление результатов
При сообщении о результатах укажите предполагаемый эффект (т. е. коэффициент регрессии), стандартную ошибку оценки и значение p . Вы также должны интерпретировать свои цифры, чтобы ваши читатели могли понять, что означает ваш коэффициент регрессии:
Мы обнаружили значительную взаимосвязь ( p < 0,001) между доходом и счастьем (R 2 = 0,71 ± 0,018), с увеличением зарегистрированного счастья на 0,71 единицы на каждые 10 000 увеличения дохода.Также может быть полезно включить график с вашими результатами. Для простой линейной регрессии вы можете просто отобразить наблюдения по осям x и y, а затем включить линию регрессии и функцию регрессии:
Можете ли вы предсказать значения вне диапазона ваших данных?
Нет! Мы часто говорим, что регрессионные модели можно использовать для прогнозирует значение зависимой переменной при определенных значениях независимой переменной. Однако это верно только для диапазона значений, где мы фактически измерили отклик.
В качестве примера можно использовать наш регрессионный анализ дохода и счастья. Между 15 000 и 75 000 мы обнаружили, что r 2 составляет 0,73 ± 0,0193. Но что, если мы проведем второй опрос людей, зарабатывающих от 75 000 до 150 000?
r 2 для отношения между доходом и счастьем теперь составляет 0,21, или 0,21-единицу увеличения сообщаемого счастья на каждые 10 000 увеличения дохода. Хотя связь по-прежнему статистически значима (p<0,001), наклон стал намного меньше, чем раньше.
Что, если бы мы не измеряли эту группу, а вместо этого экстраполировали линию от доходов 15–75 тыс. до доходов 70–150 тыс.?
Как видите, если бы мы просто экстраполировали данные о доходах от 15 до 75 тысяч, мы бы переоценили счастье людей в диапазоне доходов от 75 до 150 тысяч.
Если мы вместо этого подгоним кривую к данным, она будет гораздо лучше соответствовать реальному образцу.
Похоже, что счастье на самом деле выравнивается при более высоких доходах, поэтому мы не можем использовать ту же линию регрессии, которую мы рассчитали на основе данных о более низких доходах, для прогнозирования счастья при более высоких уровнях дохода.
Даже когда вы видите четкую закономерность в своих данных, вы не можете знать наверняка, сохраняется ли эта закономерность за пределами диапазона фактически измеренных значений. Поэтому важно избегать экстраполяции за пределы того, что на самом деле говорят вам данные.
Часто задаваемые вопросы о простой линейной регрессии
- Что такое регрессионная модель?
Регрессионная модель — это статистическая модель, которая оценивает взаимосвязь между одной зависимой переменной и одной или несколькими независимыми переменными с помощью линии (или плоскости в случае двух или более независимых переменных).
Регрессионную модель можно использовать, когда зависимая переменная является количественной, за исключением случая логистической регрессии, когда зависимая переменная является бинарной.
- Что такое простая линейная регрессия? org/Answer">
- Как рассчитывается ошибка в модели линейной регрессии?
Линейная регрессия чаще всего использует среднеквадратичную ошибку (MSE) для расчета ошибки модели. MSE рассчитывается следующим образом:
- измерение расстояния наблюдаемых значений y от предсказанных значений y при каждом значении x;
- возведения в квадрат каждого из этих расстояний;
- вычисление среднего значения каждого из квадратов расстояний.
Простая линейная регрессия — это модель регрессии, которая оценивает взаимосвязь между одной независимой переменной и одной зависимой переменной с помощью прямой линии. Обе переменные должны быть количественными.
Например, зависимость между температурой и расширением ртути в термометре можно смоделировать с помощью прямой линии: при повышении температуры ртуть расширяется. Эта линейная зависимость настолько надежна, что мы можем использовать ртутные термометры для измерения температуры.