Линейная регрессия


Метод линейной регрессии позволяет нам описывать прямую линию, максимально соответствующую ряду упорядоченных пар (х,у). Уравнение для прямой линии, известное как линейное уравнение, представлено ниже:

y= a + b x

Метод наименьших квадратов

Метод наименьших квадратов (МНК, или OLS — Ordinary Least Squares) — это математическая процедура составления линейного уравнения, максимально соответствующего набору упорядоченных пар, путем нахождения значений для а и b, коэффициентов в уравнении прямой. Цель метода наименьших квадратов состоит в минимализации общей квадратичной ошибки между наблюдавшимися и предсказанными значениями. Если для каждой точки мы определяем ошибку у, то можем построить линию регрессии так, чтобы минимизировать следующую сумму:

где n — число упорядоченных пар вокруг линии, максимально соответствующей данным. Таким образом, линия регрессии минимизирует общую квадратичную ошибку.

Рассмотрим, как вычисляются коэффициенты регрессии, на следующем примере.

Пример вычисления коэффициента регрессии

Представьте, что вы — руководитель компании, одним из основных направлений деятельности которой является срочная (курьерская) доставка. В последнее время, погнавшись за скоростью доставки, вы перестроили систему мотивации водителей-курьеров таким образом, что она стала в значительной мере зависеть от скорости доставки. Неприятным побочным эффектом смены системы мотивации стало увеличение количества ДТП, в которые попадают водители. И хотя вы сознаете, что нежелательный результат мог быть связан с целым рядом возможных воздействий, вы, в первую очередь, хотите проверить, верна ли ваша гипотеза об увеличении количества ДТП или ваши подозрения не обоснованы статистически.

Поскольку своей целью мы поставили задачу узнать, увеличивается ли со временем число ДТП, «Месяц» будет независимой переменной, а «Количество ДТП» — зависимой. Для определения уравнения регрессии мы будем пользоваться Excel — соответствующая функция называется ЛИНЕЙН() и имеет формат ЛИНЕЙН (Известные_Y, Известные_X, А, Статистика). Здесь Известные_Y — вектор значений Y, Известные_X — таблица значений X (вектор в случае одной переменной), А — может принимать значение 0 или 1 и определяет, должна ли линия регрессии выходить из 0, Статистика — может принимать значение 0 или 1 и определяет, нужно ли выводить дополнительные данные по регрессии.

Поскольку наше уравнение имеет положительный наклон +0.976, мы имеем доказательства того, что число ДТП со временем увеличивается со средней скоростью 1 в месяц. На рис. 6 представлена линия регрессии — вместе с наблюдавшимися значениями.

Таким образом, наше ожидание в отношении числа ДТП в течение следующего периода (месяца 11) будет вычисляться так: у = 5.13+0.976х=5.13 +0.976(11) =15.87 ~ 16. Может, пора опять менять систему мотивации?

Доверительный интервал кривой эффекта

Насколько точны мои ожидания в отношении числа ДТП на определенный месяц? Чтобы ответить на этот вопрос, нам необходимо найти оценку стандартной ошибки Sе. К счастью, Excel уже сделал это за нас: Sе =2.2347~2.23 Теперь мы можем вычислить доверительный интервал среднего у вокруг определенного значения х. В Месяце 8 (х = 8) произошло 11 ДТП (у = 11). Из линии регрессии ожидаем, что: у = 5.13 +0.976 х =5.13 +0.976(8) =12.9 ДТП.

22/42

Формулу для доверительного интервала заинтересованный слушатель сможет найти в литературе; мы же приведем только окончательный результат: Число ДТП (95% доверительный интервал) для месяца 8 находится в пределах от 10.74 до 15.06.

Проверка наклона линии регрессии

Вспомним, что если наклон кривой эффекта b равняется нулю, между переменными х и у нет никакой взаимосвязи. В нашем примере с числом ДТП мы вычислили, что наклон кривой эффекта равен 0.976. Но поскольку этот результат основан на выборке наблюдений, нам необходимо проверить, действительно ли 0.976 находится довольно далеко от нуля, чтобы подтвердить, что между двумя переменными действительно существует связь. Если это наклон фактической совокупности, тогда формулируем гипотезы так: H0: β = 0 H1: β <> 0 Если мы отклоним основную гипотезу, то сможем сделать заключение, что на основе этой выборки между зависимой и независимой переменными действительно существует связь. Проверим это при а = 0.01. Проверка этой гипотезы потребует определить стандартную ошибку наклона Sb. В таблице вывода Excel стандартная ошибка расположена непосредственно под вычисленным коэффициентом. Критерий значимости для данной гипотезы будет рассчитываться так:

Критическое значение t= tc найдем из t-распределения Стьюдента при n – 2 = 10 – 2 = 8 степенях свободы. При двусторонней проверке а = 0.01 tс = 3.355 в соответствии с таблицами или функцией Excel. Поскольку t > tc, мы отклоняем основную гипотезу и заключаем, что между месяцем и числом ДТП действительно существует связь.

Допущения для линейной регрессии

Чтобы все эти результаты были действительными, нам необходимо убедиться, что не нарушаются допущения линейной регрессии. Существует линейная связь между независимой и зависимой переменными.

Остатки (индивидуальные различия между данными и линией, определяемой уравнением регрессии) являются независимыми друг от друга. Наблюдаемые значения у являются нормально распределенными вокруг ожидаемого значения (или, формулируя на языке остатков, «остатки являются нормально распределенными со средним, равным 0»). Вариация у вокруг кривой эффекта равняется всем значениям х.

Методики для проверки этих допущений не входят в рассмотрение этого курса.

Линейная регрессия на несколько переменных (Множественная регрессия)

Линейная (простая) регрессия ограничивается рассмотрением связи между зависимой переменной и только одной независимой переменной. Если в связи присутствует более одной независимой переменной, тогда нам необходимо обратиться к множественной регрессии. Уравнение для такой регрессии выглядит следующим образом: у = а+b1х, +b2х2 + …+ bпхп Как вы понимаете, здесь все гораздо сложнее. Возникает целый ряд проблем; некоторые из них мы просто отметим, на некоторых — наиболее важных и интуитивно понятных — остановимся подробнее. Чем хороша одномерная регрессия? Ее график можно изобразить на плоскости. С увеличением числа переменных такая возможность, увы, пропадает. Уже в случае двух независимых переменных изображение графика представляет некоторые сложности. Если же вы научитесь строить интуитивно понятные графики зависимостей от 3 или более независимых переменных — пожалуйста, сообщите мне. Смотря по ситуации, я должен буду передать это сообщение дальше — либо в Нобелевский комитет, либо в соответствующую больницу.



Категория: управление. Дата публикации: 1 Март, 2010.