Проблемы, возникающие в случае множественной регрессии


Таким образом, первая проблема: сложности с интерпретацией и наглядностью. Далее. Когда модель имеет всего одну независимую переменную, сама по себе регрессия становится достаточно очевидной. Все меняется, когда приходят они — другие переменные. Например, несколько лет назад в Соединенных Штатах провели опрос на тему «Количество КПК на 1000 человек населения в зависимости от возраста» (см. Приложение 2; данные условные!). Построив регрессию количества КПК на 1000 человек на возраст, исследователи получили результат, прямо противоположный тому, который рассчитывали получить: с возрастом количество КПК не уменьшалось, а возрастало!

Слава богу, организаторы опроса догадались включить и другие переменные. Оказалось, что количество КПК больше зависит от заработной платы; а так как последняя, в свою

очередь, зависит от возраста (по крайней мере, в Соединенных Штатах), то эта зависимость была перенесена и на количество КПК. Таким образом, проблема вторая — мультиколлинеарность и, соответственно, одно из ее негативных проявлений — «пришпоренная» корреляция (то есть корреляция зависимой переменной с некой независимой переменной, вызванная, в свою очередь, корреляцией этой независимой переменной с другой независимой переменной). Как бы хотелось, чтобы этим и исчерпывался список проблем с многомерной регрессией… Но — увы и ах — это далеко не все. Или, если пользоваться другой терминологией, даже близко не все. Представьте себе, что вы ищете независимую переменную, которая лучше других предсказывает интересующую вас переменную — например, движение индекса РТС. Все шансы за то, что, перерыв изрядное количество данных, вы, в конце концов, воскликнете: «Эврика! Движение индекса РТС за последний год почти точно повторяет движение дневной температуры в Урюпинске!» (или в Кологриве, Конотопе, Крыжополе — просто подставьте ваш любимый город). Это, кстати, еще ничего — хотя вам будет несложно основывать торговую модель на движениях температуры, вам, по крайней мере, не придет в голову влиять на индекс с помощью установки нагревательного или охлаждающего оборудования. А представьте несколько другую ситуацию: вы обнаруживаете, что движение индекса РТС отслеживает движение цен на свежесваренных раков на Даниловском рынке. Что дальше? Да все очень просто: вы продаете как можно больше акций «в короткую» (то есть совершаете действие, которое позволит вам получить прибыль при снижении цен), и каждый час посылаете на Даниловский рынок по небольшому грузовичку, нагруженному вашим любимым сортом раков. Последствия понятны: цена на раков падает, а за ней — и индекс РТС. Итого, проблема третья — «раскапывание» данных (впрочем, она характерна и для одномерного случая). Теперь давайте подумаем: как будет влиять добавление новых переменных на R2? Ответ сравнительно несложен: в худшем случае, добавление еще одной переменной никак не скажется на R2. То есть, самое плохое, что может сделать регрессия — просто не учитывать переменную, поставив при ней коэффициент 0. В особо тяжелых случаях, отдельные индивидуумы рассматривают такое количество переменных, что R2 становится равным единице. Представьте, что у вас есть 365 наблюдений и 364 линейнонезависимых переменных. С их помощью (не забывайте про интерсепт — это, можно сказать, еще одна переменная) мы можем с абсолютной точностью описать все 365 наблюдений. Следовательно, R2 будет равен единице. Тогда проблема четвертая — «Игра в R2».



Категория: управление. Дата публикации: 1 Март, 2010.