Насколько точны прогнозы на день сурка?

Мы снова приближаемся к тому времени года, когда всеведущий грызун сообщает нам, можем ли мы убрать зимнее снаряжение пораньше и приготовиться повеселиться на солнышке. Я, конечно, говорю о Дне сурка, североамериканской традиции обращения к мудрости сурков для прогноза погоды.

Самый известный из сурков - Пенсильванский Панксатони Фил, чьи предки (всех звали Фил) начали метеорологию еще в 1887 году, не сумев добиться успеха в рытье нор.

Каждый год 2 февраля тысячи людей собираются в Панксатони, чтобы посмотреть, как Фила отвлекают от важных дел, связанных с сурками, чтобы он мог предсказывать нам погоду. Когда он выйдет из своей норы и увидит свою тень, это означает, что у нас будет еще шесть недель зимы. Если он не увидит своей тени, у нас будет ранняя весна.

Фил занимается этим больше века, так что он, должно быть, чертовски трудится. Но время от времени полезно сделать шаг назад и проверить свои предположения. Насколько точны прогнозы погоды Фила?

К счастью, у нас есть способы ответить на такой вопрос. В наших усилиях я буду опираться на такие области, как наука о данных, статистика и машинное обучение. Я делаю все возможное, чтобы объяснить концепции на высоком уровне здесь, но мои объяснения никоим образом не являются полными или точными.

(Если вас интересуют подробности, данные и код можно найти по адресу: https://github.com/docmarionum1/Groundhog-Day)

Шаг 1. Сбор данных

Во-первых, нам нужно собрать данные: прогнозы Панксатони Фила на каждый год и то, какой на самом деле была погода в каждый из этих лет.

Запись прогноза погоды Фила

Я нашел предсказания Фила на сайте About.com, где была составлена ​​таблица, основанная на «официальных» записях, хранящихся в Клубе сурков Панксатони. Для каждого года в таблице отмечается, видел ли он свою тень. (К сожалению, записи за несколько лет были утеряны, но есть над чем поработать.)

Рекорды погоды

Чтобы получить данные о погоде, я обратился к инструменту NOAA Climate at a Glance. Это позволяет получать данные о средней температуре для отдельных штатов или для всей территории Соединенных Штатов в различных временных масштабах, начиная с 1895 года. Удобно, что это произошло всего за несколько лет до того, как Фил начал свою карьеру.

Я не совсем понимаю , что означают «ранняя весна» или «еще шесть недель зимы», поэтому, чтобы охватить свои базы, я взял средние температуры для США на периоды по одному месяцу (февраль, март, апрель), двухмесячными порциями (февраль-март, март-апрель) и, наконец, трехмесячными порциями (февраль-апрель). Всего существует шесть различных способов взглянуть на рассматриваемый период времени.

Когда мы перейдем к анализу, будет рассматриваться только один из этих периодов. Это означает, что февральские температуры будут сравниваться с февральскими температурами других лет, мартовские температуры будут сравниваться с мартовскими и так далее.

Чтобы привести вам пример, так выглядит март с 1895 по 2016 годы.

Одна вещь, которая становится очевидной, когда вы смотрите на график, - это рост средней температуры за последние полвека. Вы можете видеть, что с 1960 года по настоящее время март в среднем становится теплее. Но нас волнует только то, был ли отдельный год жарче или холоднее, чем обычно, поэтому мы хотим контролировать эту основную тенденцию.

Фильтр Ходрика – Прескотта делает именно это. Он работает, сглаживая краткосрочные колебания. Результирующий тренд показан на графике выше в виде красной пунктирной линии. Когда мы вычитаем тенденцию из абсолютной температуры, у нас остается так называемая «циклическая составляющая», показанная ниже.

Используя этот график, мы можем определить «раннюю весну» как годы, когда температура выше нулевой отметки (теплее, чем обычно), и «еще шесть недель зимы» как годы, когда температура ниже нулевой отметки (более прохладная, чем обычно). .

Шаг 2: Анализ

Теперь, когда мы определили термины и отсортировали данные, давайте попробуем ответить на наш первоначальный вопрос: может ли Панксатони Фил на самом деле предсказывать погоду?

Мы хотим проверить, есть ли какая-либо корреляция между предсказанием Фила и погодой на любой год. Если Фил предсказывает раннюю весну, будет ли она теплее, и наоборот?

Но найти корреляцию недостаточно. Мы хотим убедиться, что любая корреляция статистически значима. Говоря неточно, статистически значимая корреляция - это такая корреляция, которая, как мы можем сказать, с определенной степенью уверенности, существует не просто случайно.

Убедитесь, что наши результаты статистически значимы

Хороший способ проиллюстрировать эту концепцию - рассмотреть два набора данных, один только с тремя точками данных, а другой - с 10 (показано ниже). Точки находятся на одной линии, но случайным образом перемещаются вверх или вниз. Если бы вы хотели угадать линию, вы, вероятно, нарисовали бы что-то вроде красной линии на графиках. Но имея всего три точки данных, трудно быть уверенным, что вы ответили правильно. Небольшой сдвиг только в одной из этих точек может сильно повлиять на линию, которую вы рисуете. С 10 точками небольшие изменения в любой одной точке не сильно повлияют на ваше предположение, потому что все остальные точки все еще падают вдоль линии.

Когда мы проверяем статистическую значимость, нам нужно выбрать уровень значимости, который будет использоваться, прежде чем мы начнем анализ. Это вероятность того, что мы получим ложное срабатывание или, скорее, увидим корреляцию просто по совпадению. Статистики обычно используют уровень значимости 0,05, что означает, что с вероятностью 5% мы обнаружим связь в данных, которой в действительности не существует.

Когда мы проведем анализ, мы получим то, что называется p-значением. Значение p - это вероятность того, что мы обнаружили корреляцию между двумя вещами, которые на самом деле не коррелируют. Мы можем сказать, что наблюдаемая корреляция статистически значима, если значение p меньше используемого нами уровня значимости. Когда это правда, это означает, что корреляция с большей вероятностью существует в реальности, чем просто случайность в данных.

В приведенном выше примере графика с тремя точками данных значение p 0,217 означает, что существует 21,7% вероятность того, что эти нанесенные на график точки являются случайными, без реальной связи между ними. Этот шанс 21,7% перевешивает уровень значимости 0,05, поэтому корреляция не является статистически значимой. С другой стороны, с 10 очками, у нас есть (почти) 0% шанс , что мы ошибаемся о корреляции между X и Y, и , таким образом , она является статистически значимым.

Проверка точности Фила

Чтобы проверить корреляцию, мы можем использовать обычную модель линейной регрессии по методу наименьших квадратов (OLS). Регрессия OLS может сказать нам наилучшую взаимосвязь между набором переменных-предикторов и целевой переменной. В предыдущем примере нашим предсказателем был X, а целью - Y. Для нашего анализа «День сурка» нашим предсказателем является предсказание Фила, а целью является температурное смещение.

При использовании шести различных моделей, по одной для каждого временного периода, одна на самом деле оказывается статистически значимой (на уровне значимости 0,05): когда Фил предсказывает раннюю весну , в апреле средняя температура составляет около 1 ° F. холоднее . Ой.

График ниже иллюстрирует корреляцию. Температурный сдвиг для апреля нанесен на график зависимости от года. Очки окрашены в соответствии с предсказанием Фила на этот год - синим, когда он предсказал еще 6 недель зимы, и красным, когда он предсказал раннюю весну. Как видите, гораздо больше красных точек сосредоточено ниже 0. Это означает, что если бы вы пытались сделать ставку, будет ли апрель более жарким или холодным, чем в среднем, основываясь только на предсказании Фила , вам было бы лучше делать ставки на более холодные.

С другой стороны, глядя на другой месяц, мы не видим четких предпочтений в том или ином случае. Красные точки довольно равномерно распределены выше и ниже линии.

Все ли другие сурки также ни на что не годны?

Видя (незаслуженную) славу и богатство Фила на протяжении многих лет, десятки других сурков занялись метеорологическим бизнесом. Википедия - лучший источник исторических предсказаний для всех остальных сурков. К сожалению, это относится только к 2008 году, так что работать не над чем, но мы сделаем все, что в наших силах.

Повторяя процесс, который мы проделали для Фила для всех этих других сурков, выделяются два: Бурный сурок в Авроре, Колорадо и Йорке, чучело сурка Пенсильвании , Бедный Ричард. Когда бурный сурок предсказывает раннюю весну, мы можем ожидать, что март будет в среднем на 6 ° F теплее, а апрель - на 2,5 ° F теплее. Когда Бедный Ричард предсказывает раннюю весну, мы можем ожидать, что в феврале будет теплее на 4 ° F, а в марте - на 8 ° F.

Мы запустили почти 300 различных моделей - 48 разных сурков и 6 временных периодов для каждой. Таким образом, мы должны ожидать, что по чистой случайности некоторые из них будут «статистически значимыми». Фактически, исходя из нашего уровня значимости 0,05 и 288 моделей, мы ожидаем, что около 15 из них будут демонстрировать корреляцию, даже если никакой взаимосвязи не существует. Это известно как углубление данных.

Ложные корреляции Тайлера Вигена прекрасно иллюстрируют эту проблему. Если вы возьмете достаточно случайных наборов данных и смешаете их вместе, обязательно возникнет сильная корреляция между вещами, которые не имеют причинно-следственной связи.

Извините, Бурный сурок и бедный Ричард, но вы, вероятно, не так хорошо разбираетесь в метеорологии, как может показаться.

Что, если бы все они работали вместе?

Давайте попробуем еще кое-что - что, если мы воспользуемся прогнозами всех сурков? Можем ли мы получить лучший результат, чем рассматривать их по отдельности?

Это можно увидеть аналогично методу Delphi или проекту здравого суждения, где прогнозирование выполняется группой экспертов, а отдельные прогнозы объединяются в один. Конечно, я не уверен, что отнесу этих грызунов к экспертам.

Эта составная модель будет немного отличаться от того, что мы делали раньше. Вместо того, чтобы рассматривать температуру по сравнению с одним предсказателем, мы будем сравнивать ее с 48, по одному для каждого сурка. Модель попытается узнать, какая комбинация из 48 прогнозов лучше всего предсказывает погоду. По отдельности они могут не обладать предсказательной силой, но мы надеемся, что вместе они добьются большего успеха, чем любой из сурков по отдельности.

В конце концов, одна модель оказалась немного лучше чистой случайности. В 75–80% случаев наш супер-сурок правильно предсказал, каким будет март. Звучит неплохо, но для 2008–2016 годов всегда было бы правильно выбрать «шесть недель зимы больше» в двух третях, так что это всего лишь на 10–15% лучше, чем всегда выбирать «еще шесть недель зимы».

Ни одна из моделей в остальные месяцы не показала лучших результатов, чем чистая случайность.

К сожалению, не похоже, что сурки очень хорошо предсказывают погоду. Не то чтобы мы не должны были их держать. По крайней мере, они более очаровательны, чем средний репортер погоды. А если вас загнали в пул с сурком в офисе, теперь вы знаете, что делать ставку на Грозового сурка или Бедного Ричарда.

Спасибо Эбигейл Поуп-Брукс и Пауле Селигсон за редактирование и за напоминание мне, что, хотя я могу делать смешные числа на компьютере, объяснять эти числа сложно. NP-жесткий. (Примечание: этот абзац не редактировался. Все опечатки - мои собственные.)

ПОПУЛЯРНЫЕ СТАТЬИ