В НИУ ВШЭ разработали алгоритм, способный обнаружить землетрясения и всплески заболеваний
Исследователи Центра искусственного интеллекта и факультета компьютерных наук НИУ ВШЭ представили новый алгоритм обнаружения структурных изменений во временных рядах. Метод использует нейронную сеть для сравнения различных отрезков ряда, что позволяет быстрее выявлять изменения в его поведении.
Результаты работы представлены на 26-й Международной конференции по искусственному интеллекту и статистике — AISTATS (А*). В современных задачах машинного обучения нередко возникает необходимость обработки временных рядов, то есть последовательностей, упорядоченных по времени наблюдений. При этом данные могут быть различной природы: от числа заболевших штаммом коронавируса и показателей мониторинга пациентов, проходящих реабилитацию после инсульта, до почасового количества постов в социальных сетях на конкретную тему и показаний датчиков сейсмической активности.
Частота, с которой приходят новые данные при таких наблюдениях, может значительно отличаться. Но есть и общая черта: резкие изменения в поведении этих временных рядов могут сигнализировать о важном событии — начале новой волны пандемии, необходимости оказания срочной помощи пациенту, землетрясении. Своевременное их обнаружение позволит предотвратить или хотя бы смягчить нежелательные последствия.
Момент времени, когда данные перестают соответствовать ожидаемому образцу или тренду, называется разладкой. Стоит отметить, что не всегда важные структурные изменения в последовательности наблюдений заметны для человека. Это приводит к необходимости разработки автоматических методов их обнаружения. Задача обнаружения разладки давно стала одной из классических в математической статистике, и исследователи во всем мире работают над созданием эффективных методов анализа данных и выявления структурных изменений. Один из таких методов — алгоритм обнаружения разладки во временных рядах — разработали исследователи факультета компьютерных наук НИУ ВШЭ Никита Пучкин и Валерия Щербакова.
Существует несколько способов обнаружения разладки во временных рядах, и они могут быть разделены на группы в зависимости от того, какое именно структурное изменение нужно обнаружить. Некоторые методы сосредоточены на изменении средних значений, другие — на изменении тренда или на волатильности данных (меры того, насколько данные меняются со временем). Также есть методы, которые могут обнаруживать разладки произвольного вида, то есть непараметрические методы. Это особенно полезно, когда последствия события еще не проявились полностью, тренд и волатильность временного ряда остаются прежними, но происходят изменения в других характеристиках данных. Понимание этих методов помогает исследователям и аналитикам более точно определить разладку во временных рядах и принять соответствующие меры.
Ученые отмечают, что в ряде исследований непараметрические методы обнаружения разладки приводятся без теоретических оценок на скорость выявления изменений в последовательности наблюдений, вследствие чего возникают вопросы к надежности результатов. Поэтому исследователями Центра искусственного интеллекта НИУ ВШЭ была поставлена амбициозная задача разработать метод, который, с одной стороны, был бы практичен, а с другой — имел бы четкое теоретическое обоснование.
«В основе нашего алгоритма лежит простая идея: раз поведение временного ряда изменилось, наблюдения до и после момента разладки можно отличить друг от друга. Для этого мы используем нейронную сеть, оптимизируя ее веса таким образом, чтобы контрастность между частями выборки до и после разладки была наиболее ярко выражена. Поэтому метод получился универсальным, а главное, эффективность его работы подтверждается математически», — комментирует Никита Пучкин, научный сотрудник Международной лаборатории стохастических алгоритмов и анализа многомерных данных Института искусственного интеллекта и цифровых наук ФКН НИУ ВШЭ.
Для проверки качества работы алгоритма ученые провели ряд тестов различной сложности, сравнив его с несколькими популярными непараметрическими методами обнаружения разладки. В ходе испытаний учитывалось, насколько часто алгоритм ошибается, выдавая ложные сигналы, и сколько времени ему требуется для выявления изменений. В результате алгоритм показал многообещающие результаты, обнаруживая важные события или изменения в данных в среднем на 30 процентов быстрее конкурентов.
Хочешь всегда знать и никогда не пропускать лучшие новости о развитии России? У проекта «Сделано у нас» есть Телеграм-канал @sdelanounas_ru. Подпишись, и у тебя всегда будет повод для гордости за Россию.