Любовь Левченко | Как мы сократили время прогнозирования с 2ух недель до 5 минут

Оценили: 18

https://www.perplexity.ai

промт — Сделай обзор на текст, выдели основные мысли, предложи варианты заголовков, предложи варианты картинок илюстраций к тексту

Доклад Любы из команды аналитики Авито о том, как они значительно сократили время прогнозирования временных рядов. Основные мысли и идеи, представленные в тексте, можно выделить следующим образом:

Основные мысли

Сокращение времени прогнозирования: Команда Авито смогла сократить время прогнозирования с двух недель до 5 минут за счет автоматизации процессов.
Цели и задачи команды: Основная задача команды заключается в создании платформы для прогнозирования временных рядов, которая позволяет аналитикам быстро и эффективно строить прогнозы.
Процесс прогнозирования:
- Прогнозирование временных рядов используется для различных бизнес-задач, таких как бюджетирование, оценка нагрузки на модерацию и анализ интересов пользователей.
- Процесс включает несколько этапов: очистка данных, выбор модели, настройка гиперпараметров и оценка качества прогнозов.
Использование моделей: Команда использует различные модели для прогнозирования, включая статистические и машинного обучения. В частности, была упомянута модель Prophet.
Автоматизация и улучшение качества: Автоматизация этапов прогнозирования не только ускорила процесс, но и улучшила качество прогнозов на 54%.
Будущие направления: Команда продолжает работать над улучшением методов прогнозирования и адаптацией моделей к изменяющимся условиям рынка.

Варианты заголовков

«Как Авито Сократило Время Прогнозирования с Двух Недель до Пяти Минут»
«Автоматизация Прогнозирования Временных Рядов: Опыт Команды Авито»
«Эффективные Методы Прогнозирования: Уроки от Аналитиков Авито»
«Прогнозирование Временных Рядов: Как Мы Улучшили Качество на 54%»
«Новые Подходы в Аналитике: Секреты Успеха Команды Авито»

Варианты картинок и иллюстраций

Графики временных рядов: Иллюстрации, показывающие примеры временных рядов до и после применения методов прогнозирования.
Схема процесса автоматизации: Визуальная схема, иллюстрирующая этапы автоматизации прогнозирования.
Сравнение моделей: Графики или таблицы, показывающие эффективность различных моделей прогнозирования (например, Prophet vs. ML модели).
Успехи команды: Инфографика с ключевыми показателями успеха (сокращение времени прогнозирования, улучшение качества).
Команда аналитиков: Фотографии или иллюстрации команды, работающей над проектом.

Эти элементы помогут сделать текст более привлекательным и понятным для читателей, а также визуально подчеркнуть ключевые идеи доклада.

https://giga.chat

промт — нарисуй Графики временных рядов: Иллюстрации, показывающие примеры временных рядов до и после применения методов прогнозирования.

https://giga.chat/link/gcsZyWwTbJ

Расшифровка видео

Поиск по видео
0:00
Всем привет Меня зовут Люба я из кора
0:03
аналитики в Авито И сегодня я вам
0:04
расскажу как мы сократили время
0:06
прогнозирования с дву недель до 5 минут
0:08
Давайте сначала пару слов обо мне Я в
0:11
команде прогнозирования уже давно около
0:13
2 лет и за эти 2 года команда очень
0:16
сильно поменялась очень сильно
0:17
поменялись наши задачи Ну и чем мы
0:19
вообще Сейчас занимаемся мы строим
0:20
платформу прогнозирования для временных
0:22
рядов Авита чтобы любой аналитик мог
0:24
зайти на платформу и быстро без проблем
0:26
построить прогноз мы готовим прогнозы
0:28
которые лежат в основе плана всей
0:29
компании
0:31
мы исследуем актуальные модели и методы
0:32
для прогнозирования временных рядов а
0:34
также внедряем прогнозы временных рядов
0:36
в
0:37
бизнес план на сегодня такой Сначала мы
0:40
поговорим в принципе про задачу
0:41
прогнозирования временных рядов что это
0:43
такое зачем это нужно обсудим как
0:45
прогнозы временных рядов используется в
0:47
бюджетировании в Авито поговорим про
0:49
автоматизацию этапов прогнозирования и
0:51
как это
0:58
сокращалось Поднимите руки те кто
1:00
когда-либо сталкивался в работе с
1:02
задачей прогнозирования временных
1:04
рядов рук очень много это круто значит
1:07
доклад Вам актуален но Давайте напомню
1:09
для тех кто позабыл что это вообще такое
1:12
У нас есть какой-то период истории А и
1:15
мы хотим чтобы модель на этом периоде
1:17
история обучила а потом построила
1:19
какой-то прогноз на каком-то горизонте
1:21
естественно Мы хотим чтобы наше
1:22
спрогнозирован Зелёная линия была как
1:24
можно ближе к действительно тому что
1:26
будет в будущем Ну вообще зачем
1:28
прогнозирование временно рядов Может вам
1:31
пригодиться можно его использовать для
1:33
детекции аномалий например смотреть
1:35
когда были какие-то просадки в данных и
1:37
нормально ли эти просадки или нет для
1:39
оценки эффектов а тестов для оценки
1:41
нагрузки на модерацию например Когда вы
1:43
прогнозируется количество звонков и
1:45
сообщений прогноз просто для нового
1:47
продукта для оценки его эффективности а
1:50
также прогнозирование интересов юзеров
1:52
для поиска и рекомендательных систем ну
1:54
а мы в Авито используем прогнозирование
1:56
временных рядов для долгосрочного
1:58
среднесрочного планирования то есть
1:59
тирования поэтому Давайте теперь
2:02
поподробнее обсудим Что такое
2:03
бюджетирование как оно работает в целом
2:06
верхнеуровнево бюджетирования в Авито
2:07
можно разделить на следующие три этапа
2:09
всё начинается с белайн прогноза бизнес
2:12
метрик ребята до меня рассказывали Какие
2:14
бизнес метрики есть в Авито но я напомню
2:16
что это количество байеров селлеров
2:17
выручкой Ну и всякие другие которые
2:19
связаны с фй бизнесом эти прогнозы
2:22
готовит команда Стин После этого они
2:25
агрегирующие
2:29
тся командой финансов и командами
2:32
вертикалей они их корректируют в
2:33
зависимости от того какие Over они
2:36
ожидают Over И после этого на
2:38
скорректированные прогнозы накладываются
2:39
какие-то инициативы то есть
2:40
запланированы изменения в продуктах или
2:42
какие-то Новые продукты и по итогу мы
2:45
ставим планы для всей компании Ну а
2:47
делаем мы это раз в
2:48
квартал Ну и очевидно что прогнозы
2:52
являются в принципе основой бюджетного
2:53
процесса поэтому мы заинтересованы чтобы
2:55
во-первых они работали хорошо А
2:57
во-вторых чтобы они работали быстро
2:59
Давайте подробнее посмотрим что такое
3:00
безлайн прогнозы запомните этот ряд это
3:03
активное объявление про утят на Авито а
3:06
и обычно для наших рядов У нас есть
3:08
где-то около трёх полных календарных лет
3:10
истории И мы строим прогнозы на 3-12
3:12
месяцев вперёд в принципе наши Белан
3:14
прогнозы должны имитировать органический
3:16
рост метрики то есть рост метрики когда
3:19
если бы мы ничего с нашим продуктом не
3:21
делали и особенностью нашего процесс
3:24
является то что во-первых у нас 5.500
3:26
временных рядов А во-вторых мы делаем
3:28
Это каждый квартал
3:30
Давайте перейдём к этапам
3:32
прогнозирования расскажу как мы их
3:35
автоматизировали сейчас для
3:36
прогнозирования временных рядов у вас не
3:38
получится Просто взять какую-то модель
3:39
сделать предикт и получить что-то
3:41
классное поэтому вам придётся пройти по
3:43
этим четырём этапам всё начинается с ПН
3:45
Когда вы смотрите на данные как-то вы
3:47
очищаете шум из этих данных для того
3:49
чтобы ваши модели было проще
3:51
спрогнозировать потом вы выбираете
3:53
модель прогнозирования есть Разные
3:54
классы моделей есть модели
3:56
статистические такие как арима горчи
4:00
и всякие другие есть модели ML то есть
4:02
Machine Learning есть модели Deep
4:04
Learning Machine Learning и Deep
4:06
Learning становятся всё более и более
4:07
популярны в последнее время для этих
4:09
моделей особенно становится актуальным
4:10
тюнинг гипер параметров То есть когда вы
4:12
должны настроить модель так чтобы она
4:14
давала наилучший результат Ну и
4:15
последний этап это нужно в принципе
4:16
оценить А что же вы получили и насколько
4:18
хорошо то что вы получили Ну и
4:21
особенностью нашей работы было то что
4:23
ещё некоторое время назад всё это мы
4:25
делали руками а из-за того что мы всё
4:27
это делали руками это было Ну очень дол
4:29
долго у одного аналитика это занимало Ну
4:32
примерно 4 недели по грубым оценкам это
4:35
была наша первая проблема А второя наша
4:37
проблема было то что мы не очень
4:38
понимали а вот все метрики качества
4:40
классические такие как РМС мое мапи они
4:43
правда отражают то что нужно заказчику и
4:45
как вообще их объяснить
4:47
заказчику Ну и по итогам нашей
4:49
трансформации мы во-первых сократили
4:51
время прогнозирования на
4:53
99.99% А во-вторых ещё улучшили
4:56
во-первых оценили качество прогнозов
4:57
во-вторых его улучшили на 54% а всё это
5:00
произошло за счёт автоматизации как раз
5:02
этапов прогнозирования Ну давайте начнём
5:04
с первого этапа Это при процессинг
5:06
вообще когда говорят про прон Обычно
5:09
говорят про такие характеристики
5:10
временного ряда как не стационарность
5:12
какие-то радости ненормальность и всякие
5:14
другие сложные слова которые не всем
5:16
нужны на самом деле А говорят про
5:18
циклические паттерны которые обычно
5:20
негативно влияют на сезонность говорят
5:22
про регрессор которые характеризуют
5:24
какие-то переменные от которых зависит
5:26
та переменная которую вы прогнозируется
5:28
ну и говорят про аномалии на самом деле
5:30
для большинства современных моделей
5:31
первые два пункта не так уж важны для
5:33
них важнее детектировать регрессора и
5:36
аномалии мы поговорим про точечные
5:38
аномалии то есть выбросы про
5:40
коллективные аномалии то есть двиги
5:42
уровня и контекстуальные аномалии
5:43
которые характеризуют периоды действия
5:45
каких-то экзогенных факторов все их
5:47
поподробнее мы обсудим дальше давайте
5:49
пока посмотрим на те ряды которые есть у
5:51
нас Посмотрите на них и подумайте Вот
5:53
какой из них вам кажется наиболее
5:55
привлекательным и наиболее
5:56
прогнозируемым
5:59
но тут есть уже мои комментарии Понятно
6:01
Какой из этих рядов нравится больше
6:02
всего мне мне действительно нравится
6:04
больше всего первый ряд в нём понятен
6:06
тренд в нём видна сезонность и в целом
6:08
можно предположить что будет с ним
6:09
дальше второй ряд чуть-чуть похуже там
6:11
видны какие-то непонятные колебания он
6:13
достаточно
6:18
волатильный выброс что-то случилось с
6:20
данными или что-то ещё ну четвёртый ряд
6:23
и комментировать и прогнозировать не
6:25
хочется и очень часто Когда такие ряды
6:28
встречаются если они имеют маленькую
6:30
шкалу их проще прогнозировать просто по
6:33
среднему Давайте поговорим про
6:35
регрессора как я уже говорила наши
6:38
переменная которые мы хотим
6:39
спрогнозировать может зависеть от
6:40
каких-то других переменных И если мы
6:42
берём какой-то непрерывный регрессор то
6:44
мы должны понимать прогноз этого
6:46
регрессора для того чтобы
6:47
спрогнозировать нашу переменную но это
6:49
не всегда возможно например вы не можете
6:52
скорее всего спрогнозировать ставку ЦБ
6:54
Потому что если бы могли то всем бы нам
6:56
было хорошо вот поэтому для того чтобы
6:59
этим не мучиться мы берём дами
7:01
переменной дами переменной — это
7:02
некоторый индикаторный Вектор который
7:05
принимает значение один на какой-то
7:06
период который вы хотите выделить и ноль
7:08
в другом случае например мы сразу можем
7:11
предопределило ковида и обозначить его
7:13
единичка для нашей модели какие-то
7:15
периоды кризисов Ну и всякие другие
7:16
штуки которые мы точно знаем заранее про
7:18
наши временные ряды именно благодаря
7:21
тому что мы используем дами регрессора
7:23
Мы например не исключаем аномалии из
7:25
нашего ряда а оформляем их в регрессора
7:33
выбросы экзогенные факторы мы ищем одним
7:35
алгоритмом это алгоритм сглаживания он
7:38
сглаживает временной ряд и за счёт этого
7:40
можем находить те Точки которые как-то
7:42
выбиваются из поведения ряда вот
7:44
например данном случае алгоритм очень
7:46
круто нашёл второй период который
7:47
характеризует раскатку нового продукта и
7:50
вот эти красные периоды мы как раз
7:52
обозначили единичка в наших регрессора а
7:54
всё остальное обозначили
7:56
ноликом сдвига уровня мы находим с
7:58
помощью модифицированного теч до сдвига
8:01
уровня мы
8:04
помечает при прон мы получаем много этих
8:08
векторов регрессоров которые друг на
8:09
друга накладываются в
8:11
модели Ну с регрессора понятно что этот
8:14
этап был необходим И критичен для нас
8:17
поэтому Давайте теперь обсудим выбор
8:18
модели как я говорила они бывают разные
8:21
мы очень долго использовали Профит
8:24
и Давайте расскажу как он работает а
8:27
Профит вообще достаточно популярная
8:29
модель как раз для прогнозирования
8:30
каких-то реальных данных Но в нашем
8:32
случае данных бизнес метрик и она
8:34
строится на декомпозиции временного ряда
8:36
на таких на такие компоненты как тренд
8:38
недельная сезонность годовая сезонность
8:41
праздники и это делает Профит очень
8:43
крутым как раз вот для бизнес метрик в
8:45
том числе а вокруг профита у нас было
8:47
выстроено много архитектуры поэтому
8:48
изначально мы не рассматривали в
8:50
принципе смену прогнозной
8:53
модели но мы сразу поняли что нам нужно
8:55
думать А как же нам затюнить Профит так
8:57
чтобы он давал нам наиболее классный
8:58
результат прот — это ML модель
9:01
прогнозирования и очевидно ей нужно
9:02
как-то тюнить гиперпараметры Ну один из
9:05
самых простых способов — это GR CV
9:07
теперь Поднимите руки те кто вообще
9:08
помнит что такое grch
9:11
CV супер А теперь давайте для тех кто не
9:15
помнит что это
9:16
такое grech CV строится на двух
9:19
принципах Крос валидация и gre Search
9:22
кросс валидация обычно для большинства
9:26
задач Когда вы выбираете какие-то фолды
9:28
из данных после этого оценивайте их на
9:31
оценивайте модель на каких-то одинаковых
9:32
кусках трейна и смотрите что получается
9:34
на валидации для ных рядов это работает
9:37
немножечко по-другому вы период трена
9:39
постоянно
9:40
расширяется а валидацию оставляете такой
9:43
как была Ну в нашем случае мы должны
9:45
строить прогнозы на год вперёд поэтому
9:47
мы брали валидацию как раз с размером 1
9:50
год трен начинали от одного года и
9:52
постоянно его увеличивали до конца
9:53
временного ряда Ну
9:56
а супер простая техника Когда вы берте
9:59
многомерную такую сетку гипер параметров
10:01
и берёте все комбинации гиперпараметры
10:03
которые возможно А лучшую модель вы
10:05
выбираете по какой-то метрике качества
10:07
Ну допустим по
10:09
мапе особенностью в нашем случае
10:11
оказалось то что Профи не хватает одного
10:14
года истории для того чтобы построить
10:15
адекватный прогноз на год вперёд
10:17
Посмотрите на картинку слева и
10:18
посмотрите что нам выдал Профит Ну явно
10:21
Метрика так бы никогда не пошла ну если
10:23
что история была у него нормаль на
10:25
которой он всё это строил А вот на двух
10:27
годах истории ситуация уже гораздо лучше
10:29
другой проблемой этого подхода было то
10:32
что Профит из-за того что из-за подхода
10:34
Крос валидации не учитывал в принципе
10:36
дцать Трей год Ну в данном случае д Трей
10:38
год в своей оценке лучшей модели из-за
10:42
этого очень часто выбиралась модель
10:44
которая каким-то случайным образом лучше
10:46
всего подстроила под последний год
10:48
истории и вот например в данном случае
10:51
модель нам предсказала что вообще уточек
10:53
на СРО не будет и кажется что это врядли
10:56
будет правдой
10:59
перед выбором первый вариант был это
11:01
как-то сильно расширять сетку
11:03
гиперпараметры чтобы модель выбиралась
11:05
по другим принципам и второй подход —
11:08
это можно было поменять в принципе то
11:10
как мы тюним модель мы пошли По второму
11:13
пути Мы подумали что кросс валидация на
11:15
самом деле в нашем случае ну не такая уж
11:17
и Рабочая оказалась А мы подумали А что
11:19
хотят наши заказчики А наши за заказчики
11:22
хотят чтобы месячные прогнозы были
11:24
хороши поэтому они смотрят на Мас Over
11:27
мас изменения в прогнозе То есть
11:30
например
11:30
если в прошлом Метрика от августа к
11:33
сентябрю в среднем менялась на 5% то
11:36
будет странно если вашем прогнозе
11:37
Метрика вдруг начнёт расти на
11:39
20% поэтому РМС мы превратили в МС Мом
11:43
где мы сравниваем исторические Мома с
11:45
прогнозным моми Но а так и остался
11:49
набором комбинаций гипер
11:51
параметров этот подход во-первых
11:53
оказался гораздо быстрее чем валидация
11:55
Потому что Вы руе только одну модель а
11:57
не несколько во-вторых он работает Ну
12:00
действительно очень круто в нашем случае
12:02
и вот такой прогноз у нас получился для
12:03
нашего ряда с
12:06
уточками за счёт этого мы ускорили время
12:09
прогнозирования до 2 недель это уже
12:10
честные 2 недели потому что это время
12:12
работы сервера Ну и качество прогнозов в
12:14
этой РММ у нас улучшилось на
12:17
48% Но на самом деле для бюджетного
12:19
цикла 2 недели — это всё ещё очень много
12:21
и мы не можем себе позволить такое время
12:24
прогнозирования поэтому мы стали думать
12:26
как же нам ускорить наше прогнозирование
12:28
Ну понят по дело что все этапы кроме
12:30
тюнинга моделей на самом деле работают
12:32
очень быстро самый тяжёлый этап — это
12:34
тюнинг модели поэтому мы стали думать
12:36
как же нам ускорить тюнинг моделей есть
12:38
Вообще разные методы это Random Search
12:40
фреймворки такие как
12:42
htun Но мы предположили что
12:45
гиперпараметры модели могут каким-то
12:47
образом зависеть от характеристик
12:49
временного ряда которые будут
12:52
прогнозировать и мы решили что нам нужно
12:54
оценить тогда тренд и сезонность
12:56
каким-то образом для того чтобы
12:58
оценивать тренд сезонность нам нужно их
13:00
сначала выделить из нашего временного
13:01
ряда лучше всего в этом случае работала
13:04
декомпозиция ML ML крутая тем что она
13:07
во-первых подразумевает что у ряда может
13:09
быть несколько видов сезонности Ну в
13:11
случае бизнес метрик это Например
13:12
недельная и годовая сезонность а
13:14
во-вторых она позволяла этим сезонности
13:17
меняться во времени что тоже собственно
13:19
очень логично для нашей непостоянной
13:21
внешней среды Ну вот в данном случае
13:25
понятно что тренд например не
13:26
волатильный он в какой-то момент начал
13:28
расти И вот тогда дальше себе растёт А
13:30
сезонность в это время очень сильная и
13:32
она прямо явно видна на этом графике и
13:35
эти оценки мы использовали для того
13:37
чтобы как раз сократить нашу сетку
13:38
гиперпараметры то есть мы итерируемый
13:42
определённое количество гиперпараметры
13:44
чтобы сетка стала
13:46
меньше И вот это позволило нам сократить
13:49
время прогнозирования с дву недель уже
13:51
до 3х дней при этом качество ещё
13:53
увеличилось на 11% это уже был на самом
13:56
деле шикарный результат но на самом деле
13:58
у нас оставалось ещё одна небольшая
13:59
проблема как я говорила бизнес метрики у
14:01
нас супер разные У нас есть какие-то
14:03
рацио метрики какие-то метрики с большой
14:05
историей есть метрики с маленькой
14:07
истории и как вы помните Профит очень
14:10
плохо работал на рядах у которых всего
14:11
один год истории и мы подумали что Раз
14:15
уж декомпозиция ML так круто работает
14:17
для наших временных рядов то Почему бы
14:19
нам не попробовать ML прогноз ную
14:25
модель ML и в целом другие модели
14:28
которые представлен на слайд такие как
14:30
Кама tbs ets это в принципе другой класс
14:33
модели это статистические модели они
14:35
отличаются от ML DL А и мы попробовали
14:38
msl это наш это наш любимчик оказался на
14:41
вот этих рядах с маленькой историей и
14:43
оказалось что он работает Шикарно а
14:45
потом мы подумали почему бы его не
14:46
попробовать на всех остальных рядах Ну и
14:49
оказалось что M шикарно работает для
14:51
большинства наших рядов Но если не
14:53
работает ML то мы использовали какую-то
14:55
другую статистическую модель а расскажу
14:58
сейчас по по принцип прогнозирования
15:00
маль Он точно также декомпозировать
15:01
временной ряд как я уже описывала и
15:03
потом какой-то отдельной функции
15:05
предсказывает тренд и отдельно
15:06
предсказывает сезонности Почему вообще
15:09
вот эти статистические модели потому что
15:10
мы нашли экосистему ла и конкретно
15:12
библиотеку stats forecast которая
15:15
настолько хорошо оптимизирована что
15:17
время прогнозирования наших 5.500 рядов
15:20
сократилось до 5 минут То есть сейчас
15:23
действительно мы нажимаем Одну кнопку
15:24
спустя 5 минут у нас есть все нужные нам
15:26
прогнозы при этом качество схема мне
15:29
упало и суммарно за Все наши вот эти
15:32
махинации увеличилась на
15:34
54% Ну и при этом мы автоматизировали
15:36
наш пайплайн и теперь вообще можем
15:38
отдыхать пока модели делают всё за нас
15:42
ну и какие вообще инсайты первая важная
15:45
мысль что когда вы подходите к тюнингу
15:47
модели Подумайте про потребности бизнеса
15:49
в нашем случае Нам действительно очень
15:51
сильно помогло то что мы подумали А как
15:53
наши заказчики смотрят на наши прогнозы
15:56
И это может не сработать В вашем случае
15:58
В вашем случае может сработать что-то
16:00
другое но Подумайте кто и как будет
16:01
пользоваться вашими
16:03
прогнозами вторая важная мысль которая
16:06
Далась нам на самом деле очень-очень
16:07
тяжело это то что иногда смена модели
16:10
лучше чем улучшение старой мы очень
16:12
долго и муторно улучшали Профит мы очень
16:14
долго пытались оставить его работать так
16:15
как мы хотим Но ML и сильно ускорил
16:18
время прогнозирования не ухудшил
16:20
качество если бы мы наверное сразу на
16:22
него перешли может быть мы бы решили
16:24
нашу задачу гораздо
16:26
быстрее третья важная мысль что
16:29
статистика эконометрика — это отличная
16:31
теоретическая база для временных рядов
16:33
мы её используем сейчас как для
16:34
прогнозирования так и для
16:36
прессинга вам тоже рекомендую
16:38
ознакомиться с какими-то основными
16:40
принципами и может быть вам это сильно
16:42
поможет Ну и всё это нам помогло
16:44
действительно сократить время
16:45
прогнозирования до 5.500 рядов и
16:49
прогнозировать их за 5 минут и по итогам
16:51
у нас ещё и получился автоматический пап
16:55
прогнозирования на этом У меня сегодня
16:57
всё Напоминаю что зовут Меня Люба я из
17:00
команды кора аналитики в кора аналитике
17:02
мы занимаемся не только прогнозированием
17:03
временных рядов Но и всякими другими
17:05
интересными задачами сейчас мы ищем себе
17:07
аналитиков поэтому может быть это будете
17:09
вы ну и спасибо вам большое вы очень
17:11
классная аудитория я готова к вашим
17:13
вопросам Спасибо
17:15
большая так вот я вижу здесь вот
17:19
вопросик Давайте спереди
17:25
Спасибо Привет Спасибо за доклад очень
17:28
интересно У меня два вопроса Первый
17:31
всё-таки получается Вы всю очистку
17:33
данных То есть у вас проходит там 3
17:35
месяца Потом новые 3 месяца За эти 3
17:37
месяца там в 5500 рядов по-любому будут
17:40
какие-то аномалии какие-то выбросы там
17:42
вы это всё отдаёте на откуп алгоритмам
17:44
или всё-таки что-то ОТС матри ете Да да
17:46
Сейчас мы действительно всё это отдаём
17:48
на откуп алгоритму мы только иногда
17:49
когда получаем прогнозы которые Ну вот
17:52
явно нам не нравится или например нам
17:53
команда финансов которая принимает эти
17:55
прогнозы говорит что не нравится тогда
17:57
мы уже начинаем смотреть Глу
17:59
на самом деле вот эти два алгоритма
18:00
которые я описала в общем-то покрывают
18:02
все наши
18:03
потребности ещё такой вопрос Вот мы тоже
18:06
пробовали СТ или Профит и Профит победил
18:09
потому что он всё-таки более
18:10
настраиваемый То есть когда мы делали
18:13
прогнозы профитом к нам мог прийти
18:16
менеджер и спросить допустим нет ребят
18:18
нас так сервис не пойдёт он пойдёт выше
18:20
Как вы с этим боретесь в МСТ или как вы
18:23
его условно есть ли такие ситуации когда
18:26
вам говорят что надо направить ряд
18:27
допустим выше ниже там или как-то
18:29
по-другому Угу Ну на самом деле сейчас
18:32
ML работает в принципе без каких-то доп
18:34
настроек мы иногда только выбираем вот
18:36
из статистических моделей которые есть
18:38
то есть например если не работает ML мы
18:40
можем выбрать Там какой-нибудь ets он
18:41
действительно может сработать для
18:42
каких-то рядов а но на самом деле наши
18:47
менеджеры очень счастливы что Мы перешли
18:49
на ML Потому что профита им нравился
18:51
гораздо реже и вот какие-то
18:53
дополнительные вещи которые как ты
18:55
описываешь они не совсем нам релевантны
18:57
потому что мы прогнози органический рост
18:59
метрики то есть мы не можем сказать что
19:01
вот мы ожидаем что Метрика вдруг будет
19:03
расти на 20% мы это оставляем для
19:05
инициатив то есть каких-то добавление
19:07
сверху от продуктов обоснованных
19:09
продуктами вот поэтому Если что-то не
19:11
нравится но чаще всего мы либо просим
19:13
менеджеров самим подкорректировать Как
19:14
они это ожидают Ну потому что модель не
19:16
может построить то чего она не ожидает
19:19
что будет Спасибо Спасибо большое вот
19:22
там задний ряд пожалуйста дадада да
19:31
Спасибо за доклад ещё как я понял вы ещё
19:33
изменили метрику саму Да оптимизации то
19:35
есть на Да вот можете немного подробнее
19:39
расказать Почему вы именно вообще Map
19:40
выбрали изначально Не smap потому что он
19:42
же не симметричный в целом-то не
19:44
симметричный функция оценки Вот и Да
19:46
почему вообще да как вы выбираете эту
19:49
метку а Ну на самом деле мы тестировали
19:52
много разных метрик и разные в принципе
19:54
подходы Росс валидации вот я рассказала
19:56
например когда валион о год но но мы
19:58
тестировали на самом деле когда 30 дней
20:00
и когда 60 дней это в общем-то нам не
20:02
сильно помогало Но просто в нашем случае
20:04
нам показалось что логичнее всего РМС Ну
20:07
именно РМС Мом просто вот это хорошо
20:09
сработало мы пока на этом остановились
20:11
но планируем дальше исследовать точки
20:13
зрения заказчика Просто вы же
20:15
показываете метрику Да которую пред Ну
20:17
Какою вы оптимизирует ряд Да и вы
20:19
предсказывать именно Map Изначально и вы
20:21
прямо сменили резко достаточно й который
20:23
вообще говоря показывает проценты Да в
20:25
котором у вас изменяется там точность
20:27
модели на типа которая вообще говоря не
20:29
привязана к Ну к чему-то нормированность
20:32
она не нормированная вы просто число
20:33
видите А здесь она получается
20:35
нормированная потому что мы смотрим Мом
20:36
которая как раз выражается в процентах и
20:39
она поэтому нормированное спасибо
20:41
большое вот с той стороны молодой
20:43
человек в ярко зелёной рубашечка дадада
20:47
да да вон
20:48
[музыка]
20:52
там Большое спасибо за доклад
20:58
да А есть у меня два вопроса Первый
21:01
вопрос А вот инициативы там оценка их
21:03
используется тоже какие-то ML модели или
21:05
это всё в экли И сверху накручивается на
21:08
ваш прогноз иль А И второй вопрос А вот
21:11
какой там если можете конечно сказать
21:13
какой был финансовый эффект вот от того
21:15
что вот сократили Ну и экономический
21:16
эффект от того что сократили время
21:18
прогнозирования вот это как-то вот
21:20
оценивалось
21:22
а так давай начну со второго вопроса Ну
21:24
экономический эффект Я могу только
21:26
оценить во времени работы сотрудников
21:28
что ну мы можно сказать сэкономили 99,9
21:31
и9 и9 про денег на том что мы просто
21:34
стали работать меньше и меньше людей
21:36
вовлечено в ту же корректировку
21:38
прогнозов вот А по поводу первого
21:40
вопроса про
21:41
инициативы тоже ситуации разные но мы
21:44
сейчас стремимся к тому чтобы инициативы
21:45
в том числе прогнозировали с нашими
21:47
моделями Ну почему спросил потому что
21:49
инициатива — это очень сложно то есть
21:52
порой не всех можно как-то какую-то фичу
21:54
Ты меняешь в продукте как её оценить Ну
21:56
как-то это сложновато
21:58
ну я возвращаюсь к первому ответу То
22:01
есть получается только в основном а
22:02
точности прогнозов Был ли какой-то
22:04
эффект что вот как-то вот это улучшилось
22:05
И вот это вот создала компанию Ну вот мы
22:08
можем сказать по отзывам действительно
22:11
что очень многие команды вертикалей
22:13
действительно рады что Мы перешли на
22:15
другую модель прогнозирования и они
22:16
стали корректировать наши прогнозы
22:18
гораздо и гораздо
22:19
меньше Спасибо большое Я видел е вошка
22:27
вредине вопрос опять про метрику скажите
22:30
вы рассказывали про метрики которые
22:32
симметричны относительно знака ошибки А
22:35
было ли такое что какой-то временной ряд
22:38
Лучше там
23:00
Да спасибо большое за доклад возможно
23:02
чуть-чуть философский Вопрос вот в Авито
23:06
работает куча замечательных аналитиков
23:09
вы смотрите на какую-то метрику и над
23:11
этой метрикой над её улучшением работали
23:14
те самые аналитики на протяжении там
23:17
всего существования внедряли новые фичи
23:19
и поэтому Метрика росла и на этой
23:21
метрике появился возрастающий тренд
23:24
дальше Вы прогнозирует самую метрику
23:27
моделька смотрит тут есть возрастающий
23:29
тренд Значит эта Метрика и дальше грубо
23:32
говоря будет расти Но получается В таком
23:36
случае Вы не учитываете тот эффект от
23:38
аналитиков который они вносили раньше то
23:41
есть если все аналитики в Авито Ну
23:43
переста делать свою работу Метрика
23:46
станет Ну примерно на одном уровне
23:48
константой А вы как бы уже закладывается
23:51
то что она будет расти вот вопрос Вы
23:53
как-нибудь очищаете данные во время
23:56
обучения от внедрения Ках каких-то новых
23:59
Киллер фичей от аналитиков А ну вот
24:02
данные именно мы не вычищаем никакие
24:04
внедрения новых фичей но мы если о них
24:06
знаем заранее Ну поскольку рядов много
24:08
очень 5.500 мы не можем знать о всех
24:11
изменениях у нас наверное нету такой
24:13
базы для того чтобы собирать все эти
24:14
изменения Ну а тех которые мы знаем мы
24:16
внедряем в как раз регрессора с помощью
24:18
дами переменных Ну а в принципе мы вот
24:21
недавно тестировали модель на большем
24:23
горизонте прогнозирования из-за того что
24:25
мы выбирали такую функцию тренда которая
24:28
какой-то момент на Плато у нас в
24:30
общем-то получалось Что например к
24:31
двадцать Пятому году многие метрики
24:33
выходят действительно на Плато Спасибо