Pavel Kostikov 11 декабря 2021

🤖 ML в продакшене: как следить за качеством после деплоя

После внедрения ML-модели важно продолжать отслеживать её качество, так как данные и поведение пользователей могут изменяться. Эффективными мерами контроля являются мониторинг метрик, A/B-тесты и система алертов. При ухудшении результатов необходим анализ причин и готовность к переобучению модели на новых данных.

Во многих ML-проектах работа считается завершенной в момент, когда модель обучена и гипотеза подтверждена. Мы видим положительный эффект, раскатываем решение на весь трафик и теряем к проекту интерес. На практике это происходит чаще, чем хотелось бы.

Однако именно после деплоя начинается настоящая эксплуатация. С одной стороны, бизнес ожидает, что достигнутая ценность сохранится. С другой — поведение пользователей меняется, появляются новые функции, изменяются данные. В такой динамике непросто понять, сохраняет ли модель свою эффективность и насколько она по-прежнему влияет на ключевые метрики.

В этой статье разберемся, какие проблемы могут возникнуть после внедрения ML-модели, как их своевременно обнаружить, и какие шаги стоит предусмотреть заранее, чтобы эксплуатация не превратилась в непрозрачную и бесконечную поддержку.

Почему качество решения может падать

ML-решение — это не только программный код, но и данные, на которых оно обучено. В случае обычного сервиса мы привыкли к предсказуемому поведению: если что-то идет не так, появляется ошибка, которую можно найти в логах, воспроизвести и исправить. В ML-проектах такие ошибки тоже бывают, но часто возникают более сложные ситуации, когда система технически работает исправно, а качество ее решений снижается.

На уровне данных можно выделить два основных типа проблем.

Drift входных признаков. Распределение данных, на которых работает модель, может со временем измениться. Например, если вы обучали модель для предсказания зон повышенного спроса в такси на зимних данных, она могла ориентироваться на торговые центры. Летом же спрос сместился к паркам и набережным, а старая модель перестала давать точные прогнозы. Это типичная ситуация data drift.
Изменение самой зависимости между признаками и целевой переменной. Пользователи начинают вести себя иначе, чем раньше, и модель, даже получая "привычные" данные, начинает ошибаться. Такой эффект называется concept drift. Пример: после изменения интерфейса пользователи стали выбирать маршруты не по времени поездки, а по уровню комфорта. Модель, обученная на старом поведении, больше не отражает реальные предпочтения.

На практике может меняться все — не только данные и поведение, но и логика расчета метрик, по которым мы судим об эффективности. Чтобы модель оставалась полезной, важно уметь замечать любые такие изменения и своевременно на них реагировать.

Отслеживание критериев успеха

Рассмотрим, как можно контролировать качество модели через метрики. Начнем с простого случая. Обычно при постановке задачи мы формулируем целевую метрику и ориентируемся на нее при обучении и валидации модели.

Если продукт устроен так, что эта метрика напрямую наблюдаема, например поведение пользователя связано с модельным предсказанием, то ситуация достаточно удобная. Мы можем следить за нужным показателем прямо в продакшене. При этом вовсе не обязательно, что правильная метрика была выбрана с самого начала. Иногда сначала проводится эксперимент, достигается эффект, и только потом становится понятно, за каким показателем стоит следить в долгосрочной перспективе.

Пример: мы предсказываем наиболее вероятные точки назначения такси. Для каждой потенциальной точки вычисляется вероятность, что пользователь ее выберет, и в интерфейсе выше отображаются наиболее подходящие. После эксперимента фиксируем, что определенный процент заказов оформляется через этот подсказанный список. Это значение хорошо коррелирует с ростом заказов: чем выше доля заказов из саджеста, тем проще пользоваться сервисом, тем выше общая выручка.

Если эта доля остается стабильной, мы считаем, что модель продолжает работать корректно. Такой подход работает при выполнении двух условий. Во-первых, на долю заказов из подсказки ограниченно влияют внешние факторы. Во-вторых, наблюдается устойчивая связь между этой долей и целевой бизнес-метрикой, например выручкой. В этом случае можно использовать внутреннюю метрику как прокси для контроля качества.

Важно отметить, что саму выручку как контрольную метрику использовать сложно, так как на нее влияет слишком много других факторов: маркетинговые акции, сезонность, поведение конкурентов, и любые изменения в продукте. Поэтому надежнее опираться на более узкие, технически контролируемые метрики, хорошо коррелирующие с бизнес-результатом.

Статья по теме

🆎 Байесовское A/B-тестирование vs частотное: преимущества, недостатки и способ реализации на Python

Постоянный A/B-эксперимент

Рассмотрим другой типовой случай. Допустим, мы автоматизируем службу поддержки. Система устроена следующим образом: ML-модель по тексту обращения определяет его тему. На основе этой темы и дополнительной информации (например, завершен ли заказ, как была проведена оплата и так далее) формируется автоматический ответ для пользователя.

Проблема в том, что мы не всегда можем определить, правильно ли модель определила тематику. Пользователь напрямую не сообщает об этом. Можно организовать ручную разметку, но это требует дополнительных ресурсов на постоянной основе.

С другой стороны, почти в любой службе поддержки после обращения запрашивается оценка, насколько пользователь остался доволен. Это так называемый CSAT (customer satisfaction score). Он и используется как основная метрика качества сервиса. При этом CSAT зависит не только от модели, а от всей работы службы в целом.

В таких случаях хорошо работает постоянный A/B-эксперимент. Мы оставляем, например, 5 процентов обращений без автоматизации, на них отвечает только оператор. Это позволяет честно сравнивать: насколько система с моделью эффективнее, чем без неё. Дополнительно мы получаем стабильный поток "чистых" данных, на которых можно обучать и проверять новые версии модели.

Минус подхода в том, что мы намеренно удерживаем часть трафика в менее эффективном состоянии. Если автоматизация действительно повышает качество, то контрольная группа получает чуть более слабый сервис.

Есть и отложенный эффект. Со временем пользователи из тестовой и контрольной группы могут начать вести себя по-разному, в зависимости от того, привыкли ли они к автоматическому ответу или нет. Чтобы избежать этого, рекомендуется регулярно пересобирать выборку. Например, каждый месяц случайно перераспределять пользователей между группами.

Инфраструктура алертов

Чтобы контролировать стабильность модели, недостаточно просто время от времени смотреть на графики. Метрики, как технические, так и бизнесовые, стоит подключать к системе алертов. Например, при заметном отклонении показателя можно настроить оповещение, которое требует реакции инженера в течение рабочего дня. В случае более серьезной просадки система может сработать как на полноценный инцидент и потребовать немедленного вмешательства дежурной команды. Для ML сервисов такая инфраструктура должна быть такой же привычной, как мониторинг CPU или контроль количества HTTP ошибок.

Курс «Базовые модели ML и приложения»

Курс «Базовые модели ML и приложения» от создателей «Библиотеки программиста» — это структурированный путь от основ машинного обучения к практическому применению алгоритмов в реальных задачах под руководством аналитика Stripe.

Что делать, если модель начала работать хуже

Предположим, мы зафиксировали проблему: модель больше не дает ожидаемого качества. Что делать дальше?

Универсального рецепта для всех случаев нет, разбор таких ситуаций часто требует исследовательского подхода. Тем не менее можно выделить несколько типовых шагов — от простого к более сложному.

Для начала стоит попытаться найти конкретный пример, где поведение модели выглядит неправильно. Это может быть единичный кейс, но он поможет отладить ситуацию локально. Иногда именно такой пример приводит к выявлению более широкой проблемы или конкретной технической ошибки.

Иногда причина деградации может быть связана с изменениями в системе. Мы могли выкатить релиз, который прямо или косвенно повлиял на метрики модели. Это может быть изменение в интерфейсе, логике обработки данных или бизнес-процессах. В такой ситуации важно понимать, что поведение модели уже нельзя интерпретировать в отрыве от этих изменений, а результаты предыдущих экспериментов могут больше не отражать текущую реальность.

Если в явных сбоях и последних релизах ничего не заметно, нужно идти от симптомов. Например, у нас есть метрика, которая ухудшилась. Тогда следующий шаг — попытаться локализовать проблему по срезам: на какой аудитории и в какой момент началось ухудшение. Это может либо дать новые гипотезы, либо вывести на конкретный сломанный кейс.

Для всего этого нужен соответствующий инструментарий: логирование, сохранение входных данных, возможность воспроизвести поведение модели в прошлом, удобная визуализация результатов по сегментам. Такие средства — часть зрелой ML-инфраструктуры. Чем она сильнее, тем быстрее и проще устранять прикладные проблемы.

Если причина в изменившемся распределении данных, самым естественным решением будет повторное обучение на новых данных. При этом важно не собирать все вручную заново, а иметь возможность воспроизвести весь пайплайн, как это делалось при первом запуске. Чтобы такая возможность была, пайплайн должен храниться в воспроизводимом и документированном виде.

Кроме того, ошибки могут возникнуть при выкатке новой модели. Поэтому каждую новую версию стоит сначала запускать в виде отдельного эксперимента, прежде чем раскатывать на всех пользователей.

Дополнительно можно автоматизировать процесс переобучения. Например, переобучать модель регулярно, раз в месяц. Это технически сложнее, но такой подход помогает стабильно справляться с проблемами data drift.

🤖 Библиотека data scientist’а

Больше полезных материалов вы найдете на нашем телеграм-канале «Библиотека Data scientist’а»

Итого

Контроль качества ML-модели после релиза — это не разовая задача, а постоянная работа. Чтобы модель приносила устойчивую пользу, необходимы четкие метрики и инфраструктура, поддерживающая наблюдаемость, диагностику и регулярные обновления. Без этого даже самая хорошая модель со временем перестает быть полезной, а продукт теряет эффективность.

🤖 ML в продакшене: как следить за качеством после деплоя

Почему качество решения может падать

Отслеживание критериев успеха

Постоянный A/B-эксперимент

Инфраструктура алертов

Что делать, если модель начала работать хуже

Итого

Комментарии

ВАКАНСИИ

ЛУЧШИЕ СТАТЬИ ПО ТЕМЕ

7 языков программирования, которые ты должен знать в 2020 году

ТОП-10 языков программирования будущего: на чем кодить в 2019?

10 лучших языков программирования для изучения в 2018 году

Почему качество решения может падать

Отслеживание критериев успеха

Постоянный A/B-эксперимент

Инфраструктура алертов

Что делать, если модель начала работать хуже

Итого

7 языков программирования, которые ты должен знать в 2020 году

ТОП-10 языков программирования будущего: на чем кодить в 2019?

10 лучших языков программирования для изучения в 2018 году

Подтверждение

Авторизация

Письмо отправлено

Во время авторизации произошла ошибка

Что не так с этим материалом?

Что не так с этим комментарием?

Что не так с этим тестом?

Что не так с этой вакансией?

Что не так с этим мероприятием?

Какой баг вы нашли?

Заполните, пожалуйста, форму, чтобы мы могли с Вами связаться