«Яндекс» представил новый метод машинного обучения CatBoost и выложил его в открытый доступ
Тренируются на кошках.
«Яндекс» представил библиотеку машинного обучения CatBoost, которая пришла на смену «Матрикснету» (использовался с 2009 года). Новый метод даёт более точные результаты в задачах ранжирования, регрессии и классификации, а также учитывает данные в нечисловой форме.
CatBoost — сокращение от английского categorical boosting, то есть бустинг с учётом категориальных признаков.
Важная особенность CatBoost — способность учитывать категориальные признаки, в то время как «Матрикснет» мог учиться только на данных числового вида. Новый метод машинного обучения позволит использовать всё многообразие доступных данных, не переводя их в числовую форму.
«Люблю рассказывать на лекциях про то, что open source меняет мир, и не только для программистов. Для любых компаний это резко снижает порог входа в новые технологии. Вот только в рассказах про машинное обучение не было у меня хорошего яндексового примера — а теперь есть», — презентует CatBoost Андрей Себрант, директор по маркетингу сервисов «Яндекса».
Компания задействовала CatBoost для ранжирования ленты рекомендаций в «Яндекс.Дзене» и для расчёта прогноза с помощью технологии «Метеум» для «Погоды».
CatBoost доступен на языках программирования Python и R. Версии библиотеки для Windows, macOS и Linux и программу визуализации CatBoost Viewer (позволяет следить за процессом обучения на графиках) можно скачать в репозитории на GitHub.
Метод уже нашёл первое применение за пределами компании — в Европейском центре ядерных исследований (ЦЕРН). CatBoost используют для обработки данных эксперимента LHCb, который проходит на одноимённом детекторе Большого адронного коллайдера.
Читать по теме:
Хотите подсказать новость или поделиться экспертным мнением? Пишите: news@cossa.ru
Автор иконки на тизере: Martyn Jasinski, Noun Project