Блокировка рекламы с помощью нейросетей: как это работает и что будет дальше. Читайте на Cossa.ru

29 января 2019, 12:40

Блокировка рекламы с помощью нейросетей: как это работает и что будет дальше

Олександр Параска из eyeo — компании-разработчика Adblock Plus — о том, как и почему сегодняшняя война скриптов уже завтра может превратиться в войну ИИ-алгоритмов.

Блокировка рекламы с помощью нейросетей: как это работает и что будет дальше

Человеческий глаз способен легко различать рекламу и нативный контент благодаря специальным лейблам: «на правах рекламы», «реклама», «партнёрский материал» (по закону, пометки должны сопровождать все рекламные материалы). Искусственный интеллект также может научиться «видеть» эти лейблы с помощью технологии компьютерного зрения. Такое решение поможет устранить уязвимости, которые позволяют рекламным объявлениям проникать на просматриваемые пользователем страницы.

Из-за большой популярности блокировщиков рекламы появилась целая индустрия компаний, которые специализируются на обходе адблокеров. Для борьбы с антиблокировщиками был создан новый список фильтров, который обновляется около 50 раз в неделю. Только для Фейсбука за последнюю неделю было сделано шесть изменений в фильтрах. Такими темпами способность «видеть как человек» может понадобиться уже совсем скоро.

Компьютерное зрение

Компьютерное зрение — это набор алгоритмов, распознающих, классифицирующих и обрабатывающих изображения. Технология широко используется в различных отраслях: от медицины (например, чтобы с высокой точностью определять злокачественные новообразования по рентгеновским снимкам) до безопасности (розыск преступников на записях систем видеонаблюдения). Те же алгоритмы могут использоваться и для обнаружения рекламного контента.

Уже появились первые ИИ-решения для визуального распознавания рекламы. В июне eyeo выпустила бета-версию алгоритма Sentinel, который с помощью компьютерного зрения находит рекламу на скриншотах веб-страниц, не прибегая к анализу кода. Сегодня Sentinel находится на стадии сбора данных и создания базы примеров рекламного контента, но уже в 2019 мы планируем использовать ИИ для реального улучшения блокировки рекламы.

Как работает Sentinel

Другие подходы к применению ИИ

Если рассматривать визуальную информацию, то очень полезными будут свёрточные нейросети, нацеленные на распознавание и анализ изображений. В общем потоке данных свёрточная нейросеть с высокой эффективностью выделяет паттерны, даже если между ними нет прямой связи. Если применить эту функцию к блокировке рекламного контента, то нейросеть сможет определять рекламные метки, даже если их невозможно вычленить из кода страницы.

Как используют алгоритмы ИИ, чтобы распознать рекламу

Иллюстрация работы свёрточных нейросетей

Остальные методы, которые можно использовать для распознавания рекламы, не связаны с визуальным распознаванием. К примеру, обучение с подкреплением — это метод машинного обучения, при котором нейросеть получает вознаграждение за правильные действия. Можно сказать, что она играет в игру, где необходимое условие для выигрыша — блокировка всей рекламы. Если ИИ блокирует нерекламный контент или пропускает рекламу, то игра считается проигранной и начинается заново. Для проверки результата применяются фильтры, созданные людьми: чтобы получить вознаграждение, нейросеть должна выдать тот же результат, что и фильтры.

Для успешного определения рекламы нейросеть должна пройти обучение на огромной базе примеров. Разумеется, их можно в изобилии брать прямо из интернета, но здесь есть нюанс: когда страница уже загружена, на ней могут работать скрипты, которые запускают рекламу чуть позже. Для эффективной блокировки алгоритм должен проверять любые изменения страницы, а не только её первоначальный вид. А это гораздо более сложная задача.

Метод обучения с подкреплением используют и другие проекты. Например, алгоритм AlphaZero достиг мастерства в играх с помощью переобучения с «чистого листа». Другой пример — агент обучения с подкреплением, нашедший оптимальную стратегию для игры «Арканоид» после 600 тренировок.

Метод обучения с подкреплением

Ещё один перспективный подход — федеративное машинное обучение. Сегодня он используется для обучения цифровых клавиатур контекстным подсказкам на основе прошлого опыта, но его можно применять и для блокировки рекламы. Если пользователь блокирует рекламу с помощью персонализированных фильтров, то нейросеть должна учитывать эту информацию и действовать соответственно. К сожалению, на практике этот метод не использовался, и пока неизвестно, как он будет работать.

Машинный перевод также можно использовать для борьбы с навязчивыми объявлениями. В этом случае блокировка рекламы похожа на процесс перевода между двумя языками — нейросеть должна перевести HTML-код в CSS, чтобы распознать и скрыть рекламный контент. Этот метод также ещё не опробован на практике, но теоретически он будет наиболее быстрым. Ежесекундно на странице могут загружаться сотни новых элементов, и если каждый раз запускать модель для принятия решения о блокировке каждого нового элемента, то страница будет загружаться крайне медленно. Перевод из HTML в CSS, напротив, значительно повысит скорость принятия решения.

Последний теоретически применимый метод — это модель, проводящая анализ графов. Графом называется путь появления каждого отдельного элемента на веб-странице. Выделив и проанализировав графы, можно определить рекламный контент и заблокировать его. На сегодняшний день проблема заключается в сложности вычленения графов: даже зная, какие запросы выполняет браузер и какие данные он загружает из сети, мы не можем составить граф с достаточной для своевременной блокировки скоростью. Если будет создана технология, позволяющая выделять и анализировать графы в режиме реального времени, то этот метод можно будет использовать для автоматического блокирования нежелательного контента.

Как изменится сфера блокировки рекламы?

Сейчас рынок цифровой рекламы представляет собой поле битвы между паблишерами и блокировщиками рекламы. Первые создают и внедряют скрипты, позволяющие обходить рекламные фильтры. Вторые отвечают на это постоянным усовершенствованием. С появлением искусственного интеллекта армия блокировщиков рекламы получит серьёзную фору: вместо постоянного написания новых фильтров они смогут сделать процесс полностью автоматическим, поручив его ИИ.

Тем не менее мы не ожидаем бескомпромиссной победы блокировщиков рекламы, понимая, что другая сторона также может начать использовать ИИ, и война скриптов выйдет на новый уровень и превратится в войну алгоритмов. Паблишеры уже собрали команды специалистов по машинному обучению, которые используют методы, описанные выше, и сейчас по большей части заняты оптимизацией релевантности рекламы. Победит тот, кто сможет обеспечить эффективное обучение своих алгоритмов. Проще говоря, тот, у кого будут выше вычислительные мощности.

Мнение редакции может не совпадать с мнением автора. Ваши статьи присылайте нам на 42@cossa.ru. А наши требования к ним — вот тут.

Телеграм Коссы — здесь самый быстрый диджитал и самые честные обсуждения: @cossaru

📬 Письма Коссы — рассылка о маркетинге и бизнесе в интернете. Раз в неделю, без инфошума: cossa.pulse.is