27 января 2022, 11:45

Google опубликовал топ-5 трендов в мире машинного обучения 2021 года

Мобильная фотография, живой перевод, автоматические субтитры — всё это уже давно и прочно вошло в нашу жизнь. Но ИИ не стоит на месте — последние технологические достижения становятся всё более эффективными, персонализированными, нацеленными на конфиденциальность. Технологии становятся всё более совершенными, надёжными и доступными, помогают людям искать решения самых острых глобальных проблем.

Источник фото на тизере: Andrea De Santis on Unsplash

Тренд 1. Более мощные модели ML общего назначения

Сейчас исследователи работают с более крупными, мощными моделями машинного обучения. К примеру, в сфере лингвистики несколько лет назад модели с миллиардами параметров тренировались на десятках миллиардов сегментов данных. Сегодня на триллионах сегментов данных тренируются модели с сотнями миллиардов или даже триллионами параметров (например, разреженные нейросети, такие как модель GShard с 600 млрд параметров). Рост объёма данных и размеров самих моделей способствовал существенному увеличению точности выполнения различных языковых задач.

Многие из таких передовых моделей показали удивительную способность к генерализации, которая позволяет выполнять новые языковые задачи. В качестве примера можно рассмотреть нашу технологию LaMDA, в которой модель демонстрирует нетривиальную способность вести открытый диалог, не теряя нити беседы даже при многократной смене темы.

Модели-трансформеры играют большую роль в области распознавания изображений, видеоматериалов и речи. Как прогнозировалось в работе о закономерностях масштабирования моделей Vision Transformer, модели-трансформеры существенно выигрывают при их масштабировании. Трансформеры, распознающие изображения и классифицирующие видео, лидируют по многим показателям. Мы ранее демонстрировали, что добавление изображений к видеоматериалам при тренировке моделей по распознаванию может повысить эффективность их работы, особенно при сравнении с моделями, которые тренировались только на видеоматериалах. Были разработаны механизмы разреженного осевого внимания для трансформеров, работающих с изображениями и видео, что позволило более эффективно использовать вычислительные мощности. Также были усовершенствованы методы токенизации изображений для моделей Vision Transformer, и теперь мы лучше понимаем принципы функционирования моделей Vision Transformer благодаря сравнительному анализу их работы со свёрточной нейронной сетью. Внедрение в трансформеров свёрточных операций позитивно сказалось на способности этих моделей выполнять задачи по распознаванию визуальных образов и речи.

Качество выходных данных у генеративных моделей также существенно улучшается. За последние несколько лет эти модели достигли значительных успехов, научившись создавать реалистичные изображения лишь на основании описания (например, «ирландский сеттер» или «трамвай»). Они даже могут «додумывать» изображение с низким разрешением, создавая вполне естественный экземпляр высокого разрешения («Компьютер, улучши качество!») или создавать «бесконечную природу» — генерировать природные панорамы из одного изображения. Также изображения могут быть преобразованы в последовательность из отдельных фрагментов, которые затем можно синтезировать с высокой чёткостью, используя авторегрессионную генеративную модель.

Мы видим в этих разработках не только мощный потенциал, но и большую ответственность, поэтому мы тщательно отбираем возможные сценарии использования таких моделей в соответствии с принципами применения искусственного интеллекта.

Кроме передовых одномодальных моделей начинают появляться и крупномасштабные мультимодальные. На сегодняшний день это одни из самых совершенных нейросетей, поскольку они способны не только понимать разные модальности (например, язык, изображения, речь, видео), но и выдавать в них результат: например, генерировать изображения на основе предложений или параграфа или давать понятное описание визуальной составляющей изображения. Это невероятно интересно, ведь, как и в обычной жизни, многие вещи легче воспринимать сразу в нескольких форматах (например, гораздо эффективнее не только почитать о чём-либо, но и просмотреть презентацию об этом). Поэтому сопровождение текста изображениями может помочь при извлечении мультиязычной информации, а более чёткое понимание того, как сочетать текст и изображения на этапе ввода, улучшит подписи изображений. Похожим образом использование для тренировки одновременно графических и текстовых данных может улучшить точность и надёжность выполнения задач по визуальной классификации, в то время как совмещение обучения на графических, видео- и аудиоматериалах повышает способность модели к генерализации всех модальностей. Помимо этого, существуют предположения, что естественный язык используется для осуществления манипуляций с изображениями, для обучения роботов взаимодействию с миром и для контроля программных систем. Вполне возможно, что в разработке пользовательских интерфейсов грядут изменения.

Всё это указывает на то, что вскоре мы сможем тренировать высокопроизводительные модели общего назначения, способные обрабатывать несколько модальностей данных и решать тысячи или миллионы задач. Добиться более высокой эффективности мультимодальных моделей можно, если обеспечивать в них разреженность, чтобы для выполнения конкретной задачи активировались только наиболее подходящие части модели. В течение следующих нескольких лет мы реализуем это ви́дение в новой архитектуре искусственного интеллекта — Pathways. Мы ожидаем значительный прогресс в этой области, поскольку будут объединены многие идеи, которые до сих пор разрабатывались относительно независимо.

Тренд 2. Повышение эффективности машинного обучения

Повышение эффективности, обусловленное достижениями в разработке компьютерного оборудования, совершенствования алгоритмов ML, а также исследованиями в области метаобучения, расширяют возможности моделей машинного обучения. Многие аспекты процесса разработки ML — от оборудования, на котором обучается и выполняется модель, до отдельных компонентов архитектуры МО — можно сделать более эффективными, при этом сохранив или даже повысив общую производительность модели. По сравнению с предыдущими годами, сейчас удаётся тратить на каждый аспект меньше ресурсов, а также уменьшать выбросы в эквиваленте CO² (CO2e). Повышение эффективности позволило осуществить ряд прорывных достижений, которые открыли дорогу к дальнейшей оптимизации МО. Это позволит разрабатывать ещё более масштабные, качественные и доступные модели с меньшими финансовыми затратами. Это направление исследований очень перспективно.

Тренд 3. Машинное обучение становится всё более полезным как для человека, так и для общества в целом

Ряд новых разработок стал возможными благодаря инновациям в области МО и новым полупроводникам мобильных устройств, которые стали лучше воспринимать контекст и ощущать окружающую среду. Они стали доступнее и проще в эксплуатации, а их вычислительная мощность возросла. Это важный фактор в развитии популярных функций, таких, как мобильная фотография, живой перевод и другие. Примечательно, что последние технологические достижения стали более персонализированными, при этом были усилены меры по обеспечению конфиденциальности.

Как никогда много людей сегодня используют камеры телефонов в жизни и творчестве. Правильное применение машинного обучения в вычислительной фотографии продолжает расширять возможности телефонных камер. Их использование становится проще, повышается производительность. Всё это позволяет делать более качественные изображения. Такие функции, как улучшенный HDR+, съёмка при слабом освещении, обработка портретов, а также стремление сделать камеры более универсальными, чтобы они могли работать с любыми оттенками кожи, позволяют получать фотографии, которые выглядят профессионально, точнее передают детали объекта фотосъемки и видение фотографа. Эти снимки могут быть дополнительно усовершенствованы с помощью мощных инструментов на основе ML, которые стали доступны в Google Фото, например, фото с киноэффектом, подавление шума, уменьшение размытости и волшебный ластик.

Для коммуникации в режиме реального времени с носителем другого языка или с человеком на расстоянии многие используют функцию мгновенного перевода в мессенджерах и возможности автоматических субтитров во время телефонных звонков. Точность распознавания речи продолжает расти благодаря таким методам, как обучение с самоконтролем и обучение в режиме «шумное занятие студентов». Во многих языках улучшилось восприятие речи с акцентом, а также в шумных условиях и с наложением другого голоса. Функция перевода живой речи в приложении Google Переводчик стала лучше благодаря стабилизации переведенных фраз, сгенерированных мгновенно. Новые проекты по внедрению технологий ML в традиционные методы речевого кодека Lyra и аудиокодека SoundStream позволили повысить качество передаваемой речи, музыки и других звуков при использовании гораздо более низкого битрейта.

Благодаря технологиям МО реализованы новые методы обеспечения безопасности отдельных пользователей и целых сообществ. Например, функция оповещений о подозрительных сообщениях предупреждает о возможных фишинговых атаках, а безопасная навигация позволяет избежать применения экстренного торможения, предлагая альтернативные маршруты в обход небезопасных участков.

Тенденция 4. Растущее влияние машинного обучения на науку, здравоохранение и экологию

В последние годы растёт влияние машинного обучения на развитие фундаментальных наук — от физики до биологии. В смежных областях открываются новые, удивительные перспективы применения ML, например в области возобновляемой энергетики и медицины. Технология становится всё более совершенной, надёжной и доступной, помогает нам искать решения самых острых глобальных проблем.

Широкомасштабное применение компьютерного зрения

Достижения в области компьютерного зрения за последнее десятилетие позволили использовать компьютеры для решения самых разных задач. В неврологии методы автоматизированной реконструкции могут воспроизвести нервную соединительную структуру тканей головного мозга, основываясь на изображениях тонких срезов ткани головного мозга, полученных с помощью электронной микроскопии высокого разрешения. Ранее совместно с научным сообществом, мы смогли воссоздать структуру мозга плодовой мушки, мыши и певчей птицы. В прошлом году вместе с лабораторией Лихтмана Гарвардского университета мы проанализировали крупнейший визуализированный и реконструированный образец мозговой ткани и провели первое крупномасштабное исследование синаптических связей в коре головного мозга человека, охватывающее несколько типов клеток. Цель этой работы — создать новый ресурс, который поможет ученым в изучении ошеломляющей сложности строения человеческого мозга.

Технология компьютерного зрения активно используется и для решения глобальных проблем. Метод прогнозирования погоды, основанный на глубоком обучении на основании спутниковых, радиолокационных изображений в сочетании с другими атмосферными данными, дает более точный прогноз погоды и осадков на ближайшие 12 часов, чем традиционные физические модели. При этом такой прогноз составляется гораздо быстрее, что во время экстремальных погодных условий может иметь решающее значение.

Исследование возможностей автоматического моделирования

Ещё один подход, показавший отличные результаты — это способность алгоритма ML изучить и смоделировать пространство для последующего автоматического поиска решений. Так, например, вариационный автокодировщик обучился созданию эстетически привлекательных и практичных макетов документов по принципу трансформера. Этот же подход можно использовать для создания эскизов мебели. В другом эксперименте модель МО применили для автоматического поиска возможностей усовершенствования дизайна компьютерной игры с целью улучшить её играбельность и другие атрибуты игрового процесса.

Применение ML в области здравоохранения

Помимо влияния на развитие фундаментальных наук, машинное обучение также может сыграть ведущую роль в развитии медицины и здравоохранения. Идея использовать достижения в этой области существует уже давно. Одной из первых наших задач стала разработка программного обеспечения, которое помогало анализировать эпидемиологические данные. Но постепенно мы открываем новые возможности ML и, конечно же, ставим новые задачи.

Наш метод фенотипирования на основе ML помогает преобразовать тяжёлые изображения и массивы текстовых данных в фенотипы, пригодные для исследования. А наш метод DeepNull позволяет работать с большими объёмами данных в области генетических исследований.

Мы надеемся, что в будущем схожие алгоритмы машинного обучения будут применяться для диагностирования рака молочной железы, рака легких, ускорения лечения раковых больных с помощью лучевой терапии, определения аномалий на рентгеновских снимках и помощи в проведении биопсии рака простаты.

Применение МО для преодоления климатического кризиса

Недавно мы представили функцию построения экологически безопасных маршрутов в Google Картах. По нашим оценкам, это поможет сократить выбросы газа более чем на 1 млн тонн в год и позволит снизить расходы на топливо. Подобный результат сравним с сокращением количества автомобилей на дорогах до 200 000 единиц.

В 2021 году наша инициатива по прогнозированию наводнений была расширена и охватила большее количество людей, а именно — 360 миллионов человек. Мы отправили более 115 миллионов предупреждений об угрозе наводнения на мобильные устройства пользователей — это в 3 раза больше, чем годом ранее.

Тенденция 5. Более глубокое и широкое понимание ИИ

Поскольку ML всё чаще используется в сфере технологий и в обществе в целом, мы считаем необходимым разрабатывать новые методы обеспечения справедливого и равноправного применения этой технологии. Это основное направление деятельности нашей исследовательской группы, отвечающей за ИИ и технологии, ориентированных на человека, и мы проводим множество исследований на тему ответственного применения МО.

Мы пристально изучаем системы рекомендаций, основанных на данных об активности пользователей в онлайн-сервисах. Эти системы часто состоят из нескольких отдельных компонентов, и чтобы понимать, насколько справедливо и объективно они работают, важно знать, как работают компоненты вместе и по отдельности. Недавние исследования помогли разобраться в этих взаимоотношениях и открыли методы, с помощью которых можно повысить «справедливость» её индивидуальных компонентов и всей рекомендательной системы в целом.

Кроме того, при обучении системы на неявной активности пользователя важно, чтобы системы рекомендаций обучались непредвзято, поскольку прямой подход к обучению на элементах, которые были показаны предыдущим пользователям, демонстрирует формы предвзятости.

Создание общедоступных всеобъемлющих и менее предвзятых баз данных — возможность усовершенствовать машинное обучение для всех. В 2016 году мы представили набор данных Open Images, состоящий примерно из 9 миллионов изображений с описаниями, охватывающими тысячи категорий объектов и аннотациями для 600 различных классов.

Источник: Официальный блог Google в России