28 апреля 2015, 15:05

«РИФ+КИБ 2015»: Big Data

В рамках «РИФ+КИБ 2015», самого масштабного весеннего мероприятия Рунета, прошла серия докладов, посвященных Big Data: почему много данных — это бесполезно, что такое машинное обучение, и какие возможности предлагает искусственный интеллект бизнесу.

Ирина Балабина

С 22 по 25 апреля в подмосковном пансионате «Поляны» состоялась ежегодная конференция «РИФ+КИБ». Интернет-форум ежегодно собирает ключевых игроков рынка, чтобы обсудить проблемы и тренды и поделиться опытом. На этот раз злободневными темами стали: e-commerce, performance marketing, веб-аналитика, RTB, Big Data, мобильная реклама и многое другое.

Всего за три дня прошло около 100 конференционных мероприятий. С 10.00 до 12.00, с 12.30 до 14.30 и с 15.30 до 17.30 одновременно работали порядка 9 секций, которые можно было посещать в свободном режиме, перемещаясь из одного зала в другой. Также на протяжении всего форума работала выставка — территория поиска партнеров и клиентов. Ее участники за брендированными стендами рассказывали о своих сервисах, продуктах и услугах.

Мы посетили несколько секций форума, посвященных большим данным, и собрали самые интересные мысли докладчиков.

Секция «Большая аналитика: Big Data для государства и корпораций»

Александр Хайтин

Yandex Data Factory

Мы попадаем в мир переизбытка данных. Я думаю, что через год гордиться объемом данных перестанут. Данные не надо собирать, достаточно их не терять и использовать. Что это могут быть за данные? О поведении пользователей и клиентов, о коммуникациях, продажах, обращениях, банковских транзакциях, кредитах, депозитах, производственных операциях, дорожном движении, данные с сенсоров и телеметрия, — все это можно собирать терабайтами.

Зачем? Во-первых, для поиска инсайтов: нужно срочно что-то узнать — используем данные, которые у нас есть. Во-вторых, для выявления правил. Например, если абонент перезванивает, значит связь плохая. Если связь плохая, нужно удержать абонента, что-нибудь ему предложить. Такую информацию можно использовать для улучшения работы. Хотя не все это делают. Например, прилетаю я в Пулково — а я часто летаю между Москвой и Санкт-Петербургом — тут же получаю смс: «Вызывайте такси в Петербурге», а то, что я там живу, никого не беспокоит. Я попал в правило: перелет Москва-Питер, таргетирование сработало. Видно, как работают правила, но пользы, как видите, немного. Правила — это грубый инструмент.

Существует технология комплементарных данных, машинного обучения, когда из данных можно получать деньги. И мы можем делать апсейл, кросс-сейл, работать на удержание, прогнозировать, используя предсказывающие и предписывающие модели. Вопрос — почему машинное обучение? В ходе анализа больших данных машина может выделить 100 тысяч гипотез против 5–7, на которые способен человек. В результате получается модель, которая хорошо масштабируется. Есть гипотезы, лучшие гипотезы, и, наконец, появляются правила, которые можно применять. Простые правила составляют 80%, и их используют все на рынке, вопрос в том, как найти остальные 20%, которые будут эффективно работать.

Презентация «Yandex Data Factory. „Борьба хорошего с лучшим“. Собственные аналитики и сторонние сервисы» — Александр Хайтин

Александр Крот

ОАО «Вымпелком» («Билайн»)

Первый тип задач, которые мы решаем — это извлечение скрытых признаков из текстовых данных. Это может быть любая информация, числа, имена. Для этих целей мы используем Deep Learning — направление в области искусственного интеллекта (Artificial Intelligence) и машинного обучения (Machine Learning), основанное на поиске таких моделей и алгоритмов, благодаря которым компьютеры смогут учиться на собственном опыте, формируя в процессе обучения многоуровневые, иерархические представления об окружающем мире, современные методы машинного обучения. Второй тип задач — это поиск связей между людьми: через смс, телефонные разговоры и так далее. Многие, наверняка, слышали о «теории 6 рукопожатий», так вот, если рассмотреть графы сети «Билайн» и связь между ними, то мы увидим, что все абоненты знакомы между собой всего через 4 рукопожатия. Еще мы решаем такие задачи, как кластеризация и прогнозирование связей. Мы можем сказать, например, что два человека с большой вероятностью через некоторое время будут общаться. Из инструментов в данном случае используется графовая аналитика. Задачи кластеризации ставятся для того, чтобы из всех наших абонентов выделить какие-то типичные кластеры.

Никаких точных гарантий и прогнозов заказчику мы дать не можем. Самый эффективный способ показать нашу работу — это пилот. Клиент видит конверсии в продажи, верит нам и больше не спрашивает.

Презентация «Big Data в Вымпелкоме: задачи, алгоритмы и инструменты» — Александр Крот, ОАО «Вымпелком» («Билайн»)

Дмитрий Шпиль

IBM

Исторически в компании IBM было три подразделения: софт, железо и сервисы. Недавно наш генеральный директор объявил об открытии четвертого — Watson, и о том, что оно становится основным. Watson — это инновационная технология, которая является аналогом искусственного интеллекта. Она приводит факты, может быть обучаема, готова для использования в бизнесе.

Первое направление, которое мы стали развивать — здравоохранение. Реальная практика была в одной из клиник США. Сначала Watson должен был продиагностировать пациента на наличие раковой опухоли. Врач определял это с точностью до 30%, машина — с точностью до 70%. Дальше усложнили задачу: Watson попросили назначить курс лечения реальному пациенту. Машина предложила нестандартный способ, врачи подумали, что Watson перегрелся. Оказывается, он нашел исследование, в котором описывался произошедший несколько лет назад в Канаде случай, показывающий, что при таком течении рака, как у данного пациента, лечение традиционным методом может привести к смерти. Несмотря на это, врачи выбрали свой метод. Но увидев через некоторое время, что пациенту становится хуже, перешли на курс, рекомендованный Watson. Больной выжил, машина спасла жизнь человеку.

Существует множество сфер применения Watson. Например, создан Watson Adviser для интеграции в интернет-магазины: сервис, заменяющий консультанта в точке продаж. На главной странице магазина размещается окно, в котором человек пишет, что он хочет купить. Система анализирует запрос, данные о пользователе и предлагает релевантные, как ей кажется, товары. Также у нас есть инструмент для управления репутацией в интернете, который может не только собрать все отзывы о вашей компании, но и точно оценить их окраску (положительную или отрицательную), чего не может сделать ни одна другая система.

Watson не призван заменить человека, его задача — ему помочь, это его ассистент.

Презентация «Кто такой Watson?» — Дмитрий Шпиль, IBM

Секция: «BigData для интернет-магазина: ограничения и возможности»

Безкоровайный Денис

RISSPA

Большие данные в е-commerce — это не только персонализация. Это также анализ событий безопасности, результативности маркетинговых кампаний, активности внутри приложений, производительности приложений, и как итог — принятие решений, основанных на данных.