Как работает бот OpenAI Five

4 тыс. человек на трансляции, больше 7 тыс. сыгранных матчей за два дня и всего 42 поражения. Сообщество Dota 2 увлечённо следило за тем, как искусственный интеллект, бот OpenAI Five, покоряет их любимую игру. Однако находятся и недовольные. Мол, боты играют на ограниченном количестве героев, плохо вардят и принимают странные решения. Но ведь задача проекта OpenAI не создание идеального бота для доты. Разработчики смотрят куда дальше.

ИИ как мечта человека

— Что для тебя искусственный интеллект? — спросил меня в начале беседы об OpenAI Петр Ромов, технический директор GOSU.AI, бывший сотрудник «Яндекса» и преподаватель машинного обучения в ВШЭ и МФТИ.

— Наверное, компьютер, который делает какую-то работу за меня и делает это осмысленно, — ответила я неуверенно.

— Понятие искусственного интеллекта эволюционировало со временем. Лет 50-60 назад считали, что искусственный интеллект — робот, который делает работу за человека. Например, копает картошку. Затем они придумали для этого машину. У нее крутится какой-то вал, картошка выкапывается — и это хорошо, но искусственным интеллектом уже не считается. Теперь ИИ — бот, который будет играть в шахматы. Создали достаточно мощный компьютер, который просчитывает практически все ходы — и это снова не кажется искусственным интеллектом. Ну что такого в том, чтобы просчитывать записанные ходы? — объяснил Петр развитие этого термина.

Человечество озадачено идеей создать искусственный интеллект, который будет не просто работать по заложенной программе, а учиться самостоятельно. Первые эксперименты проводили на традиционных настольных играх вроде нард или шахмат. Компьютер совершенствовал свою игру, учась на опыте людей и соревнуясь сам с собой.

«Поскольку в го и шахматах мы знаем, как работает игра, то мы можем просчитать варианты. Для этого разработчики использовали очень умный алгоритм. Грубо говоря, они разворачивали дерево. Мы находимся в какой-то ситуации доски и просматриваем, какие действия приведут к разным развитиям событий. Но алгоритм не разворачивает это дерево до самой победы, а оценивает шансы с помощью нейронных сетей. Поскольку у нас есть конечное количество вариантов того, что произойдет, мы можем «заглянуть в будущее», — объяснил «Чемпионату» Сергей Свиридов, директор по R&D компании Zyfra.

Следом за этим компания DeepMind решила сделать шаг вперёд. Понимая, что человечеству не нужен узконаправленный искусственный интеллект, который просто играет в шахматы, они решили создать алгоритм, который сможет выполнять сразу несколько задач. А именно — круче людей набивать очки в играх серии Atari 2600. Те самые Pac-Man и Space Invaders, знакомые нам с детства. Играя раз за разом и получая награды за победы, ИИ научился таким стратегиям, что мог быть успешнее человека. При этом переходя от игры к игре, разработчики не вносили существенных изменений в структуру алгоритма.

Но и этого мало. Шахматы, го, Atari — всё это мало похоже на реальную жизнь, где планируется применять искусственный интеллект. Ситуация на поле или на доске у тебя как на ладони, количество вариантов развития событий велико, но все-таки конечно. Исходных данных полно — анализируй и используй. В реальной жизни многие задачи связаны с неизвестностью и постоянно меняющимися условиями. Человечество мечтает о компьютере, которому можно выдать задачу любого уровня и плана и получить результат, даже если ее выполнение потребует креативного подхода. Именно его ученые будут назвать общим искусственным интеллектом — главной и пока заоблачной целью современных разработок.

Основного помощника в прогрессе обучения искусственного интеллекта крупнейшие компании нашли в видеоиграх. Сначала DeepMind обратила внимание на Starcraft, а затем OpenAI начала работу с Dota 2.

Компьютерные игры всегда были удобной средой для разработки ИИ. Дело в том, что они предоставляют оптимальный уровень сложности — они сложнее, чем смоделированные узкие экспериментальные проблемы, но не настолько сложные для решения, как задачи реального мира: вождение беспилотного автомобиля или управление роботом, — рассказал Свиридов.

«Компьютерные игры предоставляют для решения с помощью ИИ задачу, которая наиболее близка к реальным проблемам, но лишена рисков, которые связаны с осуществлением агентом ИИ действий в реальном мире. Кроме того, поскольку компьютерные игры сделаны для людей и в них играют люди, то у нас есть естественная база для сравнения ИИ и человека. Мы хотим создать ИИ, который сможет решать задачу лучше человека в терминах очков в игре, турнирного рейтинга и т.д.»,

«А еще это очень понятная среда — просто компьютерная игра». — дополнил его объяснение Петр Ромов. — «Если начать объяснять человеку, что мы создали симуляцию мира с такими-то условиями, ему будет сложно. А если сказать, что мы научили бота играть в доту, — это понятно и доступно. Людям это близко. На крупных научных конференциях ученые представляют прорывные работы, в которых просто человечек в компьютерной среде научился прыгать через скакалку. Для ученых это «Вау!». А покажи такое обычному человеку, и он скажет: «И вот это все?». Людям непонятно, почему это сложно. А с дотой все ясно: вот попробуй обыграй OG».

Боты AlphaStar и OpenAI Five — отличная демонстрация для обычных людей, как компьютерные технологии могут менять привычное представление. Боты, которых мы привыкли разваливать в видеоиграх, запрограммированы человеком. Они реагируют так, как им указано, действуют так, как прописано в их алгоритме. ИИ, созданный OpenAI — новый виток в их развитии. Потому что их никто не учил реагировать на события на карте. Они этому научились сами с помощью человека.

Ученье — свет, а неученье — рандом

Чтобы обыграть Гарри Каспарова в шахматы, инженеры Deep Blue использовали опыт, накопленный в течение столетий. Первая версия AlphaGO, поразившая мир победой над Ли Седолем в древней настольной игре, обработала миллионы вариантов и позиций, анализируя тысячи партий между людьми. Даже AlphaStar, показавший успехи в Starcraft, начинал свой путь к превосходству над человеком, обучаясь на заданных реплеях. Бота OpenAI отправили в неизвестность компьютерной среды, не показывая, как победить в Dota 2. И при этом, в отличие от Atari, предоставили выбор из десятков тысяч вариантов действий. Они не пытались сымитировать поведение человека, а решили предоставить машине возможность воссоздать его с нуля. И теперь OpenAI Five играет в доту.

Со стороны все кажется просто. Алгоритм загрузили в Dota 2, он играет бессчетное количество матчей и должен научиться закономерностям, которые приведут его к победе. Однако между бессмысленно шатающимся по карте ботом и OpenAI Five, имеющей больше 99% винрейт против людей, стоит огромная вполне человеческая работа.

Чтобы понять, насколько сложно направить алгоритм в нужное русло, необходимо представить Dota 2 глазами OpenAI. Для нас это герои, ландшафт, пролетающие мимо способности и индикаторы состояний. Чтобы узнать, что делает способность, мы наводим мышкой на ее описание и читаем. Для алгоритма все это набор цифр. Причем большинство из них ему неизвестны и пока ничего не значат.

Например, Paralyzing Cask у Witch Doctor. Для них это просто массив данных», — объясняет один из разработчиков Брук Чан. — «Мы, как люди, знаем, что делает эта способность. Им же нужно испробовать и следить за изменением чисел. Когда они кидают Cask, они видят, что меняется цифра (для нас это время восстановления способности), но сначала они не понимают, что она значит. Затем они фиксируют еще одно изменение в наборе цифр (в нашем случае это индикатор оглушения), но они не понимают, что такое стан, хорошо это или плохо.

Чтобы разобраться даже в таких обыденных для человека вещах, OpenAI потребуется определенное время для тренировок и анализа. Через нужное число матчей алгоритм запомнит, что пока цифра кулдауна в его массе данных не дойдет до нуля, использовать способность невозможно. А оглушение, характеризующееся конкретным набором цифр, запрещает сопернику двигаться. Нет, даже не так. Запрещает другим данным меняться.

Отсутствие привычного нам «зрения» влечет сотню других проблем. Например, OpenAI сложно взаимодействовать со Shrapnel от Sniper. Там, где человек видит моросящий дождь из пуль и осколков, бот не считывает полезных данных. Но зато по уменьшающемуся здоровью OpenAI хотя бы научился выходить из опасной области. Еще сложнее приходится с Fissure от Earthshaker. Игрок-человек легко обойдет препятствие, но чтобы продемонстрировать особенности этого спелла OpenAI разработчикам приходилось даже создавать карты проходимых путей. И то пока непонятно, помогло это или нет. И если даже для человека уворот от скиллшота — показатель мастерства, то для бота, не имеющего перед глазами картинки, — настоящее чудо. И OpenAI ему научились.

Учитывая, что на освоение каждого базового навыка игры в доту нужен целый массив данных, продвижение к победе на карте может стать бесконечно долгим. Представьте, сколько времени должны занять стартовые матчи, когда OpenAI еще не освоил даже самых основ игры. И здесь на помощь приходят человеческие знания.

В основе OpenAI Five лежит вид машинного обучения — обучение с подкреплением. Принцип его работы заключается во взаимодействии агента со средой и получении от среды вознаграждения, по которому он может судить, насколько хорошо он действует в среде и достигает поставленной цели, — объясняет Сергей Свиридов.

В основе обучения с подкреплением лежат награды и наказания, своеобразные баллы, которые старается заработать система. В случае с тренировкой в Го, ИИ получал +1 балл за то, что выигрывал партию. И терял балл, если уступал человеку или компьютерному «товарищу». В теории такой же системой можно было воспользоваться и в Dota 2. Однако праздношатающиеся боты, беспорядочно нажимающие клавиши, вряд ли добрались бы до разбивания трона. А даже если бы они одержали победу, им было бы сложно вычислить, что именно позволило добиться успеха. Может, это из-за того, что я просидел в таверне 5 минут? Или тот добитый на линии крип стал решающим фактором? Какое действие стоит повторить, чтобы снова получить награду?

«Бот не анализирует игру глубоко. Человек думает сложными закономерностями. После смерти он начинает размышлять о том, что ему можно купить какой-то другой артефакт или сыграть иначе, потому что так будет эффективней. Бот же просто экспериментирует. И таким случайным блужданием он приходит к каким-то закономерностям внутри себя и выучивает игру на уровне человека», — поясняет Ромов.

Для ускорения процесса обучения инженеры и программисты используют более мелкие «пряники» за незначительные достижения.

В OpenAI не скрывают, что многое, чему научились их боты для игры в доту, было почерпнуто именно из системы наград. Так агент получает дополнительные очки за добычу золота, опыта, уничтожение строений, набор здоровья и маны. И теряет часть заработанного в случае смерти. Но это не значит, что боту изначально дали задачу бить крипов или атаковать вышки. В процессе тренировок он использовал автоатаку или способности на крипов, получал золото, а значит собирал небольшую награду. Это позволяло ему закрепить подобное поведение как «позитивное» и повторить в следующий раз специально ради награды. Своеобразная дрессировка искусственного интеллекта.

«Бот стремится сделать так, чтобы в течение следующего периода времени от 45 секунд до 5 минут заработать как можно больше наград. Причем не прямо в эту секунду, а через какой-то промежуток, потому что иначе бы они творили что-то странное: фармили без конца или бездумно убивали друг друга. В этом бы не было никакой стратегии», — дополняет Ромов.

Чтобы убедиться, что OpenAI усвоил хотя бы базовые навыки добивания крипов и лайнинга, первые симуляции длились около 7-8 минут, а не до победы. После инженеры компании просматривали результаты и корректировали награды. Без этого этапа еще в самом начале у ИИ мог заложится неверный алгоритм действий.

Впрочем, ещё далеко не для всего удалось подобрать нужную награду. Например, боты OpenAI Five пока пользуется предложенными сборками с автоматизированной покупкой предметов. Скрипт не слишком жесткий, чтобы позволить им приобретать расходники для регена. Однако для выработки собственного механизма выбора артефактов понадобится более долгий процесс тренировок, чтобы боты усвоили закономерность: исчезнувшее золото — время — полезный артефакт. Отсутствие мгновенного усиления значительно усложняет поиск правильной награды и обучения.

Но мало просто прописать награды за самые банальные по человеческим меркам достижения. Нужно еще и сбалансировать их так, чтобы бот преследовал цель выиграть игру, а не застрял на месте, добивая крипов. И как показывает практика, выбор верных наград — одна из самых сложных частей машинного обучения.

История индустрии знает десятки забавных и даже нелепых случаев в раздаче «пряников». Даже в OpenAI не стеснялись рассказывать о своих провалах в подобных проектах. Так один из их алгоритмов должен был играть в гонки на лодочках. Помимо награды за пересечение финишной линии как можно быстрее, он зарабатывал баллы за сбор особых бустеров по трассе. В итоге бот нашел место на карте, где можно крутиться и бесконечно собирать эти бустеры, тем самым набирая больше очков, чем при достижении финиша.

Другой пример приводит Алекс Ирпан в статье «Глубинное обучение с подкреплением еще не работает». Один из его коллег поставил перед алгоритмом задачу забить гвоздь молотком в компьютерной симуляции. Награду система получала за глубину, на которую гвоздь уйдет в поверхность. В итоге робот использовал собственную конечность в качестве молота, а инструмент продолжал лежать на столе. Поняв, что ошибся с наградой, инженер назначил небольшое вознаграждение за то, что рука возьмет со стола молоток. Робот поднимал инструмент… и просто ронял его на гвоздь. Оказывается, не так-то просто заставить робо-руку помогать по хозяйству, при этом не используя прямого программирования.

Боты, играющие в Dota 2, не исключение. Для того чтобы сбалансировать целую группу наград и не зациклить компьютер на одной второстепенной задаче, понадобился долгий процесс дополнительной настройки. И это дало невероятные плоды. Боты OpenAI Five действительно научились воссоздавать поведения человека, даже такое, которое кажется удивительным разработчикам. Например, они жертвуют фармом на линии для раннего перемещения по карте — вполне человеческий и разумный подход к игре, который не был заложен в них алгоритмом. Однако продуманная система наград и является одним из минусов.

Несмотря на то что его не программировали и он учился играть в доту сам, OpenAI всё ещё остаётся слабым искусственным интеллектом. Очень многое в его алгоритмах и политике завязано именно на данных из доты, в них много того, что дано человеком.

Мы не можем использовать эти наработки в других сферах без значительных изменений. Но данный проект показал возможности transfer learning (переноса обучения) для системы обучения с подкреплением — в процессе обучения менялся размер нейронной сети, правила игры, выходили патчи, но агента не нужно было обучать заново для изменившихся условий. Он переиспользовал уже накопленный опыт и доучивался под изменившуюся среду», — поясняет Свиридов.

Поле для экспериментов

Не стоит думать, что сотрудники OpenAI 10 месяцев провели, лениво покручивая регуляторы наград и просматривая реплеи. Многое из того, что привычно и понятно человеку, их боту в Dota 2 пришлось показывать в ходе бесчисленных экспериментов.

Один из самых больших и серьёзных из них состоял в попытке инженеров OpenAI «показать» ему Рошана. Для человека эта задача максимально проста. Нужно некоторое время бить каменного гиганта, чтобы потом получить Аэгис, дающий вторую жизнь. В обычных компьютерных ботах эта задача прописана программистами. А бот OpenAI не узнает об Аэгисе, пока не убьет огромного нейтрала. Но зачем ему вообще тратить на это драгоценное время, если можно бить крипов и соперников? Повышенная награда зациклила бы OpenAI Five на убийстве Рошана. И вот тут в ход пустили рандом.

«Мы внесли элемент рандома, и стартовый показатель здоровья Рошана стал случайным. Тогда они могут встретиться с Рошаном со 100 здоровья, убить его с одного удара, взять Аэгис и понять, что это крутая штука. Поэтому уже сейчас в играх мы видим, как боты иногда заходят в рошпит и смотрят на Рошана, чтобы проверить, может, в этот раз у него мало здоровья», — рассказал о процессе обучения один из разработчиков Шимон Сидор еще во время первой демонстрации.

Однако, чтобы понять, что Аэгис и сыр действительно стоят потраченного времени и других пропущенных наград, ботам понадобилось очень много опыта игры с этими артефактами. Но судя по матчам последней версии, они все равно считают, что эти 6000 урона и пару минут лучше потратить на что-то другое. Для закрепления нужного поведения и создания алгоритмов, оценивающих необходимость забрать Рошана, могут потребоваться десяток других экспериментальных групп.

Другим спорным моментом в «системе координат» OpenAI являются варды. Разработчики уже успели провести несколько разных экспериментов, чтобы продемонстрировать преимущества расширенного обзора. Однако они отказываются давать за это дополнительную награду.

«Она будет или бесконечно мала, что останется незначительной, или заставит их просто рандомно заставлять карту вардами, потому что это дополнительный плюс в их копилку», — объясняют разработчики.

Изначально OpenAI просто позволили своим ботам покупать этот артефакт — результата не последовало. Затем ради эксперимента им добавили варды в стартовый закуп. В итоге боты тыкали их в случайном месте, как только им требовался свободный слот в инвентаре. Но даже когда это случалось в нужной точке, алгоритм не мог оценить пользу этого действия.

«Один из наших сотрудников использовал копию Five без доступа к вардам и устраивал матчи против версии Five, которая их использовала. И увидел, что винрейт между ними оставался 50%», — объяснила во время AMA Сюзан Чжан. Судя по всему, эксперимент с вардами так и не обернулся успехом.

Наконец, добавление новых героев — это тоже эксперимент, и не всегда удачный. По заявлению разработчиков, перед матчем с OG они пытались расширить пул до 25 персонажей. Однако столкнулись с достаточно предсказуемой проблемой дизбаланса. В какой-то из команд неизбежно оказывался «не натренированный боец». Так как OpenAI все еще не выработал эффективные алгоритмы поведения, герой большую часть времени или был обузой, или сидел в таверне. В итоге это хоть и создавало интересные результаты, но замедляло развитие модели.

Часть других героев сами по себе вызывали проблему у разработчиков.

Проблемы Huskar были в том, что наш ИИ слишком хорош в фокусе одной цели. Когда модель только училась играть на Huskar, она проводила большую часть игры в таверне, — разъяснила Брук Чан.

Она же рассказала, как Pudge не выключал Rot в драке, уничтожая самого себя. Попытки исправить его поведение приводили к тому, что он использовал эту способность, едва отойдя от фонтана, и тут же возвращался на базу.

Наблюдая за тем, как ко многим персонажам приходится подыскивать свой ключ и добавлять стимулы и эксперименты, разработчики решили притормозить этот процесс. Без лишних вмешательств большинство персонажей легко обучается до уровня игрока на 3-5k MMR. А значит, что созданный алгоритм стал достаточно универсален в рамках одной игры. При этом даже не требуется дополнительных затрат по мощностям. Однако сейчас задача OpenAI не в расширении списка героев и создании ультимативного бота, а в изучении деталей и сложных, неочевидных задач. Это намного важнее для развития искусственного интеллекта, чем бот, играющий на 25 героях и занимающий не меньше вычислительных мощностей.

«Особенностью OpenAI Five является беспрецедентный масштаб обучения агента. К моменту соревнования с людьми было сыграно 45 тыс. лет в течении 10 месяцев, в среднем система играла 250 лет симуляции в день», — объясняет Сергей Свиридов.

Для такого ускоренного обучения создателям понадобилось переработать Dota 2 так, чтобы симулировать один матч за невероятно короткое время. Например, за три дня на Арене люди не провели против ботов даже того количества, игр, которое система симулирует за одну минуту тренинга. Для этого OpenAI потребовались серьезные технические мощности. До The International 8 компания использовала 128 тыс. ядер CPU и 126 графических процессоров для обработки нейронных сетей.

По грубым подсчетам Петра Ромова, аренда подобного оборудования может обойтись приблизительно в $3 млн в месяц. И это только два пункта из списка всего необходимого. Но, по его словам, это может быть далеко не самой затратной частью проекта.

«Сотрудники, которые занимаются этими алгоритмами, стоят даже дороже, чем техническое обеспечение проекта. Это сотни людей, лучшие умы, которых привлекли, чтобы создавать и контролировать процесс. И эти люди стоят дорого. Но компании, занимающиеся ИИ, уверены, что если они добьются своей цели, то эти расходы окупятся. Если они создадут на их основе сеть машин Tesla, которые развозят пиццу или людей вместо такси, то вложения будут того стоить».

Во имя светлого будущего

Что AlphaStar, что OpenAI Five часто воспринимают как просто ботов, способных одолеть человека в видеоигре. Развлечение, проверка компьютеров на прочность и забава для ограниченного круга посвященных. Однако каждый из этих ботов делает небольшой шаг в сторону создания алгоритмов, которые пока не способны заменить человека, но помогают облегчить его жизнь.

DeepMind уже нашла применение своему алгоритму, который когда-то играл в го, Atari, а потом и Starcraft. Ему дали более простую и приземленную задачу — управление охлаждением дата-центра Google. Огромное хранилище информации, где бережется история ваших запросов, почта и алгоритмы по поиску картинок, создает невероятное количество тепла. Чтобы сервера не перегрелись, их нужно постоянно охлаждать. Но бездумное включение кондиционеров и вентиляторов на полную мощность будет тратить неизмеримое количество электричества. Google в 2014 году использовал около 4,5 млн мегаватт-часов энергии. Столько же за указанный год потратили 367 тыс. американских домохозяйств.

Оборудование и среда взаимодействуют друг с другом в комплексе, нелинейно. Человеческая интуиция и традиционный инжиниринг, основанный на формулах, часто не могут уловить всех этих взаимодействий. Система не может быстро адаптироваться к внутренним или внешним изменениям (как погода). Вот поэтому мы не можем создать правила для каждого возможного сценария, — рассказали разработчики DeepMind.

На помощь пришел алгоритм машинного обучения подобный тому, который разрабатывался для игр. Раньше ему загружали истории партий в Го. А теперь ИИ изучил наблюдения за температурой в дата-центре, эффективность оборудования и скорость насосов — данные, которые копились в недрах компании. А затем сыграл в новую игру.

«По сути, боту предложили сыграть в ту же самую игру. Ты крутишь рычажки вентиляторов и смотришь, что из этого получается. А потом анализируешь, от чего потребление электроэнергии увеличивается, а от чего снижается, формируя оптимальный алгоритм. В масштабах Google это не только экономия денег, но и вопрос экологии», — рассказал Петр Ромов.

И использование искусственного интеллекта дало свои плоды — уже за несколько месяцев работы системы компании удалось на 40% сократить потребление электроэнергии, но при этом не потерять в мощностях. А это сотни миллионов долларов в пересчете на все дата-центры Google.

OpenAI не отстают от своих товарищей по гонке искусственных интеллектов. Хотя их разработка не кажется такой впечатляющей и не бережет природу, она носит более тонкий научный характер. Совсем недавно авторы OpenAI рассказали, что смогли применить уже знакомые нам алгоритмы машинного обучения для тренировки робо-руки, которая крутит кубик и может повернуть его нужной стороной вверх. Алгоритм ориентируется на картинку с трех камер и то, чему научился за время симуляций и тренировок.

Да, ничего впечатляющего, пока не узнаешь, что и эта рука училась управляться с кубиком с нуля, как и боты в Dota 2. В отличие от системы охлаждения от DeepMind, ей никто не загружал базу данных. А в ее основе лежит тот же алгоритм и формула, что и в доте. Правда, с отредактированными наградами.

«Со стороны это может показаться удивительным, но на самом деле это вполне естественный процесс. Для бота в Dota 2 — это среда, которая состоит из массива изменяющихся цифр. Сам бот имеет координаты положения и конкретные цели — переместиться в другие координаты. Также происходит и с робо-рукой. Свое положение она считывает в качестве определенного набора цифр, а потом ищет путь к необходимому положению», — объяснил Сергей Свиридов.

Пригодился и прежний эксперимент с рандомом. Так как в симуляции невозможно создать условия, идеально воссоздают реальный мир, разработчики задавали случайные значения освещения, силы трения и даже подключали внешнюю силу. После продолжительных компьютерных симуляций наработанный алгоритм подключили к настоящей робо-руке. И, как оказалось, его движения во многом повторяют то, что бы сделал с кубиком человек. Да, это еще не робот, который может лихо управляться со скальпелем и заменить хирургов, но все начинают с малого.

Это лишь пара проектов, реализованных самыми крупными компаниями. Авторы строят куда более грандиозные планы. Разрабатываемые алгоритмы искусственного интеллекта могут быть применены везде, где невозможно использовать привычное программирование. Например, машины с автопилотом, которые могли бы передвигаться по городу. Чтобы разработать ее на текущем этапе, инженерам нужно предугадать каждую из бесконечного количества возможных ситуаций на дороге: от велосипедиста до бросающейся под колеса кошки. А симуляции и обучение помогут сделать это быстрее и безопаснее.

«Один из способов — это компьютерная игра, в которой симулируется дорожное движение. Есть машина, которая передвигается по этим дорогам миллионы раз, может стать участником сотни тысяч аварий, но все равно продолжать обучение. Если такую машину сразу отправить в реальный мир на улицу, она тут же попадет в аварию, убьет десяток людей — и на этом твой проект и эксперимент закроют», — заявляет Ромов.

«Конечно, самой перспективной сферой является робототехника — человечество уже давно надеется создать самообучаемых и коллаборативных роботов. Зачатки этого мы видим в ботах Dota 2, которые начали играть вместе с человеком, а не только против него. Такие системы смогут использоваться, например, в промышленности — роботы, которые смогут сами обучаться управлению производственным процессом или сборочным операциям без их длительного программирования и калибровки», — дополняет Сергей Свиридов.

Команда DeepMind в свое время предполагала, что алгоритмы обучения с подкреплением, которые совершенствуются в играх, могут стать помощниками исследователей биомедицины, желающих разобраться в свёртывании белков. Именно нарушения в этом процессе приводят к возникновения болезней Альцгеймера и Хантингтона и многих других заболеваний. Химики и биологи имеют представление о механизме и законах их развития, однако они позволяют только грубо посчитать вероятности. Создание своеобразной «игры» на основе машинного обучения с подкреплением позволило бы сделать этот процесс куда точнее.

Медицина, робототехника, инженерные проекты — все это сферы, где люди готовы использовать искусственный интеллект. Конечно, сегодняшние игровые наработки невозможно отдать в Boston Dynamics, чтобы освободить программистов от работы. Текущие алгоритмы все еще сильно зависят от данных, которые внесет, а затем исправит человек. Но это уже далеко не тот бот, которого мы привыкли видеть в видеоиграх.

«Вся красота этой технологии состоит в том, что она даже не понимает, что играет в доту, — объяснил технический директор OpenAI Грег Брокман. — Речь идет о том, чтобы дать людям возможность прикоснуться к странным, экзотическим, но все еще осязаемым интеллектам, которые были созданы современными технологиями ИИ. Сложные стратегические компьютерные игры — это та веха, к которой мы стремились, потому что работая с ними, ИИ начинает постигать основы реального мира».