ИИ учится жульничать в Q * bert так, как никто раньше не делал

ИИ сумел обмануть с лучшей стороны, которую может предложить человечество, обнаружив эксплойт в классической аркадной игре Q * bert и запустив его.

В то время как более ранние версии ИИ могли правильно играть в Q * bert, в какой-то момент в изучении того, как работает игра, он обнаруживает эксплойт, позволяющий набирать безумные очки. Естественно, как и любой другой игрок, охотящийся за счетом, он повторяет процесс, чтобы повысить свой счет наиболее эффективным способом.

Вы можете увидеть, как ИИ работает с платформами на видео ниже. Поначалу кажется, что он бесцельно прыгает между платформами. Вместо того, чтобы видеть, как игра продвигается к следующему раунду, Q * bert застревает в цикле, когда все его платформы начинают мигать - именно здесь ИИ может начать безумный счет, набирая огромные очки.

ЧИТАЙТЕ СЛЕДУЮЩИЙ: Одна из самых неоднозначных игровых пластинок окончательно дискредитирована

как расставить роли по разногласиям

Как ИИ выиграл войну Кбертов

Побив рекорд за всю историю, ИИ набрал невероятно высокий балл благодаря программированию алгоритмов стратегии эволюции. Стратегии эволюции (ES) отличаются от обычного обучения с подкреплением (RL), которое использует традиционный ИИ, поскольку он считается более масштабируемым из-за обучения поколений.

Каждый цикл обучения называется генерацией, и он продолжает выполнение своей задачи до тех пор, пока не будет выполнено заданное условие (в данном случае - высокий балл). С каждым последующим поколением ИИ поглощает знания предыдущего поколения и, следовательно, лучше достигает той же цели и преодолевает ее. Продолжайте, и вы получите ИИ, который не имеет себе равных в своей задаче. Именно это и произошло здесь со счетом Q * bert.

Изложено в бумага , опубликованном на прошлой неделе исследователями из Университета Фрайбурга, Германия, похоже, что количество ошибок не было известным. На самом деле, хотя они не слишком удивлены обнаружением ошибки, интересно посмотреть, как ИИ затем пошел дальше и научился использовать ее каждый раз, когда он играл, чтобы максимизировать свой выигрышный потенциал.

ЧИТАЙТЕ СЛЕДУЮЩИЙ: Этот искусственный интеллект учился овладевать Super Mario Bros.

Чтобы найти ошибку, агенту нужно было сначала научиться почти завершать первый уровень - это было сделано не сразу, а с использованием множества небольших улучшений, объяснили исследователи. Реестр . Мы подозреваем, что в какой-то момент обучения одно из дочерних решений столкнулось с ошибкой и получило гораздо лучший результат по сравнению с его братьями и сестрами, что, в свою очередь, увеличило его вклад в обновление - его вес был самым высоким в средневзвешенном значении. Это медленно перемещало решение в пространство, где все больше и больше потомков начинали сталкиваться с одной и той же ошибкой.

Мы не знаем точных условий, при которых появляется ошибка; возможно, что он появляется только в том случае, если агент следует шаблону, который кажется неоптимальным [например, когда агент тратит время или даже теряет жизнь]. Если бы это было так, то стандартному RL было бы чрезвычайно сложно найти ошибку: если вы используете инкрементное вознаграждение, вы будете изучать стратегии, которые быстро приносят некоторую награду, а не стратегии, которые не приносят много вознаграждений какое-то время и затем внезапно выиграть по-крупному.

См. Связанные Чемпион драгстеров Тодд Роджерс только что потерял свою корону спустя 35 лет Этот искусственный интеллект учился осваивать Super Mario Bros 1-2 в течение 17 дней. Посмотрите, как ИИ учится водить в GTA V на Twitch

Однако, несмотря на прекрасные результаты бота, исследователи не утверждают, что это способ отстоять ES-обучение над RL. На самом деле, у обеих систем есть свои проблемы, и их сочетание в значительной степени рассматривается как лучший вариант для продвижения вперед.

Тот же метод ES в других играх Atari не дал таких же положительных результатов. С другой стороны, RL несет ответственность за побитие рекордов слева, справа и по центру, в том числе за победу над лучшим в мире игроком GO. Тем не менее, ES по-прежнему занимает свое место в мире, и на самом деле Nvidia выполняет большую часть обучения искусственному интеллекту, поскольку требует большей вычислительной мощности, но обеспечивает лучшие результаты в течение более длительного периода времени.

Независимо от того, каким путем станет будущее развития ИИ, по крайней мере, этот бот, обманывающий систему, не так уж плох, как этот. ныне опальный чемпион мира по видеоиграм .