Новый агент ИИ смог открыть новые алгоритмы в сверхсложной области умножения матриц.

Недавно я запустил образовательный информационный бюллетень, посвященный ИИ, у которого уже более 125 000 подписчиков. TheSequence — это информационный бюллетень, ориентированный на машинное обучение, без BS (то есть без шумихи, без новостей и т. д.), чтение которого занимает 5 минут. Цель состоит в том, чтобы держать вас в курсе проектов машинного обучения, научных работ и концепций. Пожалуйста, попробуйте, подписавшись ниже:



DeepMind, кажется, сосредоточен на применении искусственного интеллекта (ИИ) для решения некоторых из самых сложных проблем в науке. Создание белка, предсказание погоды, ядерный синтез и восстановление древних надписей — это лишь некоторые из монументальных усилий, предпринимаемых DeepMind в области исследований ИИ. Теперь мы должны добавить к этому списку новую категорию: открытие математических алгоритмов. На прошлой неделе DeepMind опубликовала статью в престижном научном журнале Nature, раскрывающую AlphaTensor, нейронную сеть, которая смогла открыть новый алгоритм умножения матриц.

Алгоритмы были основой математики с момента ее зарождения. Открытие новых алгоритмов требует не только глубоких и широких знаний в нескольких областях математики, но также сильной интуиции и творчества. С когнитивной точки зрения, это тип проблемы, в которой люди все еще могут превзойти агентов ИИ. AlphaTensor — одна из первых моделей искусственного интеллекта, которая решила заняться этой областью. С функциональной точки зрения AlphaTensor смогла построить основу другой супермодели DeepMind: AlphaZero, которая достигла сверхчеловеческой производительности в различных настольных играх, таких как го, шахматы и сёги. Вы можете думать об AlphaTensor как об AlphaZero, оптимизированном для игры алгоритмических открытий. Первый алгоритм, которым занимается AlphaTensor, является основой многих важных методов машинного обучения (ML).

Умножение матриц

Умножение матриц — один из первых алгоритмов, которые мы изучаем на уроках алгебры, но он оказывает глубокое влияние на такие области, как компьютерное зрение, распознавание речи, видеоигры и многие другие. Традиционный метод умножения матриц разлагает значение каждой ячейки на линейную формулу, которая объединяет строки и столбцы входных матриц.

На протяжении веков этот базовый метод считался единственным способом решения матричного умножения, пока в 1969 году немецкий математик Фолькер Штрассен не опубликовал статью, в которой описывался более оптимальный метод. Метод Штрассена был основан на выводах, полученных при изучении очень маленьких матриц, что дало небольшое количество операций в алгоритмах умножения.

Спустя десятилетия после публикации Штрассена математический мир не открыл новых алгоритмов умножения матриц, и это считается по большей части решенной проблемой.

АльфаТензор

AlphaTensor смоделировал задачу умножения матриц как игру для одного игрока. Игровая среда представляет собой трехмерный тензор, который представляет, насколько корректен данный алгоритм. Игрок может выполнять операции по изменению тензора и обнулению его записей. Результатом является, вероятно, правильный алгоритм умножения матриц, сложность которого определяется количеством шагов, предпринятых для обнуления тензора.

С точки зрения сложности игра на 30 порядков больше, чем Го, которую можно было считать неразрешимой для ИИ еще несколько лет назад. Основываясь на принципах AlphaZero, AlphaTensor использовала алгоритм обучения с подкреплением, чтобы играть в игру без предварительного знания правил. В ходе этого процесса AlphaTensor обнаружил множество алгоритмов, в том числе алгоритм Штрассена. AlphaTensor смогла постепенно улучшить процесс обнаружения с течением времени, превзойдя человеческую интуицию и обнаружив множество ранее неизвестных алгоритмов.

Эффективность AlphaTensor была наглядно продемонстрирована на стандартных методах умножения матриц 4x5 на 5x5, в которых традиционный метод требует около 100 операций. AlphaTensor смог вывести новый алгоритм, выполняющий умножение за 76 операций. AlphaTensor продемонстрировал заметные улучшения по сравнению с алгоритмом Штрассена, которых математический мир не видел уже около 50 лет.

Улучшения AlphaTensor видны не только в небольших матрицах, но, что более важно, они невероятно актуальны в сценариях умножения больших матриц, которые распространены во многих областях машинного обучения. Еще более шокирующим был тот факт, что AlphaTensor создала не один, а тысячи ранее неизвестных методов умножения матриц. Хотя AlphaTensor был оптимизирован для одного типа задач, его принципы можно применять ко многим сценариям при обнаружении алгоритмов. Это открывает двери для подходов гибридного интеллекта для ускорения математических исследований.