Количественные рассуждения сложны для людей и сложны для компьютеров. Новая модель Google только что дала поразительные результаты в решении математических задач.

Мы привыкли сейчас к языковым моделям типа ТПТ-3, но в основном их вывод текстовый. Количественное рассуждение сложно (многим из нас до сих пор снятся кошмары об исчислении из университета). Трудно и языковым моделям, где их исполнение далеко от человеческого уровня. Решение математических или научных задач требует различных навыков, как они заявляют в своем сообщении в блоге:

Правильный анализ вопроса с использованием естественного языка и математических обозначений, вызов соответствующих формул и констант и создание пошаговых решений, включающих числовые вычисления и символьные операции.

Преодолеть эти проблемы сложно, и поэтому было прогнозировано, что модель достигнет современной точности в наборе данных MATH (набор данных, содержащий 12 000 математических задач из средней школы) в 2025 году. мы на три года вперед и Исследование Google AI объявило Minerva.

В своей статье они представили модель, которая достигла невероятных результатов в решении задач из разных предметов (таких как алгебра, вероятность, физика, теория чисел, геометрия, биология, астрономия, химия, машинное обучение и так далее). Они пишут:

Minerva решает такие проблемы, генерируя решения, включающие числовые вычисления и символьные операции, не полагаясь на внешние инструменты, такие как калькулятор.

Вот пример с алгеброй, где Минерва вводит проблему и отвечает решением. Обратите внимание, что модель способна решать уравнение путем упрощения и замены переменных.

Вы также можете заглянуть в интерактивный обозреватель примеров, чтобы увидеть другие примеры задач из других дисциплин STEM. Здесь я привожу всего несколько примеров, показывающих, насколько это продвинуто:

или в биологии:

химия:

или машинное обучение:

Minerva основана на Языковой модели пути (PaLM), которая была дополнительно обучена с использованием 118 гигабайт научных статей из arXiv (которые довольно насыщены математическими выражениями). Модель PaLM, опубликованная в апреле 2022 года, представляет собой языковую модель с 540 миллиардами параметров, способную обобщать различные области и задачи. Сообщение в блоге объяснило важный отрывок из тренинга:

Стандартные процедуры очистки текста часто удаляют символы и форматирование, которые необходимы для семантического значения математических выражений. Сохраняя эту информацию в обучающих данных, модель учится общаться, используя стандартную математическую запись.

Другими словами, для обучения модели был необходим другой подход к предварительной обработке текста.

Интересно, что Minerva генерирует не одно решение, а разные решения (где шаги разные, но, как они написали, в целом они приходят к одному и тому же окончательному ответу). Разным решениям присваивается разная вероятность, и затем в качестве решения выбирается наиболее распространенный ответ (голосование большинством, которое оказалось успешной стратегией в PaLM).

Затем они оценивают свой подход на различных эталонных наборах данных. Они использовали MATH (задачи уровня соревнований по математике в средней школе), а также более сложные наборы данных, такие как OCWCourses (набор задач для колледжей и выпускников, собранных MIT OpenCourseWare). Во всех этих случаях они достигли самых современных результатов:

Эти результаты впечатляют, однако модель все еще далека от совершенства, как заявлено:

Минерва все еще делает свою долю ошибок.

В статье предположили, с чем связаны эти ошибки:

Примерно половина — это ошибки вычислений, а другая половина — ошибки рассуждений, когда шаги решения не следуют логической цепочке рассуждений.

Что касается людей-студентов, также возможно, что модель могла прийти к правильному окончательному ответу, но использовала ошибочные рассуждения (которые в статье определяются как «ложные срабатывания»). Но, как они заметили, эти случаи менее часты (по иронии судьбы, то же самое происходит и со студентами-людьми):

В нашем анализе мы обнаружили, что уровень ложных срабатываний относительно низок (Minerva 62B дает менее 8% ложных срабатываний на MATH).

Они также заметили, что ложные срабатывания были более распространены, когда проблемы были более сложными (по шкале от 1 до 5 уровень ложноположительных результатов был выше, когда модель сталкивалась с проблемами сложности 5).

В статье они описывают это как ограничение, поскольку невозможно автоматически определить случаи, когда модель предсказывает правильный ответ, но использует ошибочные рассуждения.

Вот пример ошибки:

Иногда ошибка заключалась в том, что модель неправильно понимала вопрос или использовала неверный факт для ответа. Другим типом ошибок были слишком короткие ответы (прямо неправильные без рассуждений, которые мы могли уподобить ученикам, пытающимся угадать ответ, когда они не знают решения). В некоторых случаях модель создает то, что они назвали «галлюцинированными математическими объектами», что предназначено, когда модель генерирует факты или уравнения, которые не являются реальными. Однако эти случаи более редки, и преобладающими ошибками были неправильное рассуждение и неправильный расчет.

В статье исследователь обсудил также потенциальное социальное влияние своей модели. По их признанию, влияние может быть огромным:

Искусственные нейронные сети, способные решать задачи количественного мышления в общих условиях, могут оказать существенное влияние на общество.

Однако на данный момент два основных ограничения снижают потенциальное воздействие:

Минерва, хотя и является шагом в этом направлении, все еще далека от достижения этой цели, и поэтому ее потенциальное влияние на общество ограничено. Производительность модели все еще намного ниже производительности человека, и, кроме того, у нас нет автоматического способа проверки правильности ее выходных данных.

По мнению будущих исследователей, эти модели могут быть полезны репетиторам для уменьшения образовательного неравенства. Однако калькуляторы и компьютеры не уменьшили образовательное неравенство, а фактически увеличили разрыв между странами, где эти ресурсы легко доступны, и странами, где образование недофинансируется. В любом случае, это первый шаг к мощному инструменту, который может быть полезен во многих областях. Например, исследователи могут найти очень полезный инструмент, помогающий им в работе.

если вам было интересно:

Вы можете найти другие мои статьи, вы также можете подписаться, чтобы получать уведомления, когда я публикую статьи, и вы также можете связаться со мной или связаться со мной в LinkedIn. Спасибо за вашу поддержку!

Вот ссылка на мой репозиторий Github, где я планирую собирать код, и множество ресурсов, связанных с машинным обучением, искусственным интеллектом и многим другим.