Обзор GPT-4: навыки рассуждения против GPT-3.5

Имея в руках новую модель, я покопался и провел несколько тестов.

Когда я вошел в ChatGPT Plus, меня приветствовало всплывающее окно, объясняющее, что недавно выпущенный OpenAI GPT-4 имеет расширенные возможности в расширенных рассуждениях.

Когда я щелкнул по ссылке, я смог увидеть новую информацию, сравнивающую три доступные модели (Legacy, Turbo, также известную как Default, и GPT-4):

Я ухватился за возможность проверить его способность к рассуждению по сравнению со старой моделью Turbo, чтобы увидеть, насколько велика разница между ними.

Я провел три простых теста, задав двум моделям разные вопросы и прочитав их ответы. Первый вопрос имел каверзную формулировку о семейных отношениях, второй представлял собой классическую загадку, а третий — задачу коммивояжера.

Вот результаты:

Вопрос 1. Семейные отношения

Этот вопрос заставляет мой мозг делать сальто назад. Модель по умолчанию (GPT-3.5) получила неправильный ответ, затем правильный ответ (двое моих друзей были двоюродными братьями, когда-то удаленными), но затем снова изменила свой ответ в конце, так что в конечном итоге это было неправильно. Его логика также была искажена, и ей было трудно следовать. GPT-4 дал ответ, который был ясным и простым для понимания, но он так и не понял, что мои друзья разделены поколением и, следовательно, не двоюродными братьями, а двоюродными братьями однажды удаленными. Я бы посчитал эти результаты смешанными.

Вопрос 2. Загадка о волке, курице и корме

Эту классическую загадку может решить большинство из нас, но GPT-3.5 борется. Оно настолько убедительно в своем объяснении, что заставляет задуматься, но на самом деле это чепуха. Однако GPT-4 разрешила загадку волка, курицы и корма. Шаги точны, в правильном порядке и четко сформулированы.

Вопрос 3. Коммивояжер

Я не ожидал, что ни одна из моделей не справится с этим. Эта задача является NP-трудной, и, несмотря на то, что городов всего пять, возможных маршрутов по-прежнему 24. GPT-3.5 ошибся, потому что использовал Алгоритм ближайшего соседа, а не пытался перебрать результат методом грубой силы. Он успешно выполнил алгоритм, но ответ, который он дал, не является кратчайшим возможным путем. Я вынуждал его, побуждая использовать метод грубой силы, но он все равно получал неверный ответ.

Хотя GPT-3.5 испытывал трудности, GPT-4 успешно решил задачу коммивояжёра. Он выбрал метод грубой силы, получил все 24 маршрута и дал правильный ответ.

GPT-4 по-прежнему допускает ошибки, но это явное улучшение по сравнению с GPT-3.5. Смешанный результат для проблемы семейных отношений требует дальнейшего изучения. GPT-3.5 дал правильный ответ в одном месте своего ответа, но GPT-4 никогда не упомянул правильный ответ. В конечном счете, обе модели неправильно ответили на этот вопрос (и GPT-3.5 неправильно ответили на другие факты во время решения проблемы), так что это не явная победа GPT-3.5. Две другие проблемы представляют собой явные улучшения GPT-4 по сравнению с его предшественником. Там, где старая модель испытывала трудности, GPT-4 преуспела.

Я рассмотрю возможности кодирования GPT-4, как только придумаю несколько хороших проблем для его решения. Я обязательно обновлю эту статью, когда сделаю это.

Обзор GPT-4: навыки рассуждения против GPT-3.5

Имея в руках новую модель, я покопался и провел несколько тестов.

Вопросы по теме