Узнайте, что наиболее важно для оценки и как это измерить в вашей воронке LLM.

Одним из ключевых компонентов, необходимых для эффективной реализации конвейера LLM, является способ оценки эффективности вашего конвейера. То есть вам необходимо оценить конечный результат, который является продуктом не только самого LLM или подсказки, но и взаимодействия между LLM, подсказкой и настройками, такими как температура или минимальные и максимальные токены.

Рассмотрим шаблонный код для доступа к GPT API (сгенерированный автоматически:

import os
import openai

openai.api_key = os.getenv("OPENAI_API_KEY")

response = openai.ChatCompletion.create(
  model="gpt-3.5-turbo",
  messages=[],
  temperature=1,
  max_tokens=256,
  top_p=1,
  frequency_penalty=0,
  presence_penalty=0
)

В функции есть семь аргументов для создания «ответа», каждый из которых изменяет конечный результат. Возможность выбрать оптимальную комбинацию этих результатов зависит от способности оценивать и различать результаты, полученные при разных значениях этих аргументов.

Это другая проблема, чем оценки LLM, которые чаще всего можно найти в газетах или на веб-сайтах создателей LLM. Хотя может случиться так, что вы используете LLM, который может пройти экзамен на адвоката или аналогичный тест, рекламируемый в этих источниках, это не означает, что ваш конвейер с созданной вами подсказкой и выбранными вами настройками обязательно обобщит набор юридических документирует так, как вам нужно.

Это особенно актуально, когда вы строите пайплайн для внешнего пользователя и поэтому не можете корректировать приглашение на лету. Например, предположим, что вы хотите использовать LLM API для внедрения решения LLM и использовать базовый скелет приглашения для создания описаний определенных элементов, например, в каталоге. Существует два уровня пригодности:

Во-первых, соответствуют ли ответы, которые вы генерируете, цели?

Во-вторых, можете ли вы рассчитывать на то, что ответы останутся пригодными для будущих итераций?

В некотором смысле первый можно оценить, взглянув на один или несколько ответов по отдельности. Если вы считаете их подходящими, вы перешли черту. Однако для оценки долгосрочной надежности…