Знание того, когда использовать правильную модель

Модели нейронных сетей (NN) — это мозг, который включает в себя алгоритмы ИИ. Эти модели основаны на том, как человеческий мозг обрабатывает информацию для идентификации вещей. Они состоят из двух типов элементов, узлов (нейронов) и их соединительных путей. Различные модели используются для решения конкретных задач, таких как распознавание изображений или обработка последовательных шаблонов, таких как речь. Существует множество различных моделей, и постоянно создаются новые. Хотя растущее число доступных моделей ошеломляет, существует несколько стандартных моделей, которые используются в качестве отправной точки при разработке более сложных моделей. Также важно понимать, какие типы узлов доступны и как обучить нейронную сеть для точной обработки.

Нейроны, строительные блоки

Существует несколько типов узлов, которые составляют NN, и у каждого есть определенная функция. Наиболее важными являются два узла ввода и вывода. Ваш элемент данных для обработки разделен на отдельные переменные, которые представляют то, что предоставляется входным узлам. Выходные узлы представляют возможные доступные типы решений. Цель любой NN — взять переменные из входных узлов и вычислить, какой выходной узел наиболее применим. Другие типы узлов обеспечивают уникальные типы сложности, где требуется более четкое решение проблем. Хотя модели чаще всего начинаются с формы входного узла и заканчиваются формой выходного узла, существуют модели, состоящие исключительно из промежуточных узлов, таких как цепь Маркова.

Обучение новой нейронной сети

Только что созданная нейронная сеть создается с рандомизированными весами и смещениями, поэтому она изначально не может точно вычислять решения. Эти параметры должны быть настроены для получения точных результатов для набора данных, предназначенных для обработки. Хотя разработчик NN может вручную настроить эти параметры, это кропотливый и утомительный процесс, который лучше оставить автоматизированным. Чтобы улучшить способность NN правильно выбирать соответствующий выходной узел для входных данных, его необходимо «обучить» с помеченными данными (наборами данных, которые уже были проанализированы). В случае примера распознавания рукописных чисел средний результат по всем выходным узлам по сравнению с ожидаемым результатом считается «значением стоимости». Используя среднюю стоимость-значение из нескольких тестов, веса и смещения можно тонко скорректировать, чтобы лучше рассчитать, что представляют входные данные.

Процесс обучения НС включает в себя процесс, называемый «обратным распространением», при котором настройки обучения передаются обратно по одному слою за раз, а веса и смещения корректируются в соответствии со скоростью обучения, что ограничивает изменения для уменьшения чрезмерных настроек. Корректировки основаны на вычисленном градиентном спуске, который представляет собой наклон от текущего значения ошибки до локального минимума. Цель процесса обучения — уменьшить процент ошибок на выходе.

Какую модель нейронной сети следует использовать?

Каждая модель хорошо подходит для определенного типа решения проблем, но их можно смешивать для создания новых гибридных моделей или комбинировать с другими моделями для составления составного решения. Самой простой и старой моделью НС является «Персептрон» (П), который состоит из нескольких входных узлов и одного выходного узла. Эта модель лучше всего подходит для бинарной классификации (соответствует ли это?). Хотя у этой модели есть свое применение, ее шаблон лучше всего использовать как часть более сложной и функциональной гибридной модели NN, такой как нейронная сеть с прямой связью (FF), которая состоит из двух слоев персептронов (один слой входных узлов). , один слой скрытых и один слой выходных данных) и может разрешаться в несколько выходных узлов. Популярным примером использования этой модели может быть анализатор рукописных чисел, который интерпретирует изображение рукописного числа и вычисляет, какая цифра была нарисована.

В примере анализатора рукописных цифр с использованием модели FF каждый входной узел представляет собой пиксель со значением яркости отсканированного изображения, а каждый выходной узел представляет собой число от 0 до 9. Каждый выходной узел будет иметь процентное значение того, насколько оно достоверно. представляет ценность. Между слоями входного и выходного узлов находится слой скрытых узлов, который берет взвешенные значения из входных узлов, мутирует со смещением (множитель смещения для входящих значений из своих входных соединений) и фильтрует с помощью функции активации. Связи между узлами имеют связанный вес того, насколько значимо их значение в расчетах. В случае алгоритма распознавания чисел пиксели вдоль края не будут иметь такого веса, как пиксели, расположенные ближе к центру. Каждый выходной узел также имеет смещение, как и скрытые узлы.

Модели P, FF и DFF NN считаются классификационными моделями, потому что они берут набор параметров, представляющих неизвестное, и стремятся идентифицировать его с помощью своих линейно-слоистых процессов фильтрации. Существуют и другие модели, используемые для других распространенных задач, таких как прогностический анализ, где входные данные представляют текущее состояние системы, а НС вычисляет ожидаемый результат на основе переменных среды и исторических закономерностей. Базовым типом этой модели является «Рекуррентная нейронная сеть» (RNN).

Есть одна центральная характеристика, которая отличает RNN от моделей классификации. Алгоритм зацикливается на скрытых слоях для анализа ввода, а не линейно проходит через процесс. Это полезно при обработке последовательной информации, такой как аудио или текст. Это достигается путем замены скрытых узлов ввода/вывода специальными скрытыми рекуррентными узлами, которые сохраняют состояния предыдущих итераций и используют их для расчета текущего состояния. Существует два варианта RNN: модели «долговременной/кратковременной памяти» (LSTM) и «Gated Recurrent Unit» (GRU). Они различаются только типом используемых повторяющихся узлов. LSTM реализует вариант «Память», а GRU использует узел «Gated Memory». Каждый вариант модели полезен для различных приложений. Очень важно определить проблему, которую вы хотите решить, и какая НС или комбинация НС подходит для достижения намеченных результатов.

Мы оценили несколько из множества доступных нейронных сетей. При надлежащем обучении они способны решать проблемы, как люди, путем имитации паттернов, обнаруженных в человеческом мозгу. С помощью узлов, весов и смещений, а также автоматической калибровки сеть может научиться получать точные результаты. Не существует идеальной модели, способной справиться со всеми доступными проблемами, поэтому очень важно кратко классифицировать этапы решения проблемы и использовать ту модель, гибридную модель или комбинацию моделей, которые лучше всего подходят для вашего процесса.

Liquid Analytics работает с клиентами над принятием решений в области ИИ, обеспечивающих высокую окупаемость бизнес-инициатив. Если вам нужна дополнительная информация о создании правильной модели для решения ИИ, свяжитесь с нами, чтобы начать работу сегодня.