Введение:-

Добро пожаловать в модуль 2 нашего руководства по основам искусственного интеллекта. В этой главе мы углубляемся в увлекательный мир машинного обучения (ML). Опираясь на наши фундаментальные знания, мы раскроем механизмы контролируемого и неконтролируемого обучения, изучим искусство прогнозирования и представим алгоритмы, которые управляют принятием решений на основе данных.

2.1 Регрессия и классификация:-

Регрессия:-

Это метод определения статистической взаимосвязи между зависимой переменной и одной или несколькими независимыми переменными. Изменение независимой переменной связано с изменением зависимых переменных. В общих чертах это можно разделить на два основных типа.

1) Линейная регрессия

2) Логистическая регрессия

Использование прогнозной информации Представьте, что вы энтузиаст недвижимости, стремящийся прогнозировать цены на жилье на основе различных факторов, таких как площадь в квадратных метрах, местоположение и количество спален. Регрессия вступает в действие, чтобы предоставить вам прогнозную информацию. Задачи регрессии включают оценку непрерывных числовых значений. Ваша модель изучает закономерности в данных, что позволяет ей делать точные прогнозы для новых, невидимых точек данных.

Линейная регрессия:Линейный регрессионный анализ используется для прогнозирования значения переменной на основе значения другой переменной. Переменная, которую вы хотите спрогнозировать, называется зависимой переменной. Переменная, которую вы используете для прогнозирования значения другой переменной, называется независимой переменной.

Краеугольным камнем линейной регрессии является уравнение прямой:

y=mx+b

y представляет прогнозируемое значение.

x представляет входной объект.

m — это наклон, отображающий взаимосвязь между x и y.

b — точка пересечения оси Y, начальная точка линии.

Логистическая регрессия:-

Это не что иное, как оценка вероятности возникновения события, такого как голосование или неголосование, на основе заданного набора данных независимых переменных. Поскольку результат является вероятностью, зависимая переменная ограничена диапазоном от 0 до 1.

P( Y=1∣X) = 1 / (1+e−(β0​+β1​X1​+β2​X2​+…+βnXn​))

==›› P(Y=1∣X) — вероятность того, что результат Y равен 1 = =›› с учетом значений признаков X.

==›› e — математическая константа (приблизительно 2,71828).

==›› β0​,β1​,…,βn​ — это коэффициенты, которые модель обучается для соответствия данным.

==›› X1​,X2​,…,Xn​ — значения входных объектов.

Классификация:-

Принятие обоснованных решений Теперь давайте перейдем к классификации, где основное внимание уделяется принятию обоснованных решений на основе категорий данных. Подумайте о том, классифицировать электронные письма как спам или нет или определить, содержит ли изображение кошку или собаку. Задачи классификации распределяют данные по предопределенным классам. Модель учится на примерах обучающих данных, чтобы различать особенности, отличающие разные классы.

Граница решения:-

Для бинарной классификации (два класса) границей решения является линия, разделяющая классы в пространстве признаков. На этой границе модель принимает решение о классификации на основе входных признаков.

Основные понятия:-

Переоснащение и недостаточное оснащение: достижение баланса между моделью, которая отражает закономерности, но при этом не является слишком сложной (переоснащение) или чрезмерно упрощенной (недостаточное оснащение).

Смещение и дисперсия: понимание компромисса между точностью модели и ее чувствительностью к изменениям в обучающих данных.

Реальное применение: прогнозирование цен на жилье

Рассмотрите возможность применения регрессии к реальным сценариям. Например, при прогнозировании цен на жилье ваша модель изучает исторические данные, чтобы понять взаимосвязь между такими функциями, как местоположение, площадь в квадратных метрах и цена. Когда вы представляете характеристики нового объекта недвижимости, модель использует это изученное соотношение для оценки его цены, предоставляя ценную информацию покупателям и продавцам.

2.2 Разработка функций и предварительная обработка данных:-

Создание значимых функций:-

Искусство проектирования объектов. Необработанные данные редко поступают готовыми для моделирования. Именно здесь разработка функций занимает центральное место. Он включает в себя выбор, преобразование и создание функций, которые предоставляют вашей модели наиболее актуальную информацию. Поступая так, вы преобразуете входные данные в форму, отражающую суть вашей проблемы.

Выбор функций:-

Выбор функций включает в себя определение функций, которые оказывают наибольшее влияние на производительность вашей модели. Слишком много функций может привести к шуму, а слишком малое количество может упустить из виду важную информацию.

Предварительная обработка данных:-

Уточнение необработанных данных Прежде чем данные можно будет ввести в модель, их необходимо уточнить. Предварительная обработка данных включает в себя ряд шагов, которые обеспечивают оптимальную форму ваших данных для обучения.

Нормализация и стандартизация:-

Нормализация гарантирует, что все объекты имеют одинаковый масштаб. Это предотвращает доминирование функций с большими значениями в процессе обучения. С другой стороны, стандартизация дает всем характеристикам среднее значение, равное нулю, и стандартное отклонение, равное единице. Это особенно полезно, когда объекты имеют разные единицы измерения.

Горячее кодирование:-

Объединение категориальных и числовых областей Модели машинного обучения часто требуют числовых входных данных, но реальные данные изобилуют категориальными переменными. One-Hot Encoding преобразует категориальные данные в двоичные векторы, обеспечивая бесперебойную работу модели.

Основные понятия:-

Обработка отсутствующих данных. Такие стратегии, как вменение (оценка отсутствующих значений) или удаление затронутых выборок, обеспечивают целостность данных.

Обнаружение выбросов: выявление выбросов, которые могут исказить обучение модели, и принятие решения о том, как с ними бороться.

Работа с несбалансированными данными: балансировка классов, когда один класс недостаточно представлен, часто с помощью таких методов, как избыточная или недостаточная выборка.

Реальное применение: прогнозирование дефолта по кредиту

Представьте, что вы работаете с набором данных для прогнозирования дефолта по кредиту. Используя такие функции, как «отношение долга к доходу» или «улучшение кредитного рейтинга», вы предоставляете своей модели ценную информацию. Предварительная обработка данных гарантирует, что эти функции хорошо масштабируются и понятны и готовы стать строительными блоками обоснованных прогнозов.

2.3 Оценка и выбор модели:-

Подготовка данных:-

Эффективная оценка модели начинается с чистых, предварительно обработанных данных. Преобразуйте категориальные переменные, обрабатывайте пропущенные значения и нормализуйте/стандартизируйте функции. Разделите данные на обучающие, проверочные и тестовые наборы, чтобы обеспечить объективную оценку.

Показатели производительности:-

Выбирайте показатели, соответствующие проблеме. Для задач классификации метрики включают точность, точность, отзыв, показатель F1, кривую ROC и AUC. Для регрессии метрики включают среднеквадратическую ошибку (MSE), среднюю абсолютную ошибку (MAE) и R-квадрат.

Матрица путаницы:-

Окно в производительность Матрица путаницы — это увеличительное стекло, которое показывает производительность вашей модели. Разбивая прогнозы на истинно положительные, истинно отрицательные, ложноположительные и ложноотрицательные, эта матрица предлагает полное представление о том, в чем ваша модель превосходна, а где она может дать сбой.

Обучение модели и перекрестная проверка:-

Обучите несколько моделей на обучающем наборе. Используйте такие методы, как перекрестная проверка в k-кратном размере, чтобы надежно оценить производительность. Формула для k-кратной ошибки перекрестной проверки:

Среднеквадратическая ошибка (MSE)

MSE_1, MSE_2, …MSE_K, поэтому ошибка CV в k-кратном вычислении вычисляется путем усреднения MSE по K-кратным значениям.

где Error i​ — это ошибка в i-м сгибе.

Если вы хотите более четко сослаться на этот сайт, нажмите на него

Перекрестная проверка Ultimate Acid Test — метод, который проверяет вашу модель на нескольких подмножествах данных и обеспечивает надежную оценку. Эта защита от переоснащения имитирует работу вашей модели с невидимыми данными, обеспечивая более реалистичную оценку производительности.

Компромисс смещения и дисперсии:-

Оценка модели включает в себя баланс систематической ошибки и дисперсии. Высокое смещение указывает на недостаточное оснащение, а высокая дисперсия означает переобучение. Компромисс смещения и дисперсии можно визуализировать как:

Всего Ошибка=Смещение2 + Дисперсия+ Несократимая Ошибка

Ансамблевые методы:-

Методы ансамбля, такие как случайный лес и повышение градиента, объединяют модели для повышения производительности. Эти методы используют силу нескольких моделей для решения сложных проблем.

Кривая ROC и AUC:-

В двоичной классификации кривая рабочих характеристик приемника (ROC) отображает долю истинно положительных результатов в сравнении с частотой ложных срабатываний. Площадь под кривой (AUC) количественно определяет общую производительность кривой. AUC, равный 0,5, означает случайное угадывание, тогда как более высокие значения указывают на лучшую дискриминацию.

Настройка гиперпараметров:-

Оптимизируйте гиперпараметры для повышения производительности модели. Могут использоваться методы поиска по сетке и случайного поиска. Байесовская оптимизация сужает пространство поиска для повышения эффективности.

Реальные приложения:-

Медицинская диагностика. Оценка моделей прогнозирования заболеваний с использованием медицинских данных требует выбора таких показателей, как чувствительность (память), чтобы свести к минимуму ложноотрицательные результаты.

Финансовое прогнозирование. При прогнозировании цен на акции модели сравниваются с использованием таких показателей, как средняя абсолютная процентная ошибка (MAPE), для оценки точности.

Обработка естественного языка. Задачи НЛП, такие как анализ настроений, включают кривые оценки F1 и точности отзыва для оценки эффективности модели.

Сравнение моделей:-

Визуализируйте производительность модели, используя кривые точного отзыва для несбалансированных наборов данных. Показатель F1, гармоническое среднее значение точности и полноты, эффективен для таких сценариев.

Оценка набора тестов:-

После завершения разработки модели оцените ее на тестовом наборе, чтобы смоделировать реальную производительность. Этот шаг обеспечивает возможность обобщения модели.

Решение и развертывание:-

Выберите наиболее эффективную модель на основе результатов проверки и набора тестов. Разверните модель в производство для получения реальных прогнозов.

==› В ходе изучения Модуля 2 вы приобрели прочную основу в основных концепциях, лежащих в основе мира машинного обучения. Вы раскрыли возможности регрессии и классификации, научившись прогнозировать числовые результаты и точно классифицировать данные. Вы углубились в искусство проектирования функций и предварительной обработки данных, превращая необработанные данные в шедевр, понятный моделям. Вы изучили область оценки и выбора моделей, вооружившись инструментами, которые помогут вашим моделям делать точные прогнозы и принимать эффективные решения.

==›><Когда вы поразмышляете о своем прогрессе, помните, что эти концепции лежат в основе потенциала ИИ. Ваше понимание этих строительных блоков позволит вам с уверенностью решать более сложные темы.

==››Но путешествие на этом не заканчивается. Приготовьтесь к захватывающему путешествию, когда мы с головой погрузимся в Модуль 3: «Раскрытие нейронных сетей».

Независимо от того, являетесь ли вы новичком или энтузиастом, Модуль 3 обещает стать увлекательным исследованием будущего искусственного интеллекта. Итак, пристегнитесь и приготовьтесь погрузиться в преобразующий мир нейронных сетей.

Перейдите по этой ссылке на предыдущий модуль