Какова связь между описательной статистикой и ИИ?
Описательная статистика является важной частью анализа данных в ИИ. В ИИ описательная статистика используется для обобщения и анализа больших наборов данных, а также для выявления закономерностей и взаимосвязей, которые могут существовать в данных.
Описательная статистика используется в различных приложениях ИИ, включая обработку естественного языка, компьютерное зрение и машинное обучение. Например, при обработке естественного языка описательная статистика может использоваться для анализа частотности слов или фраз в корпусе текста. В компьютерном зрении описательная статистика может использоваться для анализа распределения значений пикселей в изображении. В машинном обучении описательная статистика может использоваться для обобщения характеристик обучающих данных и выявления закономерностей, которые можно использовать для прогнозирования.
Описательная статистика также используется для оценки производительности моделей ИИ. Например, показатели центральной тенденции и изменчивости могут использоваться для оценки точности и надежности прогнозов модели. Описательную статистику также можно использовать для анализа распределения ошибок, допущенных моделью, и для выявления областей, в которых модель может работать плохо.
Инструменты и методы описательной статистики
- Гистограммы
- Центральная часть тенденции: среднее, мода, медиана
- Меры дисперсии: диапазон, IQR, дисперсия, стандартное отклонение, коэффициент вариации.
- Нормальное распределение, правило Чебышева.
- Сводка по пяти числам и асимметрия в данных, коробчатые диаграммы, графики QQ, график квантилей, график рассеяния.
- Визуализация: матрица диаграммы рассеяния, параллельные координаты.
- Корреляционный анализ.
В этой статье на примере будут рассмотрены концепции гистограмм и мер центральной тенденции.
давайте рассмотрим пример анализа роста учеников в классе.
Предположим, у нас есть следующие росты десяти учеников в сантиметрах:
170, 175, 160, 165, 180, 172, 168, 172, 173, 169
Далее мы рассмотрим, как применить к этому примеру гистограммы и показатели центральной тенденции.
Гистограммы
Гистограмма — это графическое представление распределения набора данных. Мы можем использовать гистограмму, чтобы визуализировать распределение роста учеников в нашем примере.
Следующий график, представляющий частоту высот в каждой ячейке.
Меры центральной тенденции
Меры центральной тенденции используются для описания «типичного» значения набора данных. Наиболее распространенными мерами центральной тенденции являются среднее значение, мода и медиана.
Среднее значение: среднее значение представляет собой сумму всех значений в наборе данных, разделенную на количество значений.
Для нашего примера
Mean : 170.4
Режим: режим — это значение, которое чаще всего встречается в наборе данных. В нашем примере
Для нашего примера
Mode : 172.0
Медиана: медиана — это среднее значение в наборе данных, когда значения отсортированы по возрастанию или по убыванию.
Median : 171.0
Следите за новостями, чтобы не пропустить следующие статьи, в которых будут рассмотрены дополнительные инструменты и методы.
Спасибо