Термины и определения в области науки о данных, которые мы используем в Bountiful

В Bountiful мы решаем непростые задачи. Мы делаем отдельные фермы более эффективными, прибыльными и устойчивыми, помогая оптимизировать глобальную цепочку поставок продуктов питания. Это означает более здоровых людей и более здоровую планету. Эти проблемы решаются с помощью самых современных технологий и передовых подходов к машинному обучению. Мы надеемся, что сможем выполнить тяжелую работу, взяв вас с собой в это путешествие. На этой неделе мы открываем тему науки о данных в Bountiful. Ниже приведено руководство и ссылка на термины, которые мы постоянно используем в Bountiful в нашей аналитике и продуктах. Мы надеемся, что этот пост и наша следующая серия постов в блоге послужат вам основой для того, чтобы узнать больше о наших продуктах простым и интересным способом.

Корреляция

Корреляция — это термин в статистике, используемый для описания того, насколько тесно связаны два набора данных.

Причинно-следственная связь

Причинность означает наличие причинно-следственной связи между двумя переменными.

Причинно-следственные факторы

Причинные факторы доходности — это переменные, которые отвечают за изменение прогноза доходности вверх или вниз. Некоторые переменные-предикторы (также известные как драйверы) связаны с изменениями доходности, но они могут не быть причиной изменения доходности. Это потому, что корреляция и причинно-следственная связь различны.

Интерпретируемость

Интерпретируемость означает, что существует четкое сопоставление между переменными-предикторами в модели и влиянием переменной (также известной как драйвер). Мы можем вернуться и посмотреть на изменения в переменных и увидеть, что эти изменения связаны с изменениями доходности или вызывают их.

Допущения модели

Предположения модели — это спецификации модели, упрощенные для получения оценки реальности. При разработке модели явления нам приходится чрезмерно упрощать реальность, которая может не отражать все детали. Намерение состоит в том, чтобы эти выборы или предположения собирали достаточно информации, чтобы обеспечить точную оценку реальности.

Параметры модели

Параметры модели — это параметры, используемые для определения того, как работает модель. Параметры модели можно оценить на основе данных или определить в зависимости от контекста применения модели и для какой цели.

Мультиколлинеарность

Мультиколлинеарность возникает, когда в модели есть несколько переменных-предикторов с одинаковым или перекрывающимся информационным содержанием. Когда это происходит, трудно провести различие между переменными, ответственными за изменение урожайности. Кроме того, параметры модели, которые рассчитываются с использованием этих коллинеарных переменных, будут отключены, и поэтому у вас будет плохая интерпретируемость. Иногда это помогает точности прогнозирования, если вы сохраняете переменные-предикторы с перекрывающимся информационным содержанием, поэтому могут быть компромиссы. Это можно определить, оценив модель с мультиколлинеарными предикторными переменными и без них. Примерами мультиколлинеарных предикторов являются рост и вес.

Распределение вероятностей

Распределения вероятностей - это способ понять количество как диапазон возможных значений, каждое из которых связано с вероятностью. Это обеспечивает более информативное содержание, чем одноточечное значение для оценочного количества.

Стандартизация

Стандартизация означает, что мы масштабируем значения переменной таким образом, что среднее значение (также известное как среднее) значений центрировано на нуле, а стандартное отклонение значений равно 1. Это делается для того, чтобы сравнивать яблоки с яблоками среди воздействие различных переменных.

Перекрестная проверка

Перекрестная проверка — это статистический метод, который позволяет нам выделить часть нашего набора данных для обучения наших моделей и выделить часть для тестирования наших моделей. Это помогает нам получить представление о том, как наши модели будут работать с будущими данными.

Классификация

Классификация — это процесс определения меток или категорий для переменных и последующей сортировки данных по этим категориям.

Контролируемое обучение

Обучение с учителем — это процесс понимания будущих данных или невидимых данных путем изучения взаимосвязей между случаями, когда у нас есть данные. Примером контролируемого обучения является использование множества изображений собак, чтобы научиться идентифицировать собак на будущих изображениях.

Обучение без учителя

Неконтролируемое обучение — это процесс поиска закономерностей в наборе данных посредством исследования без наличия плана или предвзятых категорий, закономерностей или отношений. Примером может служить категоризация растительности, зданий и дорог на изображении путем изучения сходства между каждой из этих категорий.

Линейная регрессия

Линейная регрессия — это процесс, с помощью которого набор независимых переменных (также известных как переменные-предикторы или драйверы) используется для прогнозирования реакции. В нашем прогнозировании урожайности урожай будет реакцией, которую мы прогнозируем, а независимые переменные — это факторы, которые могут повлиять на результат урожайности, например погодные переменные.

Теперь, когда у нас есть предыстория, давайте углубимся. Следите за нашими следующими публикациями о байесовском выводе и наших прогнозах!

Чтобы оставаться на связи, подпишитесь на список рассылки Bountiful и подпишитесь на бесплатную подписку на платформе Bountiful.

Термины и определения в области науки о данных, которые мы используем в Bountiful

Вопросы по теме