Подготовка данных для машинного обучения

Самым важным активом для нашей работы как специалистов по обработке данных является часть нашего имени: данные. В эпоху больших данных, похоже, есть много информации, которую можно задействовать и использовать для наших алгоритмов и анализа.

Вы можете думать о своем алгоритме как об автомобиле: ваш двигатель - это ваш классификатор, а ваше топливо - это ваши данные. Двигателям для работы требуется топливо, и они будут работать более оптимально, если топливо более высокого качества. Точно так же ваш алгоритм машинного обучения будет настолько хорош, насколько хороши ваши данные. Таким образом, важно правильно и эффективно извлекать нужную нам информацию из данных, прежде чем обучать классификатор с ее помощью.

Многим, особенно новичкам, задача создания полностью функционирующей системы машинного обучения от начала до конца (то есть от необработанных данных до результатов обучения) кажется сложной задачей. Существует множество информативных дискуссий и статей о том, как применять определенный алгоритм, но не так много информации о том, как правильно подготовить данные от одного конца до другого. Я здесь, чтобы это изменить.

Кто я?

Я Ала, инженер по инфраструктуре и машинному обучению, работающий в Кремниевой долине. В прошлом году я защитил докторскую диссертацию. в Канаде по носимым технологиям и машинному обучению это дало мне довольно широкий спектр знаний во всем, от проектирования схем до машинного обучения. Одним из наиболее важных навыков, которые я усвоил, было создание дешевых и высокопроизводительных «сквозных систем» - полноценных систем, начиная со спецификации оборудования и заканчивая дизайном прошивки, дизайном ядра и моделями машинного обучения, которые находятся на вершине.

Поступая в эту кандидатскую диссертацию. У меня не было знаний о машинном обучении или проектировании оборудования. На самом деле, я занимался пайкой и схемами в качестве хобби всего несколько месяцев до того, как начал свою докторскую диссертацию. Это было одно из самых трудных, с которыми мне приходилось сталкиваться, но оно того стоило.

Рабочий процесс

При разработке фреймворка или алгоритма машинного обучения комплексное решение от необработанных данных до прогнозирования называется общим рабочим процессом, и с этого момента я буду называть его именно так. Рабочий процесс состоит из 3 шагов, которые помогут вам подготовить данные для алгоритма обучения. Каждый шаг зависит от другого. То есть, если первый шаг сделан неправильно, то пострадает второй и так далее.

1. Маркировка

Мы помечаем данные, чтобы зафиксировать, когда они начинаются и когда заканчиваются, прежде чем использовать их в качестве обучающих данных. Это особенно важно, если мы собираем данные сами, прежде чем действовать, в отличие от существующих наборов данных.

2. Фильтрация

Один из лучших способов очистить зашумленные данные - использовать фильтрацию. Вы можете использовать десятки фильтров, но самые важные из них также являются самыми простыми: фильтры верхних частот и фильтры нижних частот.

3. Извлечение признаков

Одна из самых важных - хотя и отнимающих много времени - частей рабочего процесса - это извлечение правильных функций, которые имеют отношение к тому, что вы пытаетесь классифицировать. Это очень специфично для приложения, однако есть несколько рекомендаций и стандартизированных функций, которые можно легко извлечь для ряда приложений. Кроме того, если вы любите приключения, вы можете создавать свои собственные функции и извлекать их.

Спасибо за чтение. Если вам понравилось, нажмите кнопку хлопка внизу как можно больше раз! Я буду писать статьи для каждого шага, а также подробно рассказывать о некоторых более «экзотических» алгоритмах машинного обучения, таких как скрытые марковские модели и трансферное обучение!

Давайте также подключимся к Instagram, LinkedIn или E-mail.