В этой статье мы обсуждаем общий метод машинного обучения для прогнозирования или оценки транзакционных данных, применимый к очень большим потоковым данным. Этот гибридный метод сочетает в себе различные алгоритмы для повышения точности, превосходя каждый алгоритм в отдельности, но при этом он достаточно прост для надежной автоматизации. Он проиллюстрирован в контексте прогнозирования эффективности статей, опубликованных в СМИ или блогах, и использовался Автору создать систему ИИ (искусственного интеллекта) для обнаружения статей, достойных курирования, а также для автоматического планирования твитов и других публикаций в социальных сетях. Для максимального воздействия с целью в конечном итоге полностью автоматизировать цифровую публикацию. Это приложение достаточно широкое, чтобы методология могла применяться к большинству контекстов НЛП (обработки естественного языка) с большими объемами неструктурированных данных. Результаты, полученные в нашем конкретном случае, также очень интересны.

Алгоритмическая структура, описанная здесь, применима к любому набору данных, текстовому или нет, с количественными, неколичественными (пол, раса) или сочетанием переменных. Он состоит из нескольких компонентов; мы подробно обсуждаем те, которые являются новыми и оригинальными. Другие, неоригинальные компоненты кратко упоминаются со ссылками на них для дальнейшего чтения. Для понимания концепций и методологии, описанных здесь, не требуется глубоких технических знаний и математических знаний. Методология, хотя и современная, достаточно проста, чтобы ее можно было реализовать даже в Excel для небольших наборов данных (один миллион наблюдений).

Представленный здесь метод сочетает в себе нестандартные, надежные версии деревьев решений и регрессии. Он успешно используется в реализациях машинного обучения «черный ящик».

Полностью статью читать здесь.

Чтобы найти похожие статьи того же автора, нажмите здесь или посетите www.VincentGranville.com. Подпишитесь на меня в LinkedIn.

Ресурсы DSC