Публикации по теме data-science

Публикации по теме 'data-science'

Варианты использования синтетических наборов данных, часть 2 (машинное обучение)

Универсальный синтетический набор данных для машинного обучения на спектроскопических данных (arXiv) Автор: Ян Шутцке , Натан Дж. Шимански , Маркус Рейшль . Аннотация: Чтобы помочь в разработке методов машинного обучения для автоматической классификации спектроскопических данных, мы создали универсальный синтетический набор данных, который можно использовать для проверки модели. Этот набор данных содержит искусственные спектры, предназначенные для представления экспериментальных..

4 популярные линейные модели в машинном обучении

Введение Одной из самых увлекательных областей технологий сегодня является машинное обучение. Это меняет то, как мы работаем, живем и подходим к решению проблем. Теперь мы можем легко и эффективно подходить к сложным реальным задачам благодаря методам машинного обучения. В этом блоге мы рассмотрим 4 самых популярных алгоритма машинного обучения с линейными моделями, а также некоторые примеры их кода. и практических приложений. Независимо от вашего уровня опыта, этот блог..

Коллекция вопросов для интервью по машинному обучению

Приведенный ниже список был составлен, когда я готовился к интервью по машинному обучению от Google, Meta, Microsoft, Apple и т. д. Линейная алгебра Что такое скаляры, векторы и матрицы? Что такое обратная матрица? Что такое Ax = b ? И когда Ax = b имеет единственное решение?

Современные методы борьбы с дисбалансом данных. 🤔

Дисбаланс данных — распространенная проблема в науке о данных, когда количество выборок в разных классах набора данных распределяется неравномерно. Это может оказать существенное влияние на производительность моделей машинного обучения, класс меньшинства может быть пропущен алгоритмом из-за отсутствия обучающих данных. Поэтому крайне важно устранить дисбаланс данных для достижения точных и надежных результатов в приложениях для обработки данных. В этом сообщении блога мы обсудим..

Как использовать API базы данных фильмов для проекта Data Science

В этой серии из 6 частей я объясню свой процесс использования обработки естественного языка и машинного обучения для классификации жанров сценариев. Дополнительную информацию см. в разделе мой репозиторий . Часть 1. Бизнес-цель Часть 2. Сбор данных Часть 3: Обработка данных (вы здесь) Часть 4. Предварительная обработка данных (еще не опубликовано) Часть 5. Построение модели (еще не опубликовано) Часть 6. Развертывание модели (еще..

Углубленный взгляд на байесовское обновление

Его происхождение, теория и приложения. Статистический анализ — это аспект научных исследований и бизнес-стратегий, которые постоянно развиваются, чтобы помочь нам лучше понимать окружающий мир и ориентироваться в нем. В этой области модификация гипотез и прогнозов по мере представления новых фактов во многом зависит от байесовской корректировки ученых и бизнеса. Названный в честь преподобного Томаса Байеса, математика XVIII века, байесовский подход отличается от классического или..

Улучшите свою текстовую аналитику: 6 инструментов NLP с открытым исходным кодом для специалистов по данным

Текстовые данные повсюду, и как специалист по данным вы обязательно столкнетесь с ними в своем следующем проекте. Независимо от того, собираете ли вы твиты для анализа настроений или анализируете отзывы клиентов, важно овладеть искусством текстовой аналитики. Вот где в игру вступают инструменты обработки естественного языка (NLP). В этой статье мы рассмотрим шесть лучших НЛП с открытым исходным кодом…