Публикации по теме 'data-science'


Музыкальные тренды Sertanejo на 2018 год, созданные искусственным интеллектом
Во-первых, это не апокалиптическое видение того дня, когда людей заменят машины. Но с тех пор, как первые обезьяны начали использовать палки, чтобы приносить муравьям деревья, в нашу жизнь вводятся инструменты для ускорения любого процесса. И если вы автор песен, я должен сказать вам одну вещь. Ваша работа в опасности. Или, может быть, у вас просто новый коллега =) Я знаю, что легче думать в ИИ. в физико-математическом контексте. Но это правда, компьютер может научиться творческому..

Варианты использования приближения Нистрёма, часть 3 (машинное обучение)
Приближение Нистрема с неотрицательной матричной факторизацией (arXiv) Автор : Юнцюань Фу Аннотация: Руководствуясь необходимостью оценки кластеризации по близости с частичными измерениями расстояния от точек наблюдения или ориентиров для удаленных сетевых систем, мы показываем, что задача кластеризации по близости может быть эффективно сформулирована как задача аппроксимации Нистрема, которая решает кластеризацию ядра K-средних. проблема в сложном пространстве. Мы реализуем..

Расшифровка игровой площадки Kaggle: раскрытие секретов кода 5 лучших исполнителей
Введение В области наук о данных и соревнований по машинному обучению Kaggle’s Playground выделяется как арена, где начинающие специалисты по данным демонстрируют свои навыки и опыт. В каждом соревновании за желанные призовые места борются многочисленные участники. Среди них несколько избранных выходят победителями, закрепляя свои позиции в неуловимой пятерке лидеров. Начинающие энтузиасты данных и конкуренты часто задаются вопросом, что отличает этих лучших исполнителей и побуждает их к..

За гранью внимания: раскрытие возможностей моделей-трансформеров
Привет, однокурсники! Если вы следили за моими предыдущими постами, вы уже знакомы с механизмом внимания, значительным прорывом в области обработки естественного языка (NLP). Если нет, вернитесь к моему предыдущему сообщению в блоге здесь и познакомьтесь с этой увлекательной темой. В этом блоге мы собираемся опираться на этот фундамент и исследовать одну из самых влиятельных архитектур НЛП на сегодняшний день: Трансформер. Эта революционная модель, рожденная из концепции «Внимание —..

Что такое причинно-следственный анализ больших данных?
Что такое причинно-следственная связь В отличие от корреляции, причинно-следственная связь всегда приводит к контрфактуальным результатам, в причинно-следственном анализе задача анализа данных заключается в выборочном нацеливании, например, в конкретных маркетинговых кампаниях, для измерения эффективности скидок и поведения потребителей. Когда финансовая организация хочет знать скачок клиентов из одной финансовой программы…

Различные способы обучения тестовых сплитов (часть 3: использование .Sample и .Index)
с Python доктора Элвина Анга https://www.alvinang.sg/s/Various_Ways_of_Train_Test_Splits_with_Python_by_Dr_Alvin_Ang-1.ipynb Шаг 1. Введите набор данных Шаг 2: Тренировка тестового сплита X_train = df.sample(frac=0.7, random_state = 0) y_train = X_train.pop(‘MEDV’) X_test = df.drop(X_train.index) y_test = X_test.pop(‘MEDV’) О докторе Элвине Анге Доктор Элвин Анг получил степень доктора философии, магистра и бакалавра в NTU, Сингапур. Ранее он был..

Обработка выбросов и ее влияние на модели машинного обучения.
Привет всем энтузиастам данных. Во-первых, давайте разберемся с выбросами. Выбросы — это точки данных, которые значительно отличаются от остальных данных. Это влияет на статистический анализ данных и влияет на эффективность нашей модели машинного обучения. Чтобы максимизировать точность модели, мы должны удалить выбросы из набора данных. Алгоритмы, использующие метрику расстояния или основанные на статистических допущениях (например, линейная регрессия), более чувствительны к выбросам,..