Публикации по теме data

Публикации по теме 'data'

Повышение производительности модели машинного обучения за счет комбинирования категориальных функций

Простой трюк для повышения производительности модели. При обучении модели машинного обучения в наборе данных могут быть некоторые функции, представляющие категориальные значения. Категориальные признаки - это типы данных, которые можно разделить на группы. Существует три распространенных категориальных типа данных: Порядковый - это набор заказов. Пример: оцените счастье по шкале от 1 до 10. Двоичный - имеет только два значения. Пример: мужчина или женщина. Номинальный -..

Классификация собственного почерка

Я начинаю этот блог с простого вопроса: Ты знаешь греческий алфавит? Если вы немного знаете греческий алфавит, то, возможно, вы тоже разделяете мои отношения любви/ненависти к необходимости писать некоторые буквы, ну, на самом деле есть только одна буква, которую я ненавижу писать. Может быть, вы можете это догадаться. Подпитываемый этими отношениями, я хотел посмотреть, возможно ли использовать сверточные нейронные сети для классификации моего собственного почерка. Для тех из..

Пакетное представление семантического структурирования видеоканалов

Dailymotion - видеоплатформа, на которой размещены миллионы видеороликов, принадлежащих десяткам тысяч каналов. Видео состоят из аудио-видео потока вместе с текстовыми метаданными, содержащими заголовок, описание видеоконтента и теги ключевых слов. Чтобы эти видео работали как часы, группа специалистов по обработке данных разрабатывает алгоритмы для автоматической неконтролируемой структуризации видео и каналов на основе их текстовых метаданных. В этой статье мы представим подход,..

Мышление вне цикла: изучение альтернативных методов итерации в Python

Введение Когда мы говорим об итерации в языке программирования, первое интуитивно понятное понятие, которое приходит на ум, — это цикл . Как и во всех других языках, циклы в python всегда были фундаментальной частью кода, но представьте себе следующее: Вы потратили часы на написание цикла для перебора большого набора данных только для того, чтобы обнаружить, что ваша программа выполняется целую вечность. Звучит знакомо? Хотя циклы являются неотъемлемой частью..

Демистификация байесовского анализа в Джулии Тьюринг: причудливое путешествие по передовым методам и…

Демистификация байесовского анализа в Джулии Тьюринг: причудливое путешествие с помощью передовых методов и практических примеров Приветствую вас, коллеги-энтузиасты данных! Вы когда-нибудь оказывались тонущими в море вероятностных распределений и мечтали о спасательном круге? Что ж, не бойтесь, сегодня мы погружаемся в чудесный мир байесовского анализа и методов выборки с помощью Джулии Тьюринг — спасателя в огромном океане статистики! Приготовьтесь к захватывающему и веселому..

Хранение данных в Microsoft AZURE

ЧТО ТАКОЕ МАЙКРОСОФТ АЗУР? Azure — это платформа и инфраструктура облачных вычислений, разработанная Microsoft, которая предоставляет широкий спектр услуг для создания , развертывания и управления приложениями и >услуги . Он предлагает бессерверные реляционные базы данных, такие как Azure SQL , и нереляционные базы данных, такие как NoSQL . Кроме того, платформа часто используется для резервного копирования и аварийного восстановления. Microsoft взимает плату за Azure по..

Каггл или Гитхаб? Что важнее для специалиста по науке о данных

Оба являются важными базами данных портфолио для крупных специалистов в области компьютерных наук, аналитики и даже науки о данных. Kaggle принадлежит Google, а GitHub принадлежит Microsoft, и оба являются технологическими гигантами, которые в настоящее время возглавляют инновационные тенденции в технологиях. Что такое Kaggle и чем он полезен? Kaggle позволяет вам создавать обширные портфолио, используя обширные коды Python и R в аналитике, машинном обучении и проходить..