Публикации по теме data-science

Публикации по теме 'data-science'

3 минуты Python | Словарь

Словарь — это волшебство, позволяющее найти то, что вам нужно, в мгновение ока вступление Словарь — это еще одна встроенная структура данных в Python. Он используется для хранения данных об отношениях один к одному, что означает, что один ключ соответствует одному значению. Он известен своей функцией быстрого поиска (если вы знаете концепцию большого O, операция find для словаря выполняется за O(1), а для списка — за O(n)) Общие сценарии использования словаря — это когда нам..

В чем разница между предсказанием() и предсказанием_пробы() в scikit-learn?

Как использовать методы predict и predict_proba в наборе данных для выполнения прогнозов Введение При обучении моделей (и, точнее, контролируемых оценок) с помощью sklearn нам иногда нужно предсказать фактический класс, а в некоторых других случаях мы можем захотеть предсказать вероятности класса. В сегодняшней статье мы обсудим, как использовать методы predict и predict_proba в наборе данных для выполнения прогнозов. Кроме того, мы рассмотрим различия между этими..

Что такое машинное обучение (ML)? А как насчет ИИ? Почему сейчас?

«Мы тонем в информации и жаждем знаний». - Джон Нейсбитт. Эра больших данных Мы вступили в эру больших данных. Например, существует около 60 триллионов веб-страниц; Каждую минуту на YouTube загружается 300 часов видео , что соответствует 10-летнему контенту каждый день; геномы 10000 людей, каждый из которых имеет длину 3,8 × 109 пар оснований, секвенированы в различных лабораториях; Walmart обрабатывает более 1 млн транзакций в час и имеет базы данных, содержащие более 2,5..

Разведка-эксплуатация: знакомство с Многоруким бандитом

Случайный, Эпсилон-жадный, бандит UCB Многорукий бандит — это задача выбора между альтернативными вариантами с неизвестными наградами, попытка максимизировать ожидаемую награду и одновременно изучить ее. вики-статья . Весь блокнот доступен здесь Мы создадим простую среду для моделирования таких проблем и попробуем несколько стратегий для их решения. База Настроить библиотеку Реализуйте класс для генерации вознаграждений за каждое действие, предпринятое решателем...

Native или NumPy - что выбрать?

Случаи, когда NumPy не лучший вариант Python довольно интуитивно понятен для новичков, когда они используют собственные типы данных коллекции. По мере того, как код становится более сложным, время выполнения увеличивается. В этом фрагменте будет сравниваться скорость нативных массивов в Python с массивами NumPy. Перво-наперво: вероятно, будет проще использовать собственные структуры данных, если размер останется небольшим. Всякий раз, когда у меня появляется идея протестировать в..

Открывая ценность текста: введение в НЛП

Когда мы говорим о данных, обычно принято представлять себе непрерывные признаки, описывающие количества, или категориальные признаки, содержащие элементы из фиксированных списков. Хотя существует третий тип функций, это текст , и он может быть сгенерирован во многих приложениях, что позволяет нам извлекать ценную информацию. Текстовые данные генерируются не только в письменных формах, таких как книги, новости, твиты, сообщения, комментарии, отзывы клиентов, чаты с чат-ботами, но и в..

Классификация болезней листьев маниоки: сообщение в блоге №1

Команда Шуя Чжан Сюнфэн (Алекс) Ван Кевин Ле Проблема + набор данных Это первая из трех публикаций в блоге, в которых описывается опыт нашей группы в решении проблемы распознавания изображений с помощью методов ML / DL. Наш набор данных, взятый из конкурса Kaggle по классификации болезней листьев маниоки, состоит из более чем 20 000 изображений листьев маниоки, сделанных с помощью относительно недорогих камер. Кроме того, набор данных также обеспечивает сопоставление..