Публикации по теме 'data-science'


Предвзятые данные и как с ними бороться
Предвзятые данные и как с ними бороться История недостаточной выборки Мой студент только что закончил диплом с отличием в области науки о данных, связанный с классификацией - или, по крайней мере, он думал, что закончил. Он получил смесь из нескольких тысяч твитов, опубликованных ~ 2000 студентов и ~ 700 предпринимателями из района Бостона. Ему пришлось обучить модель машинного обучения (RandomForestClassifier), которая предсказывала, был ли твит опубликован студентом или..

Массовая апперцепция
Серия открытых писем агентам по смене У меня есть очень простой публичный список пожеланий. Я не хочу называть это списком желаний. Это выражение вызывает в воображении образы Джека Николсона и Моргана Фримена, сверкающих дрянными голливудскими улыбками, за которыми следует волна легкой тошноты. Мой список желаний может быть выполнен за 1 час. Вот как пройдет этот час: 5 минут с Илоном Маском 10 минут с Дугласом Хофштадтером 15 минут с Лизой Джой и Джонатаном Ноланом 30..

2020 год — это год, когда вы должны прекратить использовать Ctrl-f, и вот почему:
Вы когда-нибудь оказывались в зависимости от Ctrl-F, просматривая новости, длинный отчет или серию академических статей? В настоящее время нередко можно увидеть, как аналитики во всем мире используют этот простой инструмент, чтобы найти то, что они ищут в горах текста. Это явно неоптимальная стратегия. Большую часть времени, затрачиваемого на поиск в этих документах, следует выделить более ценным задачам. Прежде чем обсуждать некоторые решения этих проблем, важно понять, почему..

Руководство по обобщению текста: исследовательский анализ текстовых данных
Часть 1 из серии о реферировании текста с помощью методов машинного обучения Во время выполнения моего краеугольного проекта в программе Machine Learning Engineer Nanodegree в Udacity я довольно глубоко изучил проблему реферирования текста. По этой причине я собираюсь написать об этом серию статей , от определения проблемы до некоторых подходов к ее решению, показывая некоторые базовые реализации и алгоритмы, а также описывая и тестируя некоторые более продвинутые методы. . Это..

Развертывание веб-приложения глубокого обучения
Машинное обучение в Akash DeCloud (часть 3/3): развертывание приложений машинного обучения в децентрализованном облаке В Часть 1 моей серии из трех статей, посвященных машинному обучению в Akash Network , мы развернули в Akash полную среду Jupyter с ядром Python и установленным TensorFlow и использовали ее. обучить сверточную нейронную сеть (CNN) распознаванию рукописных цифр на наборе данных MNIST . В Часть 2 мы связали модель с TensorFlow Serving , чтобы предоставить..

Насколько медленно работает python list.pop (0)?
Эмпирическое исследование сложности python list.pop TL;DR Python list.pop (k) имеет временную сложность O (k). Будьте осторожны при использовании python list в качестве структуры очереди. Вместо этого используйте deque . Всегда профилируйте свой код для оптимизации. Список как очередь Очередь - это структура данных в порядке очереди (FIFO). Это базовое свойство делает очередь полезной в широком спектре приложений, таких как организация объектов по порядку и..

Компромисс человеческого предубеждения и точности
Компромисс человеческого предубеждения и точности Понимание того, как исторические данные могут привести к алгоритмическому смещению на наивном примере модели прогнозирования компенсации Быть человеком - значит быть предвзятым? Предубеждение - это тенденция или склонность к предпочтению или нежеланию одного набора над другим. У всех людей есть определенная степень предвзятости, потому что мы по своей сути запрограммированы на распознавание любого другого как угрозы...