Публикации по теме 'data'


Как создать «резюме» для текста обзора без нейронных сетей
Получение интерпретируемых ключевых слов со связанными терминами для понимания отзывов потребителей Как специалист по обработке данных, работающий в сфере потребительских товаров в Clorox, одна из моих «ежедневных задач» - быстро и кратко извлечь полезную информацию из большой коллекции пользовательских отзывов о конкретном продукте. По внешнему виду задача требует некоторого резюмирования большого набора текста. Когда дело доходит до создания текстовых резюме, мы обычно думаем о сложных..

Сортировка числовых строк по номерам
В конце прошлого года я выступил с докладом об ArangoDB перед сообществом математиков. Я рекламировал, что почти произвольные данные могут быть легко сохранены в хранилище документов на основе JSON. В тот момент, когда я произнес слово легко , один из них спросил о длинных целых числах. И если математик говорит длинное целое , он имеет в виду не 64-битное, а должно длинное . На самом деле он хотел хранить порядки конечных групп. Я сказал, что для этого следует использовать строку..

Приложения и типы машинного обучения
Каковы приложения машинного обучения? Тип машинного обучения? Согласно Википедии: Машинное обучение (МО) — это изучение компьютерных алгоритмов, которые автоматически совершенствуются благодаря опыту. Он рассматривается как подмножество искусственного интеллекта. Алгоритмы машинного обучения строят модель на основе выборочных данных, известных как «данные для обучения», чтобы делать прогнозы или принимать решения без явного программирования для этого. Применение машинного..

Переоснащение VS Недостаточное приспособление
Начнем с обсуждения терминологии, используемой в изображении. Смещение – представляет ошибку в обучающих данных. Дисперсия – представляет ошибку в тестовых данных. Over-Fiting- Алгоритм показывает хорошее соответствие данным обучения, но не данным тестирования, т. е. низкое смещение и высокая дисперсия. Недостаточная подгонка. Алгоритм не показывает хорошего соответствия ни тренировочным данным, ни тестовым данным, т. е. высокое смещение и высокая дисперсия. Теперь мы..

ИСКУССТВО ВЫБОРА ФУНКЦИЙ В МАШИННОМ ОБУЧЕНИИ
Все, кто имел опыт создания моделей машинного обучения, знают, что настоящую игру играют данные. Я имею в виду, что вы не можете прожить ни секунды без данных. С самого первого момента, когда вы начинаете строить свою модель, все, что вы на самом деле делаете, это играете со своими наборами данных, верно? Но что, если в данных, которые вы используете, есть всевозможные ошибки, не что иное, как кошмар, не так ли? Все начинается с этих наборов данных, которые мы получаем. Можно..

Использование науки о данных для понимания разницы в ценах на жилье Airbnb в Рио-де-Жанейро
В этом проекте меня заинтересовали данные Airbnb из города Бразилии, страны, в которой я сейчас проживаю. Единственные доступные данные по Бразилии были из Рио-де-Жанейро. Набор данных, используемый для этого проекта, доступен по адресу: http://insideairbnb.com/get-the-data.html Однажды я использовал платформу Airbnb для поиска дома / квартиры для аренды в Рио и заметил огромную разницу в цене между ними, в основном между разными районами. Я использовал этот факт как отправную..

Наука о данных на благо общества
Как специалист по обработке данных, который стремится использовать знания в области науки о данных, чтобы оказать положительное влияние на жизнь людей, я собрал некоторые ресурсы, чтобы заниматься наукой о данных на благо общества. Разве не было бы замечательно, если бы мы могли делать добро обществу, обучаясь? Волонтер на благо общества: DataKind : От вечерних мероприятий или мероприятий на выходных до многомесячных проектов - все они созданы для того, чтобы предоставить..