Публикации по теме 'data-science'


Разбор разделителей шипов в R и Python
Символы Thorn — Þ, þ — практически неизвестны за пределами современного исландского алфавита. Хотя они необычны, они служат интересной цели. В формате CSV значения, разделенные запятой - , , являются стандартными. К сожалению, запятые создают множество проблем, особенно когда большие числа разделяются подобным образом. name,balance john,10,000 david,1,000,000 jane,100 В этом примере неочевидно, где должны быть разделены столбцы. Именно здесь в игру вступает характер шипа,..

Введение в регулярное выражение с использованием Python
Введение в регулярное выражение с использованием Python Вам вообще нужно учить регулярные выражения? Согласно Википедии , регулярное выражение - это последовательность символов, определяющих шаблон поиска. Другими словами: это комбинация букв, цифр и символов, которую мы можем использовать для поиска в большом тексте :) В мире технологий обсуждение того, как обязательные es для изучения регулярных выражений для программиста, можно увидеть в Интернете на Stackoverflow, Quora и..

Введение в веб-парсинг с помощью библиотеки Python Beautiful Soup
Изучите основы сбора данных с веб-сайтов и их хранения в DataFrames. Неудивительно, что валюта для специалистов по данным - это данные. Данные - самая важная часть любого проекта в области науки о данных. Интернет предлагает почти бесконечный источник данных, если мы знаем, как получить к нему доступ. Это цель веб-скрапинга. Вы можете создать массивный набор обучающих данных для проекта машинного обучения, или собрать данные о ценах на Amazon для программы поиска выгодных покупок,..

COVID Tracker StopCorona.info добавляет диаграммы AnyChart JS для визуализации данных о коронавирусе
Трекер COVID StopCorona.info использует нашу библиотеку визуализации данных JavaScript для отображения актуальной статистики по коронавирусу в убедительных и информативных диаграммах. COVID-19 - это глобальная чрезвычайная ситуация, и борьба с ней требует совместных усилий. Мы в AnyChart тоже не можем оставаться в стороне. При большом количестве данных о пандемии, поступающих из многочисленных источников и с постоянным обновлением, трудно следить за развитием ситуации, не..

Улучшение случайных лесов
Краткое изложение некоторых методов, разработанных учеными Исходя из математики, у меня было несколько ложных ожиданий в отношении науки о данных, самым вопиющим из которых было то, что я думал, что ученые все выяснили. Это потому, что когда вы берете уроки математики в колледже, будь то уроки ранней калькуляции или уроки абстрактной алгебры, кажется, что есть определенный уровень завершенности вещей. Понятия, которые вы изучаете, были разработаны сотни лет назад, и многие очень умные..

Помеченная матрица путаницы без графических графиков
Я знаю, что маркировка матрицы путаницы - это старые новости с несколькими статьями и ответами о переполнении стека о том, как распечатать их в виде тепловых карт или построить с помощью matplotlib. В этой статье мы попробуем сделать что-то без графического построения. Это полезно для нескольких людей, таких как я, которым нужно работать с CLI (или оболочкой) и печатать красивую матрицу путаницы. Итак, мы стремимся создать что-то вроде этой таблицы из Википедии: Я не буду..

3 самых больших ошибки при изучении науки о данных
Наука о данных или как вы ее называете - это не просто знание некоторых языков программирования, математики, статистики и «знание предметной области», и здесь я покажу вам, почему. Привет! Это снова я. Я обсуждал части того, что я собираюсь упомянуть здесь, в других статьях, но теперь я хочу дать несколько указаний о том, что не является наукой о данных и как не изучать ее. Итак, начнем с основ. Что такое Data Science? Наука о данных - это не просто знание некоторых языков..