Публикации по теме 'data-science'
Разбор разделителей шипов в R и Python
Символы Thorn — Þ, þ — практически неизвестны за пределами современного исландского алфавита. Хотя они необычны, они служат интересной цели. В формате CSV значения, разделенные запятой - , , являются стандартными. К сожалению, запятые создают множество проблем, особенно когда большие числа разделяются подобным образом.
name,balance
john,10,000
david,1,000,000
jane,100
В этом примере неочевидно, где должны быть разделены столбцы. Именно здесь в игру вступает характер шипа,..
Введение в регулярное выражение с использованием Python
Введение в регулярное выражение с использованием Python
Вам вообще нужно учить регулярные выражения?
Согласно Википедии , регулярное выражение - это последовательность символов, определяющих шаблон поиска. Другими словами: это комбинация букв, цифр и символов, которую мы можем использовать для поиска в большом тексте :)
В мире технологий обсуждение того, как обязательные es для изучения регулярных выражений для программиста, можно увидеть в Интернете на Stackoverflow, Quora и..
Введение в веб-парсинг с помощью библиотеки Python Beautiful Soup
Изучите основы сбора данных с веб-сайтов и их хранения в DataFrames.
Неудивительно, что валюта для специалистов по данным - это данные. Данные - самая важная часть любого проекта в области науки о данных. Интернет предлагает почти бесконечный источник данных, если мы знаем, как получить к нему доступ. Это цель веб-скрапинга. Вы можете создать массивный набор обучающих данных для проекта машинного обучения, или собрать данные о ценах на Amazon для программы поиска выгодных покупок,..
COVID Tracker StopCorona.info добавляет диаграммы AnyChart JS для визуализации данных о коронавирусе
Трекер COVID StopCorona.info использует нашу библиотеку визуализации данных JavaScript для отображения актуальной статистики по коронавирусу в убедительных и информативных диаграммах.
COVID-19 - это глобальная чрезвычайная ситуация, и борьба с ней требует совместных усилий. Мы в AnyChart тоже не можем оставаться в стороне. При большом количестве данных о пандемии, поступающих из многочисленных источников и с постоянным обновлением, трудно следить за развитием ситуации, не..
Улучшение случайных лесов
Краткое изложение некоторых методов, разработанных учеными
Исходя из математики, у меня было несколько ложных ожиданий в отношении науки о данных, самым вопиющим из которых было то, что я думал, что ученые все выяснили. Это потому, что когда вы берете уроки математики в колледже, будь то уроки ранней калькуляции или уроки абстрактной алгебры, кажется, что есть определенный уровень завершенности вещей. Понятия, которые вы изучаете, были разработаны сотни лет назад, и многие очень умные..
Помеченная матрица путаницы без графических графиков
Я знаю, что маркировка матрицы путаницы - это старые новости с несколькими статьями и ответами о переполнении стека о том, как распечатать их в виде тепловых карт или построить с помощью matplotlib.
В этой статье мы попробуем сделать что-то без графического построения. Это полезно для нескольких людей, таких как я, которым нужно работать с CLI (или оболочкой) и печатать красивую матрицу путаницы.
Итак, мы стремимся создать что-то вроде этой таблицы из Википедии:
Я не буду..
3 самых больших ошибки при изучении науки о данных
Наука о данных или как вы ее называете - это не просто знание некоторых языков программирования, математики, статистики и «знание предметной области», и здесь я покажу вам, почему.
Привет! Это снова я. Я обсуждал части того, что я собираюсь упомянуть здесь, в других статьях, но теперь я хочу дать несколько указаний о том, что не является наукой о данных и как не изучать ее.
Итак, начнем с основ.
Что такое Data Science?
Наука о данных - это не просто знание некоторых языков..