Публикации по теме 'data-scientist'


Эффективность программы-программирование на Python| 6.00.1X
определение эффективности программы и как ее рассчитать на примерах. компьютеры работают быстро и становятся быстрее — так что, может быть, эффективные программы не имеют значения? но наборы данных могут быть очень большими таким образом, простые решения могут просто не масштабироваться приемлемым образом. так как же мы можем решить, какой вариант программы наиболее эффективен? раздельная эффективность программы по времени и пространству  компромисс между ними — основное внимание..

7 важных показателей расстояния, которые должен знать каждый специалист по данным.
Здравствуйте, Метрики расстояния играют жизненно важную роль в большинстве моделей машинного обучения. Метрики расстояния в основном используются для повышения производительности алгоритмов, основанных на сходстве. Метрики расстояния используются с момента их создания. По сути, Distance обеспечивает меру сходства между двумя точками данных. Одним из самых популярных примеров метрик на основе расстояния является хорошо известное правило классификации ближайших соседей, когда..

Влияние правильных данных на мощь ИИ
Влияние правильных данных на мощь ИИ Поскольку мы стремимся использовать мощь ИИ , один из первых вопросов, на который, возможно, потребуется ответить программам ИИ, касается адекватности анализа : имеются ли данные и достаточно ли они качественны? для удовлетворения конкретных потребностей бизнеса? Итак, я работаю над форматом данных и его качеством, что делает его несовместимым с подходами ИИ . Чтобы подготовить данные для ИИ, я сосредоточился на: 1. Создайте каталог данных..

Обработка несбалансированного набора данных в машинном обучении
Что следует и чего не следует делать при столкновении с проблемой несбалансированных классов? Если вы какое-то время работали над проблемами классификации, очень высока вероятность того, что вы уже сталкивались с данными с несбалансированными классами. Название говорит само за себя, несбалансированный набор данных возникает при неравном представлении классов Введение Когда наблюдение в одном классе выше, чем наблюдение в других классах, существует дисбаланс классов. Пример:..

Взломать интервью LinkedIn Data Scientist
У вас есть предстоящее собеседование на должность специалиста по данным в LinkedIn? Это руководство предоставит вам исчерпывающую информацию о процессе собеседования и советы по подготовке, которые помогут вам пройти собеседование с аналитиком данных LinkedIn. Привет, я Дэн - специалист по обработке данных, ранее работавший в PayPal, теперь в Google. Как тренер по собеседованию на datainterview.com , я хочу помочь такому кандидату, как вы, успешно пройти собеседование в области..

Бизнес-аналитика и логистическая регрессия для набора данных банковского маркетинга
Это моя первая статья на Medium, и я надеюсь, что она будет полезна сообществу. Прошу прощения за свой уровень английского. Работая 5 лет в Банке, мне было интересно провести этот анализ и изучить различные этапы анализа и моделирования проекта. Стоит уточнить, что я полностью открыт для предложений или запросов, потому что считаю это основной целью Medium и Toward Data Science. Хотя проект завершен, потому что в нем есть исследовательский анализ, очистка данных, моделирование, проверка..

Что такое машинное обучение, самое простое объяснение
Когда вы были ребенком, вы наблюдали за тем, как ваши родители открывают и закрывают двери в вашем доме. В какой-то момент, когда вы сделали свои первые шаги, вы сами начали открывать и закрывать одни и те же двери. Это произошло потому, что вы научились , наблюдая за своими родителями, как обращаться с дверями вашего дома. Это был ваш тренировочный набор данных. Живя ребенком в своем доме, вы ни разу не знали, как открыть одну из дверей. Ваша модель была действительно точной. В..