Публикации по теме 'data'


Почему вы должны (не) стать аналитиком данных в 2023 году!
TL;DR Я аналитик данных, и я сделал это, чтобы сообщить вам о некоторых вещах, которые могут вдохновить вас или отбить у вас желание погрузиться в эту область. В основном я имел дело с европейскими компаниями, и у них другой диапазон оплаты труда, чем у их американских коллег, плюс более высокие требования к вашему рабочему времени.

Рекомендации по продуктам для банков: совместный и контент-ориентированный подход
В сегодняшней конкурентной банковской отрасли предложение персонализированных рекомендаций по продуктам для клиентов может стать мощным способом повышения вовлеченности и лояльности. В этом сообщении блога мы рассмотрим, как банки могут использовать методы совместной и контентной фильтрации, чтобы предоставлять своим клиентам более релевантные рекомендации по продуктам. Совместная фильтрация включает в себя предоставление рекомендаций на основе прошлого поведения похожих пользователей,..

Повышение безопасности с помощью Software Guard Extensions-SGX
Введение В современном цифровом мире безопасность важнее, чем когда-либо. Киберугрозы постоянно развиваются, а утечки данных становятся все более распространенными. Для организаций и частных лиц важно предпринять шаги для защиты своей конфиденциальной информации. Одним из инструментов, который может помочь повысить безопасность, являются расширения Software Guard (SGX). Но что такое SGX и как они работают? SGX — это аппаратная функция безопасности, встроенная в некоторые..

Настройка графиков NetworkX
Наука о данных Настройка графиков NetworkX Ваш универсальный магазин для всех вещей NetworkX Теория графов - это невероятно мощный инструмент для науки о данных, который позволяет визуализировать и понимать сложные взаимодействия. В рамках проекта с открытым исходным кодом я собрал информацию из многих первоисточников, чтобы построить график взаимоотношений между профессиональными театральными дизайнерами по свету в Нью-Йорке. Я использовал NetworkX, пакет Python для построения..

323 миллиона строк в ML  — мой опыт
Привет. Хочу рассказать о своем опыте участия в конкурсе по машинному обучению — MTC ML CUP. Предупреждаю, опыт неудачный. Особенности: - Набор данных на 323 миллиона строк с 12 столбцами - Мои технические возможности: ноутбуки Kaggle (30 Гб оперативной памяти(ОЗУ)) и ноутбуки Colab (12 Гб ОЗУ), мало свободного места на твердотельном накопителе ноутбука и уровень мобильного интернета 1–2 Мб/с. - Опыта немного в ML и DS Первая проблема, с которой я столкнулся, это мало..

Прогнозирование развития рака: новый подход, основанный на данных
Рак - это эволюционный процесс «Ничто в биологии не имеет смысла, кроме как в свете эволюции» - Феодосий Добжанский, 1973. Сорок лет назад Питер Ноуэлл впервые официально описал рак как эволюционный процесс, обусловленный естественным отбором мутаций ». Эта гипотеза с тех пор была подтверждена быстрым расширением исследований в области геномики рака. Недавние достижения в области биопсии как отдельных клеток, так и мультирегиональной биопсии выявили пространственно-временную..

Оценка производительности алгоритмов кластеризации и методов определения оптимального кластера…
Кластеризация — популярный метод анализа данных путем группировки похожих точек данных в кластеры. Однако определение оптимального количества кластеров является важным шагом в кластерном анализе, который может сильно повлиять на результаты. В этом исследовании мы смоделировали пять различных наборов данных и оценили производительность трех алгоритмов кластеризации, включая k-means, k-medoids и иерархическую кластеризацию, используя три различных метода определения оптимального количества..