Публикации по теме 'data'
Почему вы должны (не) стать аналитиком данных в 2023 году!
TL;DR Я аналитик данных, и я сделал это, чтобы сообщить вам о некоторых вещах, которые могут вдохновить вас или отбить у вас желание погрузиться в эту область. В основном я имел дело с европейскими компаниями, и у них другой диапазон оплаты труда, чем у их американских коллег, плюс более высокие требования к вашему рабочему времени.
Рекомендации по продуктам для банков: совместный и контент-ориентированный подход
В сегодняшней конкурентной банковской отрасли предложение персонализированных рекомендаций по продуктам для клиентов может стать мощным способом повышения вовлеченности и лояльности. В этом сообщении блога мы рассмотрим, как банки могут использовать методы совместной и контентной фильтрации, чтобы предоставлять своим клиентам более релевантные рекомендации по продуктам.
Совместная фильтрация включает в себя предоставление рекомендаций на основе прошлого поведения похожих пользователей,..
Повышение безопасности с помощью Software Guard Extensions-SGX
Введение
В современном цифровом мире безопасность важнее, чем когда-либо. Киберугрозы постоянно развиваются, а утечки данных становятся все более распространенными. Для организаций и частных лиц важно предпринять шаги для защиты своей конфиденциальной информации. Одним из инструментов, который может помочь повысить безопасность, являются расширения Software Guard (SGX).
Но что такое SGX и как они работают? SGX — это аппаратная функция безопасности, встроенная в некоторые..
Настройка графиков NetworkX
Наука о данных
Настройка графиков NetworkX
Ваш универсальный магазин для всех вещей NetworkX
Теория графов - это невероятно мощный инструмент для науки о данных, который позволяет визуализировать и понимать сложные взаимодействия. В рамках проекта с открытым исходным кодом я собрал информацию из многих первоисточников, чтобы построить график взаимоотношений между профессиональными театральными дизайнерами по свету в Нью-Йорке.
Я использовал NetworkX, пакет Python для построения..
323 миллиона строк в ML — мой опыт
Привет. Хочу рассказать о своем опыте участия в конкурсе по машинному обучению — MTC ML CUP.
Предупреждаю, опыт неудачный.
Особенности:
- Набор данных на 323 миллиона строк с 12 столбцами
- Мои технические возможности: ноутбуки Kaggle (30 Гб оперативной памяти(ОЗУ)) и ноутбуки Colab (12 Гб ОЗУ), мало свободного места на твердотельном накопителе ноутбука и уровень мобильного интернета 1–2 Мб/с.
- Опыта немного в ML и DS
Первая проблема, с которой я столкнулся, это мало..
Прогнозирование развития рака: новый подход, основанный на данных
Рак - это эволюционный процесс
«Ничто в биологии не имеет смысла, кроме как в свете эволюции» - Феодосий Добжанский, 1973.
Сорок лет назад Питер Ноуэлл впервые официально описал рак как эволюционный процесс, обусловленный естественным отбором мутаций ». Эта гипотеза с тех пор была подтверждена быстрым расширением исследований в области геномики рака. Недавние достижения в области биопсии как отдельных клеток, так и мультирегиональной биопсии выявили пространственно-временную..
Оценка производительности алгоритмов кластеризации и методов определения оптимального кластера…
Кластеризация — популярный метод анализа данных путем группировки похожих точек данных в кластеры. Однако определение оптимального количества кластеров является важным шагом в кластерном анализе, который может сильно повлиять на результаты. В этом исследовании мы смоделировали пять различных наборов данных и оценили производительность трех алгоритмов кластеризации, включая k-means, k-medoids и иерархическую кластеризацию, используя три различных метода определения оптимального количества..