38 важных статей, которые должен прочитать каждый специалист по анализу данных

«Чем больше ты читаешь, тем больше узнаешь. Чем больше вы узнаете, тем больше мест вы пойдете ». - Доктор Сьюз, я могу читать с закрытыми глазами!

Первоначально опубликованный Мирко Криванеком на Data Science Central, этот список содержит как внешние, так и внутренние документы, посвященные различным техническим аспектам науки о данных и больших данных.

Внешние статьи

Bigtable: распределенная система хранения структурированных данных
Несколько полезных фактов о машинном обучении
Случайные леса
Реляционная модель данных для больших общих банков данных
Map-Reduce для машинного обучения на многоядерных процессорах
Вставка небольших голосов для классификации в больших базах данных и в Интернете
Рекомендации по пунктам совместной фильтрации
Рекурсивные глубинные модели семантической композиционности над сентименом…
Spanner: глобально распределенная база данных Google
Megastore: предоставление масштабируемого высокодоступного хранилища для Interac…
F1: масштабируемая распределенная база данных SQL
APACHE DRILL: интерактивный специальный анализ в масштабе
Новый подход к задачам линейной фильтрации и прогнозирования
10 лучших алгоритмов интеллектуального анализа данных
Рейтинг цитирования PageRank: наведение порядка в Интернете
MapReduce: упрощенная обработка данных в больших кластерах
Файловая система Google
Динамо Амазонки

Внутренние документы DSC

Как обнаружить ложные корреляции и как найти…
Автоматизированная наука о данных: доверительные интервалы
16 аналитических дисциплин по сравнению с наукой о данных
Из окопов: наука о данных на 360 градусов
10 типов регрессий. Какой использовать?
Практическая иллюстрация Map-Reduce (в стиле Hadoop) на реальных данных
Логистика складного ножа и линейная регрессия для кластеризации и прогнозирования…
Синтетическая дисперсия, разработанная для Hadoop и больших данных
Быстрый комбинаторный выбор признаков с новым определением прогноза…
Отображение топологии Интернета
11 функций, которые должна иметь любая база данных, SQL или NoSQL
10 функций, которые должны быть у всех панелей мониторинга
Идея кластеризации для очень больших наборов данных
Возвращение к скрытым деревьям решений
Корреляция и R-квадрат для больших данных
Чего не может сделать Map Reduce
Excel для больших данных
Алгоритмы быстрой кластеризации для массивных наборов данных
Проклятие больших данных
Интересное приложение для науки о данных: стеганография

ПРИМЕЧАНИЕ. Не стесняйтесь добавлять в избранное и мысли и не забудьте поделиться ими!

38 важных статей, которые должен прочитать каждый специалист по анализу данных

«Чем больше ты читаешь, тем больше узнаешь. Чем больше вы узнаете, тем больше мест вы пойдете ». - Доктор Сьюз, я могу читать с закрытыми глазами!

Внешние статьи

Внутренние документы DSC

Вопросы по теме