«Чем больше ты читаешь, тем больше узнаешь. Чем больше вы узнаете, тем больше мест вы пойдете ». - Доктор Сьюз, я могу читать с закрытыми глазами!

Первоначально опубликованный Мирко Криванеком на Data Science Central, этот список содержит как внешние, так и внутренние документы, посвященные различным техническим аспектам науки о данных и больших данных.

Внешние статьи

  1. Bigtable: распределенная система хранения структурированных данных
  2. Несколько полезных фактов о машинном обучении
  3. Случайные леса
  4. Реляционная модель данных для больших общих банков данных
  5. Map-Reduce для машинного обучения на многоядерных процессорах
  6. Вставка небольших голосов для классификации в больших базах данных и в Интернете
  7. Рекомендации по пунктам совместной фильтрации
  8. Рекурсивные глубинные модели семантической композиционности над сентименом…
  9. Spanner: глобально распределенная база данных Google
  10. Megastore: предоставление масштабируемого высокодоступного хранилища для Interac…
  11. F1: масштабируемая распределенная база данных SQL
  12. APACHE DRILL: интерактивный специальный анализ в масштабе
  13. Новый подход к задачам линейной фильтрации и прогнозирования
  14. 10 лучших алгоритмов интеллектуального анализа данных
  15. Рейтинг цитирования PageRank: наведение порядка в Интернете
  16. MapReduce: упрощенная обработка данных в больших кластерах
  17. Файловая система Google
  18. Динамо Амазонки

Внутренние документы DSC

  1. Как обнаружить ложные корреляции и как найти…
  2. Автоматизированная наука о данных: доверительные интервалы
  3. 16 аналитических дисциплин по сравнению с наукой о данных
  4. Из окопов: наука о данных на 360 градусов
  5. 10 типов регрессий. Какой использовать?
  6. Практическая иллюстрация Map-Reduce (в стиле Hadoop) на реальных данных
  7. Логистика складного ножа и линейная регрессия для кластеризации и прогнозирования…
  8. Синтетическая дисперсия, разработанная для Hadoop и больших данных
  9. Быстрый комбинаторный выбор признаков с новым определением прогноза…
  10. Отображение топологии Интернета
  11. 11 функций, которые должна иметь любая база данных, SQL или NoSQL
  12. 10 функций, которые должны быть у всех панелей мониторинга
  13. Идея кластеризации для очень больших наборов данных
  14. Возвращение к скрытым деревьям решений
  15. Корреляция и R-квадрат для больших данных
  16. Чего не может сделать Map Reduce
  17. Excel для больших данных
  18. Алгоритмы быстрой кластеризации для массивных наборов данных
  19. Проклятие больших данных
  20. Интересное приложение для науки о данных: стеганография

ПРИМЕЧАНИЕ. Не стесняйтесь добавлять в избранное и мысли и не забудьте поделиться ими!