«Чем больше ты читаешь, тем больше узнаешь. Чем больше вы узнаете, тем больше мест вы пойдете ». - Доктор Сьюз, я могу читать с закрытыми глазами!
Первоначально опубликованный Мирко Криванеком на Data Science Central, этот список содержит как внешние, так и внутренние документы, посвященные различным техническим аспектам науки о данных и больших данных.
Внешние статьи
- Bigtable: распределенная система хранения структурированных данных
- Несколько полезных фактов о машинном обучении
- Случайные леса
- Реляционная модель данных для больших общих банков данных
- Map-Reduce для машинного обучения на многоядерных процессорах
- Вставка небольших голосов для классификации в больших базах данных и в Интернете
- Рекомендации по пунктам совместной фильтрации
- Рекурсивные глубинные модели семантической композиционности над сентименом…
- Spanner: глобально распределенная база данных Google
- Megastore: предоставление масштабируемого высокодоступного хранилища для Interac…
- F1: масштабируемая распределенная база данных SQL
- APACHE DRILL: интерактивный специальный анализ в масштабе
- Новый подход к задачам линейной фильтрации и прогнозирования
- 10 лучших алгоритмов интеллектуального анализа данных
- Рейтинг цитирования PageRank: наведение порядка в Интернете
- MapReduce: упрощенная обработка данных в больших кластерах
- Файловая система Google
- Динамо Амазонки
Внутренние документы DSC
- Как обнаружить ложные корреляции и как найти…
- Автоматизированная наука о данных: доверительные интервалы
- 16 аналитических дисциплин по сравнению с наукой о данных
- Из окопов: наука о данных на 360 градусов
- 10 типов регрессий. Какой использовать?
- Практическая иллюстрация Map-Reduce (в стиле Hadoop) на реальных данных
- Логистика складного ножа и линейная регрессия для кластеризации и прогнозирования…
- Синтетическая дисперсия, разработанная для Hadoop и больших данных
- Быстрый комбинаторный выбор признаков с новым определением прогноза…
- Отображение топологии Интернета
- 11 функций, которые должна иметь любая база данных, SQL или NoSQL
- 10 функций, которые должны быть у всех панелей мониторинга
- Идея кластеризации для очень больших наборов данных
- Возвращение к скрытым деревьям решений
- Корреляция и R-квадрат для больших данных
- Чего не может сделать Map Reduce
- Excel для больших данных
- Алгоритмы быстрой кластеризации для массивных наборов данных
- Проклятие больших данных
- Интересное приложение для науки о данных: стеганография
ПРИМЕЧАНИЕ. Не стесняйтесь добавлять в избранное и мысли и не забудьте поделиться ими!