«Утренняя газета» года

Для самых занятых из вас я представляю здесь свое очень личное мнение о лучших статьях, представленных @adriancolyer в его чрезвычайно тщательно отобранной утренней газете.

Некоторые статьи, рассмотренные в этом году, оказались классикой, написанной много лет назад, что подчеркивает, насколько зрелым является наше пространство, эти идеи до сих пор применимы. Некоторые из них касались глубокого обучения, машинного обучения и искусственного интеллекта (конечно). Некоторые охватывали темы, связанные - часто лишь косвенно - с объемом, разнообразием и скоростью сбора и анализа данных. И, наконец, немало было связано с новой эпохой распределенных систем с облаком в качестве новой ОС.

Это те несколько статей, которые я чувствовал себя обязанным прочитать, помимо очень хороших резюме Адриана, даже если я не совсем усвоил весь материал.

Итак, вот список, желаю приятного чтения!

1. HyperLogLog

HyperLogLog на практике: алгоритмическая разработка современного алгоритма оценки мощности…
HyperLogLog на практике: алгоритмическая разработка современного алгоритма оценки мощности - Heule et al… acolyer.us9.list-manage.com

Да, мы делаем так чертовски много вещей в сети (поиск, лайки, воспроизведение видео с кошками), что даже процесс их подсчета требует изобретения новых алгоритмов.

2. Обзор глубокого обучения

Глубокое обучение в нейронных сетях: обзор
Глубокое обучение в нейронных сетях: обзор - Schmidhuber 2014 Какая замечательная сокровищница эта статья… acolyer.us9 .list-manage.com

Хорошо и все. Мне не хватает опыта, чтобы по-настоящему разобраться во всем этом, но я оценил широту и (попытку) контекста. Для менее технического, но гораздо более доступного обзора я лично выбрал бы статью Nature ЕКуна и др.

3. Горилла

Gorilla: быстрая, масштабируемая база данных временных рядов в памяти
Gorilla: быстрая, масштабируемая база данных временных рядов в памяти - Pelkonen et al. 2015 г. Показатели ошибок на одном из… Facebook acolyer.us9.list-manage.com

На стыке всего того, о чем мы думаем (или любим думать, о чем мы думаем) в наши дни, этот документ охватывает производительность и масштаб TSDB в памяти и внутренности, которые доставляют товары. Очевидно, мы не потерпим никакого ухудшения нашей способности ставить лайки или публиковать настолько, что использование мониторинга всей инфраструктуры, которая делает это возможным, было достаточной мотивацией для создания TSDB в памяти с нуля. Заметки об их подходе к сжатию временных рядов тоже были довольно интересными, и @adriancolyer проделал отличную работу со своим кратким объяснением этих подходов.

4. DBSherlock

DBSherlock: средство диагностики производительности для транзакционных баз данных
DBSherlock: средство диагностики производительности для транзакционных баз данных Yoon et al. SIGMOD '16 ... десятки тысяч ... acolyer.us9.list-manage.com

Эта статья была интересна как практическое применение работы, происходящей в широком диапазоне анализа временных рядов, и @adriancolyer хорошо ее резюмировал:

Обратите внимание, что принципы, используемые для создания DBSherlock, никак не связаны с областью объяснения производительности базы данных, поэтому должно быть вполне возможно взять эти идеи и применить их в других контекстах - например: «почему задержка только что снята? в курсе запросов к этому микросервису? "

5. Услуги Интернет-масштаба

О разработке и развертывании сервисов интернет-масштаба
О разработке и развертывании сервисов интернет-масштаба Джеймс Гамильтон LISA '07 Хотите знать, как создавать нативные облака… помощник .us9.list-manage2.com

Его разговоры о системных администраторах и соотношении между системой и администратором до 2500: 1 могут сделать его почти странным и трудным для понимания. Черт возьми, там ни разу не упоминается DevOps или SRE! Но это настоящая классика - большинство лежащих в основе идей применимо как минимум на 2–4 порядка увеличения соотношения количества систем и администраторов по сравнению с тем, о чем говорится как о состоянии искусства. @adriancolyer даже составил хороший контрольный список на github, чтобы упростить быстрый аудит архитектуры и операций интернет-сервисов, которые вы, возможно, создаете. Как и многие другие документы, получившие статус Classic, эти идеи имеют гораздо более широкое применение, чем утверждается в документе - намеренно или нет. Например, не стали бы вы игнорировать автоматические выключатели даже для небольшой службы, обслуживающей только тысячи пользователей? (Надеюсь, вы поняли, что это риторический вопрос.)

6. Разлагаемые системы

О критериях, которые будут использоваться при декомпозиции систем на модули
О критериях, которые будут использоваться при декомпозиции систем на модули Дэвид Парнас, 1971 г. Добро пожаловать обратно в новый термин The … acolyer.us9.list-manage.com

В статье 1971 года содержится ценная информация на 2016 год. Вы говорите «микросервисы бла-бла» и «закон Конвея бла-бла»? Прочтите сначала эту проклятую газету.

'Достаточно.

7. Кракен

Kraken: Использование тестов реального трафика для выявления и устранения узких мест использования ресурсов в…
Kraken: Использование тестов реального трафика для выявления и устранения узких мест использования ресурсов в крупномасштабной сети… acolyer.us9.list-manage.com

Проблемы с моделированием производственной нагрузки для облачной службы? Легкий! Просто запустите тесты в продакшене! * gulp * Я полагаю, что краткое изложение этого - обезьяна хаоса для нагрузочного тестирования облачных сервисов. Если вас интересуют такие вещи, я надеюсь, вы также видели такие вещи, как один из выступлений Netflix на Strata, который включает в себя самородок Netflix - компания, генерирующая журналы, которая также занимается потоковой передачей фильмов. Да ладно, это было забавно.

8. Почётные упоминания

Несколько работ подошли близко, но не совсем соответствовали моим произвольным критериям, чтобы попасть в семь лучших работ года произвольного размера. Они здесь:

MacroBase: аналитический мониторинг для Интернета вещей
MacroBase: аналитический мониторинг для Интернета вещей - Bailis et al. 2016 г. Похоже, Питер Альваро не… blog.acolyer.org

Что не так с Git? Анализ концептуального дизайна
Что не так с Git? Анализ концептуального дизайна De Rossi & Jackson Onward! 2013 г. Мы закончили разговор на прошлой неделе… blog.acolyer.org

Поиск удивительных закономерностей в базе данных временных рядов в линейном времени и пространстве
Поиск удивительных закономерностей в базе данных временных рядов в линейном времени и пространстве - Keogh et al. SIGKDD 2002 В… blog.acolyer.org

Разработка программного обеспечения для простоты расширения и сокращения
Разработка программного обеспечения для простоты расширения и сокращения Парнас, IEEE Transactions по разработке программного обеспечения, 1979 A… blog.acolyer. org