Большие данные наносят ответный удар: рост количества изображений, сенсоров и геномных данных, лежащих в основе глубоких вертикальных стартапов

Каждые два года мы создаем в десять раз больше данных, чем за всю предшествующую историю человечества - 90% мировых данных имеют возраст менее двух лет. Во всяком случае, этот темп будет увеличиваться. А уникальное сочетание инноваций в алгоритмах машинного обучения и недорогого сбора данных может обеспечить существенное преимущество как в вычислительной технике, так и в компаниях, которые от нее зависят.

Как отмечают Алон Халеви, Питер Норвиг и Фернандо Перейра из Google в статье Необоснованная эффективность данных, одних данных достаточно, чтобы добиться высокой производительности от многих видов простых моделей машинного обучения. Например, Tesla, Google и Uber не стремятся изучить каждую милю американских дорог, чтобы выиграть какую-то веселую ставку Жюля Верна - тот, кто доберется туда первым, получит огромное преимущество в использовании беспилотных автомобилей.

Помимо транспорта, изображения / видео, Интернет вещей и геном представляют собой три наиболее интересных класса быстрорастущих данных, способных подорвать крупные отрасли.

Годовой глобальный IP-трафик превысит порог в зеттабайтах к концу 2016 года и превысит 2 зеттабайта к 2020 году. К 2020 году 80% IP-трафика будет составлять видео. Youtube - крупнейший источник новых онлайн-данных в мире, генерирующий более 100 петабайт новых данных каждый год. Автономные данные изображения / видео могут быть примерно в 5 раз больше, чем данные онлайн-изображения / видео. Когда вы добавляете изображения / видео данные с космических платформ (например, DCVC компании Planet Labs), cessnas, дронов (управляемых координационными платформами, такими как DCVC компании Dronedeploy), роботизированных высокоскоростных медицинских систем визуализации и патологии (например, DCVC компании 3Scan »), Видео с автономных транспортных средств, все более распространенные системы безопасности и VR / AR, легко понять, почему компьютерное зрение - самая популярная область в искусственном интеллекте прямо сейчас.

К 2020 году 10% мировых данных будут данными Интернета вещей - данными датчиков, генерируемыми машинами. Машинное обучение, применяемое к данным IoT, будет использоваться для оптимизации производственных линий и процессов (как сегодня делают компании DCVC SigOpt, Citrine и Rescale), поможет настроить цепочки поставок в режиме реального времени (как это делает компания DCVC Tradeshift уже делает), создавать умные города с меньшим трафиком / загрязнением и более надежными услугами, сокращать потребление энергии (как это делают алгоритмы доктора Йоки Мацуока, включившие NEST) и обеспечивать большую безопасность в домах, приводить в действие автономные транспортные средства как на промышленных предприятиях (например, в горнодобывающей промышленности) , строительство, грузоперевозки) и потребительский сегменты, а также сделать медицинские процессы более безопасными, менее дорогими и надежными (как сегодня делают некоторые из наших скрытых компаний).

К 2025 году секвенирование ДНК и связанных с ней омиков (например, РНК, белков) будет генерировать от 2 до 40 эксабайт в год и превзойдет Youtube в качестве крупнейшего источника новых данных в мире. Разумно предположить, что если самая горячая область в искусственном интеллекте сегодня - это компьютерное зрение, то в 2025 году это будет биоинформатика, и столь же разумное предположение, что 2025 год - слишком консервативная оценка и что это прозрение произойдет в 2020 году. объединяют уникальное машинное обучение и данные секвенирования, преимущества изменяющихся открытий лекарств (Atomwise, Capella Bio), диагностики (Karius, Molecular Stethoscope, Cofactor Genomics) и даже самой природы секвенирования ( Омниом )

Большие данные наносят ответный удар: рост количества изображений, сенсоров и геномных данных, лежащих в основе глубоких вертикальных стартапов

Вопросы по теме