Роль платформ машинного обучения с открытым исходным кодом в стартап-экосистеме

Джейсон Блэк [13:49]
Всем привет! Вам всем должны были сообщить приглашение и статью по электронной почте. Если нет, то сегодня мы обсудим роль платформ машинного обучения с открытым исходным кодом в стартап-экосистеме. Пожалуйста, прочитайте мнение Бена Томпсона о TensorFlow, чтобы начать обсуждение (https://stratechery.com/2015/tensorflow-and-monetizing-intellectual-property/), и не стесняйтесь предлагать свои собственные статьи для обсуждения. Говори скорее!

Йозеф Фельдман [15:01]
@jason: сейчас начну. Вот список всех в этой группе, не стесняйтесь подключаться напрямую!

Деннис Мортенсен — генеральный директор и основатель X.ai
Сэнди Штайер — генеральный директор и соучредитель 1010 Data
Навин Селвадураи — соучредитель FourSquare
Энн Миура-Ко — партнер-основатель Floodgate
Шейла Гулати — управляющий директор, Tola Capital
Шивон Зилис — член-основатель Bloomberg Beta
Алекс Уайт, соучредитель Next Big Sound
Амит Карп — вице-президент Bessemer Venture Partners< br /> Джесси Бейрути, партнер IA Ventures
Росс Фубини, партнер Canaan Partners
Марк Джонсон, соучредитель и генеральный директор Descartes Labs
Джейсон Блэк, аналитик, RRE
Фил Бойер, юрист, Crosslink Capital
Свен Крайсс — ведущий специалист по данным, Wildcard
Джим Хао, юрист, Firstmark
Morgan Polotan, Bloomberg Beta

[3:01]
@morganpolotan: добро пожаловать!

Морган [15:02]
спасибо @josef_feldman!

Джейсон Блэк [15:03]
Хотелось бы начать с некоторых первоначальных комментариев к статье. Я думаю, что самая важная часть здесь — это упоминание Беном роли «необоснованной эффективности данных».

[3:04]
В наши дни очень немногие компании, занимающиеся машинным обучением, делают ставку на тот факт, что их алгоритмы лучше, чем у других компаний (за исключением DeepMind), а скорее на накопление уникального набора данных, который можно применить к новой проблемной области. .

[3:04]
Я знаю, что в Dextro — портфельной компании, занимающейся видеоанализом, — они подчеркивают, что роль их обучающих данных является ключевой движущей силой ценности.

Марк Джонсон [15:05]
Когда венчурные инвесторы спрашивают меня, в чем заключается наш секретный соус, я отвечаю им: «наш набор данных и платформа». Хотя я бы добавил к этому списку: измерение и проверку (т. е. знаете ли вы, что ваши алгоритмы работают/улучшаются/работают, и как вы можете сказать?)

Джейсон Блэк [15:05]
открытый исходный код базовых платформ только помогает им (Dextro) передавать больше данных на свою платформу, потому что они могут сосредоточиться на бизнес-целях (отредактировано)

Морган [15:06]
моя любимая статья на эту тему — Эффекты сети передачи данных Мэтта Турка http://mattturck.com/2016/01/04/the-power-of-data-network- эффекты/
Мэтт Терк
Сила сетевых эффектов данных
В яростно конкурентном мире технологических стартапов, где хорошие предприниматели склонны думать о сопоставимых идеях примерно в одно и то же время и в горячих точках. быстро переполнены хорошим фондом…
4 января 2016 г., 2:00

Джейсон Блэк [15:06]
@morganpolotan: да, это здорово

[3:07]
И опираясь на это: http://versionone.vc/data-not-algorithms-is-key-to-machine-learning-success/
Первая версия
Данные, а не алгоритмы, являются ключом к успеху машинного обучения
Произошел взрыв активности машинного обучения, и Шивон Зилис недавно наметил текущую экосистему машинного интеллекта, когда мы вступаем в 2016 год. Это одна из ключевых областей. что мы будем…
6 января 2016 г., 10:56

Фил Бойер [15:08]
Согласитесь с Беном, что TensorFlow с открытым исходным кодом имеет смысл для Google, поскольку ценность Google заключается в размере/качестве ее активов данных и качестве ее инфраструктуры данных. Позволить толпе использовать и улучшить качество алгоритма машинного обучения помогает только Google.

Морган [15:08]
поскольку мы все, кажется, согласны, есть ли кто-нибудь, кто думает, что это плохой ход?

Джейсон Блэк [15:08]
Что ж, это помогает Google, но также снижает начальные затраты на создание этой инфраструктуры, если вы начинаете новый бизнес.

Марк Джонсон [15:09]
@phil Я утверждаю, что большим преимуществом Google является не только их инфраструктура данных, но и их способность быстро запускать алгоритмы через конвейер тестирования, чтобы увидеть, что эффективно — это заставляет тонну работы на стороне измерения.

[3:09]
@morgan К чему относится это?

Фил Бойер [15:09]
Существуют более серьезные препятствия/барьеры для репликации инфраструктуры данных Google и накопления ее набора данных, чем оттачивание машинного обучения.

Джейсон Блэк [15:09]
Точно так же, как Google не зарабатывает напрямую на этих алгоритмах, другие стартапы тоже могут использовать инфраструктуру, если они не планируют зарабатывать деньги на коммерческой части.

Morgan [15:10]
@markjohnson: аутсорсинг TensorFlow

Алекс [15:10]
Я думаю, что это довольно безопасный шаг для Google, учитывая их долю на рынке. Я думаю, что открытый доступ Теслы к своим патентам против GM и крупного автопрома — гораздо более рискованная ставка.

Sandy Steier [15:10]
Вам нужны (1) большие объемы данных, (2) возможность обрабатывать их (хранить, предварительно обрабатывать и т. д.), (3) правильные алгоритмы, (4) люди которые знают, что они делают, и (5) организация, которая может действовать по результатам.

Джейсон Блэк [15:10]
Я думаю, что более разрушительным моментом является то, что Google открывает часть/все свои потоки данных

Марк Джонсон [15:10]
давайте проясним: существует большая разница между алгоритмами с открытым исходным кодом и открытым исходным кодом функций машинного обучения, которые вы обнаруживаете.

[3:11]
помните, что оригинальные алгоритмы Google были опубликованы в газете — у них долгая история этого

[3:11]
но то, как вы сочетаете все эти функции, очень сложно — опять же, какой % поисков становится лучше и какие функции (и комбинации функций) способствуют этому.

Sven [15:11]
Еще одна причина для использования TensorFlow с открытым исходным кодом заключается в том, что теперь они могут нанимать людей, ранее знакомых с TensorFlow. DeepMind и FAIR используют Torch с открытым исходным кодом, и вы можете обсудить его с кандидатом, потому что все они использовали его раньше.

Джейсон Блэк [15:12]
Кто-нибудь из предпринимателей в зале возился с TensorFlow или CNTK от MSFT или использовал их? (отредактировано)

Sven [15:13]
Я возился с TensorFlow.

Джейсон Блэк [15:14]
@svenkreiss: Что бы вы использовали? Внутри? Похоже, это может помочь и в Descartes Labs (cc @markjohnson)

Alex [15:14]
опубликованы ли их данные о том, насколько широко использовался или внедрялся тензорный поток после открытия исходного кода?

Марк Джонсон [15:15]
мы поигрались с Caffe… хорошо подходит для прототипирования, но пока не уверен, что мы будем использовать его в производстве.

Sven [15:16]
Я занимался этим в свободное время. Хотел узнать лучше. Мне было бы удобнее использовать TensorFlow в продакшене, чем Torch, но сейчас у нас нет вариантов его использования. (отредактировано)

Sandy Steier [15:17]
Я бегло взглянул на TensorFlow. Проблема, которую я вижу, заключается в том, что она техническая (как Hadoop), что поднимает мою точку зрения (4) выше. Чтобы машинное обучение было действительно успешным, его необходимо демократизировать. Кому-то нужно будет создать более доступное приложение поверх TensorFlow или ему подобного.

Phil Boyer [15:18]
Ребята, вы думаете, что алгоритмы с открытым исходным кодом окажут такое же большое влияние, как инфраструктура / БД с открытым исходным кодом?

Марк Джонсон [15:18]
считает, что всегда есть новый горячий алгоритм, и он может отвлекать от того, чего вы действительно хотите, то есть от результатов. Это не алгоритм, а как говорят @sandysteier (4), люди, которые знают, что с этим делать.

Джейсон Блэк [15:18]
Поправьте меня, если я ошибаюсь, но, учитывая сложность задачи, TensorFlow кажется шагом в правильном направлении к простоте. Просто с точки зрения документации/учебника довольно впечатляюще то, с чем запустили TF.

Sandy Steier [15:20]
TensorFlow — это первый шаг в том, что кажется путешествием в тысячу миль.

Sven [15:20]
Сложность ML — еще одна причина, по которой TF с открытым исходным кодом был разумным: в области глубокого обучения все еще проводится много исследований. Даже если вы решите, что хотите приложить усилия и создать продукт с его помощью, вы хотите сравнить его с опубликованной эталонной реализацией. В настоящее время они в основном находятся в Torch.

Morgan [15:22]
инвесторы: как вы относитесь к инвестированию в стартап, реализация машинного обучения которого зависит от TensorFlow?

Sven [15:24]
против Caffe или Torch или против более традиционных инструментов?

Phil Boyer [15:24]
Если компания использует TensorFlow, лично я не думаю об этом иначе, чем об использовании базы данных с открытым исходным кодом. Если есть вещи, которые можно использовать в OSS, зачем воссоздавать колесо?

Morgan [15:24]
против написания алгоритмов собственными силами

[3:24]
@markjohnson: объясните палец вниз?

Sandy Steier [15:24]
Я не венчурный капиталист, но согласен с Филом — пока стартап добавляет что-то свое.

Морган [15:25]
@svenkreiss: инструмент агностик, мне в основном интересны стартапы, чья основная технология машинного обучения вызывает API… Я видел это в основном с IBM Watson.

Марк Джонсон [15:25]
Я нервничаю из-за того, что просто заявляю, что занимаюсь глубоким обучением, используя при этом стандартную инфраструктуру. Глубокое обучение обещает положить конец задаче выбора функций, и я думаю, что это все еще основная и невероятно важная часть глубокого обучения.

[3:27]
Глубокое обучение сейчас в моде, и я не против причуд… Меня не устраивает то, что работает. Я помню времена, когда усиленные деревья были популярны, и мы потратили месяцы на то, чтобы пойти по этому пути, когда более простой алгоритм работал намного лучше. Остерегайтесь компаний с религией вокруг техники.

Джейсон Блэк [15:27]
Зависит от запуска и варианта использования. Я думаю, что если это скорее игра в пространстве, которое потребует максимальной производительности, построение на основе открытого исходного кода и потенциально более общей базы снижает гибкость, которую вы можете иметь в долгосрочной перспективе (поскольку вы не владеете всем стеком) и имеет потенциально ограничивают вашу производительность (в некоторых случаях). Если вы используете его для более вертикально ориентированного бизнес-приложения, которое просто использует ML для помощи, мне будет удобнее.

Йозеф Фельдман [15:27]
@morganpolotan: Google отказывался от проектов в прошлом, поэтому я думаю, что существует общая опасность чрезмерной зависимости от сообщества с открытым исходным кодом, если вы активно не управляете этим сообществом (Nodesource/node .j и Automattic/wordpress — два хороших примера).

Шивон Зилис [15:28]
Извините за опоздание! Пытаюсь уловить весь блеск :simple_smile:

Джейсон Блэк [15:29]
Добро пожаловать, @shivon!

Дэвид Вольфсон [15:29]
присоединился к данным по приглашению от @josef_feldman

Джейсон Блэк [15:30]
К сожалению, мне нужно ехать на вызов. Пожалуйста, продолжайте обсуждение! Первое занятие очень понравилось, буду признателен за обратную связь. Пишите мне в ЛС. Ваше здоровье!

Sandy Steier [15:30]
Возможно, открытый исходный код является защитой от того, что Google (или кто-либо другой) отказывается от программного направления. Но я лично не большой поклонник открытого исходного кода, поэтому я не буду слишком сильно спорить с этим.

Йозеф Фельдман [15:32]
Спасибо @jason за руководство этой беседой!

Алекс [15:32]
Мне тоже надо попрыгать, интересное дело. Спасибо, парни!

Морган [15:33]
спасибо за организацию @jason

[3:33]
@sandysteier: почему ты не большой поклонник открытого исходного кода?

Фил Бойер [15:36]
тоже уходит, ребята. хорошая вещь!

Йозеф Фельдман [15:38]
@sandysteier: вот исследование, проведенное с проектами OSS, 152 тыс. бездействующих проектов на исходной кузнице. http://staff.lero.ie/stol/files/2013/03/2013-Is-It-All-Lost-A-Study-of-Inactive-Open-Source-Projects.pdf

Sandy Steier [15:38]
Трудно поддерживать то, что представляет собой смесь усилий. Обычно это не самые лучшие вещи (если бы это было так, это держалось бы в секрете). Часто это верблюд (знаете, лошадь, построенная комитетом). Сказав это, я думаю, что это нормально для базовых вещей (например, библиотек виджетов Javascript), но я бы не стал использовать его для основных функций. Думаю, разочарование в Hadoop (которое было очевидным для меня с самого начала) — хороший тому пример.

Морган [15:41]
хорошее замечание

Сэнди Штайер [15:45]
Я собираюсь прыгать…

Морган [15:55]
ciao @sandysteier!

Хестон Беркман [17:03]
присоединился к данным по приглашению от @josef_feldman, вместе с @graham, @joelusv, @jayfarber, @yanayasevich и некоторыми другими.. Также, @ann присоединился, @valerygrx присоединился, @lawrence присоединился, @peter присоединился вместе с некоторыми другими.

Роль платформ машинного обучения с открытым исходным кодом в стартап-экосистеме — Беседа с…

Вопросы по теме