Данная статья написана Dr. Мохамед Тарват, главный стоматолог и эксперт по электронному здравоохранению в «John Snow Labs.

В последние годы наблюдается активное появление различных репозиториев наборов данных и алгоритмов. Это появление сопровождалось некоторыми расспросами. Все больше исследований рынка начали исследовать, что более важно для развития наук об искусственном интеллекте (ИИ), какие сегменты пользуются наибольшим спросом и могут иметь большую долю рынка в будущем.

Изучив график прорывов в области искусственного интеллекта (ИИ) за 30 лет,Висснер-Гросс обнаружил, что доступность наборов высококачественных данных была ключевым ограничивающим фактором для ИИ. достижения, а не алгоритмы.

Он также обнаружил, что доступность высококачественных наборов данных может привести к прорыву в области искусственного интеллекта в шесть раз быстрее, чем алгоритмы.

В 1994 году был достигнут прорыв в области «распознавания спонтанной речи на уровне человека». Соответствующий набор данных Spoken Wall Street Journal и другие тексты впервые были доступны в 1991 году (за 3 года до прорыва), а родственный алгоритм (Скрытая марковская модель) был впервые предложен в 1984 году (за 18 лет до прорыва). ).

Такое же соотношение времени было замечено в трех проектах Google:

  • Классификация объектов GoogleNet с производительностью, близкой к человеческой
  • Deepmind от Google достиг человеческого паритета, играя в 19 игр Atari, обучаясь общему управлению с помощью видео.
  • Перевод Google с арабского и китайского на английский язык

Более того, те же временные соотношения снова появились в двух проектах IBM:

  • IBM Deep Blue победила Гарри Каспарова
  • IBM Watson стал мировой опасностью! Чемпион.

Вся интересная история доступна по ссылке:

https://www.edge.org/response-detail/26587.

Таблица, обобщающая хронологию событий прорыва в области искусственного интеллекта, также доступна по адресу:

http://www.kdnuggets.com/2016/05/datasets-over-algorithms.html

Какие алгоритмы могут быть наиболее востребованы?

Это распространенный вопрос, который вы можете найти на различных веб-сайтах ИТ-специалистов, особенно в блогах и форумах.

С моей точки зрения, достижения в области медицинской визуализации (PACS/RIS и системы хирургического контроля), систем поддержки принятия клинических решений (CDSS) и современных концепций прогнозирования увеличили потребность в передовых и сложных алгоритмах. Компании-разработчики программного обеспечения, работающие над разработкой систем управления болью, будут нуждаться в передовых алгоритмах, таких как: «Алгоритм опроса стратегий преодоления (CSQ)» и других прогностических алгоритмах. Другим разработчикам, работающим в области медицинской визуализации, такой как имплантология, управляемая стоматологическим планированием, потребуются алгоритмы для обнаружения столкновений (тот же алгоритм, который используется в играх, таких как игры с самолетами и ракетами), анатомизация, фильтрация изображений, сегментация изображений, нижнечелюстная или верхнечелюстная кривая. обнаружение).

Работа по распознаванию речи и переводу постоянно нуждается в передовых алгоритмах. Агентство перспективных оборонных исследовательских проектов (DARPA) преодолело большой прогресс в области распознавания речи с 1970 года.

Какие наборы данных могут быть наиболее востребованы?

Вот еще один распространенный вопрос, который вы можете найти на большинстве известных ИТ-блогов и форумов.

Системы поддержки принятия решений в основном зависят от наличия высококачественных наборов данных, особенно в области здравоохранения и военного дела. Итак, я думаю, что в настоящее время большинство наборов данных для здравоохранения пользуются наибольшим спросом и помогут приложениям ИИ в здравоохранении. Кроме того, развитие географических информационных систем (ГИС) увеличило спрос на пространственные или географические данные.

Роль наборов данных в обеспечении качества программного обеспечения (QA)

Еще одно применение наборов данных — их использование для обеспечения качества программного обеспечения.

Появление сертификатов и стандартов обеспечения качества, таких как Kaizen, Lean, Sigma, MMS, увеличило потребность в интенсивных и тщательных процедурах тестирования.

Прежде чем выпустить окончательный выпуск любого программного обеспечения, приложение должно пройти этап тестирования. Это важная часть жизненного цикла разработки программного обеспечения (SDLC).

Профессиональные тестировщики используются для написания тестовых случаев, в которых используются пробные данные. Тестовые примеры можно запускать вручную или с использованием инструментов автоматизированного тестирования.

Например, для выпуска версии парсера HL7 нам потребуется огромное количество сообщений HL7. Существует 133 типа сообщений HL7. Тестировщикам также потребуется огромное количество сообщений, включая различные сценарии для разных сообщений HL7. Сообщения должны быть полностью анонимными, чтобы соответствовать требованиям HIPAA. Конечно, это будет большим бременем для любого производителя программного обеспечения. Это было бы похоже на поиск настоящего сокровища, если бы они могли найти высококачественный набор данных сообщений HL7 в любом хранилище наборов данных.

Известные репозитории алгоритмов:

http://chorochronos.datastories.org/

http://aima.cs.berkeley.edu/code.html (онлайн-репозиторий кода)

http://www.ccd.pitt.edu/algorithm-data-warehouses/ (только биомедицинские)

http://www3.cs.stonybrook.edu/~algorith/# (репозиторий алгоритмов Stony Brook)

https://www.cs.cmu.edu/Groups/AI/html/other/ga.html (Репозиторий искусственного интеллекта CMU — только генетика)

http://www.algorithmist.com/index.php/Main_Page

https://xlinux.nist.gov/dads/

http://rosettacode.org/wiki/Rosetta_Code

Известные репозитории наборов данных:

KDnuggets News опубликовал полезный блог, содержащий коллекцию ссылок на самые известные репозитории наборов данных:

http://www.kdnuggets.com/datasets/index.html