В команду входят Миран Гимире, Маниш Чандра и Дигья Ачарья, которые работают над проектом около месяца. Стивен Дж. Ренни, бывший руководитель группы в IBM Watson (мультимодальная группа), активно наставляет команду недавних выпускников. Стивен имеет более чем двадцатилетний опыт работы в области надежного автоматического распознавания речи (ASR) и многозадачного ASR. Миран и Маниш присоединились к AI Fellowship, тогда как Дигья уже год работает в Fusemachines в качестве младшего инженера-программиста.

Дигья недавно присоединилась к проекту автоматического распознавания непальской речи и уделяет этому проекту все свое внимание. На вопрос: «Что привело вас к карьере в области ИИ?» Дигья упоминает, что ее всегда удивляло то, как интеллектуальные системы имитируют человеческое познание. «Для моей степени я выбрал ИИ из отобранных курсов, которые дали мне первое знакомство с ИИ. Я узнал, как можно научить различные программы и роботов помогать людям в решении стольких задач, что, на мой взгляд, было очень круто ». Дигья добавляет.

Миран и Маниш - одни из немногих кандидатов из AI Fellowship, выбранных для работы над различными проектами, связанными с AI. Маниш интересовался, как машины могут отображать интеллект. «У меня была возможность работать над проектом, связанным с искусственным интеллектом, во время моей разработки. Работая над этим, я познакомился с различными аспектами ИИ, которые действительно очаровали меня и усилили мой энтузиазм в отношении ИИ ». Миран также рассказал о своей встрече с ИИ: «Однажды в школе один из учителей говорил о компьютерах пятого поколения, в которых будет искусственный интеллект, с тех пор ИИ всегда был для меня темой увлечения». Позже он занялся искусственным интеллектом в колледже, а также реализовал его в проекте, вскоре после этого он влюбился в эту сферу.

Прогресс

С помощью Kaldi, системы автоматического распознавания речи, команда использовала обучающие модели для проекта. Постепенно они собирают, обрабатывают и очищают данные и предоставляют фонетику, необходимую для распознавания и синтеза речи.

Люди из других отделов Fusemachines также внесли свой вклад в этот проект, записав необходимые данные обучения для системы ASR, которая была ограничена только политическими новостями. Они разрабатывают распознаватель с использованием Kaldi и тренируют данные в различных аудиокнигах и репортажах новостей, чтобы получить достаточно данных, необходимых для перехода в открытый домен. Они также работают над предварительной обработкой или уменьшением шума обучающих данных. Обучение модели в Kaldi также полностью автоматизировано. Ориентир успеха проекта будет таким же или более высоким, чем недавно выпущенный Google Cloud API. В случае успешного завершения эта система распознавания непальской речи позволит пользователям облегчить их требование обмениваться данными с Google.

Этот проект отслеживает прогресс каждый день, и на данный момент мы не можем предсказать, когда он будет завершен. Однако на основании квалификации и самоотверженности инженеров можно подтвердить, что конечный продукт будет способствовать развитию инноваций в технологии распознавания речи.

Fusemachines - поставщик решений и услуг в области искусственного интеллекта, который предлагает инженеров искусственного интеллекта компаниям, стремящимся развить свои возможности в области больших данных и машинного обучения. Узнайте больше на fusemachines.com