Начну с того, что большая часть этой статьи была написана с использованием системы распознавания голоса gboard. насколько я понимаю, он работает на голосовом API Google Cloud и на самом деле интегрирован в гораздо больше программного обеспечения, чем просто gboard, он, скорее всего, поставляется с каждым устройством Android и просто приправлен настраиваемой версией операционной системы. в конце концов, я использую термин gboard как универсальный для распознавания голоса моей мечты.

Все началось с чего-то столь же простого, как общение с человеком, который не был технически подкован. Он вел свой «Шеви Тахо» по межштатной автомагистрали, которая была настолько загружена и занята, что он не мог смотреть в свой телефон, и он был в разгаре ссоры со своей женой. Контекст того, как и почему я был вовлечен в это, на самом деле не нужен, чтобы понять влияние, которое это событие оказало на мою жизнь. Вместо того, чтобы остановиться и написать СМС или, не дай Бог, попытаться написать СМС за рулем, мужчина вытащил свой мобильный телефон, нажал кнопку и начал кричать в свой телефон. Имейте в виду, что это был 2012 год, самым популярным программным обеспечением для распознавания голоса в то время был Dragon Naturally Speaking, и почти ни одно решение для распознавания голоса не было широко доступно для использования Потребителем без серьезного ценового барьера для входа. Я был очень технически подкованным человеком, но, честно говоря, я был беден. У меня не было доступа к сотовым телефонам, однако в округе я был известен тем, что взламывал для них айфоны моих друзей.

Вооружившись буквально рудиментарными знаниями о том, как работают сотовые телефоны, и приличным знанием программного обеспечения, я думал, что живу в мире, где распознавание голоса просто играет с трудом. Представьте себе полнейший шок, который испытал я в тот момент, когда я увидел, как мужчина нажимает кнопку и кричит на свой телефон, и без каких-либо усилий этот человек, который даже не может запустить операционную систему Windows, смог получить очень горячий текст. разговор с женой, которая отказывается звонить ему и вести разговор голосом. Я уверен, что мы все были там. Это простое действие, честно говоря, вызвало у меня мурашки по спине, оно заставило меня осознать, что я внезапно оказался в мире, где легко доступным за несколько сотен долларов было устройство, способное на гораздо большее, чем я думал. Android незаметно внедрил технологию машинного обучения в свои устройства Android еще в версии 2.2, и потребители не знали, что эта технология стала основой их повседневной жизни.

Пять с лишним лет спустя я оказался владельцем бизнеса и сторонником технологии машинного обучения, но, честно говоря, примерно до прошлого года я выполнял большую часть своей работы и большую часть набора текста с помощью клавиатуры. Я клюю курицу, я печатаю указательными пальцами, однако я смог пройти все тесты по набору текста и каждый компьютерный класс, потому что, несмотря на то, что я не использую традиционный метод, такой как hertzog, я по-прежнему очень быстро печатаю со скоростью около 90 слов в минуту. Да, есть более быстрые машинки. Честно говоря, хотя набор текста для меня всегда был рутиной, я имею в виду, не поймите меня неправильно, это очень прямой метод ввода того, что вам нужно, в компьютер, я много использую Linux, и я очень предпочитаю ваши подходы к командной строке даже в Windows . Powershell и я хорошие друзья.

Дело в том, что в последнее время передо мной встала задача писать намного больше, и это не тот тип письма, где я могу просто копировать вещи из Google или вводить данные, которые я знаю навскидку, у меня было начать использовать творческое письмо. Я прошел все стандартные уроки английского языка на протяжении всей школьной карьеры, хотя я бросил школу, и это проявляется в моих навыках орфографии и грамматики, не говоря уже о моих творческих способностях к письму. Можно было бы подумать, что такой человек, как я, действительно не способен сформулировать творческий подход к письму со всей правильной грамматикой и синтаксисом без помощи текстового процессора и, возможно, даже человека, редактирующего его впоследствии. правда в том, что это правильно, но это гораздо более широкий угол Истины, чем люди осознают. при написании этой статьи я использую инструмент с открытым исходным кодом Google Docs и инструмент с открытым исходным кодом gboard. Я очень мало печатал на своей клавиатуре, может быть, достаточно, чтобы исправить некоторые вещи здесь и там, но на самом деле большая часть этого была для меня нажатием кнопки микрофона и разговором по телефону, как если бы я разговаривал с человеком.

очевидно, есть огромные преимущества в возможности использовать систему с открытым исходным кодом, подобную этой, которая буквально существует в облаке и может быть подключена к самому дешевому и простому в использовании телефону. Я не могу говорить о решениях, которые предлагает Apple, потому что, честно говоря, я никогда не хотел покупать телефон Apple и пробовать его, но у Microsoft есть собственное решение для распознавания голоса, и, очевидно, существует бесчисленное множество коммерческих продуктов, доступных, как я упоминал ранее. , но ни одно из этих приложений не было Plug and Play таким, как gboard. Я могу буквально купить телефон Samsung за 30 долларов в учетных данных своей учетной записи, и вся моя библиотека распознавания голоса будет у меня под рукой, готовая помочь мне стать творческим писателем и, черт возьми, просто лучшим писателем вместе взятым.

Найдите минутку, чтобы представить, как эта технология применяется в образовательной среде не только в нашей стране, но и в странах третьего мира и развивающихся странах. Часто в Интернете при приеме на работу или просто при общении с людьми я сталкиваюсь с очень ломаным английским, который либо вообще не переведен, либо является очевидным результатом плохой системы образования. Я не собираюсь сидеть здесь и вникать в геополитику, почему это так, но я думаю, что все понимают, что языком бизнеса является английский. В таком случае представьте себе эту технологию и приложение как универсальный переводчик для бизнеса, подумайте о ней как о инструменте для туристов, подумайте о ней как о инструменте, с помощью которого дети могут не только общаться друг с другом, но и узнавать, как устроен мир. взаимосвязано. Технологии и концепции, которые представляет gboard, гораздо шире, чем просто кричать на жену в текстовом сообщении.

в заключение я хотел бы резюмировать свою точку зрения, поблагодарив замечательных людей из Google за создание и развертывание этой технологии с открытым исходным кодом, я хотел бы поблагодарить основателей алгоритмов, которые она использует, за их гениальное использование математики, и я хотел бы хотелось бы поблагодарить безымянных операторов серверов, каждый вечер выполняющих неблагодарную работу по поддержанию нашего Облака в сети. Я надеюсь, что когда-нибудь эта технология будет принята и воспринята обществом за ее концептуальные преимущества, а не просто использоваться такими людьми, как я, чтобы полениться и заменить клавиатуру.