TL; DR:
Прежде всего, это человек, который твердо верит, что «он может превратить все виды интеллектуальных задач в математические задачи», и добился поразительных достижений во многих областях.
Во-вторых, он ученый, внесший наибольший вклад в области машинного перевода.
Самым ценным является то, что он удовлетворен не только изобретением метода, но и собственными усилиями добиться взаимного перевода десятков языков на благо человечества.
Наконец, он может делать все, не только переводить человеческий язык, но и изначально реализовывать автоматическое программирование компьютера (перевод человеческого языка на машинный), а также распространять машинное обучение на области биофармацевтики и здравоохранение.

В одиночку доктор Оч почти удвоил уровень машинного перевода во всем мире.
До него системы машинного перевода в мире были в основном непригодными для использования, но после него машинный перевод не только стал доступным продуктом, но и начал распространяться по всему миру.
Чтобы поговорить о превосходных качествах доктора Оч, давайте сначала популяризируем историю машинного перевода.

Изначально он был докторантом Технического университета Ахена в Германии. Наставником Оха является Герман Ней, самый известный профессор распознавания речи и обработки естественного языка в Германии.
К концу 1990-х годов, хотя академические круги во всем мире потратили полвека в область машинного перевода (то есть компьютеров, заменяющих человеческий перевод иностранных языков), не было разработано ни одного мало пригодного для использования продукта. исследователи в то время не видели будущего в машинном переводе.

В прошлом основные эксперты по машинному переводу все еще использовали «позволяя компьютерам имитировать изучение иностранных языков» для решения задач машинного перевода, и много работы было потрачено на написание множества грамматических правил и попытки выразить смысл.
Хотя вначале сотни правил могут охватывать половину феномена английского (или французского, немецкого…) языка, вскоре люди обнаружили, что для того, чтобы увеличить охват этого явления еще на 10 процентных пунктов, необходимо нужно не только увеличить правило на 10%, но его нужно увеличить в десять раз.

Таким образом, в то время SYSTRAN, крупнейшая в мире компания по машинному переводу, написала более 20 000 грамматических правил, и все еще не удалось охватить 1/5 «языковых явлений» в английском языке.
Что еще хуже, в машинном переводе задействовано много языков. Если вы хотите писать их на языке за языком, это будет бесконечно.
Это тоже было поводом для всеобщего отчаяния тогда.
Кстати, описанный выше метод машинного перевода еще называют методом на основе правил.

В 1990-х годах в IBM подчиненный Елинека Питер Браун разработал структуру для перевода естественных языков с использованием «математической модели + подхода к данным».
Поскольку в этом методе используется статистика, его также называют «машинным переводом на основе статистики», а поскольку в статистике используются данные, этот метод также называют «методом, управляемым данными».
К сожалению, из-за недостаточного количества данных в то время эффект от этого метода не так хорош, как от «метода, основанного на правилах».
Поэтому, хотя люди думали, что метод Брауна был новаторским в то время, они не считали его многообещающим, так что уровень цитирования его статей в то время был невысоким.

Браун просто покинул IBM, чтобы присоединиться к Renaissance Technologies LLC, лучшему в мире хедж-фонду, а затем стал вице-президентом и руководителем отдела информационных технологий компании.
Стоит отметить, что рентабельность инвестиций в эту «компанию, где никто не занимается финансами» выше, чем у Баффета.
Однако, будучи первым человеком, попробовавшим машинный перевод со статистическими методами, Браун на самом деле сделал такой старт, что многие люди, занимающиеся машинным обучением, никогда не слышали об имени Браун.

Популярность методов машинного перевода, основанных на статистике, сегодня в основном связана с работой Оч.
В 1999 году он наконец заставил «статистический подход» выйти за рамки «основанного на правилах подхода».
В отличие от предыдущих ученых, Оч не только использовал большой объем данных, но также нашел ряд «способов более точной тренировки статистических математических моделей».
Работа по обучению статистических языковых моделей сегодня носит более привычное название - машинное обучение.
Примерно к 2000 году китайско-английская система перевода, разработанная Och, может достичь примерно 20% согласованности с человеческим переводом и 30% согласованности между английским и арабским переводом и человеческим переводом.

Конечно, когда вы смотрите на цифры, это всего 20% и 30%, вы можете подумать, что его уровень невысокий? поэтому мне нужно сделать здесь два объяснения.
Во-первых, согласованность результатов перевода, выполненного людьми (экспертами по языкам), составляет всего около 50%, а не 100%.
Во-вторых, сегодня индекс машинного перевода уже высок, близок к человеческому.
Честно говоря, уровень 20% или 30% в то время был невысоким для сравнения.
Итак, профессор Елинек пошутил с ним в то время, что «другие системы машинного перевода были идиотами, но ваша была лучше, чем идиотов».
В любом случае Оч доказал, что подход, основанный на данных, лучше, чем подход, основанный на правилах, который давал надежду ученым всего мира.

После выпуска в 2001 году доктор Оч пошел преподавать в Университете Южной Калифорнии и продолжил исследования.
В 2003 году Google решила разработать программное обеспечение для машинного перевода.
После полгода попыток выяснилось, что «это непросто».

Кто в то время был лучшим специалистом по машинному переводу в мире?
Ох, конечно, поэтому Google пригласил его из колледжа.
В начале 2004 года они наконец убедили Оча отказаться от преподавательской должности и присоединиться к Google.
В то время в Google было всего 2000 человек, что было не очень много, и у них не было большого опыта в машинном переводе.
По сравнению с компаниями с долгой историей, такими как IBM, их уровень все еще намного хуже.

Так почему Оч согласился с предложением о работе в Google?

В основном из-за искренности Google он пообещал ему следующие условия:
1. Когда он присоединится, существующая команда машинного перевода передаст ему свои полномочия.
Хотя ученые из этой группы не имеют опыта в машинном переводе, все они являются экспертами мирового уровня в области машинного обучения.
Инцидент его очень тронул.

2. Конечно, он получит множество опционов на акции.
Тогда Google собирался объявить IPO (28 апреля 2004 г.), но доктору Очу пришлось ждать до августа, чтобы завершить преподавательскую работу в Университете Южной Калифорнии.
С этой целью Google пообещал разрешить ему присоединиться к работе в день объявления IPO, после чего он сможет взять четырехмесячный отпуск.

3. Он не только может использовать все данные Google по своему желанию, но и попросит лучших инженеров, Дина и других, оказать ему техническую поддержку в облачных вычислениях, чтобы облегчить использование огромных вычислительных ресурсов Google.

В конце концов, Оч присоединился к этой работе, и Google выполнил все свои обещания.
Через шесть месяцев после того, как Оч присоединился к этой должности, Google участвовал в оценке систем машинного перевода по всему миру под руководством (NIST) Национального института стандартов и технологий.
Никто раньше не слышал о машинном переводе Google, и лаборатории таких компаний, как IBM, работают в этой области на протяжении десятилетий, поэтому никто не думает, что «Google - это серьезно».

Результат окончательной оценки превзошел все ожидания. Google занял первое место по переводу с китайского на английский, арабский на английский, в то время как разрыв между вторым местом и этим составлял около 10 лет. (на диаграмме ниже показаны результаты этого обзора).
Если разница значений в таблице составляет 0,5 процентного пункта, это означает, что разница в уровне научных исследований составляет около года.

Перевод с китайского на английский.
Закрытый тестовый набор.

Google: 35,31%.
Университет Южной Калифорнии: 30,73%.
Мэрилендский университет: 30,005%.
Технологический институт Ахена, Германия: 29,37%.
Университет Джона Хопкинса - Кембриджский университет: 28,27%.
IBM: 25,71%.
…….
СИСТРАН: 14,71%

Откройте набор тестов.
Google: 36,16%.
Китайская академия наук: 12,93%.
Харбинский технологический университет: 7,97%

Стоит отметить, что помимо Google, системы Университета Южной Калифорнии и Технологического института Ахена также написаны Och.
Так почему же между ними и системами Google такой большой разрыв?
В то время это было очень любопытно всему академическому сообществу.
Позже Оч дал объяснение, и все внезапно осенило, что он не успел улучшить метод в Google, а использовал в 10000 раз больше данных, чем раньше.
Ох доказал всему миру, что когда объем данных увеличивается в тысячи раз, он переходит от количественного изменения к качественному.
После этого большие данные постепенно стали горячей темой.

Интересно, что Оч никогда не знает ни китайского, ни арабского, ни других языков, и его метод изучения машинного перевода полностью отличается от человеческого инстинкта.
Он доказал всем, что интеллектуальные проблемы, такие как машинный перевод, по сути своей являются математическими проблемами, поэтому хорошая работа в машинном переводе не имеет ничего общего с самим знанием языка.
Десять лет спустя команда DeepMind из Google доказала всему миру, что игра в го также является математической проблемой, и хотя в команде AlphaGo было мало людей, которые могли играть в го, это не помешало ей победить Ли Седола и Кэ Джи. .

Поскольку математический метод может использоваться для перевода с китайского на английский, а также с арабского на английский, почему нельзя распространить этот метод на другие языки?
Конечно, за следующие два года команда Ока разработала 50 переводов на семь или восемь языков.
Если мы, люди, хотим выучить семь или восемь языков, это займет гораздо больше времени, чем два года.
Это отражает преимущества подхода, основанного на данных.

Однако в мире существуют тысячи языков, и Google поддерживает почти 100 языков. Сбор данных и отладка занимают много времени, даже если для реализации взаимного перевода используется подход, основанный на данных, почти на 100 языков, потому что существует около 10 000 языковых пар между 100 языками.
При переводе с 7 или 8 языков на 20 языков объем работы по совместному переводу увеличивается примерно в четыре раза, а разработка одного за другим занимает много времени.
Чтобы решить эту проблему, Оч придумал удобный способ использовать несколько промежуточных языков, переводить все языки на эти промежуточные языки, а затем переводить с промежуточных языков на различные целевые языки.
Следуя этой идее, Google осуществляет перевод между 40 языками.

После 2012 года Оч больше не занимается изучением перевода на человеческий язык, поскольку считает, что эта проблема в основном решена и что повышение качества зависит только от количества данных. Он принял очень сложный исследовательский проект по переводу человеческого языка на компьютерный, чтобы компьютеры могли писать программы до тех пор, пока люди четко описывают свои потребности.
К 2014 году Оч позволил компьютерам писать простые программы, что значительно снизило «порог использования искусственного интеллекта для людей».

В 2014 году Оч покинул Google, чтобы стать главным научным сотрудником компании Human Longevity Company, занимающейся большими данными.
Два года спустя, когда Хубер основал (Grail), Святой Грааль для раннего обнаружения рака, Хубер пригласил Оха присоединиться к компании в качестве главного научного сотрудника.
По мнению Оха, эти биологические и медицинские проблемы также в значительной степени являются математическими.
В обеих компаниях Ох помогает им использовать большие данные для персонализированных фармацевтических препаратов и раннего выявления рака.