Гнозис, оцифрованный

Какое место Интернет занимает в истории знаний? И что это означает для ИИ, который учится в Интернете?

Гнозис (γνῶσις) — древнегреческое слово, обозначающее знание, и корень названия ученых членов гностицизма.

Хотя почти каждая культура и период времени имели некоторое представление о том, что такое знание, смысл этого термина резко изменился.

В Древней Греции гнозис содержал духовный компонент. В гностических сектах это слово означало что-то вроде проникновения в божественную природу человека. Или понимание того, что внутри нашего духа, что могло бы помочь нам избежать материального мира.

Перенесемся в 2020 год, и Стэнфордская философская энциклопедия Статья по эпистемологии (изучение знаний) содержит более 28 000 слов и около 200 цитат. И это только статья из энциклопедии.

Сегодня также существует то, что, по мнению многих, является крупнейшим хранилищем человеческих знаний: Интернет. И, возможно, крупнейшими потребителями Интернета являются системы с поддержкой ИИ (веб-данные, используемые для машинного обучения), а также специалисты по обработке и анализу данных.

Это может быть правдой. Но во времена, полные дискуссий об алгоритмической предвзятости, фальшивых новостях и лживых ИИ, как нынешние специалисты по веб-данным на самом деле вписываются в историю знаний?

Могут ли машины генерировать знания? В эпоху избытка данных, закладываем ли мы фундамент для роста человеческого понимания или строим дом на шатком фундаменте?

В этой статье я стремлюсь пройтись по нескольким историческим концепциям того, что «есть» знание, а затем изучить, как современные знания и автоматизированные системы вписываются в эту историю.

Полное раскрытие: меня особенно интересует эта тема в связи с моим работодателем Diffbot, создателем крупнейшего в мире Графика знаний и организацией, миссией которой является построение первой в мире комплексной карты. человеческого знания». Наш бот сканирует большую часть Интернета и анализирует веб-страницы в графах знаний. Конечно, мы живем в эпоху автоматизированного сбора информации. Но какое место это занимает в истории познания?

Оправданная истинная вера

Для таких больших вопросов, как этот, лучше всего начать с самого начала.

В западном мире концепция знания, которая просуществовала дольше всех (хотя и не без многочисленных попыток опровержения), уходит своими корнями в сократовскую мысль.

В том, что стало известно как Теэтет, Платон определил знание как совокупность утверждений, которые мы можем считать «обоснованными, истинными убеждениями».

С самого начала знание определяется как нечто, что можно «подкрепить» обоснованием.

Кроме того, вещи, которые мы «знаем», должны быть «истинными убеждениями». Это проясняет бит обоснования, добавляя своего рода внешнюю проверку. Помимо нашего личного оправдания, знание состоит из вещей, которые объективно истинны.

«Океан соленый» объективно верен, потому что общепризнанно, что океанская вода содержит соль. Это не просто мнение или вкусовая палитра одного человека.

Интересно отметить, что в этом определении заложен взгляд на мир, согласно которому разум фундаментально отделен от мира вокруг нас. Это давний троп, который сохраняется и по сей день в некоторых философских школах мысли и позволяет проводить особенно убедительные, но иногда странные мысленные эксперименты.

Исторически эпистемологические мысленные эксперименты занимали место где-то между фильмами Остров проклятых и Матрица. Где вы должны доказать свою способность знать что-то из своего собственного крайне субъективного опыта.

В нашей повседневной жизни мы не чувствуем необходимости подтверждать, что наше восприятие на самом деле привязано к какому-то объективному миру вне нас. Системы, придуманные человеческим разумом, работают вовне. Наука о данных может быть предсказательной. Метеорология может точно описать погодные условия.

Несмотря на все это, история того, что представляет собой знание, не была бы полной без упоминания основоположника западной эпистемологии. И в здравом смысле большинство людей, вероятно, согласятся с тем, что можно заявить о знании факта, который является оправданным, истинным и в который он верит.

Для большинства практических — реальных — примеров можно утверждать, что знание чего-то оправдано, истинно и во что он верит.

«Получить»

Перенесемся в 1960-е годы (философия временами движется медленно), и возникает один из самых серьезных вызовов идее о том, что мы можем узнать что-либо, используя модель Платона.

«Проблема Геттье» названа в честь американского философа Эдмунда Геттье. И с тех пор вдохновил несколько поколений философов, которые генерируют «случаи Геттье» (или контрпримеры к обоснованному истинному убеждению, которые следуют общему формату исходного контрпримера Геттье).

Что же сделал Геттье, чтобы подорвать тысячелетнее представление о знаниях?

Геттье привел два примера обоснованных, истинных убеждений, когда причины, по которым люди чувствовали себя оправданными в своих убеждениях, были заведомо ложными.

Подумайте о математическом доказательстве, в котором вы пришли к искомому выводу, но утверждения, ведущие к этому заключению, просто неверны. В лучшем случае это доказательство следует логической форме, но бесполезно в мире. Это оправдано ошибочным представлением о мире.

Возвращаясь к нашим вопросам о том, как современные системы анализа и сбора данных (НЛП, ИИ и т. д.) вписываются в историю знаний, контрпример Геттиера на самом деле немного напоминает случаи алгоритмической предвзятости, которые были выявлены в последние годы.

Допустим, вы обучили систему искусственного интеллекта, чтобы она помогала отсеивать плохих кандидатов на открытую инженерную должность в организации. И ваши обучающие данные, определяющие количественную оценку «хорошего» кандидата, основаны на прошлых достижениях в этой роли. Но предположим, что все прошлые высокоэффективные люди одного пола и расы.

На самом деле это может помочь предсказать лучшего кандидата в конкретной когорте. НО большинство людей согласились бы, что это, вероятно, удача. Эта примерная система построена так, чтобы ошибаться в сторону «пропуска» кандидатов, которые не обладают основными качествами прошлых успешных сотрудников. В некоторых случаях выбранный кандидат будет «лучшим» кандидатом. Но не по правильным причинам. Во многих случаях система такого типа сразу исключает подходящего кандидата на работу.

Вернемся к нашему обсуждению контрпримеров типа Геттье (которых сегодня существует большое множество). Эти контрпримеры к платоновской концепции знания, как правило, вращаются вокруг двух компонентов.

Ошибочность (случай, когда обоснованное истинное убеждение показывает знание только в некоторых случаях)
И Удача (как мы видели в нашем примере выше)

Хотя, безусловно, существуют предвзятые системы ИИ, которые, похоже, попадают в искажение правды, подобное Геттье, это не проливает свет на более широкую экосистему сбора фактов и консолидации знаний. Для этого нам нужно взглянуть на более общие информационные системы. А именно те, которые основаны на веб-данных.

Распространение фактов

Исторически философия имела дело с темой знания, тщательно исследуя конкретные утверждения, чтобы попытаться определить характеристики того, что мы назвали бы «знанием» (или нет).

Итак, я предполагаю, что не Бог, который в высшей степени благ и источник истины, а скорее какой-то злой демон, обладающий величайшей силой и хитростью, употребил все свои силы, чтобы обмануть меня. Я буду думать, что небо, воздух, земля, цвета, очертания, звуки и все внешние вещи — просто иллюзии снов, которые он придумал, чтобы заманить в ловушку мое суждение. - Рене Декарт, Метафизические размышления (не то, как большинство из нас оправдывает знание темы)

Но так ли люди определяют знания в повседневной жизни? С момента появления Интернета в 1970-х и до начала 2000-х мы жили в условиях настоящего избытка данных и фактов. Рутинное взаимодействие с проверкой фактов и ассимиляция многих, многих новых фактов ежедневно — это совершенно иной тип опыта, чем тот, который выражается в большинстве философских примеров старой школы.

Возможно, наиболее формализованным примером новой концепции знания, адаптированной для современных технологий, является пирамида DIKW. В информационных системах эта пирамида состоит из:

Как и следовало ожидать, данные показаны как нижний ярус пирамиды, а мудрость — наверху. И по мере восхождения по пирамиде о каждом новом уровне говорят с точки зрения более низкого уровня. Например, информация определяется в терминах данных. Знание определяется в терминах информации. Мудрость определяется в терминах знания.

Хотя даже это потенциально более абстрактно, чем большинство людей, заявляя, что они «знают» что-то, в модели DIKW есть доля современной правды.

Обычно данные сами по себе не имеют контекста. Как специалисты по работе с данными, мы видим это ежедневно. Данные — это необработанные входные данные, которые, будучи объединены вместе, могут создавать факты. Информация обычно выставляется на уровне «создания фактов».

Знание — как и в эпистемологии — более неуловимо. Но обычно концепции знания в условиях информатики прибегают к описанию этого явления как обработки или организации информации. Там, где информация состоит из отдельных фактов, знание предмета может выявить закономерность. Хорошо проведенный анализ данных выявляет не только факты, но и закономерности среди фактов.

Наконец, мудрость еще более неуловима. Но в соответствии с мыслью, что о мудрости говорят с точки зрения знания, можно сказать, что мудрость — это глубокий опыт применения определенного типа знания. Опытные эксперты в определенной области могут в какой-то мере проявить мудрость.

Отличительной чертой чего-то вроде иерархии DIKW является то, что каждый более высокий уровень понимания создается более низкими уровнями, но имеет разные определяющие характеристики.

Графики VS. Графики знаний

Эта более современная концепция Знания, созданная на основе нашей богатой данными реальности, является хорошей отправной точкой, чтобы попытаться проанализировать, расширяем ли мы знания коллективно или просто тонем в озерах данных. Строительные блоки теперь правильные (данные и информация). А с некоторой общей терминологией в нескольких типах информационных систем мы можем приблизиться к ответу.

Во-первых, контекст. Если мы говорим о построении из фактов, которые создаются на уровне информации DIKW, то что же превращает факты в знания? Контекст и организация фактов, чтобы показать более широкую перспективу.

Если вы ищете прилагательное, описывающее контекст в современной сети, это «семантический».

— — — — — — — — — — — — — — — — — — — — — — — — — — — —

Мечта о семантической паутине позволяет создать мир, в котором факты организованы таким образом, что зрители могут просматривать «большую картину». Типы сущностей могут быть встроены друг в друга или содержать отношения или определенные свойства.

Вместо запроса строки «рецепты пирогов с низким содержанием сахара» можно запросить объекты рецептов пирогов с меньшим значением сахара.

По состоянию на 2020 год существует только одна технология, действительно достигающая масштабной версии семантической паутины: графы знаний.

Графы знаний не обязательно являются новой концепцией. Но возможность расширять их автоматически и до масштабов, в которых они будут полезны, является новой.

Если вы никогда не слышали о графах знаний, то они, по сути, представляют собой более богатую, более населенную и — сегодня — версию структуры данных с поддержкой ИИ, называемую графом. Графики — это просто данные, организованные в узлы (отдельные объекты) и ребра (связи между этими объектами).

В случае современных и полезных графов знаний графы структурированы в соответствии с постоянно расширяющимися онтологиями, которые определяют, как различные типы сущностей сочетаются друг с другом, каковы их свойства и как они связаны с другими сущностями. Такие организации, как DBPedia, предоставляют другим сторонам стандартизированные онтологии для построения графов знаний.

В то время как многие крупные технологические организации используют графы знаний для внутреннего использования, есть в основном три общедоступных графа знаний.

График знаний Google, наиболее широко используемый для сбора базовой информации.
График знаний Diffbot, самый большой и длинный хвост
И График знаний проекта GDELT, единственный крупный KG, использующий печатные и веб-источники.

Из этих трех только GDELT и Diffbot предоставляют доступ к своим базовым данным, что делает их полезными для работников умственного труда. И из этих оставшихся двух только Diffbot's Knowledge Graph претендует на сканирование всей общедоступной сети.

Имея это в виду — и в силу того, что я знаю больше о Diffbot's Knowledge Graph, чем о других конкурирующих продуктах, — я буду использовать Diffbot в нашем следующем анализе знаний сегодня.

Где знания в графах знаний?

Мы привели один пример того, как могут выглядеть запросы в истинно семантической сети (используя, вероятно, вымышленную сущность, «пирог с низким содержанием сахара»).

Но давайте рассмотрим способы, с помощью которых наш Граф знаний, о котором идет речь, может, возможно, предоставлять знания.

Согласно иерархии DIKW, движение к знаниям начинается с данных. Данные в случае Diffbot's Knowledge Graph являются общедоступными веб-данными. Сканеры Diffbot просматривают миллиарды страниц, используя НЛП, машинное зрение и другие технологии, чтобы определить (а) какой тип страницы он просматривает, а затем (б) какие типы данных на этом типе страницы полезны.

Необработанные данные — это HTML-код страницы и визуальные подсказки на странице. Результирующие данные, полученные с помощью API автоматического извлечения Diffbot, представляют собой такие элементы, как цена продажи, размеры, данные отзывов и SKU для продуктов. Или наборы навыков, последние публикации, история образования и профили людей в социальных сетях.

Это образцовый подвиг в веб-скрейпинге. Но все мы знаем, что база данных сама по себе не является знанием. Это подводит нас к двум моментам.

Знание — это отслеживание закономерностей или поиск понимания среди кучи информации. Из более чем 10 миллиардов сущностей в Графе знаний каждая содержит более 20 фактов. Почти безграничное сочетание связей между сущностями или огранки по значениям фактов указывает на высокую вероятность того, что в такой базе данных можно найти много знаний.
Созданные человеком инструменты в лучшем случае являются просто хранилищами знаний. Акт познания чего-либо — человеческая забота. И этот акт часто провоцируется взаимодействием с какой-либо системой знаний.

В свете нашего второго пункта выше можно задаться вопросом, почему сам Интернет не является хранилищем знаний. Во многих смыслах так и есть. Но это зависит от людей, взаимодействующих через конкретное онлайн-событие.

Что означает семантическая сеть для знаний

Сеть является одновременно нашим крупнейшим источником знаний и дезинформации.

Фейковые новости, подстрекательские мемы, необновляемые индексы данных без особого контекста — это, конечно, не примеры знаний. Хотя, конечно, есть много случаев, когда знания по предмету передаются в сети.

Сеть также непостижимо велика. Для отдельных работников умственного труда это делает большую часть сети непрактичной для сбора знаний (просто не хватает времени).

Сотни миллионов веб-страниц охватывают все популярные языки мира. Еще один барьер знаний для многих.

В случае с этими непосещенными или непереведенными страницами нельзя сказать, что они избежали уровня необработанных данных для человеческих целей. Источник знаний должен использоваться для продвижения «знания».

Так что же нужно, чтобы реально преобразовать веб-данные — в целом — в знания? Армия ботов, сканирующих всю доступную сеть и просеивающих страницы.

Создание сущностей, когда они еще не записаны. Добавление к этим сущностям при появлении новых фактов или изменении фактов. И обеспечение того, чтобы сущности не были недостаточно объединены (две сущности там, где они должны быть одной) или чрезмерно объединены (многие «Джо Смиты» сливаются в одну сущность).

Этот процесс подчеркивает разницу между традиционными поисковыми системами и семантической сетью.

Давайте возьмем в качестве примера кого-то, кто интересуется, сколько женщин возглавляют известные компании в Сан-Франциско. (И скажем ради аргумента, что можно предположить, что компания с 500 сотрудниками достаточно хорошо зарекомендовала себя).

В традиционной поисковой системе можно было бы найти знания по этой теме, если бы эксперт создал вокруг нее часть контента. В семантической сети, такой как Knowledge Graph, можно на самом деле запрашивать организационные и персональные сущности.

На языке запросов Diffbot приведенный выше вопрос выглядит так…

type:Organization location.city.name:”San Francisco” nbActiveEmployeeEdges>500 ceo.gender:”female”

И он возвращает двенадцать исследуемых сущностей. В этом случае нет фрагмента контента, который появляется в поисковой системе с таким точным списком. А если бы и было, то было бы сложно постоянно обновляться. Несмотря на то, что практически все генеральные директора компаний в Сан-Франциско перечислены в общедоступной сети, было бы непостижимо большой задачей постоянно обновлять свойства каждого из них практически в режиме реального времени. По крайней мере для человека.

Хотя генеральный директор всех компаний в Сан-Франциско является общедоступной веб-данной, именно акт организации этих фактов в сущности позволяет проявиться шаблону.

Конечно, мы коллективно получаем такого рода информацию для политических деятелей или областей с большими фандомами. Но как насчет длинного хвоста, который волнует многие предприятия? Попробуйте определить, сколько сантехников в Лондоне нанимает более 5 человек без сканера с поддержкой ИИ…

В то время как данные были новой нефтью 2000-х годов. Теперь можно сказать, что мы достигли нового этапа в истории познания. Мы поднялись по крайней мере на одну ступень вверх по иерархии DIKW, а скорее всего на две. Будь то «контекстная информация» или «знания», теперь они автоматизированы, и это масло 2020-х годов.