«отношения между словами могут быть зафиксированы с помощью простой векторной алгебры. Например, «мужчина относится к королю, как женщина к королеве», или, используя общепринятую нотацию, «мужчина: король: женщина: королева». Вскоре возникли и другие отношения, такие как «сестра : женщина :: брат : мужчина» и так далее. Эти отношения известны как вложения слов.

его набор данных называется Word2vec, и он очень мощный. Многие исследователи начали использовать его, чтобы лучше понять все, от машинного перевода до интеллектуального поиска в Интернете.

Но сегодня Толга Болукбаси из Бостонского университета и несколько приятелей из Microsoft Research говорят, что с этой базой данных есть проблема: она откровенно сексистская.

И они предлагают множество доказательств, подтверждающих это утверждение. Это происходит из-за запроса векторного пространства для поиска вложений слов. Например, можно задать вопрос: «Париж : Франция :: Токио : х», и он даст вам ответ х = Япония.

Но спросите базу данных «отец : врач :: мать : х», и она ответит: х = медсестра. А запрос «мужчина : программист :: женщина : х» дает х = домохозяйка.

Другими словами, вложение слов может быть ужасно сексистским. Это происходит потому, что любая предвзятость в статьях, составляющих корпус Word2vec, неизбежно отражается в геометрии векторного пространства. Болукбаси и компания отчаялись в этом. «Можно было бы надеяться, что встраивание новостей Google не будет демонстрировать гендерную предвзятость, потому что многие из его авторов — профессиональные журналисты», — говорят они.