понедельник, 15 февраля 2016 г.

Такие разные языки

Недавно в PNAS вышла статья, показывающая, насколько семантически близки большинство мировых языков. В этом посте расскажем про эту работу и еще про несколько похожих проектов, где исследователи использовали сетевой анализ для изучения языков.

Переворачивания слов
Хижин Юн с коллегами в работе «Об универсальной структуре лексической семантики» отмечают основные дискуссии о семантической близости между языками. Неясно, насколько язык — это когнитивная способность, универсальная для всего человеческого рода, а насколько — результат внешних факторов, таких как география или культурная история. К примеру, есть мнения, что народы, проживающие у моря или в горах, обладают различными семантическими структурами языка, и это объясняется, в первую очередь, их географическим проживанием.
Чтобы разобраться в семантических структурах, исследователи отобрали 81 языков со всего мира и изучали сходства между ними на основе переводов полисемичных слов с одного языка на другой. Напомним, что полисемичные слова — это слова, которые одновременно имеют несколько значений, исторически связанных между собой. Например, "лицо" (передняя часть головы) и "лицо" (отдельный человек) - полисемичные слова.
Были отобраны 22 слова из так называемого списка Сводеша, которые обозначают материальные объекты (камень, земля, песок, пепел), небесные тела (луна, солнце, звезда), природные состояния (день, ночь) и географические объекты (гора, озеро).
Хижин Юн с коллегами делали перевод слова с одного языка на другой, а затем обратный перевод со второго языка на другой. Английский был использован в качестве мета-языка. Процесс перевода визуально представлен на рисунке 1. Сначала исследователи отобрали слова из списка Сводеша (например, MOON и SUN на рисунке), затем перевели их на другие языки (на рисунке - прибрежный цимшианский и лакота), а затем перевели получившиеся слова обратно в мета-язык. Так получилась сеть с 3 уровнями (3-модальная сеть), а мы узнали, что в некоторых языках "солнце" и "луна" связаны между собой по смыслу. На рисунках В и С исследователи сделали из 3-модальной сети из рисунка А 2-модальные сети, обозначив толщиной линий и цифрами количество совпадений в переводах.

Рис. 1. Процесс построения семантических сетей в работе Youn et al (2016). А — слова MOON и SUN (первый уровень) были переведены на другие языки (второй уровень), а затем слова из второго уровня были вновь переведены (третий уровень). В — бимодальная сеть (с двумя уровнями) слов и их обратных переводов, которые были представлены на рис А. Толщина связи обозначает количество соответствующих переводов. С — одномодальная сеть (с одним уровнем), которая была построена на основе В.

На основе таких серий множественных переводов исследователи построили семантические сети, как на рисунке 2. Они выделили 3 различные группы слов, значения которых не пересекаются в отобранных языках. Это:
1) слова, связанные с обозначением воды (синий кластер);
2) слова, связанные с обозначением земли, огня и небесных тел (красный кластер);
3) слова, связанные с обозначением природных объектов (желтый кластер).

Рис. 2. Семантическая сеть из работы Youn et al (2016). Слова объединены связями, если они имеют общее значение. Толщина связей и размер узла обозначает количество полисемичных слов со схожими значениями. Слова из листа Сводеша, от которых отталкивались исследователи при переводах, обозначены заглавными буквами.

Проделав серию статистических тестов, исследователи подтвердили,  что в отобранных языках существуют сходства семантических структур.
Помимо статьи, исследователи сделали сайт, на котором можно посмотреть на различные языки и их совпадения в переводах. Например, что общего между русским и кечуа?

Global Language Network
Потрогать руками языковые сети можно также в проекте MIT - Global Language Network. В этой интерактивной сети узлы — это языки, а связи между ними и их толщина — книжные переводы с одного языка на другой и тексты в Википедии и Твиттере. Размер узлов представляет количество людей, говорящих на этом языке.

Рис. 3. Сеть Global Language Network.

Эта сеть построена на основе исследования прошлого года Шахара Ронэна и коллег, которое также было опубликовано в PNAS. Исследователи выяснили, что в центре языковой сети  находится, разумеется, английский, а затем идут испанский, немецкий, французский, русский, португальский и китайский.

Особенности языковых сетей
Про многообразие сетей языка пишет (здесь и здесь) Рикард Соле с коллегами из института Санта Фе, где выполняется большое количество работ про сложные структуры, в частности сети. На рисунке 4 представлена сети взаимосвязи слов в текстовом фрагменте.

Рис. 4. Сеть из работы Sole at al (2005), построенная на отрывке из произведения Вирджинии Вульф. А — отрывок из текста. B — сетевая презентация этого отрывка, где наиболее часто употребляемые слова обозначены более светлыми цветами. Связи обозначают совместную встречаемость в тексте.

Рикард Соле с коллегами показывают, что языковые сети разные, но, как и любые сложные сети, имеют определенные тенденции. Например, большинство таких структур — это "сети малого мира". В сетях малого мира расстояние между двумя случайными вершинами относительно мало. Недавно этот феномен широко обсуждался в связи с новым исследованием Фейсбука о расстоянии между участниками этой онлайн сети.
Также, большинство подобных сетей характеризуются неравномерностью распределения связей. Большинство участников таких сетей связаны всего лишь с небольшим количеством других участников. В то же время, есть очень малое количество узлов (так называемых "хабов"), которые связаны с очень большим числом участников сети. Мы видим, что на рисунке 4 узлы расположены достаточно близко к другу, также как их соединяют артикли и предлоги, которые используются в большинстве предложений.

Комментариев нет:

Отправить комментарий