Корпуса удмуртского языка

Вы находитесь на стартовой странице сайта, на котором размещены лингвистические корпуса удмуртского языка. В настоящий момент доступны три корпуса: корпус современного литературного удмуртского («основной корпус»), корпус удмуртских соцсетей и звуковой корпус удмуртских диалектов. Они отличаются представленным в них материалом, но имеют в целом одинаковую разметку и поисковые возможности. Вот их сравнительные характеристики:

	Основной корпус	Корпус соцсетей	Звуковой корпус
Язык	удмуртский	удмуртский и русский	удмуртский
Размер	9,57 миллионов словоупотреблений	2,66 миллионов словоупотреблений (удмуртская часть) 9,83 миллионов словоупотреблений (русская часть)	11 тысяч словоупотреблений (не считая речи лингвиста)
Тексты	современная пресса (до января 2018 г.) — 91,3%, блоги — 5,1%, Новый завет, Википедия, литература	открытые посты и комментарии удмуртоязычных пользователей Вконтакте (до февраля 2018 г.)	выровненные со звуком расшифровки записей, сделанные Екатериной Георгиевой в 2014 г.
Регистр языка	в большинстве случаев нормативный письменный литературный удмуртский или близкий к нему	язык электронной коммуникации: ближе к разговорному, с влиянием диалектов и русского языка, часто содержит переключение кодов	разговорный/диалектный удмуртский (расшифровки выполнены в орфографии, приближенной к стандартной)
Разметка	автоматическая морфологическая разметка (лемматизация, часть речи, все словоизменительные категории), 97,2% словоформ имеют хотя бы один разборучитываются слова, не содержащие цифр и латинских символов частичное снятие омонимии (в среднем около 1,4 разбора на каждое разобранное слово) разметка русских заимствований разметка нескольких лексико-семантических классов: одушевлённость/личность, части тела, транспорт, разные классы имён собственных разметка переходности глаголов и (частично) их моделей управления глоссирование переводы лемм на русский язык	автоматическая морфологическая разметка (лемматизация, часть речи, все словоизменительные категории), 93,5% словоформ имеют хотя бы один разборучитываются слова, не содержащие цифр и латинских символов частичное снятие омонимии (в среднем около 1,4 разбора на каждое разобранное слово) разметка русских заимствований разметка нескольких лексико-семантических классов: одушевлённость/личность, части тела, транспорт, разные классы имён собственных разметка переходности глаголов и (частично) их моделей управления глоссирование переводы лемм на русский язык	автоматическая морфологическая разметка (лемматизация, часть речи, все словоизменительные категории), 93,5% словоформ имеют хотя бы один разборучитываются слова, не содержащие цифр и латинских символов частичное снятие омонимии (в среднем около 1,4 разбора на каждое разобранное слово) разметка русских заимствований разметка нескольких лексико-семантических классов: одушевлённость/личность, части тела, транспорт, разные классы имён собственных разметка переходности глаголов и (частично) их моделей управления глоссирование переводы лемм на русский язык
Метаданные	название текста автор или название издания год создания (точная дата в случае газет) жанр	название группы (для групп) открытые характеристики автора, доступные на личной странице: пол (для всех авторов); если эта информация открыта, то год рождения (с точностью до 5 лет), места происхождения и проживания (с точностью до района Удмуртии или субъекта РФ); имена и ники пользователей скрыты год написания тип записи (пост/комментарий) язык (определяется автоматически отдельно для каждого предложения)	название текста место записи (район) автор записи год записи

Более подробную информацию о содержании удмуртского корпуса соцсетей и его разработке Вы можете найти в этой статье. Пожалуйста, сошлитесь на неё, если Ваше исследование будет основано на материале этого корпуса:

Timofey Arkhangelskiy. 2019. Corpora of social media in minority Uralic languages. Proceedings of the fifth Workshop on Computational Linguistics for Uralic Languages, pages 125–140, Tartu, Estonia, January 7 - January 8, 2019.

Целью звукового корпуса является документация разговорных и диалектных вариантов удмуртского языка. Этот корпус является совместным проектом Екатерины Георгиевой (Академия наук Венгрии) и Тимофея Архангельского. Этот корпус является важным ресурсом по трём причинам. Во-первых, записи устных текстов являются особенно ценным инструментом в случае языков, для которых лингвистических ресурсов не хватает. По этой причине важно, чтобы у научного и языкового сообществ был доступ ко всем собранным в поле материалам. Во-вторых, в отличие от большинства существующих материалов (корпусов и текстовых коллекций) по удмуртскому языку, в этом корпусе задокументированы диалекты и устный регистр удмуртского языка. В-третьих, мы надеемся, что публикация этого корпуса вдохновит других лингвистов, которые работали с удмуртским языком, опубликовать свои данные подобным образом. Если Вы хотели бы сделать имеющиеся у Вас записи и расшифровки общедоступными, мы будем рады добавить их в этот корпус.

В настоящее время корпус состоит из текстов, записанных Екатериной Георгиевой в ходе экспедиции, проходившей в июле–августе 2014 г. Тексты записывались в Алнашском, Граховском и Балезинском районах Удмуртии, в Ижевске и в Кукморском районе Татарстана. В записях представлен разговорный удмуртский язык с диалектными особенностями, характерными для соответствующих диалектных зон. В корпусе представлено три группы диалектов: северные, срединные и южные (включая периферийно-южные). Записи в основном представляют собой полуструктурированные интервью. Они включают в себя разные жанры: рассказы, разговоры носителей, описания обычаев и т. п. Единственныем используемым во время записи языком был удмуртский. В некоторых случаях интервью с носителем удмуртского языка проводил лингвист (не являющийся носителем); в других случаях другие носители помогали в проведении интервью.

Все записи были расшифрованы и выровнены в программе ELAN. Выравнивание осуществлялось по предложениям/высказываниям. В расшифровках используется стандартная удмуртская орфография, которая, однако, учитывает диалектные элементы. Кроме того, в тексте имеется разметка дискурсивных и экстралингвистических явлений. Морфологическая разметка была выполнена автоматически с помощью анализатора для литературного удмуртского языка. Более подробную информацию о подготовке текстов для корпуса Вы можете найти в этой статье:

Arkhangelskiy, Timofey and Ekaterina Georgieva. 2018. Sound-aligned corpus of Udmurt dialectal texts. In: Pirinen, Tommi A. (ed.), Proceedings of the 4th International Workshop for Computational Linguistics for Uralic Languages (IWCLUL 2018), 26–38. Stroudsburg (PA): Association for Computational Linguistics.

Пожалуйста, сошлитесь на эту статью, если Ваше исследование будет основано на материале этого корпуса.

Если Вы хотели бы добавить свои полевые записи к звуковому корпусу, пожалуйста, напишите Тимофею Архангельскому.

Что такое корпус?

Корпусом языка называется коллекция текстов на этом языке, снабжённая дополнительной лингвистической информацией (разметкой, или аннотацией) и поисковым механизмом. Краткое введение в языковые корпуса и корпусную лингвистику можно посмотреть в интервью академика В. А. Плунгяна на ПостНауке . Ниже я привожу несколько частых вопросов о представленных здесь корпусах удмуртского языка.

— Кому нужны корпуса?

В первую очередь, корпуса нужны лингвистам — исследователям, изучающим конкретные языки или язык в целом. Поисковая система и разметка корпусов сконструированы таким образом, чтобы в них можно было задавать лингвистические запросы вроде «найти все существительные в родительном падеже» или «найти все формы слова коӵыш перед глаголами». Кроме того, корпуса могут пригодиться преподавателям языка (в корпусах, например, можно находить примеры для упражнений), а также изучающим язык и самим носителям языка.

— Можно ли использовать корпус как библиотеку?

Нет, корпус для этого не предназначен. Работа с корпусом состоит в том, что пользователь задаёт запрос — ищет какое-либо слово, фразу или конструкцию, — а корпус выдаёт в ответ все предложения, в которых встречаются искомые слова. По умолчанию предложения выдаются в перемешанном порядке. При желании у каждого предложения можно расширить контекст, т. е. показать соседние с ним предложения. Однако для каждого предложения эту операцию можно совершить ограниченное число раз. Таким образом, пользователь не может увидеть текст целиком. Это необходимо, в частности, для защиты авторских прав.

— Можно ли использовать корпус как словарь?

У каждого удмуртского слова в корпусе есть перевод на русский. Однако это всего лишь вспомогательная информация для тех, кто недостаточно хорошо владеет удмуртским языком. Переводы слов в корпусе специально укорочены, не отражают всех оттенков значения и не содержат примеров употреблений. Если Вы хотите узнать перевод слова, намного лучше будет воспользоваться для этого специализированным словарём (например, здесь).

— Что такое морфологическая разметка и как она сделана?

В представленных здесь корпусах имеется лемматизация и морфологическая разметка. Лемматизация означает, что при каждой словоформе указана её лемма, то есть начальная форма. Морфологическая разметка означает, что для каждой словоформы указаны её грамматические характеристики: часть речи, число, падеж, время и т. п. Поскольку эти корпуса слишком большие, чтобы размечать их вручную, разметка делалась автоматически при помощи специальной программы — морфологического анализатора. Анализатор, в свою очередь, использует составленный вручную грамматический словарь и формализованное описание удмуртского словоизменения. Анализатор вместе со словарём свободно распространяется и доступен у меня на гитхабе. Использование автоматической разметки, к сожалению, означает, что, во-первых, отсутствующие в словаре слова останутся неразобранными, а во-вторых, что в некоторых случаях возникнет омонимия. Например, увидев форму каре, анализатор не может понять, является ли это формой посессива 1 л. ед. ч. от слова кар («мой город»), формой иллатива от того же слова («в город») или вообще формой глагола карыны «делать». Омонимия частично снимается при помощи контекстных правил, составленных вручную. Русские предложения в корпусе соцсетей были размечены автоматически с помощью анализатора mystem.

Удмуртский язык

Удмуртский принадлежит к пермской группе уральских языков. На нём говорят примерно 330 000 человек, которые живут в основном в Удмуртии и граничащих с ней регионах. Удмуртская письменность основана на кириллице (русский алфавит с добавлением нескольких букв с диакритиками). Все морфологические грамматические категории выражаются суффиксально и агглютинативно. Следов сингармонизма, который предположительно имел место в прауральском языке, в удмуртском не осталось. Именные грамматические категории включают число, падеж и посессивность. Глаголы различают четыре морфологических времени (прямое и эвиденциальное прошедшее, настоящее и будущее) и индексируют лицо и число субъекта. Прямое дополнение маркируется номинативом или аккузативом (дифференциальное объектное маркирование). Порядок слов в предложении относительно свободный, основным является SOV (подлежащее – прямое дополнение – глагол).

Грамматические тэги

Грамматические значения при каждом слове указываются с помощью специальных помет — тэгов. Ниже приводится полный список используемых тэгов для удмуртского языка в алфавитном порядке с расшифровкой. Набор тэгов во всех трёх корпусах одинаков.

ADJ — прилагательное
ADJPRO — местоимение-прилагательное
ADV — наречие
ADVPRO — местоимение-наречие
CNJ — союз
IMIT — идеофон (изобразительное слово)
INTRJ — междометие
N — существительное
NUM — числительное
PARENTH — вводное слово
PART — частица
PN — имя собственное (подтип существительного)
POST — послелог
PREDIC — предикатив
PRO — местоимение
V — глагол
I — 1-е спряжение (не на -а)
II — 2-е спряжение (на -а)
1 — 1-е лицо глагола
1pl — притяжательный суффикс 1 л. мн. ч.
1sg — притяжательный суффикс 1 л. ед. ч.
2 — 2-е лицо глагола
2pl — притяжательный суффикс 2 л. мн. ч.
2sg — притяжательный суффикс 2 л. ед. ч.
3 — 3-е лицо глагола
3pl — притяжательный суффикс 3 л. мн. ч.
3sg — притяжательный суффикс 3 л. ед. ч.
abbr — аббревиатура
abl — аблатив
acc — аккузатив
adj_nmlz — номинализация прилагательного
adv — адвербиалис
anim — одушевлённое существительное
app — аппроксиматив
attr — атрибутивизатор (любой)
attr_em — атрибутивизатор -ем
attr_o — атрибутивизатор -о
attr_tem — атрибутивизатор -тэм
body — часть тела
car — каритив
case_comp — двойное падежное маркирование
caus — каузатив
coll — собирательное числительное
comp — сравнительная степень
cvb — деепричастие
cvb.gen — деепричастие на -са
cvb,dur — деепричастие на -онъя-
cvb,lim — деепричастие на -тозь
cvb,simult — деепричастие на -ку
dat — датив
deb — дебитив (форма на -оно)
distr — дистрибутивное числительное
egr — эгрессив
el — элатив
evid — второе (неочевидное) прошедшее время
famn — фамилия
fict — притворная форма на -эмъяськ-
fut — будущее время
gen — генитив
hort — гортатив (форма на -оме-)
hum — существительное, означающее человека
ill — иллатив
imp — императив
impers — безличный глагол
inf — инфинитив
ins — инструменталис
intr — непереходный глагол
iter — итератив
loc — локатив (инэссив)
missp — опечатка
mult — мультипликатив (-я-)
neg — отрицательная форма
nom — номинатив
oblin — облинатив (прилагательное на -эсь)
ord — порядковое числительное
pass — пассив
patrn — отчество
period — форма на -скын
persn — личное имя
pl — множественное число
poss_comp — притяжательность при двойном падежном маркировании
prol — пролатив
prs — настоящее время
pst — прошедшее время
ptcp — причастие
ptcp,act — действительное причастие
ptcp,pass — причастие на -мон
ptcp,res — результативное причастие на -мын
refl — возвратное местоимение
rel_adj — реляционное прилагательное
rel_n — реляционное имя (изменяемый послелог)
rus — заимствование из русского или через русский
rus_afx — русский аффикс при удмуртском корне
rus_inf — инфинитив русского глагола
rus_ipfv — русский глагол несовершенного вида
rus_pfv — русский глагол совершенного вида
rus_pfv_ipfv — русский глагол совершенного/несовершенного вида
sg — единственное число
subj — условное наклонение
supernat — существительное, означающее сверхъестественное существоТакая категория неизбежно возникает при классификации по одушевлённости/личности. Поскольку непонятно, классифицировать ли такие случаи как существительные, обозначающие людей, мы вводим для них отдельную категорию, оставляя таким образом пользователю возможность выбора.
term — терминатив
time_meas — единица измерения времени
topn — топоним
tr — переходный глагол
transport — транспорт
vn — отглагольное имя на -он
with_abl — глагол, использующийся с аблативом
with_dat — глагол, использующийся с дативом
with_el — глагол, использующийся с элативом
with_ill — глагол, использующийся с иллативом
with_inf — глагол, использующийся с инфинитивом
with_instr — глагол, использующийся с инструменталисом

Набор тэгов для русского языка (в русских предложениях корпуса соцсетей) можно посмотреть на сайте Национального корпуса русского языка.

Авторы

Над разработкой первой версии корпуса удмуртского языка работали Мария Медведева и Тимофей Архангельский в рамках проекта в Школе лингвистики НИУ ВШЭ. С тех пор как первая версия корпуса увидела свет в 2014 году, поддержкой и развитием корпуса и морфологического анализатора занимается Тимофей Архангельский. Корпус соцсетей был создан им же в 2018 году в рамках проекта, поддержанного стипендией фонда Александра фон Гумбольдта. Первая версия звукового корпуса была опубликована в 2018 г. в результате совместного проекта Екатерины Георгиевой и Тимофея Архангельского. Корпуса используют техническую инфраструктуру Школы лингвистики ВШЭ.

Корпуса удмуртского языка

Что такое корпус?

Удмуртский язык

Грамматические тэги

Авторы

Контакты