Корпус татышлинского удмуртского

Ниже перечислены основные характеристики корпуса:

Язык	удмуртский
Размер	ок. 54,8 тыс. словоупотреблений (март 2025 г.)
Тексты	- выровненные со звуком расшифровки записей на татышлинском говоре удмуртского языка (периферийно-южный диалект), сделанных экспедициями ОТиПЛа МГУ с 2019 г.; - опубликованные тексты на татышлинском говоре
Вариант языка	диалектный удмуртский (расшифровки выполнены в орфографии, приближенной к стандартной; дополнительно приводится фонологическая транскрипция, используемая в экспедиционном проекте, или запись из источника).
Разметка	переводы предложений на русский язык автоматическая морфологическая разметка (лемматизация, часть речи, все словоизменительные категории), 97,7% словоформ имеют хотя бы один разборучитываются слова, не содержащие цифр и латинских символов частичное снятие омонимии (в среднем около 1,5 разбора на каждое разобранное слово) разметка русских заимствований разметка нескольких лексико-семантических классов: одушевлённость/личность, части тела, транспорт, разные классы имён собственных разметка переходности глаголов и (частично) их моделей управления глоссирование переводы лемм на русский язык
Метаданные	название текста время записи подкорпус (экспедиционные расшифровки со звуком / опубликованные тексты) коды говорящих коды лингвистов, участвовавших в записи и расшифровке коды носителей, с которыми расшифровывался текст место рождения говорящего место проживания говорящего год рождения говорящего жанр

В корпусе представлены две категории текстов на татышлинском удмуртском. В "устном" подкорпусе (spoken) представлены тексты, записанные и расшифрованные участниками экспедиций Отделения теоретической и прикладной лингвистики (ОТиПЛ) филологического факультета МГУ им. М. В. Ломоносова в Татышлинском районе Республики Башкортостан. На текущий момент работа преимущественно велась в с. Нижнебалтачево, д. Старый Кызыл-Яр, д. Ивановка, с. Новые Татышлы. Помимо этого, участники проекта посетили с. Старокальмиярово, д. Верхнебалтачево, с. Уразгильды. Руководителем экспедиций является Е. В. Кашкин. Информация о проекте размещается на его сайте. В подкорпусе опубликованных текстов (published) находятся расшифровки диалектных текстов из опубликованных источников, которые не сопровождаются звуком.

Расшифровки текстов выполнены в записи, приближенной к орфографии литературного языка, но не совпадающей с ней полностью. В расшифровке нормализуются системные фонетические соответствия (например, записывается буква ы, на месте которой в татышлинском говоре произносится редуцированный гласный; записывается обозначающая твердую аффрикату буква ӵ, на месте которой может произноситься š или мягкая аффриката č'). Не нормализуются такие соответствия в отдельных аффиксах или на стыках морфем, которые не могут быть объяснены регулярными фонетическими процессами (например, показатель элатива записывается как -ись / -ӥсь, ср. -ысь в литературном языке; форма деепричастия глагола луыны может быть записана как луыса либо луса в зависимости от фактического произнесения). Подробнее о разработке системы записи для удмуртских диалектных корпусов можно прочитать в этой статье.

Дополнительно к кириллической строке в корпусе приводится фонологическая транскрипция, используемая в экспедиционном проекте.

Что такое корпус?

Корпусом языка называется коллекция текстов на этом языке, снабжённая дополнительной лингвистической информацией (разметкой, или аннотацией) и поисковым механизмом. Краткое введение в языковые корпуса и корпусную лингвистику можно посмотреть в интервью академика В. А. Плунгяна на ПостНауке .

— Кому нужны корпуса?

В первую очередь, корпуса нужны лингвистам — исследователям, изучающим конкретные языки или язык в целом. Поисковая система и разметка корпусов сконструированы таким образом, чтобы в них можно было задавать лингвистические запросы вроде «найти все существительные в родительном падеже» или «найти все формы слова коӵыш перед глаголами». Кроме того, корпуса могут пригодиться преподавателям языка (в корпусах, например, можно находить примеры для упражнений), а также изучающим язык и самим носителям языка.

— Можно ли использовать корпус как библиотеку?

Нет, корпус для этого не предназначен. Работа с корпусом состоит в том, что пользователь задаёт запрос — ищет какое-либо слово, фразу или конструкцию, — а корпус выдаёт в ответ все предложения, в которых встречаются искомые слова. По умолчанию предложения выдаются в перемешанном порядке. При желании у каждого предложения можно расширить контекст, т. е. показать соседние с ним предложения. Однако для каждого предложения эту операцию можно совершить ограниченное число раз. Таким образом, пользователь не может увидеть текст целиком. Это необходимо, в частности, для защиты авторских прав.

— Можно ли использовать корпус как словарь?

У каждого удмуртского слова в корпусе есть перевод на русский. Однако это всего лишь вспомогательная информация для тех, кто недостаточно хорошо владеет удмуртским языком. Переводы слов в корпусе специально укорочены, не отражают всех оттенков значения и не содержат примеров употреблений. Если Вы хотите узнать перевод слова, намного лучше будет воспользоваться для этого специализированным словарём (например, здесь).

— Что такое морфологическая разметка и как она сделана?

В представленном здесь корпусе имеется лемматизация и морфологическая разметка. Лемматизация означает, что при каждой словоформе указана её лемма, то есть начальная форма. Морфологическая разметка означает, что для каждой словоформы указаны её грамматические характеристики: часть речи, число, падеж, время и т. п. Поскольку эти корпуса слишком большие, чтобы размечать их вручную, разметка делалась автоматически при помощи специальной программы — морфологического анализатора. Анализатор, в свою очередь, использует составленный вручную грамматический словарь и формализованное описание удмуртского словоизменения. Анализатор вместе со словарём свободно распространяется и доступен на гитхабе. Использование автоматической разметки, к сожалению, означает, что, во-первых, отсутствующие в словаре слова останутся неразобранными, а во-вторых, что в некоторых случаях возникнет омонимия. Например, увидев форму каре, анализатор не может понять, является ли это формой посессива 1 л. ед. ч. от слова кар («мой город»), формой иллатива от того же слова («в город») или вообще формой глагола карыны «делать». Омонимия частично снимается при помощи контекстных правил, составленных вручную. Русские предложения (переводы) были размечены автоматически с помощью анализатора mystem.

Удмуртский язык

Удмуртский принадлежит к пермской группе уральских языков. На нём говорят примерно 330 000 человек, которые живут в основном в Удмуртии и граничащих с ней регионах. Удмуртская письменность основана на кириллице (русский алфавит с добавлением нескольких букв с диакритиками). Все морфологические грамматические категории выражаются суффиксально и агглютинативно. Следов сингармонизма, который предположительно имел место в прауральском языке, в удмуртском не осталось. Именные грамматические категории включают число, падеж и посессивность. Глаголы различают четыре морфологических времени (прямое и эвиденциальное прошедшее, настоящее и будущее) и индексируют лицо и число субъекта. Прямое дополнение маркируется номинативом или аккузативом (дифференциальное объектное маркирование). Порядок слов в предложении относительно свободный, основным является SOV (подлежащее – прямое дополнение – глагол).

Грамматические тэги

Грамматические значения при каждом слове указываются с помощью специальных помет — тэгов. Ниже приводится полный список используемых тэгов для удмуртского языка в алфавитном порядке с расшифровкой.

ADJ — прилагательное
ADJPRO — местоимение-прилагательное
ADV — наречие
ADVPRO — местоимение-наречие
CNJ — союз
IMIT — идеофон (изобразительное слово)
INTRJ — междометие
N — существительное
NUM — числительное
PARENTH — вводное слово
PART — частица
PN — имя собственное (подтип существительного)
POST — послелог
PREDIC — предикатив
PRO — местоимение
V — глагол
I — 1-е спряжение (не на -а)
II — 2-е спряжение (на -а)
1 — 1-е лицо глагола
1pl — притяжательный суффикс 1 л. мн. ч.
1sg — притяжательный суффикс 1 л. ед. ч.
2 — 2-е лицо глагола
2pl — притяжательный суффикс 2 л. мн. ч.
2sg — притяжательный суффикс 2 л. ед. ч.
3 — 3-е лицо глагола
3pl — притяжательный суффикс 3 л. мн. ч.
3sg — притяжательный суффикс 3 л. ед. ч.
abbr — аббревиатура
abl — аблатив
acc — аккузатив
adj_nmlz — номинализация прилагательного
adv — адвербиалис
anim — одушевлённое существительное
app — аппроксиматив
attr — атрибутивизатор (любой)
attr_em — атрибутивизатор -ем
attr_o — атрибутивизатор -о
attr_tem — атрибутивизатор -тэм
body — часть тела
car — каритив
case_comp — двойное падежное маркирование
caus — каузатив
coll — собирательное числительное
comp — сравнительная степень
cvb — деепричастие
cvb.gen — деепричастие на -са
cvb,dur — деепричастие на -онъя-
cvb,lim — деепричастие на -тозь
cvb,simult — деепричастие на -ку
dat — датив
deb — дебитив (форма на -оно)
distr — дистрибутивное числительное
egr — эгрессив
el — элатив
evid — второе (неочевидное) прошедшее время
famn — фамилия
fict — притворная форма на -эмъяськ-
fut — будущее время
gen — генитив
hort — гортатив (форма на -оме-)
hum — существительное, означающее человека
ill — иллатив
imp — императив
impers — безличный глагол
inf — инфинитив
ins — инструменталис
intr — непереходный глагол
iter — итератив
loc — локатив (инэссив)
missp — опечатка
mult — мультипликатив (-я-)
neg — отрицательная форма
nom — номинатив
oblin — облинатив (прилагательное на -эсь)
ord — порядковое числительное
pass — пассив
patrn — отчество
period — форма на -скын
persn — личное имя
pl — множественное число
poss_comp — притяжательность при двойном падежном маркировании
prol — пролатив
prs — настоящее время
pst — прошедшее время
ptcp — причастие
ptcp,act — действительное причастие
ptcp,pass — причастие на -мон
ptcp,res — результативное причастие на -мын
refl — возвратное местоимение
rel_adj — реляционное прилагательное
rel_n — реляционное имя (изменяемый послелог)
rus — заимствование из русского или через русский
rus_afx — русский аффикс при удмуртском корне
rus_inf — инфинитив русского глагола
rus_ipfv — русский глагол несовершенного вида
rus_pfv — русский глагол совершенного вида
rus_pfv_ipfv — русский глагол совершенного/несовершенного вида
sg — единственное число
subj — условное наклонение
supernat — существительное, означающее сверхъестественное существоТакая категория неизбежно возникает при классификации по одушевлённости/личности. Поскольку непонятно, классифицировать ли такие случаи как существительные, обозначающие людей, мы вводим для них отдельную категорию, оставляя таким образом пользователю возможность выбора.
term — терминатив
time_meas — единица измерения времени
topn — топоним
tr — переходный глагол
transport — транспорт
vn — отглагольное имя на -он
with_abl — глагол, использующийся с аблативом
with_dat — глагол, использующийся с дативом
with_el — глагол, использующийся с элативом
with_ill — глагол, использующийся с иллативом
with_inf — глагол, использующийся с инфинитивом
with_instr — глагол, использующийся с инструменталисом

Набор тэгов для русского языка (в русских переводах) можно посмотреть на сайте Национального корпуса русского языка.

Корпус татышлинского удмуртского

Что такое корпус?

Удмуртский язык

Грамматические тэги

Контакты