Ниже перечислены основные характеристики корпуса:
Язык | удмуртский |
---|---|
Размер | ок. 48,6 тыс. словоупотреблений (октябрь 2024 г.) |
Тексты | - выровненные со звуком расшифровки записей на татышлинском говоре удмуртского языка (периферийно-южный диалект), сделанных экспедициями ОТиПЛа МГУ с 2019 г.; - опубликованные тексты на татышлинском говоре |
Вариант языка | диалектный удмуртский (расшифровки выполнены в орфографии, приближенной к стандартной; дополнительно приводится фонологическая транскрипция, используемая в экспедиционном проекте, или запись из источника). |
Разметка |
|
Метаданные |
|
В корпусе представлены две категории текстов на татышлинском удмуртском. В "устном" подкорпусе (spoken) представлены тексты, записанные и расшифрованные участниками экспедиций Отделения теоретической и прикладной лингвистики (ОТиПЛ) филологического факультета МГУ им. М. В. Ломоносова в Татышлинском районе Республики Башкортостан. На текущий момент работа преимущественно велась в с. Нижнебалтачево, д. Старый Кызыл-Яр, д. Ивановка, с. Новые Татышлы. Помимо этого, участники проекта посетили с. Старокальмиярово, д. Верхнебалтачево, с. Уразгильды. Руководителем экспедиций является Е. В. Кашкин. Информация о проекте размещается на его сайте. В подкорпусе опубликованных текстов (published) находятся расшифровки диалектных текстов из опубликованных источников, которые не сопровождаются звуком.
Расшифровки текстов выполнены в записи, приближенной к орфографии литературного языка, но не совпадающей с ней полностью. В расшифровке нормализуются системные фонетические соответствия (например, записывается буква ы, на месте которой в татышлинском говоре произносится редуцированный гласный; записывается обозначающая твердую аффрикату буква ӵ, на месте которой может произноситься š или мягкая аффриката č'). Не нормализуются такие соответствия в отдельных аффиксах или на стыках морфем, которые не могут быть объяснены регулярными фонетическими процессами (например, показатель элатива записывается как -ись / -ӥсь, ср. -ысь в литературном языке; форма деепричастия глагола луыны может быть записана как луыса либо луса в зависимости от фактического произнесения). Подробнее о разработке системы записи для удмуртских диалектных корпусов можно прочитать в этой статье.
Дополнительно к кириллической строке в корпусе приводится фонологическая транскрипция, используемая в экспедиционном проекте.
Корпусом языка называется коллекция текстов на этом языке, снабжённая дополнительной лингвистической информацией (разметкой, или аннотацией) и поисковым механизмом. Краткое введение в языковые корпуса и корпусную лингвистику можно посмотреть в интервью академика В. А. Плунгяна на ПостНауке.
— Кому нужны корпуса?
В первую очередь, корпуса нужны лингвистам — исследователям, изучающим конкретные языки или язык в целом. Поисковая система и разметка корпусов сконструированы таким образом, чтобы в них можно было задавать лингвистические запросы вроде «найти все существительные в родительном падеже» или «найти все формы слова коӵыш перед глаголами». Кроме того, корпуса могут пригодиться преподавателям языка (в корпусах, например, можно находить примеры для упражнений), а также изучающим язык и самим носителям языка.
— Можно ли использовать корпус как библиотеку?
Нет, корпус для этого не предназначен. Работа с корпусом состоит в том, что пользователь задаёт запрос — ищет какое-либо слово, фразу или конструкцию, — а корпус выдаёт в ответ все предложения, в которых встречаются искомые слова. По умолчанию предложения выдаются в перемешанном порядке. При желании у каждого предложения можно расширить контекст, т. е. показать соседние с ним предложения. Однако для каждого предложения эту операцию можно совершить ограниченное число раз. Таким образом, пользователь не может увидеть текст целиком. Это необходимо, в частности, для защиты авторских прав.
— Можно ли использовать корпус как словарь?
У каждого удмуртского слова в корпусе есть перевод на русский. Однако это всего лишь вспомогательная информация для тех, кто недостаточно хорошо владеет удмуртским языком. Переводы слов в корпусе специально укорочены, не отражают всех оттенков значения и не содержат примеров употреблений. Если Вы хотите узнать перевод слова, намного лучше будет воспользоваться для этого специализированным словарём (например, здесь).
— Что такое морфологическая разметка и как она сделана?
В представленном здесь корпусе имеется лемматизация и морфологическая разметка. Лемматизация означает, что при каждой словоформе указана её лемма, то есть начальная форма. Морфологическая разметка означает, что для каждой словоформы указаны её грамматические характеристики: часть речи, число, падеж, время и т. п. Поскольку эти корпуса слишком большие, чтобы размечать их вручную, разметка делалась автоматически при помощи специальной программы — морфологического анализатора. Анализатор, в свою очередь, использует составленный вручную грамматический словарь и формализованное описание удмуртского словоизменения. Анализатор вместе со словарём свободно распространяется и доступен на гитхабе. Использование автоматической разметки, к сожалению, означает, что, во-первых, отсутствующие в словаре слова останутся неразобранными, а во-вторых, что в некоторых случаях возникнет омонимия. Например, увидев форму каре, анализатор не может понять, является ли это формой посессива 1 л. ед. ч. от слова кар («мой город»), формой иллатива от того же слова («в город») или вообще формой глагола карыны «делать». Омонимия частично снимается при помощи контекстных правил, составленных вручную. Русские предложения (переводы) были размечены автоматически с помощью анализатора mystem.
Удмуртский принадлежит к пермской группе уральских языков. На нём говорят примерно 330 000 человек, которые живут в основном в Удмуртии и граничащих с ней регионах. Удмуртская письменность основана на кириллице (русский алфавит с добавлением нескольких букв с диакритиками). Все морфологические грамматические категории выражаются суффиксально и агглютинативно. Следов сингармонизма, который предположительно имел место в прауральском языке, в удмуртском не осталось. Именные грамматические категории включают число, падеж и посессивность. Глаголы различают четыре морфологических времени (прямое и эвиденциальное прошедшее, настоящее и будущее) и индексируют лицо и число субъекта. Прямое дополнение маркируется номинативом или аккузативом (дифференциальное объектное маркирование). Порядок слов в предложении относительно свободный, основным является SOV (подлежащее – прямое дополнение – глагол).
Если у Вас есть вопросы, Вы хотели бы предложить сотрудничество или Вы заметили ошибку в корпусе, пожалуйста, напишите об этом Егору Кашкину.
Об ошибках в корпусе можно сообщать в гугл-форме.