Корпуса удмуртского языка
Вы находитесь на стартовой странице сайта, на котором размещены лингвистические корпуса удмуртского языка. В настоящий момент доступны три корпуса: корпус современного литературного удмуртского («основной корпус»), корпус удмуртских соцсетей и звуковой корпус удмуртских диалектов. Они отличаются представленным в них материалом, но имеют в целом одинаковую разметку и поисковые возможности. Вот их сравнительные характеристики:
|
Основной корпус |
Корпус соцсетей |
Звуковой корпус |
Язык |
удмуртский |
удмуртский и русский |
удмуртский |
Размер |
9,57 миллионов словоупотреблений |
2,66 миллионов словоупотреблений (удмуртская часть) 9,83 миллионов словоупотреблений (русская часть) |
11 тысяч словоупотреблений (не считая речи лингвиста) |
Тексты |
современная пресса (до января 2018 г.) — 91,3%, блоги — 5,1%, Новый завет, Википедия, литература |
открытые посты и комментарии удмуртоязычных пользователей Вконтакте (до февраля 2018 г.) |
выровненные со звуком расшифровки записей, сделанные Екатериной Георгиевой в 2014 г. |
Регистр языка |
в большинстве случаев нормативный письменный литературный удмуртский или близкий к нему |
язык электронной коммуникации: ближе к разговорному, с влиянием диалектов и русского языка, часто содержит переключение кодов |
разговорный/диалектный удмуртский (расшифровки выполнены в орфографии, приближенной к стандартной) |
Разметка |
- автоматическая морфологическая разметка (лемматизация, часть речи, все словоизменительные категории), 97,2% словоформ имеют хотя бы один разборучитываются слова, не содержащие цифр и латинских символов
- частичное снятие омонимии (в среднем около 1,4 разбора на каждое разобранное слово)
- разметка русских заимствований
- разметка нескольких лексико-семантических классов: одушевлённость/личность, части тела, транспорт, разные классы имён собственных
- разметка переходности глаголов и (частично) их моделей управления
- глоссирование
- переводы лемм на русский язык
|
- автоматическая морфологическая разметка (лемматизация, часть речи, все словоизменительные категории), 93,5% словоформ имеют хотя бы один разборучитываются слова, не содержащие цифр и латинских символов
- частичное снятие омонимии (в среднем около 1,4 разбора на каждое разобранное слово)
- разметка русских заимствований
- разметка нескольких лексико-семантических классов: одушевлённость/личность, части тела, транспорт, разные классы имён собственных
- разметка переходности глаголов и (частично) их моделей управления
- глоссирование
- переводы лемм на русский язык
|
- автоматическая морфологическая разметка (лемматизация, часть речи, все словоизменительные категории), 93,5% словоформ имеют хотя бы один разборучитываются слова, не содержащие цифр и латинских символов
- частичное снятие омонимии (в среднем около 1,4 разбора на каждое разобранное слово)
- разметка русских заимствований
- разметка нескольких лексико-семантических классов: одушевлённость/личность, части тела, транспорт, разные классы имён собственных
- разметка переходности глаголов и (частично) их моделей управления
- глоссирование
- переводы лемм на русский язык
|
Метаданные |
- название текста
- автор или название издания
- год создания (точная дата в случае газет)
- жанр
|
- название группы (для групп)
- открытые характеристики автора, доступные на личной странице: пол (для всех авторов); если эта информация открыта, то год рождения (с точностью до 5 лет), места происхождения и проживания (с точностью до района Удмуртии или субъекта РФ); имена и ники пользователей скрыты
- год написания
- тип записи (пост/комментарий)
- язык (определяется автоматически отдельно для каждого предложения)
|
- название текста
- место записи (район)
- автор записи
- год записи
|
Более подробную информацию о содержании удмуртского корпуса соцсетей и его разработке Вы можете найти в этой статье. Пожалуйста, сошлитесь на неё, если Ваше исследование будет основано на материале этого корпуса:
Timofey Arkhangelskiy. 2019. Corpora of social media in minority Uralic languages. Proceedings of the fifth Workshop on Computational Linguistics for Uralic Languages, pages 125–140, Tartu, Estonia, January 7 - January 8, 2019.
Целью звукового корпуса является документация разговорных и диалектных вариантов удмуртского языка. Этот корпус является совместным проектом Екатерины Георгиевой (Академия наук Венгрии) и Тимофея Архангельского. Этот корпус является важным ресурсом по трём причинам. Во-первых, записи устных текстов являются особенно ценным инструментом в случае языков, для которых лингвистических ресурсов не хватает. По этой причине важно, чтобы у научного и языкового сообществ был доступ ко всем собранным в поле материалам. Во-вторых, в отличие от большинства существующих материалов (корпусов и текстовых коллекций) по удмуртскому языку, в этом корпусе задокументированы диалекты и устный регистр удмуртского языка. В-третьих, мы надеемся, что публикация этого корпуса вдохновит других лингвистов, которые работали с удмуртским языком, опубликовать свои данные подобным образом. Если Вы хотели бы сделать имеющиеся у Вас записи и расшифровки общедоступными, мы будем рады добавить их в этот корпус.
В настоящее время корпус состоит из текстов, записанных Екатериной Георгиевой в ходе экспедиции, проходившей в июле–августе 2014 г. Тексты записывались в Алнашском, Граховском и Балезинском районах Удмуртии, в Ижевске и в Кукморском районе Татарстана. В записях представлен разговорный удмуртский язык с диалектными особенностями, характерными для соответствующих диалектных зон. В корпусе представлено три группы диалектов: северные, срединные и южные (включая периферийно-южные). Записи в основном представляют собой полуструктурированные интервью. Они включают в себя разные жанры: рассказы, разговоры носителей, описания обычаев и т. п. Единственныем используемым во время записи языком был удмуртский. В некоторых случаях интервью с носителем удмуртского языка проводил лингвист (не являющийся носителем); в других случаях другие носители помогали в проведении интервью.
Все записи были расшифрованы и выровнены в программе ELAN. Выравнивание осуществлялось по предложениям/высказываниям. В расшифровках используется стандартная удмуртская орфография, которая, однако, учитывает диалектные элементы. Кроме того, в тексте имеется разметка дискурсивных и экстралингвистических явлений. Морфологическая разметка была выполнена автоматически с помощью анализатора для литературного удмуртского языка. Более подробную информацию о подготовке текстов для корпуса Вы можете найти в этой статье:
Arkhangelskiy, Timofey and Ekaterina Georgieva. 2018. Sound-aligned corpus of Udmurt dialectal texts. In: Pirinen, Tommi A. (ed.), Proceedings of the 4th International Workshop for Computational Linguistics for Uralic Languages (IWCLUL 2018), 26–38. Stroudsburg (PA): Association for Computational Linguistics.
Пожалуйста, сошлитесь на эту статью, если Ваше исследование будет основано на материале этого корпуса.
Если Вы хотели бы добавить свои полевые записи к звуковому корпусу, пожалуйста, напишите Тимофею Архангельскому.
Что такое корпус?
Корпусом языка называется коллекция текстов на этом языке, снабжённая дополнительной лингвистической информацией (разметкой, или аннотацией) и поисковым механизмом. Краткое введение в языковые корпуса и корпусную лингвистику можно посмотреть в интервью академика В. А. Плунгяна на ПостНауке. Ниже я привожу несколько частых вопросов о представленных здесь корпусах удмуртского языка.
— Кому нужны корпуса?
В первую очередь, корпуса нужны лингвистам — исследователям, изучающим конкретные языки или язык в целом. Поисковая система и разметка корпусов сконструированы таким образом, чтобы в них можно было задавать лингвистические запросы вроде «найти все существительные в родительном падеже» или «найти все формы слова коӵыш перед глаголами». Кроме того, корпуса могут пригодиться преподавателям языка (в корпусах, например, можно находить примеры для упражнений), а также изучающим язык и самим носителям языка.
— Можно ли использовать корпус как библиотеку?
Нет, корпус для этого не предназначен. Работа с корпусом состоит в том, что пользователь задаёт запрос — ищет какое-либо слово, фразу или конструкцию, — а корпус выдаёт в ответ все предложения, в которых встречаются искомые слова. По умолчанию предложения выдаются в перемешанном порядке. При желании у каждого предложения можно расширить контекст, т. е. показать соседние с ним предложения. Однако для каждого предложения эту операцию можно совершить ограниченное число раз. Таким образом, пользователь не может увидеть текст целиком. Это необходимо, в частности, для защиты авторских прав.
— Можно ли использовать корпус как словарь?
У каждого удмуртского слова в корпусе есть перевод на русский. Однако это всего лишь вспомогательная информация для тех, кто недостаточно хорошо владеет удмуртским языком. Переводы слов в корпусе специально укорочены, не отражают всех оттенков значения и не содержат примеров употреблений. Если Вы хотите узнать перевод слова, намного лучше будет воспользоваться для этого специализированным словарём (например, здесь).
— Что такое морфологическая разметка и как она сделана?
В представленных здесь корпусах имеется лемматизация и морфологическая разметка. Лемматизация означает, что при каждой словоформе указана её лемма, то есть начальная форма. Морфологическая разметка означает, что для каждой словоформы указаны её грамматические характеристики: часть речи, число, падеж, время и т. п. Поскольку эти корпуса слишком большие, чтобы размечать их вручную, разметка делалась автоматически при помощи специальной программы — морфологического анализатора. Анализатор, в свою очередь, использует составленный вручную грамматический словарь и формализованное описание удмуртского словоизменения. Анализатор вместе со словарём свободно распространяется и доступен у меня на гитхабе. Использование автоматической разметки, к сожалению, означает, что, во-первых, отсутствующие в словаре слова останутся неразобранными, а во-вторых, что в некоторых случаях возникнет омонимия. Например, увидев форму каре, анализатор не может понять, является ли это формой посессива 1 л. ед. ч. от слова кар («мой город»), формой иллатива от того же слова («в город») или вообще формой глагола карыны «делать». Омонимия частично снимается при помощи контекстных правил, составленных вручную. Русские предложения в корпусе соцсетей были размечены автоматически с помощью анализатора mystem.
Удмуртский язык
Удмуртский принадлежит к пермской группе уральских языков. На нём говорят примерно 330 000 человек, которые живут в основном в Удмуртии и граничащих с ней регионах. Удмуртская письменность основана на кириллице (русский алфавит с добавлением нескольких букв с диакритиками). Все морфологические грамматические категории выражаются суффиксально и агглютинативно. Следов сингармонизма, который предположительно имел место в прауральском языке, в удмуртском не осталось. Именные грамматические категории включают число, падеж и посессивность. Глаголы различают четыре морфологических времени (прямое и эвиденциальное прошедшее, настоящее и будущее) и индексируют лицо и число субъекта. Прямое дополнение маркируется номинативом или аккузативом (дифференциальное объектное маркирование). Порядок слов в предложении относительно свободный, основным является SOV (подлежащее – прямое дополнение – глагол).
Авторы
Над разработкой первой версии корпуса удмуртского языка работали Мария Медведева и Тимофей Архангельский в рамках проекта в Школе лингвистики НИУ ВШЭ. С тех пор как первая версия корпуса увидела свет в 2014 году, поддержкой и развитием корпуса и морфологического анализатора занимается Тимофей Архангельский. Корпус соцсетей был создан им же в 2018 году в рамках проекта, поддержанного стипендией фонда Александра фон Гумбольдта. Первая версия звукового корпуса была опубликована в 2018 г. в результате совместного проекта Екатерины Георгиевой и Тимофея Архангельского. Корпуса используют техническую инфраструктуру Школы лингвистики ВШЭ.