Корпуса удмуртского языка


Вы находитесь на общей стартовой странице корпусов удмуртского языка: основного корпусапресса, блоги, небольшое количество художественной и нехудожественной литературы литературного удмуртского, корпуса удмуртских соцсетей и звукового корпуса удмуртских диалектов.

Корпуса удмуртского языка

Включить/выключить меню

Вы находитесь на стартовой странице сайта, на котором размещены лингвистические корпуса удмуртского языка. В настоящий момент доступны три корпуса: корпус современного литературного удмуртского («основной корпус»), корпус удмуртских соцсетей и звуковой корпус удмуртских диалектов. Они отличаются представленным в них материалом, но имеют в целом одинаковую разметку и поисковые возможности. Вот их сравнительные характеристики:

Основной корпус Корпус соцсетей Звуковой корпус
Язык удмуртский удмуртский и русский удмуртский
Размер 9,57 миллионов словоупотреблений 2,66 миллионов словоупотреблений (удмуртская часть)
9,83 миллионов словоупотреблений (русская часть)
11 тысяч словоупотреблений (не считая речи лингвиста)
Тексты современная пресса (до января 2018 г.) — 91,3%, блоги — 5,1%, Новый завет, Википедия, литература открытые посты и комментарии удмуртоязычных пользователей Вконтакте (до февраля 2018 г.) выровненные со звуком расшифровки записей, сделанные Екатериной Георгиевой в 2014 г.
Регистр языка в большинстве случаев нормативный письменный литературный удмуртский или близкий к нему язык электронной коммуникации: ближе к разговорному, с влиянием диалектов и русского языка, часто содержит переключение кодов разговорный/диалектный удмуртский (расшифровки выполнены в орфографии, приближенной к стандартной)
Разметка
  • автоматическая морфологическая разметка (лемматизация, часть речи, все словоизменительные категории), 97,2% словоформ имеют хотя бы один разборучитываются слова, не содержащие цифр и латинских символов
  • частичное снятие омонимии (в среднем около 1,4 разбора на каждое разобранное слово)
  • разметка русских заимствований
  • разметка нескольких лексико-семантических классов: одушевлённость/личность, части тела, транспорт, разные классы имён собственных
  • разметка переходности глаголов и (частично) их моделей управления
  • глоссирование
  • переводы лемм на русский язык
  • автоматическая морфологическая разметка (лемматизация, часть речи, все словоизменительные категории), 93,5% словоформ имеют хотя бы один разборучитываются слова, не содержащие цифр и латинских символов
  • частичное снятие омонимии (в среднем около 1,4 разбора на каждое разобранное слово)
  • разметка русских заимствований
  • разметка нескольких лексико-семантических классов: одушевлённость/личность, части тела, транспорт, разные классы имён собственных
  • разметка переходности глаголов и (частично) их моделей управления
  • глоссирование
  • переводы лемм на русский язык
  • автоматическая морфологическая разметка (лемматизация, часть речи, все словоизменительные категории), 93,5% словоформ имеют хотя бы один разборучитываются слова, не содержащие цифр и латинских символов
  • частичное снятие омонимии (в среднем около 1,4 разбора на каждое разобранное слово)
  • разметка русских заимствований
  • разметка нескольких лексико-семантических классов: одушевлённость/личность, части тела, транспорт, разные классы имён собственных
  • разметка переходности глаголов и (частично) их моделей управления
  • глоссирование
  • переводы лемм на русский язык
Метаданные
  • название текста
  • автор или название издания
  • год создания (точная дата в случае газет)
  • жанр
  • название группы (для групп)
  • открытые характеристики автора, доступные на личной странице: пол (для всех авторов); если эта информация открыта, то год рождения (с точностью до 5 лет), места происхождения и проживания (с точностью до района Удмуртии или субъекта РФ); имена и ники пользователей скрыты
  • год написания
  • тип записи (пост/комментарий)
  • язык (определяется автоматически отдельно для каждого предложения)
  • название текста
  • место записи (район)
  • автор записи
  • год записи

Более подробную информацию о содержании удмуртского корпуса соцсетей и его разработке Вы можете найти в этой статье. Пожалуйста, сошлитесь на неё, если Ваше исследование будет основано на материале этого корпуса:

Timofey Arkhangelskiy. 2019. Corpora of social media in minority Uralic languages. Proceedings of the fifth Workshop on Computational Linguistics for Uralic Languages, pages 125–140, Tartu, Estonia, January 7 - January 8, 2019.

Целью звукового корпуса является документация разговорных и диалектных вариантов удмуртского языка. Этот корпус является совместным проектом Екатерины Георгиевой (Академия наук Венгрии) и Тимофея Архангельского. Этот корпус является важным ресурсом по трём причинам. Во-первых, записи устных текстов являются особенно ценным инструментом в случае языков, для которых лингвистических ресурсов не хватает. По этой причине важно, чтобы у научного и языкового сообществ был доступ ко всем собранным в поле материалам. Во-вторых, в отличие от большинства существующих материалов (корпусов и текстовых коллекций) по удмуртскому языку, в этом корпусе задокументированы диалекты и устный регистр удмуртского языка. В-третьих, мы надеемся, что публикация этого корпуса вдохновит других лингвистов, которые работали с удмуртским языком, опубликовать свои данные подобным образом. Если Вы хотели бы сделать имеющиеся у Вас записи и расшифровки общедоступными, мы будем рады добавить их в этот корпус.

В настоящее время корпус состоит из текстов, записанных Екатериной Георгиевой в ходе экспедиции, проходившей в июле–августе 2014 г. Тексты записывались в Алнашском, Граховском и Балезинском районах Удмуртии, в Ижевске и в Кукморском районе Татарстана. В записях представлен разговорный удмуртский язык с диалектными особенностями, характерными для соответствующих диалектных зон. В корпусе представлено три группы диалектов: северные, срединные и южные (включая периферийно-южные). Записи в основном представляют собой полуструктурированные интервью. Они включают в себя разные жанры: рассказы, разговоры носителей, описания обычаев и т. п. Единственныем используемым во время записи языком был удмуртский. В некоторых случаях интервью с носителем удмуртского языка проводил лингвист (не являющийся носителем); в других случаях другие носители помогали в проведении интервью.

Все записи были расшифрованы и выровнены в программе ELAN. Выравнивание осуществлялось по предложениям/высказываниям. В расшифровках используется стандартная удмуртская орфография, которая, однако, учитывает диалектные элементы. Кроме того, в тексте имеется разметка дискурсивных и экстралингвистических явлений. Морфологическая разметка была выполнена автоматически с помощью анализатора для литературного удмуртского языка. Более подробную информацию о подготовке текстов для корпуса Вы можете найти в этой статье:

Arkhangelskiy, Timofey and Ekaterina Georgieva. 2018. Sound-aligned corpus of Udmurt dialectal texts. In: Pirinen, Tommi A. (ed.), Proceedings of the 4th International Workshop for Computational Linguistics for Uralic Languages (IWCLUL 2018), 26–38. Stroudsburg (PA): Association for Computational Linguistics.

Пожалуйста, сошлитесь на эту статью, если Ваше исследование будет основано на материале этого корпуса.

Если Вы хотели бы добавить свои полевые записи к звуковому корпусу, пожалуйста, напишите Тимофею Архангельскому.

Что такое корпус?

Корпусом языка называется коллекция текстов на этом языке, снабжённая дополнительной лингвистической информацией (разметкой, или аннотацией) и поисковым механизмом. Краткое введение в языковые корпуса и корпусную лингвистику можно посмотреть в интервью академика В. А. Плунгяна на ПостНауке. Ниже я привожу несколько частых вопросов о представленных здесь корпусах удмуртского языка.

— Кому нужны корпуса?

В первую очередь, корпуса нужны лингвистам — исследователям, изучающим конкретные языки или язык в целом. Поисковая система и разметка корпусов сконструированы таким образом, чтобы в них можно было задавать лингвистические запросы вроде «найти все существительные в родительном падеже» или «найти все формы слова коӵыш перед глаголами». Кроме того, корпуса могут пригодиться преподавателям языка (в корпусах, например, можно находить примеры для упражнений), а также изучающим язык и самим носителям языка.

— Можно ли использовать корпус как библиотеку?

Нет, корпус для этого не предназначен. Работа с корпусом состоит в том, что пользователь задаёт запрос — ищет какое-либо слово, фразу или конструкцию, — а корпус выдаёт в ответ все предложения, в которых встречаются искомые слова. По умолчанию предложения выдаются в перемешанном порядке. При желании у каждого предложения можно расширить контекст, т. е. показать соседние с ним предложения. Однако для каждого предложения эту операцию можно совершить ограниченное число раз. Таким образом, пользователь не может увидеть текст целиком. Это необходимо, в частности, для защиты авторских прав.

— Можно ли использовать корпус как словарь?

У каждого удмуртского слова в корпусе есть перевод на русский. Однако это всего лишь вспомогательная информация для тех, кто недостаточно хорошо владеет удмуртским языком. Переводы слов в корпусе специально укорочены, не отражают всех оттенков значения и не содержат примеров употреблений. Если Вы хотите узнать перевод слова, намного лучше будет воспользоваться для этого специализированным словарём (например, здесь).

— Что такое морфологическая разметка и как она сделана?

В представленных здесь корпусах имеется лемматизация и морфологическая разметка. Лемматизация означает, что при каждой словоформе указана её лемма, то есть начальная форма. Морфологическая разметка означает, что для каждой словоформы указаны её грамматические характеристики: часть речи, число, падеж, время и т. п. Поскольку эти корпуса слишком большие, чтобы размечать их вручную, разметка делалась автоматически при помощи специальной программы — морфологического анализатора. Анализатор, в свою очередь, использует составленный вручную грамматический словарь и формализованное описание удмуртского словоизменения. Анализатор вместе со словарём свободно распространяется и доступен у меня на гитхабе. Использование автоматической разметки, к сожалению, означает, что, во-первых, отсутствующие в словаре слова останутся неразобранными, а во-вторых, что в некоторых случаях возникнет омонимия. Например, увидев форму каре, анализатор не может понять, является ли это формой посессива 1 л. ед. ч. от слова кар («мой город»), формой иллатива от того же слова («в город») или вообще формой глагола карыны «делать». Омонимия частично снимается при помощи контекстных правил, составленных вручную. Русские предложения в корпусе соцсетей были размечены автоматически с помощью анализатора mystem.

Удмуртский язык

Удмуртский принадлежит к пермской группе уральских языков. На нём говорят примерно 330 000 человек, которые живут в основном в Удмуртии и граничащих с ней регионах. Удмуртская письменность основана на кириллице (русский алфавит с добавлением нескольких букв с диакритиками). Все морфологические грамматические категории выражаются суффиксально и агглютинативно. Следов сингармонизма, который предположительно имел место в прауральском языке, в удмуртском не осталось. Именные грамматические категории включают число, падеж и посессивность. Глаголы различают четыре морфологических времени (прямое и эвиденциальное прошедшее, настоящее и будущее) и индексируют лицо и число субъекта. Прямое дополнение маркируется номинативом или аккузативом (дифференциальное объектное маркирование). Порядок слов в предложении относительно свободный, основным является SOV (подлежащее – прямое дополнение – глагол).

Грамматические тэги

Грамматические значения при каждом слове указываются с помощью специальных помет — тэгов. Ниже приводится полный список используемых тэгов для удмуртского языка в алфавитном порядке с расшифровкой. Набор тэгов во всех трёх корпусах одинаков.

  • ADJ — прилагательное
  • ADJPRO — местоимение-прилагательное
  • ADV — наречие
  • ADVPRO — местоимение-наречие
  • CNJ — союз
  • IMIT — идеофон (изобразительное слово)
  • INTRJ — междометие
  • N — существительное
  • NUM — числительное
  • PARENTH — вводное слово
  • PART — частица
  • PN — имя собственное (подтип существительного)
  • POST — послелог
  • PREDIC — предикатив
  • PRO — местоимение
  • V — глагол
  • I — 1-е спряжение (не на )
  • II — 2-е спряжение (на )
  • 1 — 1-е лицо глагола
  • 1pl — притяжательный суффикс 1 л. мн. ч.
  • 1sg — притяжательный суффикс 1 л. ед. ч.
  • 2 — 2-е лицо глагола
  • 2pl — притяжательный суффикс 2 л. мн. ч.
  • 2sg — притяжательный суффикс 2 л. ед. ч.
  • 3 — 3-е лицо глагола
  • 3pl — притяжательный суффикс 3 л. мн. ч.
  • 3sg — притяжательный суффикс 3 л. ед. ч.
  • abbr — аббревиатура
  • abl — аблатив
  • acc — аккузатив
  • adj_nmlz — номинализация прилагательного
  • adv — адвербиалис
  • anim — одушевлённое существительное
  • app — аппроксиматив
  • attr — атрибутивизатор (любой)
  • attr_em — атрибутивизатор -ем
  • attr_o — атрибутивизатор
  • attr_tem — атрибутивизатор -тэм
  • body — часть тела
  • car — каритив
  • case_comp — двойное падежное маркирование
  • caus — каузатив
  • coll — собирательное числительное
  • comp — сравнительная степень
  • cvb — деепричастие
  • cvb.gen — деепричастие на -са
  • cvb,dur — деепричастие на -онъя-
  • cvb,lim — деепричастие на -тозь
  • cvb,simult — деепричастие на -ку
  • dat — датив
  • deb — дебитив (форма на -оно)
  • distr — дистрибутивное числительное
  • egr — эгрессив
  • el — элатив
  • evid — второе (неочевидное) прошедшее время
  • famn — фамилия
  • fict — притворная форма на -эмъяськ-
  • fut — будущее время
  • gen — генитив
  • hort — гортатив (форма на -оме-)
  • hum — существительное, означающее человека
  • ill — иллатив
  • imp — императив
  • impers — безличный глагол
  • inf — инфинитив
  • ins — инструменталис
  • intr — непереходный глагол
  • iter — итератив
  • loc — локатив (инэссив)
  • missp — опечатка
  • mult — мультипликатив (-я-)
  • neg — отрицательная форма
  • nom — номинатив
  • oblin — облинатив (прилагательное на -эсь)
  • ord — порядковое числительное
  • pass — пассив
  • patrn — отчество
  • period — форма на -скын
  • persn — личное имя
  • pl — множественное число
  • poss_comp — притяжательность при двойном падежном маркировании
  • prol — пролатив
  • prs — настоящее время
  • pst — прошедшее время
  • ptcp — причастие
  • ptcp,act — действительное причастие
  • ptcp,pass — причастие на -мон
  • ptcp,res — результативное причастие на -мын
  • refl — возвратное местоимение
  • rel_adj — реляционное прилагательное
  • rel_n — реляционное имя (изменяемый послелог)
  • rus — заимствование из русского или через русский
  • rus_afx — русский аффикс при удмуртском корне
  • rus_inf — инфинитив русского глагола
  • rus_ipfv — русский глагол несовершенного вида
  • rus_pfv — русский глагол совершенного вида
  • rus_pfv_ipfv — русский глагол совершенного/несовершенного вида
  • sg — единственное число
  • subj — условное наклонение
  • supernat — существительное, означающее сверхъестественное существоТакая категория неизбежно возникает при классификации по одушевлённости/личности. Поскольку непонятно, классифицировать ли такие случаи как существительные, обозначающие людей, мы вводим для них отдельную категорию, оставляя таким образом пользователю возможность выбора.
  • term — терминатив
  • time_meas — единица измерения времени
  • topn — топоним
  • tr — переходный глагол
  • transport — транспорт
  • vn — отглагольное имя на -он
  • with_abl — глагол, использующийся с аблативом
  • with_dat — глагол, использующийся с дативом
  • with_el — глагол, использующийся с элативом
  • with_ill — глагол, использующийся с иллативом
  • with_inf — глагол, использующийся с инфинитивом
  • with_instr — глагол, использующийся с инструменталисом

Набор тэгов для русского языка (в русских предложениях корпуса соцсетей) можно посмотреть на сайте Национального корпуса русского языка.

Авторы

Над разработкой первой версии корпуса удмуртского языка работали Мария Медведева и Тимофей Архангельский в рамках проекта в Школе лингвистики НИУ ВШЭ. С тех пор как первая версия корпуса увидела свет в 2014 году, поддержкой и развитием корпуса и морфологического анализатора занимается Тимофей Архангельский. Корпус соцсетей был создан им же в 2018 году в рамках проекта, поддержанного стипендией фонда Александра фон Гумбольдта. Первая версия звукового корпуса была опубликована в 2018 г. в результате совместного проекта Екатерины Георгиевой и Тимофея Архангельского. Корпуса используют техническую инфраструктуру Школы лингвистики ВШЭ.

Контакты


Если у Вас есть вопросы, Вы хотели бы предложить сотрудничество или Вы заметили ошибку в корпусене считая опечаток в блогах и соцсетях: эти тексты специально оставляются в исходном виде, пожалуйста, напишите об этом Тимофею Архангельскому. Кроме того, Вы можете использовать по своему усмотрению свободно распространяемые удмуртский морфологический анализатор и корпусную платформу tsakorpus.