УФУ: Филологи планируют построить модель авторской сочетаемости слов
Филологи УрФУ работают над компьютерным моделированием авторской сочетаемости слов. В результате анализа произведений Льва Толстого, Федора Достоевского, Ивана Тургенева и других классиков они хотят выявить стилистические особенности, присущие каждому автору.
«Цель проекта — построить систематизированные модели авторской сочетаемости слов и выявить текстовые функции особенных сочетаний, — рассказывает руководитель исследования, профессор кафедры фундаментальной и прикладной лингвистики и текстоведения Михаил Мухин. — Приведу пример из литературы XX века. Для писателя Михаила Шолохова было очень важно особое употребление слов, обозначающих части тела: руки, ноги, глаза. И мы находим у него большое количество нетипичных для других авторов сочетаний с этими словами: например, люди или животные ходят „переступая ногами“, а глаза у персонажей часто насмешливые, припухшие, потемневшие или, наоборот, посветлевшие. У современников Шолохова — Владимира Набокова или Михаила Булгакова — нет каких-то особых сочетаний с этими словами».
Выявив нетрадиционные сочетания, филологи смогут построить авторские профили и, по сути, дополнить существующие исследования новыми характеристиками.
«В результате нашего исследования каждый писатель будет представлен как набор параметров, — поясняет Михаил Мухин. — Этими параметрами станут авторские слова и сочетания, которые в тексте выполняют самые разные функции: выражение эмоций, создание образа персонажей и многие другие. То есть за сочетаниями слов стоят стилевые приоритеты, которые авторы часто ненамеренно проявляют в своих произведениях».
Анализировать произведения филологи будут с помощью новых корпусных технологий. Корпус — это текстовая база данных, в которой возможен лингвистический поиск, в том числе и систематизация различных связей между словами.
«С одной стороны, не так сложно определить перечень слов, которые употребляет тот или иной автор. Безусловно, мы понимаем, что в распоряжении авторов, пишущих в одно время, один и тот же язык. С другой стороны, текст каждого писателя своеобразен, а модели индивидуальной сочетаемости слов построить пока еще не удавалось, так как самих сочетаний слишком много», — говорит Михаил Мухин.
Возможность создать такие модели появилась с развитием компьютерной лингвистики. Вручную систематизировать данные крайне сложно, поэтому ранее в классической филологии такие методы не использовались.
«Объем романа Льва Толстого „Война и мир“ примерно 450 тысяч слов. Другие классические произведения меньше, но, если взять ряд крупных текстов разных авторов, получается своего рода библиотека в несколько миллионов слов. Допустим, в среднем предложение состоит из десяти слов; значит, каждое слово имеет девять контекстных партнеров. И наши несколько миллионов слов превращаются в сотни миллионов сочетаний», — подсчитывает филолог.
Исследование «Формализация индивидуальной лексической сочетаемости как средство описания идиостилей: корпусное сопоставительное исследование классической прозы XIX в.» получило поддержку РФФИ на 2019–2021 годы. Результаты будут доступны на сайте УрФУ: авторы создадут раздел, где будут публиковать итоги хода работы. В этом году предполагается создать исследовательскую базу проекта.
УрФУ — участник Проекта 5-100, ключевым результатом которого должно стать появление в России к 2020-му году современных университетов-лидеров с эффективной структурой управления и международной академической репутацией, способных задавать тенденции развития мирового высшего образования.