Кто поймет «Незнайку»? Автоматическое определение сложности текстов для детей


2021. № 5, 55-68

Борис Леонидович Иомдин,

Институт русского языка им. В. В. Виноградова РАН

(Россия, Москва),

iomdin@ruslang.ru

 

Дмитрий Алексеевич Морозов,

Новосибирский государственный университет

(Россия, Новосибирск),

morozowdm@gmail.com

Аннотация:

Необходимость оценить сложность текста для читателя может возникнуть в разных ситуациях: составление текстов договоров и законов, создание инструкций к приборам, написание учебников родного или иностранного языка, подбор литературы для внеклассного чтения. Особенно интересна оценка сложности учебных текстов для детей, поскольку к таким текстам предъявляется сразу несколько требований, отчасти противоречащих друг другу. Дети должны хорошо понимать эти тексты, они должны быть актуальны и интересны и одновременно учить читателей как новым концепциям, так и новым словам и конструкциям. Сейчас возрастная маркировка текстов для детей проводится экспертами вручную, что делает процесс долгим и трудоемким, а результат субъективным. В статье предлагается метод автоматической классификации текстов по сложности с использованием нейросетевой модели. Этот метод предполагается использовать для создания корпуса текстов детской литературы с разметкой по возрасту (в рамках НКРЯ). Качество предсказаний нашей модели достигло 0,92, она достаточно хорошо учитывает разнообразие лексики и набор тем. Появление автоматического механизма, с приемлемой точностью оценивающего степень сложности текста, позволит в короткие сроки создать представительный корпус текстов, написанных для детей, с возможностью подбора в нем текстов, заведомо понятных детям заданного возраста. Такой корпус будет востребован и учителями, и родителями, и переводчиками художественной литературы, и лингвистами, и всеми, кому важна возможность подбора понятных детям художественных текстов.

Для цитирования:

Иомдин Б. Л., Морозов Д. А. Кто поймет «Незнайку»? Автоматическое определение сложности текстов для детей // Русская речь. 2021. № 5. С. 55–68. DOI: 10.31857/S013161170017239-1.

Благодарности:

Работа выполнена при финансовой поддержке РФФИ, проект 19-29-14224