Кто поймет «Незнайку»? Автоматическое определение сложности текстов для детей
Аннотация:
Необходимость оценить сложность текста для читателя может возникнуть в разных ситуациях: составление текстов договоров и законов, создание инструкций к приборам, написание учебников родного или иностранного языка, подбор литературы для внеклассного чтения. Особенно интересна оценка сложности учебных текстов для детей, поскольку к таким текстам предъявляется сразу несколько требований, отчасти противоречащих друг другу. Дети должны хорошо понимать эти тексты, они должны быть актуальны и интересны и одновременно учить читателей как новым концепциям, так и новым словам и конструкциям. Сейчас возрастная маркировка текстов для детей проводится экспертами вручную, что делает процесс долгим и трудоемким, а результат субъективным. В статье предлагается метод автоматической классификации текстов по сложности с использованием нейросетевой модели. Этот метод предполагается использовать для создания корпуса текстов детской литературы с разметкой по возрасту (в рамках НКРЯ). Качество предсказаний нашей модели достигло 0,92, она достаточно хорошо учитывает разнообразие лексики и набор тем. Появление автоматического механизма, с приемлемой точностью оценивающего степень сложности текста, позволит в короткие сроки создать представительный корпус текстов, написанных для детей, с возможностью подбора в нем текстов, заведомо понятных детям заданного возраста. Такой корпус будет востребован и учителями, и родителями, и переводчиками художественной литературы, и лингвистами, и всеми, кому важна возможность подбора понятных детям художественных текстов.