Старопечатные документы содержат бесценные знания, которые передавались из поколения в поколение. Но бумажные носители подвержены разрушению. Один из самых надёжных способов сохранить их — это оцифровка.
В Новосибирске технологиям доверили прошлое: студентка НГУ Анна Мурашкина разработала уникальное приложение на базе машинного обучения, которое умеет читать и сохранять древние тибетские манускрипты.
Речь идёт о более чем 70 тысячах рукописей XVIII–XX веков, хранящихся в архивах Сибирского отделения РАН. Эти тексты — философия, медицина, религия, история — запечатлённые на стареющих листах бумаги, оказались под угрозой исчезновения. Чернила выцветают, бумага ветшает, а с ними уходят и уникальные знания. Решение Мурашкиной стало настоящим прорывом.
Приложение основано на сверхточной нейросети, обученной на тибетских текстах из фондов Института монголоведения, буддологии и тибетологии СО РАН. Анна вручную провела лингвистическую разметку строк, что позволило добиться высокой точности распознавания и учесть тонкости тибетской графики, основанной на древнеиндийском письме брахми.
Система охватывает весь цикл оцифровки: от предобработки изображений до сегментации и распознавания. Причём Мурашкина разработала и собственный модуль оценки качества, что позволило ей превзойти существующие решения и добиться высокой точности.
Кроме научного значения, проект Анны имеет и культурную миссию. Он не только сохраняет тексты, но и делает их доступными для исследователей, архивистов и библиотекарей. Система может быть внедрена в другие архивные учреждения и использована для оцифровки монастырских документов — не только в России, но и за её пределами.
«Старопечатные документы содержат бесценные знания, которые передавались из поколения в поколение. Но бумажные носители подвержены разрушению. Один из самых надёжных способов сохранить их — это оцифровка», — объясняет Мурашкина.
Сейчас она ведёт переговоры с Буддийским центром цифровых технологий о международном сотрудничестве. Её цель — глобальное сохранение тибетского культурного наследия.
Свежие комментарии