Ученые факультета информатики и вычислительной техники ЯрГУ им. П. Г. Демидова создали уникальную программу, способную находить требуемые по запросу слова и словосочетания из документации на русском языке. Разработка получила государственную регистрацию в Федеральной службе по интеллектуальной собственности.
Авторы проекта, доцент кафедры вычислительных и программных систем Ольга Леванова и ассистент Мария Аверина, сообщили, что программа может облегчить электронный документооборот, значительно ускорив рабочий процесс. Сфера ее применения обширна — отчетная документация, работа с судебными решениями, сбор статистических данных и многое другое.
— Сотрудник банка может отсканировать кредитный договор, а программа автоматически распознает фамилию и имя клиента, его паспортные данные, сумму и дату выдачи кредита. В дальнейшем эта информация может быть использована для автоматизации бизнес-процессов, например, при добавлении нового клиента в базу данных, — пояснила Ольга Леванова.
Алгоритм извлекает из документов так называемые в компьютерной лингвистике «именованные сущности». Это определенные смысловые фрагменты из текста, то есть информация, которую можно именовать конкретной категорией — фамилии, адреса, даты, валюты, города и улицы и многое другое.
— Для обучения программе необходимо получить набор размеченных текстов, где выделены интересующие пользователя сущности. После этого модель способна выделять те же сущности, для новых, неразмеченных документов, — отметила доцент Демидовского университета.