Кейс 3. Оцифровка архивных документов с помощью ИИ решения
Общая информация
- Компания/Заказчик:Arolsen Archives
- Консалтер/Интегратор:Accenture
- География:Германия
- Период проекта:Декабрь 2021 года.
- Отрасли:Услуги, консалтинг, рекрутинг, реклама, бухгалтерский учет
- Области управления бизнеса:учет, документооборот
- Решаемые бизнес-задачи:Обработка документов, Оцифровка документов
- Идеологические платформы и тренды:Искусственный интеллект
Исходная проблема, вызов, идея
Центр документации о преследованиях национал-социалистическим режимом Arolsen Archives хранит крупнейшую в мире коллекцию документов о нацистских преследованиях - 110 млн документов и цифровых объектов, часть из которых является частью программы ЮНЕСКО "Память мира". Важная часть работы архива - сделать эти документы доступными для всех, но долгий ручной процесс перевода, чтения, расшифровки, каталогизации и проверки этих документов могли бы занять десятилетия.
Чтобы облегчить этот процесс, архив Arolsen Archives запустила "#everynamecounts" - краудсорсинговый проект, в рамках которого добровольцы со всего мира вручную извлекают информацию из документов. Каждый документ индексируется независимо тремя добровольцами и, если их записи не совпадают, он проверяется на точность сотрудником архива. В итоге, чтобы проиндексировать и проверить 4 документа за час, может потребоваться до четырех человек.
Идея заключалась в использовании ИИ для ускорения процесса оцифровки архивных документов.
Описание кейса
С помощью решения компании Accenture по автоматизации на базе ИИ был создан сценарий использования технологии, в котором задействованы облачные технологии, решения по оптическому распознаванию символов (OCR), новейшие методы ИИ и машинного обучения. Решение было разработано в течение 10 недель.
Принцип работы решения: ИИ показывают документы из архива, и каждому полю (например, фамилии, религии, региону и т.д.) присваивается уровень "доверия". Документам, которые легко читаются, присваивается высокий уровень доверия. При работе с документами с более низким уровнем доверия добавляется человеческая обратная связь, чтобы ИИ мог лучше их интерпретировать. В результате происходит непрерывный процесс, в ходе которого ИИ учится на основе отзывов добровольцев и историков, повышая свою точность и скорость оцифровки документов.
Результат
До внедрения нового решения волонтеру архива Arolsen требовалось около 15 минут, чтобы извлечь и загрузить каждый документ. С новым подходом, основанным на искусственном интеллекте, на это уходит менее 20 секунд.
Поскольку ИИ быстрее фиксирует информацию и повышает ее точность, четверо добровольцев теперь могут проверить около 160 документов за час, что обеспечивает в 40 раз большую производительность. Просматривая и при необходимости исправляя информацию от ИИ, добровольцы учат решение распознавать почерк и аббревиатуры, характерные для того времени. Благодаря их вкладу ИИ постепенно повысил точность на 10% в поле формы "фамилия матери". Для поля "религия" ИИ теперь работает с уверенностью в 99%.
С момента внедрения в декабре 2021 года к моменту публикации новости в апреле 2022 ИИ решение проиндексировало более 160 000 имен жертв, извлекло информацию из более чем 18 000 документов и каталогизировало более 63 000 документов в похожие кластеры, для более легкого и точного прочтения (в среднем на кластеризацию одного документа уходит менее одной секунды).