Кейс 3. Оцифровка архивных документов с помощью ИИ решения


Общая информация

01
  • Компания/Заказчик:
    Arolsen Archives
  • Консалтер/Интегратор:
    Accenture
  • География:
    Германия
  • Период проекта:
    Декабрь 2021 года.
  • Отрасли:
    Услуги, консалтинг, рекрутинг, реклама, бухгалтерский учет
  • Области управления бизнеса:
    учет, документооборот
  • Решаемые бизнес-задачи:
    Обработка документов, Оцифровка документов

Исходная проблема, вызов, идея

02
Исходная проблема, вызов, идея

Центр документации о преследованиях национал-социалистическим режимом Arolsen Archives хранит крупнейшую в мире коллекцию документов о нацистских преследованиях - 110 млн документов и цифровых объектов, часть из которых является частью программы ЮНЕСКО "Память мира". Важная часть работы архива - сделать эти документы доступными для всех, но долгий ручной процесс перевода, чтения, расшифровки, каталогизации и проверки этих документов могли бы занять десятилетия.

Чтобы облегчить этот процесс, архив Arolsen Archives запустила "#everynamecounts" - краудсорсинговый проект, в рамках которого добровольцы со всего мира вручную извлекают информацию из документов. Каждый документ индексируется независимо тремя добровольцами и, если их записи не совпадают, он проверяется на точность сотрудником архива. В итоге, чтобы проиндексировать и проверить 4 документа за час, может потребоваться до четырех человек.

Идея заключалась в использовании ИИ для ускорения процесса оцифровки архивных документов.


Описание кейса

03
Описание кейса

С помощью решения компании Accenture по автоматизации на базе ИИ был создан сценарий использования технологии, в котором задействованы облачные технологии, решения по оптическому распознаванию символов (OCR), новейшие методы ИИ и машинного обучения. Решение было разработано в течение 10 недель.

Принцип работы решения: ИИ показывают документы из архива, и каждому полю (например, фамилии, религии, региону и т.д.) присваивается уровень "доверия". Документам, которые легко читаются, присваивается высокий уровень доверия. При работе с документами с более низким уровнем доверия добавляется человеческая обратная связь, чтобы ИИ мог лучше их интерпретировать. В результате происходит непрерывный процесс, в ходе которого ИИ учится на основе отзывов добровольцев и историков, повышая свою точность и скорость оцифровки документов.


Результат

04
Результат

До внедрения нового решения волонтеру архива Arolsen требовалось около 15 минут, чтобы извлечь и загрузить каждый документ. С новым подходом, основанным на искусственном интеллекте, на это уходит менее 20 секунд.

Поскольку ИИ быстрее фиксирует информацию и повышает ее точность, четверо добровольцев теперь могут проверить около 160 документов за час, что обеспечивает в 40 раз большую производительность. Просматривая и при необходимости исправляя информацию от ИИ, добровольцы учат решение распознавать почерк и аббревиатуры, характерные для того времени. Благодаря их вкладу ИИ постепенно повысил точность на 10% в поле формы "фамилия матери". Для поля "религия" ИИ теперь работает с уверенностью в 99%.

С момента внедрения в декабре 2021 года к моменту публикации новости в апреле 2022 ИИ решение проиндексировало более 160 000 имен жертв, извлекло информацию из более чем 18 000 документов и каталогизировало более 63 000 документов в похожие кластеры, для более легкого и точного прочтения (в среднем на кластеризацию одного документа уходит менее одной секунды).


Кейсы по цифровой трансформации в финансовой отрасли
06

Обратная связь
07

Остались вопросы, напишите нам