IMPACT оцифрует редкие книги

26 августа 2010, Баранова Светлана 0
Совместный проект IBM и Евросоюза призван облегчить оцифровку старинных книг и документов.

Корпорация IBM совместно с Европейским Союзом запустила исследовательский проект IMPACT (IMProving ACcess to Text — "улучшение доступа к тестам"), направленный на оцифровку редких исторических и культурно значимых текстов. Инициатива предусматривает размещение оцифрованных документов в Интернете для поиска и онлайн-редактирования. В проекте участвуют порядка тридцати национальных библиотек, научно-исследовательских институтов, университетов и организаций со всей Европы.

IMPACT оцифрует редкие книги

IMPACT сочетает возможности инновационного веб-ориентированного программного обеспечения для адаптивного оптического распознавания символов (OCR) с технологией "crowd computing", основанной на совместном использовании коллективных знаний, навыков и опыта многочисленных групп людей для расширения, углубления и совершенствования процесса с целью коренного улучшения его качества и эффективности.

Объединение этих технологий позволит участникам проекта адаптировать процедуры оцифровки и распознавания текста к особенностям древних шрифтов, к искажениям и аномалиям, и даже к специфическим терминологиям и лексиконам. Это сократит частоту появления ошибок на 35%, а вероятность замещения и подстановки символов и сочетаний символов — на 75%.

"Единственным способом осуществления крупномасштабного проекта по преобразованию текстов в цифровую форму является коренное улучшение качества первоначального оптического распознавания текста и максимально возможное сокращение последующей ручной обработки, — подчеркивает Хильделиз Балк (Hildelies Balk), руководитель отдела европейских проектов Национальной библиотеки Нидерландов (Koninklijke Bibliotheek) и координатор проекта IMPACT. — С помощью IMPACT мы надеемся достичь значимого улучшения продуктивности процесса оцифровки текстов".

В основе проекта оцифровки лежит уникальная система коллективной корректуры, разработанная IBM. Она обладает интерактивным веб-интерфейсом, что облегчает для добровольцев-корректоров со всего континента проверку правильности обработки текста и исправление ошибок оптического распознавания. Кроме того, система обладает способностью обучаться на обнаруженных OCR-ошибках и автоматически адаптироваться к специфике шрифтов.

Технология IMPACT оптимизирует, упрощает и ускоряет процесс исследования отсканированного текста и отбора спорных (сомнительных) участков, предоставляя корректорам возможность эффективно править текст. Вместо отображения полного текста оцифрованной страницы корректоры видят только буквы или слова, помеченные как спорные.

Например, комбинация букв "r" и "n" ("rn") может быть неотличима от буквы "m". В подобных случаях система отбирает многие встречающиеся в тесте варианты использования буквы "m" и размещает эти примеры рядом со "спорными" буквами. Данная методика существенно облегчает правильное определение букв в словах текста.

IMPACT оцифрует редкие книги

В случаях, когда неочевидным является целое слово, оно добавляется в специальный словарь спорных выражений, которые сортируются в алфавитном порядке. Корректор может принять или отклонить предлагаемые замены-подставновки одним щелчком мыши. Кроме того, система использует метод адаптивного расширения словаря, когда новые слова добавляются в основной словарь на основе кросс-идентификации и правки другими пользователями.

IMPACT оцифрует редкие книги

Так, например, текст небольшой книжки, который набирается вручную на компьютере, в среднем, за четыре часа, можно оцифровать с помощью стандартной OCR-технологии и вручную откорректировать за час. Внедрение новой технологии коллективной корректуры сокращает этот процесс до 30 минут, а новая адаптивная система оптического распознавания текста IBM может ускорить его еще на 15 минут.

Рекомендуем также почитать

  1. Компания IBM
  2. Новость IBM купит Datacap
  3. Новость Медицинские данные будут получать из облака
  4. Новость IBM разработает мобильный интерфейс для малограмотных
  5. Новость IBM помогла изучить бактерии из Мариинской впадины
  6. Новость IBM купила Coremetrics
  7. Новость В Польше создадут Центр облачных вычислений
  8. Видео:

Отзывы

0 Оставить отзыв

    Добавить отзыв

    загрузить другую
    Ваш отзыв

    Свежие новости раздела

    Все новости раздела

    Все свежие новости

    Все новости