CLAIM – научно-образовательный кластер

Филиппович Андрей

Особенности сканирования микрофиш и микрофильмов

Содержание

Введение

Технология сканирования микрофиш

Влияние разрешения на качество изображения

Заключение

Литература

 

Введение

Технология микрофотокопирования (=микрофильмирование - совокупность процессов изготовления микроформ на различных фотоматериалах [СППТ, 1995]), позволяет получать фотографическим способом уменьшенные в десятки и сотни раз копии с рукописей, чертежей, печатных текстов и т. д. Микрофильм обычно содержит много кадров, расположенных друг за другом на одной фотопленке. Одной из разновидностей микрофильма является микрофиша. Она обычно содержит меньшее количество кадров, расположеных на одной фотопластине (слайде) в несколько рядов.

Создание микрофильмов позволяет получить доступ к редким источникам и возможность работы с ними за пределами библиотеки или музея, без нанесения им вреда. Данная технология получила широкое распространение в последней четверти XX века для компактного хранения дублей библиотечных и архивных фондов и эффективного доступа к ним. В течение нескольких десятков лет практически во всех крупных библиотеках и архивах создана инфраструктура, на основе которой реализуется технология создания микрофильмов и микрофиш - организационные подразделения (фотолаборатории, центры микрофильмирования); фонды хранения; залы, оснащенные специальным оборудованием для просмотра и т.п.

Основным недостатком технологии микрофильмирования является необходимость использования для просмотра микрофильмов специального оборудования.

Широкое распространение компьютерных технологий в библиотечном и архивном деле породило проблему выбора источника для создания электронных копий хранящихся в них материалов. Электронные копии архивов и библиотечных собраний могут быть созданы путем сканирования как оригинальных материалов, так и их микрофильмированных копий. В случае использования в качестве источника микрофильмов существуют два основных способа ввода данных в ЭВМ:

  • создать увеличенные фотокопии (изготовить фотографии листов) и ввести их в ЭВМ с помощью обычных сканеров;
  • отсканировать микрофильмы с помощью профессиональных слайд-сканеров, которые имеют возможность сильного увеличения, широкий диапазон обрабатываемых оптических плотностей и высокое разрешение.

В данной статье рассматриваются некоторые вопросы технологии и выбора параметров сканирования микрофильмов с помощью профессиональных слайд-сканеров.

Технология сканирования микрофиш

В 1999 году в секторе допечатных процессов Учебно-научного центра Московского Государственного Университета печати проводилась экспериментальная работа по сканированию 100 микрофиш библиографического словаря Полянского для создания его электронной копии. Данная работа возникла в связи с тем, что на тот момент времени печатные версии некоторых томов этого словаря отсутствовали. Иных альтернатив создания их электронных копий, кроме как на основе их микрофишированного дубля, не было.

Основным требованием к результату сканирования являлось качество результирующих изображений, которое должно было удовлетворять требованиям программ распознавания текста.

Было определено, что каждая страница должна иметь разрешение не менее 300 dpi. Размер микрофиши равен 147 мм по горизонтали и 105 мм по вертикали. Каждая микрофиша содержит 30 разворотов словаря, т.е. 60 страниц. Размер страницы оригинала словаря равен примерно формату А4, отсюда следует, что изображение должно быть увеличено в 120 раз, а разрешение с которым нужно отсканировать микрофишу равно 120*300=36000 dpi.

Конечно, такого разрешения не даст ни один серийный сканер. Максимальное разрешение, которое можно достичь на оборудовании фирмы Heidelberg, равно 24000dpi на сканере Chromagraph S3900. При этом максимальное увеличение не превышает 3000%.

В секторе допечатных процессов имеются два профессиональных сканера с высокой разрешающей способностью: Topaz (5080dpi) и Tango (11000dpi). Исходя из того, что результаты сканирования предназначены для распознавания текста, размер изображения не играет существенной роли. Основным критерием качества распознавания является количество точек.

Изображение на микрофише не имеет растровой структуры, поэтому его увеличение не приведет к сильному ухудшению качества распознавания. Это объясняется спецификой текстовой информации. Текст должен быть представлен в виде черно-белого изображения, поэтому эффект уменьшения насыщенности цвета при масштабировании не является критичным для малых и средних увеличений.

Первоначально сканирование осуществлялось на барабанном сканере Tango с помощью пакета LinoColor. В программе имеется возможность регулирования качества сканирования. При выборе качества Good, результирующие изображение имело существенные недостатки. Во время движения сканирующей головки вдоль оси барабана необходимо при каждом перемещении выбирать точку отсчета для сканирования по периметру барабана. В результате работы часто происходил сбой, в результате которого точка отсчета смещалась на 1-2 пикселя влево или вправо. Это приводило к сильному искажению начертания букв.

Для уменьшения этого дефекта была предпринята попытка поворота микрофиши на 90 градусов при ее закреплении на барабане. Качество изображения увеличилось, т.к. вертикальных штрихов в буквах алфавита больше, чем горизонтальных. Тем не менее, результаты распознавания были низкими. При сканировании микрофиш с качеством Excelent качество изображения сильно увеличивается, и дефекты почти не проявляются, но при этом сильно возрастает время сканирования. Время сканирования одной микрофиши при таком качестве приближается к часу.

Было принято решение использовать сканер Topaz. Модель этого устройства оснащена роботом, который позволяет автоматически монтировать на 5 специально разработанных подставках до 25 сменных кассет. К сожалению, максимальный размер сканирующей области одной кассеты равен 130x130 мм, что не позволяло разместить в ней микрофишу.

Для оптимального сканирования микрофиши были выбраны следующие параметры:

 

Увеличение 1800%
Разрешение 4050dpi
Входной размер по X 81,04
Входной размер по Y 138,08
Выходной размер по X 1458,7
Выходной размер по Y 2485,44
Mode Gray
Белая точка (мин. плотность) 3%
Черная точка (макс. Плотность) 95-96%

 

Сканер позволяет работать на максимальном разрешении только с небольшими оригиналами, поэтому было выбрано разрешение 4050 dpi. На этапе предварительного сканирования производилась обработка изображения, подбирались значения черной и белой точек. В таблице №1 приведены их средние значения. Средняя оптическая плотность вуали микрофиши равна 0,07, а максимальная плотность черных участков - 1,3. Нужно отметить, что плотность микрофиши уменьшается от центра к краям, что приводит к дополнительным погрешностям сканирования. Попытка сканирования без автоматической фокусировки показала, что время работы уменьшается, но качество изображения сильно снижается.

Во время работы была проведена статистика затрачиваемого времени на каждую операцию. Весь цикл работ можно разделить на следующие этапы:

 

  Этапы сканирования Время (мин.)
1 Подготовка оригинала; 10
2 Обзорное сканирование (preview); 2
3 Предварительное сканирование (prescan); 2
4 Окончательное сканирование (fine scan); 11
5 Сохранение файла с компрессией (без); 10 (3)
6 Запись по сети на другой диск (10Mbit); 4
7 Чтение файла с сервера (с рабочей станции); 7 (14)
8 Конвертация файла и сохранение; 4
9 Запись на сервер; 2
10 Запись на внешний носитель информации. 2-5

 

Подготовка оригинала.

Основные сложности при подготовке оригиналов связаны с их обработкой и закреплением на оригиналодержателе. Размещение микрофиш удавалось осуществлять во время сохранения файлов на диск, что позволило сократить общее время работы почти на четверть. Закреплять удавалось по две микрофиши на оригиналодержатель. Ограничения на количество оригиналов связано с зоной выбранного разрешения.

Основная сложность при закреплении - размещение микрофиши перпендикулярно движению сканирующей головки. Неправильное размещение приводит к увеличению площади сканирования, а, соответственно, и времени работы. Кроме того, дальнейшая обработка полученных изображений усложняется 1.

Обработка микрофиши необходима для удаления пыли, волос и других мелких частиц с поверхности пленки. При 20-ти кратном увеличении толщина волоса становится сопоставима с толщиной букв, а его длина может превосходить ширину двух строк. При обработке поверхности антистатическими салфетками или тряпочками от них неизбежно появляются мелкие волоски. Удаление грязи с помощью влаги приводит к дополнительному прилипанию пыли. Возможно также использование липких валиков, но ни один из методов не позволяет полностью удалить лишние элементы.

Сканирование.

Сканирование осуществляется в несколько этапов. Обзорное сканирование можно производить один раз для двух закрепленных микрофиш. Предварительное сканирование необходимо для каждой микрофиши. После него можно указать окончательные размеры области сканирования, а также задать значения черной и белой точки. Весь процесс сканирования занимает приблизительно 15 минут для каждой микрофиши.

Сохранение и запись файлов.

Сохранение файлов можно осуществлять только в графическом формате tif. Он позволяет хранить наиболее полную информацию об изображении. В этом формате поддерживается механизм сжатия без потерь LZW. Размер файла без компрессии в среднем равнялся 270Mb, а с компрессией - 180Mb. При сжатии файла время его записи на жесткий диск возрастает с 3 до 10 минут.

Время преобразования и записи файлов сильно зависит от характеристик аппаратного и программного обеспечения. Сканирование осуществлялось на компьютере Macintosh (Umax PowerPC) под управлением операционной системы MAC OS 8.1. Размер свободного дискового пространства равен 756 Mb. В последствии память была увеличено до 2 Gb. Объем оперативной памяти равен 104 Mb, из которых 14,8 Mb выделено под операционную систему. Виртуальная память не использовалась.

Передача информации по сети и конвертация.

Файлы в графическом формате tif занимают много дискового пространства. Полный объем работы (100 файлов) должен занимать около 20 Gb в сжатом виде и около 30 Gb без компрессии, при этом размер дискового пространства сервера для всего сектора допечатной подготовки равен 20 Gb. Для передачи данных заказчику и для резервного хранения данных необходимо значительное уменьшение размеров файлов, поэтому заказчиком был предложен вариант сохранения файлов в формате jpg со средним сжатием (с коэффициентом 5).

Для увеличения производительности работы необходимо было распараллелить процессы сканирования и конвертации файлов. Время чтения файла по сети с рабочей станции равно 14 минутам, а с сервера - 7 минут. Операционная система MacOS плохо работает в режиме многозадачности. Ее производительность резко снижается и приводит к сбоям при сканировании или записи файла.

Сбои при сканировании возникали в среднем на каждой третьей микрофише, что приводило к перезагрузке системы. Потери времени составляли 30-40 минут. Увеличение емкости дисковой памяти рабочей станции позволило сканировать до 10 микрофиш подряд, что соответствует 5 часам непрерывной работы. Во время перерыва осуществлялась перепись файлов на сервер. Пропускная способность сетевой карты рабочей станции, на которой осуществлялось сканирование, равна 10Mbit. Сетевая карта встроена в материнскую плату компьютера и ее замена на более производительную не была возможна.

Для конвертации файлов был выбран компьютер Macintosh G3, имеющий 4 Gb свободного дискового пространства, 100Mbit сетевую карту и 512 Mb оперативной памяти. Время чтения сжатого файла практически не отличалось от времени чтения компрессионного файла. Для преобразования файлов был написан макрос в системе Photoshop 5.0 с использованием инструмента Actions. Время чтения файла не изменялось при уменьшении объема оперативной памяти до 128 Mb, но время преобразования из tif в jpg увеличилось почти вдвое.

Размеры файлов в формате jpg уменьшились до 12-15 Mb, что позволило создать резервную копию проделанной работы. При записи изображений микрофиш из файловый системы MacOS в ОС Windows произошли сбои, которые обнаружились только после передачи данных заказчику. Было создано две копии файлов: на сервере под управлением ОС Windows NT и на рабочей станции под управлением ОС MacOS. Резервирование данных позволило сохранить около 20 файлов (10 часов работы) 2 .

Влияние разрешения на качество изображения

При сканировании изображений особую роль играет правильный выбор разрешения. В полиграфии обычно используется следующая формула:

Res = Lin * K* M,

где   Res - разрешение;

         Lin - линиатура;

         K - коэффициент качества;

         M - масштаб изображения.3

Разрешение изображения определяется линиатурой, с которой предполагается выводить фотоформы и осуществлять печать. Коэффициент качества определяется исходя из углов поворота различных красок. Его максимальное значение при угле 45 градусов равно = 1,44. Для простоты запоминания коэффициент качества обычно округляют до 1,5 или до 2.

Некоторые источники объясняют значение коэффициента качества результатами, полученными Найквистом в 1928 г. Он определил, что результат измерений не будет иметь искажений, если количество замеров вдвое превышает число деталей. Если следовать формуле Найквиста, то максимальное значение коэффициента качества должно равняться 3.

К сожалению, рассуждения американского ученого не всегда применимы при выборе оптимального разрешения. Если сканируемое изображение имеет разрешение 300dpi, то, отсканировав его с разрешением 600dpi, качество изображения заметно ухудшится. При таких параметрах сканирования каждая точка должна разделиться на две, что приведет к нарушению плавных линий изображений. Чем больше разрешение сканирования отличается от разрешения оригинала, тем сильнее проявляется ступенчатость и размытость выходного изображения.

Таким образом, важную роль играет разрешение самого оригинала. Существуют специальные монтажные линейки, которые позволяют определить линиатуру и углы поворота красок изображения. Они и определяют максимальную границу коэффициента качества и разрешения.

Возникает закономерный вопрос о существовании границы максимального разрешения для нерастровых изображений. Для поиска ответа на этот вопрос были проведены исследования4 .

Изучение влияния выбора разрешения на качество изображения проводилось на сканерах Topaz и Tango. Исследование показало, что разрешение сканирования оказывает сильное влияние на форму градационной гистограммы изображения. При увеличении разрешения уменьшается размер сканируемых точек, что приводит к увеличению сведений о мелких деталях изображения, об элементах с меньшей насыщенностью (малой оптической плотностью).

На рисунках 1-4 показаны градационные гистограммы для разрешений 2000, 3000, 4000, 5000 и 6000 dpi. В качестве источников использовались микрофильмы с 20-ти кратным уменьшением рукописи ГИМ, Синод./ греч.собр., №473 к.70-х г. XVII в. Новый завет. В переводе иеромонаха Чудова монастыря Епифания Славенецкого5 .

На рисунках заметен эффект увеличения числа точек, представляющих средние и светлые тона изображения по мере возрастания разрешения изображения. Пик градационной кривой смещается вправо, уменьшается количество темных точек. Они разбиваются на несколько более светлых точек, что приводит к значительному "осветлению" изображения. Оно становится тусклым и блеклым6 .

 

 

При увеличении разрешения с 2000 dpi до 4000 dpi происходит сильный рост высоты пика при относительно небольших изменениях формы гистограммы в области теней. При дальнейшем увеличении разрешения количество точек в области теней значительно уменьшается. Характер градационной кривой остается почти неизменным, гистограмма как бы смещается вправо.

Таким образом, выбор оптимального разрешения может основываться на следующем критерии: разрешение сканирования необходимо постепенно увеличивать до тех пор, пока форма градационной кривой не станет постоянной.

Конечно, данное правило достаточно грубое. Характер кривой может зависеть от физического принципа работы, алгоритмов интерполяции, динамического диапазона сканера и свойств оригинала, а также назначения полученных изображений.

Более подробный анализ факторов влияния требует дополнительных исследований и выходит за рамки данной статьи. Можно отметить, что эти предположения были экспериментально подтверждены и проверены на различных оригиналах и сканерах.

 

 

 

 

 

Особое внимание следует уделить коэффициенту масштаба M. Во время верстки изданий рукописных источников необходимо постоянно регулировать спуск полос. При этом приходится изменять размеры изображений, порой до 10-15%. При уменьшении изображений сильных искажений обычно не возникает, чего нельзя сказать об увеличении.

Искажения хорошо заметны при увеличении графических изображений текстов, схем, графиков и т.д. Особенно, это характерно для черно-белых изображений. Если все-таки необходимо изменить размеры отдельных изображений следует понижать разрешение. Следует помнить, что некоторые системы верстки, такие как PageMaker и QuarkExpress по умолчанию автоматически устанавливают разрешение, равное удвоенной линиатуре. Это происходит независимо от того, имеет ли изображение большее или меньшее разрешение.

Если после сканирования предполагается обработка изображений, то рекомендуется увеличить разрешение сканирования, по крайней мере, вдвое. И еще, если после верстки изображения возникнет необходимость подготовки оригинал-макета на бумаге (например, для ризографа или для изготовления пленок с бумаги), то разрешение изображений должно соответствовать максимальным возможностям принтера.

Конечно, каждый современный принтер имеет РИП, но в отличие от фотонаборного аппарата, менее совершенный. При печати изображения 300 dpi c разрешением 600 dpi наблюдается эффект сильного осветления изображения. Этот процесс аналогичен описанному выше механизму сканирования и приводит к нежелательным последствиям — уменьшению оптической плотности, а следовательно, падению насыщенности, резкости и пропаданию мелких (светлых) элементов.

Заключение

Подводя итог, можно отметить, что сканирование микрофильмов является достаточно сложной задачей. Оно требует наличие высокопроизводительной техники и значительных временных затрат. При этом, качество полученного изображения будет сильно зависеть от предварительной обработки и точного определения характеристик сканирования (значений черной и белой точек, разрешения, коэффициента качества и др.).

Несмотря на трудности и высокие требования, сканирование микрофиш и микрофильмов оказалось, в целом, удачным экспериментом. В настоящее время на базе полученных результатов проводятся другие исследования, подтверждающие их.

Вопрос о правильном выборе разрешения затрагивается, практически, в каждом пособии по сканированию. Тем не менее, вопрос остается во многом открытым и требует дополнительных исследований.

Литература

Айриг, 1999 С. Айриг, Э. Айриг. Сканирование - профессиональный подход / Пер. с англ. - Мн.: ООО «Попурри», 1999. - 176 с.: ил.
Блатнер, 1999 Д. Блатнер, Г.Флейшман, С. Рот. Сканирование и растрирование изображений./ Пер. с англ. - М.: Издательство ЭКОМ, 1999. - 400 с.: илл.
СППТ, 1995 С.Н. Гунько, В.И. Демков. Словарь по полиграфии и полиграфической технологии. Понятия и определения - Мн.: ООО «Космополит - Универсал», 1995. - 230 с.
Шарыгин, 2000 М.Е. Шарыгин. Сканеры и цифровые камеры /Под ред. О.В. Колесниченко, И.В. Шишигина. - СПб.: БХВ - Санкт-Петербург; Арлит, 2000, -384 с.: илл.

 


1После сканирования изображение нужно было разрезать на отдельные развороты. При автоматизировании этой операции с помощью средств Photoshop5.0 перекосы могут привести к неточному разрезанию.

2 Сканирование микрофиш проводилось совместно с А.М.Юнгом.

3 Конечно, в книгах по профессиональному сканированию [Блатнер, 1999; Айриг, 1999; Шарыгин, 2000] уточняются некоторые нюансы этой формулы. Тем не менее, аспекты, затрагиваемые в статье, не рассматриваются ни в одной из них.

4 Исследования были проведены в рамках учебного курса "Аппаратные и программные средства офисной полиграфии" (преп. Филиппович А.Ю.). Исполнители работ студенты Кошман Г.И. и Дубровская Л.М.

5 Данные материалы были получены от к.ф.н., вед.н.с. НИО книговедения РГБ Исаченко Т.А.

6 В книгах по технике профессионального сканирования [Блатнер, 1999;, Шарыгин, 2000] отмечается, что при увеличении разрешения изображение меняет свою контрастность. Этот процесс также является следствием описанных преобразований.

 © НОК CLAIM, 2006-2012. Замечания, вопросы и сведения об ошибках просим сообщать в форуме или присылать администратору сайта.

OZON.ru Rambler's Top100