Научная библиотека им. М. Горького СПбГУ — одна из крупнейших и старейших библиотек России. Сегодня в фонде насчитывается около 6,9 млн. томов. Наиболее ценной с точки зрения исторического и культурного значения является коллекция из 100 000 редких книг и 1 000 рукописей. Не менее ценным является генеральный алфавитный каталог русской и зарубежной литературы, насчитывающий порядка 3-х млн. карточек, доступ к которым закрыт для обычных посетителей.
Проблема эффективного и общедоступного поиска библиотечных книг останется чрезвычайно актуальной до тех пор, пока каталоги крупнейших библиотек не будут преобразованы в электронные. Помимо этого достаточно остро стоят вопросы надежности, практичности и удобства работы с традиционными картотечными каталогами.
Научная библиотека им. М. Горького СПбГУ — одна из крупнейших и старейших библиотек России. Сегодня в фонде насчитывается около 6,9 млн. томов. В 2006 году библиотека им. М. Горького приняла решение о создании полноценной электронной копии русской части генерального алфавитного каталога, чтобы сделать его открытым и доступным для всех желающих и облегчить поиск необходимых ресурсов среди большого объема информации.
Сотрудники библиотеки провели серьезное исследование рынка, прежде чем решить, кому они доверят свое сокровище. В результате для проведения работ по сканированию библиотечного каталога была выбрана наша компания. Для нас этот проект представлял огромный интерес, и мы со всей ответственностью уже через несколько дней приступили к его подготовке.
Какие цели и задачи были поставлены перед нами:
Первоначально целью проекта являлось только создание электронной копии (сканирования) русской части генерального алфавитного каталога библиотеки. В связи с ограниченным бюджетом и сроками работ вопрос о создании электронного каталога предполагался как следующий этап. Оценив условия проекта, наша компания сочла возможным создание электронного каталога в рамках выделенных сроков и бюджета, что и было предложено библиотеке. Библиотека с радостью приняла наше предложение, и было решено создавать каталог с возможностью поиска группы карточек по двум полям: по названию ящика и по названию разделителя, как первоначального, чтобы у сотрудников библиотеки и пользователей уже сейчас была возможность работать с электронными копиями карточек.
В итоге образовались новые цели и задачи проекта, которые включали в себя:
Дополнительно к задачам были сформулированы обязательные требования проекта:
1 Этап: Обследование
Анализ карточек показал, что:
Анализ системы Biblio STOR-M показал, что:
После проведенного анализа нам предстояло выбрать оборудование и подобрать оптимальные настройки. Но прежде чем сделать это, мы должны были понять, что Заказчик хочет получить в конечном счете. Важна ли для него цветность, будет ли в дальнейшем проводиться автоматическое распознавание изображений карточек и другое.
Автоматического распознавания не требовалось в связи с тем, что карточки ветхие, с нанесенными на них рукописными надписями, сделанные на разлинованной бумаге, что в 80% случаев приводило бы к большому количеству ошибок. Цветность изображений также не интересовала, т.к. в дальнейшем предполагалось переводить карточку в текстовый вид.
Нам оставалось только определиться, в каком режиме — в «черно-белом» или «градациях серого» будет сканироваться картотека. Опираясь на свой опыт и итоги тестового сканирования, для получения оптимального качества изображений было принято решение сканировать картотеку в черно-белом режиме с разрешением 200 dpi (это связано с тем, что при сканировании в ч/б режиме количество ошибок получается всего на 1% больше чем в градациях серого, а памяти занимает в 1,5 раза меньше, что особенно ощутимо при таких больших объемах информации).
Модель сканера мы выбирали из линейки документных быстропроходных сканеров с производительностью от 30 тыс. листов в день, способностью сканировать бумагу различной толщины и возможностью подстраиваться под все типы карточек, используя различные настройки.
2 Этап: Проведение работ по сканированию каталога
Установив и настроив оборудование, мы приступили к сканированию каталога. Нам сразу стало понятно, что несмотря на тщательно подобранные настройки ошибок не избежать. Разновидность карточек оказалась более обширной, чем нам было предоставлено для анализа. На основании этого у нас появилось три основных этапа работ по сканированию, под которые были выделены отдельные сотрудники.
I — Сканирование II — Поиск ошибок и пересканирование III — Редактирование
I — Сканирование. Ящики с карточками сканировались последовательно по алфавиту, на каждый ящик создавалась папка с номером и названием ящика, в которую сохранялись копии карточек и разделителей.
Трудности на этапе сканирования:
Большой объем сканируемой картотеки повлек за собой значительную нагрузку на сканер, следствием чего явилась необходимость профилактических работ, в ходе которых с частотой один раз в месяц проводилось техническое обслуживание и иногда ремонт;
Разнородность карточек в ящике требовала частого перенастраивания режима сканирования, т.е. перенастраивания сканера;
Плотные карточки, изготовленные из толстого картона (или представляющие собой набор склеенных друг с другом тонких карточек), при прохождении через сканер часто застревали, из-за чего падала скорость работы и терялось время;
Из-за ветхости карточек пыль и труха скапливались и забивали внутренние части сканера, что приводило к частым ежедневным чисткам.
II — Поиск ошибок и пересканирование. После сканирования всегда требуется проверка полученных изображений. Проверка проводилась на полное соответствие отсканированных изображений карточек оригиналу. При обнаружении ошибки карточка отмечалась в ящике с указанием № ошибки. Далее все помеченные карточки повторно сканировались уже на дополнительном менее скоростном сканере с тем же разрешением, но в градациях серого для получения более качественного результата.
Трудности на этапе поиска и пересканирования:
Большое разнообразие карточек привело к большому разнообразию ошибок. Ошибки были связаны не только с качеством изображения, но и с тем, что в процессе сканирования одна карточка накладывалась на другую. Такой тип ошибок очень плохо просматривается и, чтобы не пропустить их, требуется усиленное внимание и дополнительные проверки.
III — Редактирование. Под редактированием понимается замещение, т.е. когда на место карточки с ошибкой помещалась пересканированная карточка с тем же номером.
Трудности на этапе редактирования: трудность одна — не перепутать номера карточек и тем самым не нарушить порядок следования.
Все эти работы выполнялись на территории заказчика, следующие виды работ по повторной проверке, сортировке и внесении данных в систему проводились на нашей территории.
3 Этап: Внесение данных в электронную систему, закрытие проекта
Подготовительным этапом для заливки данных в систему являлась повторная проверка и сортировка. Сортировка — это разбиение электронного ящика на подпапки с одновременной проверкой на сдвоенные карточки и карточки с плохим качеством изображения. Последним видом работ явилась заливка данных в систему Biblio STOR-M с помощью конвертора, настройка интерфейса системы и окончательная верификация данных.
Трудности на этапе сортировки:
После обработки уже отсортированные ящики помещались на отдельный диск для хранения информации. Здесь мы столкнулись с проблемой нехватки дискового пространства в связи с дублированием массива данных на разных этапах работы (во избежание потерь данных с массивов отсканированных и откорректированных данных делались резервные копии).
По мере обработки уже отсортированные ящики заливались в систему с помощью конвертора, где в автоматическом режиме создавалась структура электронного каталога – папки — ящики, карточки — разделители. Конвертор был написан специально для данного проекта нашим техническим специалистом. Использование конвертора значительно ускорило процесс заливки данных в систему по сравнению с ручным внесением данных.
Параллельно велась работа по настройке системы, режимов вывода карточек, корректировка шаблона вывода данных в web–среде.
Трудности на этапе заливки:
В связи с тем, что несколько раз изменялся вывод структуры каталога и данные по полям ящиков и разделителей, изменялся и конвертор, т.е. переписывался его код.
После заливки всех отсканированных данных система была установлена, настроена и отлажена на компьютерах, выделенных библиотекой. Полученное решение — электронный каталог генерального фонда библиотеки в первоначальном варианте позволяет:
Все работы были сделаны в срок и с хорошим качеством. Каталог был выложен для общего доступа на сайт библиотеки.
Библиотека им. М. Горького СПб Государственного Университета:
«С поставленной задачей команда компании «Алее Софтвер» справилась успешно. Хочется отметить высокий профессионализм специалистов подрядчика, отсутствие формализма при выполнении работ и стремление к конструктивному урегулированию всех возникающих вопросов».
Мы получили огромный опыт в сканировании библиотечного каталога и готовы также успешно применять его в других проектах!