Хранение данных в информационных системах


Хранение и обработка больших архивов
В настоящее время все большее число организаций переходит на безбумажные технологии создания, обработки и хранения документов. В ряде стран уже приняты законы, приравнивающие электронные документы к твердым копиям. Все хорошо, если организация создана вновь или функционирует недавно. А что делать, если в архивах лежат тонны документов, созданы огромные картотеки? В этом случае наиболее надежным и дешевым решением является сканирование документов и хранение их образа или, если это возможно, распознавание и хранение содержимого документов. Фирма Эврика создала информационную систему, позволяющую полностью реализовать весь этот цикл. В системе осуществляются четыре процесса:


Сканирование документов
Выбор устройства для сканирования определяется типом документов, подлежащих обработке и хранению, их количеством и временем, которым мы располагаем для обеспечения этого процесса. В зависимости от типа документов (финансовая квитанция на одном листочке формата меньше А5 или раритетная картина) устройства сканирования могут быть: рулонные, планшетные, барабанные, для микрофильмов и микрофиш, цифровые фотокамеры.

В том случае, если документы разного формата и бумага-носитель низкого качества, а количество документов огромно, выбор сканера имеет первостепенное значение. Специально для нужд одного из заказчиков нами было проведено маркетинговое исследование. Мы остановились на сканерах американской фирмы BancTec.


Распознавание текста
Распознавание текста может быть осуществлено компьютером, встроенным внутрь сканера, либо другими машинами, на которые передается образ документа. Причем количество этих машин можно сделать таким, чтобы сканирование и распознавание шли одновременно.

Если идентифицирующим признаком документа является штрих-код, то процесс распознавания ведет сам сканер.


Создание электронных образов на носителях
Самым дешевым и надежным носителем сегодня является CD. Это может быть диск однократно записываемый, многократно записываемый или, в ближайшем будущем, √ DVD.

Электронный образ может формироваться сервером MediaStream и записываться самой стойкой, если один из приводов CD ROM является записывающим. С одной стороны, это дает неоспоримые преимущества. Мы получаем полностью автоматизированный процесс создания безбумажного архива. С другой стороны, во-первых, недостатком является то, что мы занимаем тем самым один из приводов устройства хранения на время порядка 40 мин для записи каждого диска. Т.е., фактически, мы на четверть уменьшаем скорость доступа к уже созданному архиву остальных пользователей. Во-вторых, это может ограничить скорость формирования архива, т.к. существует только одно устройство для записи. В-третьих, стоимость записывающего привода достаточно высока и превышает стоимость обыкновенного CD Writer в несколько раз. В-четвертых, т.к. записывающий привод для CD с однократной записью не является массовым, то создания новых моделей приходится долго ждать. А у обыкновенных CD Writer модели меняются каждые полгода, что позволяет записывать CD во все новых форматах с улучшенными качествами.

Поэтому мы считаем более оправданным экономически и технически использование отдельных рабочих станций, оснащенных записывающими дисководами для перезаписываемых и однократно записываемых универсальных CD. Например, новая модель производства Hewlett Packard √ HP SureStore Writer Plus. Это позволяет добиться необходимой скорости записи. Кроме того, мы получаем необходимую надежность, т.к. выход из строя одного из записывающих устройств не приведет к остановке всей технологической цепочки.


Хранение документов и организация доступа к ним
Эта функция реализована на сервере MediaStream. Он представляет собой аппаратно-программный комплекс, состоящий из одного или нескольких CD changer и сервера.

Для хранения таких объемов информации используются устройства хранения данных на дисках с автоматической сменой носителя (CD-ROM changer). В частности, мы применяем Pioneer DRM-5004X √ чейнджер на 500 стандартных CD-ROM дисков. Одно такое устройство позволяет хранить 340 ГБ информации. В зависимости от конфигурации MediaStream сервера возможно подключение к системе нескольких таких устройств. Статистические исследования показывают, что обычно из всего объема хранимой информации наиболее часто используется лишь 20 √ 30 %. В зависимости от задачи этот объем может меняться. Для повышения скорости доступа к наиболее часто используемой информации в систему устанавливаются жесткие диски, которые используются как кэш.

Применение чейнджеров с дисками CD-ROM делает систему значительно более дешевой по сравнению с такими же решениями, основанными на жестких дисках, а также позволяет легко наращивать ее возможности.

Все компоненты системы связаны между собой посредством локальной сети на основе 10/100 BASE √T под управлением ОС Windows NT 4.0.


MediaStream сервер √ система для хранения сверхбольших архивов информации.

Основа системы √ библиотеки CD-ROM и Интернет. В зависимости от конфигурации MediaStream сервера пользователям доступны следующие возможности:

- хранение от 340 ГБ до десятков терабайт;
- гарантия хранения информации до 100 лет;
- цена хранения одного листа текста √ 1,5 рубля (до деноминации);
- поддержка стандартов Интернет (HTML).

Простое подключение чейнджера и жестких дисков к компьютеру еще не решает проблему хранения информации √ требуется программное обеспечение. Те, кто знаком с немногочисленным существующим ПО для чейнджеров, особенно для таких больших, как Pioneer DRM-500X, наверно знают о его недостатках. Поэтому специалисты фирма Эврика разработали оригинальное ПО, которое позволяет представить доступ к информации архива через WWW сервер по протоколу HTTP. Это обеспечивает доступ к информации любого, у кого есть Web-браузер (даже самый простой) и соответствующие права доступа. Доступ к файлам архива происходит через виртуальный каталог, который создается администратором архива, причем структура виртуального каталога может отличаться от физического расположения файлов на CD-ROM дисках. Пользователи, просматривая в Web-браузере этот каталог, даже не подозревают, что выбранный файл находится на CD-ROM диске в чейнджере. Существует возможность поиска файлов в архиве по различным атрибутам: короткое описание, размер, а также возможно добавление специальных атрибутов по желанию заказчика.

Краткие технические характеристики комплекса MediaStream сервер

Количество загружаемых дисков 500 на стойку
Количество стоек до 6 на один сервер
Количество приводов дисков на стойку до 4, включая один с возможностью записи
Емкость одного диска для CD-R 670 МБ
Емкость дисковой кэш памяти сервера до 162 ГБ
Время загрузки диска, не более 11 сек
Скорость считывания для CD-R 600 КБ/с


Скоростные сканеры фирмы BancTec для массового ввода документов

Производительность сканеров серии S составляет до 185 двухсторонних листов формата A4 в минуту или 800 страниц карточек формата A6. Они способны работать с широким спектром бумажных форм различной плотности и размеров - от кальки до картона, от чека до документов формата A3. Минимальный размер листка бумаги при автоматической подаче - 127 мм х76.2 мм; при ручной подаче 76.2 мм х 63.5 мм. Максимальный размер при автоматической и ручной подаче составляет 297 мм х 432 мм. При необходимости производитель может доработать сканер для обработки документов еще меньшего формата. В сканер серии S можно засунуть даже самокопирующиеся бланки, поврежденные документы и документы с наклейками. Возможности обработки любых бумажных документов обеспечивается применяемым в сканерах прямым механизмом протяжки. Обрабатываемый документ может иметь любую комбинацию цветов фона и текста. Большинство функций сканера настраивается для работы со сложными в сканировании документами.

Все дополнительные возможности сканера можно устанавливать прямо у заказчика. Сканеры серии S производятся в видео, SCSI и клиентских модификациях.

Стандартные возможности видеомодели обеспечивают гибкую ручную или автозагрузку, автокоррекцию положения документа, автоматический выбор уровня освещения, проявление границ, динамический контраст, удаление пятен и автоопределение угла наклона документа. Разрешение 200 или 300 dpi устанавливается программным способом. Дополнительный модуль позволяет увеличить разрешение до 400 dpi. Черно-белое или greyscale-сканирование может использоваться одновременно. В автозагрузчик и приемник помещается до 500 документов.

SCSI-модель обеспечивает дополнительные функции кадрирования и обрезания изображения, работу с окнами (возможно разбиение до 16 окон на страницу), разворот на 90 или 180 градусов, распознавание штрих-кода (до 15 форматов, возможно также чтение нескольких кодов на странице), сжатие образа CCITT/3 или 4, SCSI-выход. Можно также определять код в углу страницы или распознавать вложенную командную карточку.

В то время, как S-сканеры в видео и SCSI-модификациях требуют наличия управляющего компьютера, клиентская версия реализует идеологически новое решение, включая компьютерный контроль и программы обработки изображения внутри сканера. Возможен вывод tiff-файлов и индексных файлов в сеть.

Для всех моделей дополнительно могут быть поставлены модуль исправления деформации страницы в grayscale-режиме GrayScale Deskew; SCSI-2 - интерфейс; цветовое исключение (красный); внешний штрихкод-ридер; линза разрешения на 400dpi; устройство алфавитно-цифровой надпечатки.

Конструкция сканера разрабатывалась с учетом возможности максимального использования рабочего времени. Забракованный документ может быть протянут вторично без удаления всей стопки из автозагрузчика. Сканер имеет самонастраивающие датчики, встроенные индикаторы для быстрой безинструментальной диагностики сбоев, универсальные для передней и задней сторон конструкции части. Возможности самодиагностики включают цифровую индикацию кода ошибки центрального процессора, датчики несоответствующего уровня освещения и индикаторы функциональных сбоев. Сканеры имеют последовательные порты для внешней диагностики и замены ПО.

В апреле 1997 г. фирма BancTec выпустила новую модель S-220 со скоростью обработки 220 документов в минуту. Все существующие модели серии S могут быть модернизированы для работы со скоростью 220 документов в минуту.


В качестве устройства для записи и хранения информации могут быть использованы диски CD и CD RW. Дисководы для однократно записываемых дисков CD уже два года производятся, например, компанией Hewlett Packard. В описываемой системе установлена модель HP SureStore CD-Writer 6020.

С 1 октября HP начала продажи полнофункционального дисковода для перезаписываемых CD RW. Этот дисковод столь же прост в использовании, как и флоппи-дисковод, но предоставляет все преимущества лазерных дисков. Его мы и предлагаем устанавливать в последующих проектах.

Новый дисковод HP SureStore CD-Writer Plus полностью соответствует новым стандартам. Он работает как с записываемыми компакт-дисками (CD-Recordable - CD-R), которые являются промышленным стандартом де-факто, так и с компакт-дисками CD-RW, которые соответствуют промышленному стандарту. Это первый дисковод, реализующий все преимущества спецификации на формат ╚компакт-диск - универсальный формат╩ (compact disk-universal device format -CD-UDF), что позволяет перезаписывать файл-в-файл. Дисковод также поддерживает совместимость по развиваемому HP стандарту MultiRead. Это дает гарантию совместимости с дисководами для DVD-ROM, CD-R и CD-ROM.

HP SureStore CD-Writer Plus имеет интерфейс IDE и устанавливается без адаптерной карты. Он просто вставляется в стандартный кабель жесткого диска ПК.


КОМПЬЮТЕР-ИНФОРМ