Вопросы экзамена по курсу базы данных - polpoz.ru o_O
Главная
Поиск по ключевым словам:
страница 1
Похожие работы
Вопросы экзамена по курсу базы данных - страница №1/1


Вопросы экзамена по курсу базы данных.

(Билет состоит из двух вопросов и задачи.

Примеры, выполненные на компьютере обязательны)

 


  1. Введение. Основные понятия. Краткая история развития. Сетевые и иерархические структуры данных.

  2. Реляционные структуры данных.

  3. Понятие о нормализации баз данных. 1 нормальная форма.

  4. 2,3 нормальные формы. Преимущества и недостатки нормализации.

  5. SQL ориентированный и навигационный подходы к организации хранения и обработки данных. Машины баз данных. Краткая характеристика распространенных SQL серверов.

  6. Создание таблиц. Редактирование структуры. Заполнение данными.

  7. Команда SELECT. Использование условия. Вычисляемые поля.

  8. Ассоциативный поиск в таблицах. Опция LIKE.

  9. Сортировка записей в наборах данных.

  10. Агрегированные функции. Группировка данных.

  11. Исключение повторяющихся записей в наборе данных (DISTINCT).

  12. Команда SELECT. Организация составных запросов. Выборка данных из нескольких таблиц в одном запросе.

  13. Команда SELECT. Внутренние соединения.

  14. Команда SELECT. Внешние соединения.

  15. Команда UPDATE. Примеры использования.

  16. Команда INSERT. Добавление одной записи. Примеры использования.

  17. Команда INSERT. Добавление записей из набора данных. Примеры использования.

  18. Команда DELETE. Примеры использования.

  19. Просмотры (представления).

  20. Понятие об индексировании.

  21. Триггеры. Основные понятия. Примеры.

  22. Хранимые процедуры. Основные понятия. Переменные. Возвращаемые значения. Присвоение значения переменной.

  23. Хранимые процедуры. Создание таблиц. Удаление таблиц. Понятие о временных таблицах.

  24. Хранимые процедуры. Язык хранимых процедур. Ветвления. Примеры организации циклов.

  25. Обеспечение ссылочной целостности. Диаграммы.

  26. Настройка источников данных ODBC для работы с MS SQL. Настройка подключения объекта DATABASE в среде DELPHI.

  27. Объект QUERY. Основные свойства и методы. Передача параметров.

  28. Объект QUERY. Кешированные изменения. UPDATESQL.

  29. Визуальные и невизуальные объекты для работы с наборами данных. DataSource, DBGrid, DBText, DBEdit, DBNavigator.

  30. Проблема создания и сжатия больших информационных массивов, информационных хранилищ и складов данных.

  31. Основы фракталов. Фрактальная математика. Фрактальные методы в архивации.

  32. Типология БД. Документальные БД. Фактографические БД.

  33. Гипертекстовые и мультимедийные БД. XML-серверы. Объектно-ориентированные БД. Распределенные БД. Коммерческие БД.

Типовые задачи к экзамену.

 

1.     Создать базу данных STUDENT начальным размером 5 Мбайт.



2.     Создать таблицу SPISOK с полями fio char(15), stip int.

3.     Выбрать из таблицы ZARP (FIO CHAR(15), SUMMA INT) зарплату сотрудника по фамилии Иванов.

4.     Выбрать из таблицы ZARP (FIO CHAR(15), SUMMA INT) сотрудников у которых зарплата превышает 1500 руб.

5.     Выбрать из таблицы ZARP (FIO CHAR(15), SUMMA INT) сотрудников у которых зарплата лежит в диапазоне от 1500 руб. до 3000 руб.

6.     Выбрать из таблицы ZARP (FIO CHAR(15), SUMMA INT) фамилии сотрудников, исключая повторения.

7.     Выбрать из таблицы ZARP (FIO CHAR(15), SUMMA INT) сотрудников, упорядочив список по фамилиям.

8.     Выбрать из таблицы ZARP (FIO CHAR(15), SUMMA INT) сотрудников, упорядочив список по возрастанию зарплаты.

9.     Выбрать из таблицы ZARP (FIO CHAR(15), SUMMA INT) сотрудников, подсчитав суммарную зарплату по каждой фамилии.

10.  Выбрать из таблицы ZARP (FIO CHAR(15), SUMMA INT) сотрудников, фамилию, сумму и налог. Налог 20% от суммы.

11.  Выбрать из таблицы ZARP (FIO CHAR(15), SUMMA INT) сотрудников, подсчитав суммарную зарплату и суммарный налог по каждой фамилии. Налог 20% от суммы.

12.  Выбрать из таблицы ZARP (FIO CHAR(15), SUMMA INT) сотрудников, фамилию, сумму, налог и сумму к выдаче. Налог 20% от суммы. Сумма к выдаче – разница между зарплатой и налогом.

13.  Таблица ZARP (FIO CHAR(15), SUMMA INT). Составить команду добавления новой записи с указанием конкретной фамилии и сумы.

14.  Таблица ZARP (FIO CHAR(15), SUMMA INT), таблица SPISOK (FIO CHAR(15)). Составить команду добавления в таблицу ZARP из таблицы SPISOK всех фамилий.

15.  Таблица ZARP (FIO CHAR(15), SUMMA INT). Составить команду, которая удваивает зарплату тем, у кого зарплата меньше 2000.

16.  Таблица ZARP (FIO CHAR(15), SUMMA INT). Составить команду, которая удваивает зарплату тем, у кого фамилия содержит корень ИВАН.

17.  Таблица ZARP (FIO CHAR(15), SUMMA INT). Составить команду, которая удаляет записи с зарплатой лежащей в диапазоне от 1500 руб. до 3000 руб



Программа экзамена по дисциплине «Базы данных»

1. Введение. Основные понятия. Краткая история развития. Сетевые и иерархические структуры данных.


БД имеют определенную архитектуру, т.е. данные, хранимые в базе, описываются некоторой моделью представления данных. К числу классических относятся следующие модели данных: иерархическая, сетевая, реляционная. В конце 70-х гг. были разработаны иерархические и сетевые СУБД.

Иерархические СУБД использовали модели данных, в которой связи между данными имеют вид иерархии. Такую архитектуру характеризует наличие однонаправленных связей между объектами базы данных, т.е. это упорядоченный набор деревьев, где есть корень-предок и потомки-поддеревья. Последняя существующая иерархическая архитектура СУБД DIAMS. У каждого потомка имеется только один предок. В иерархической СУБД все файлы связаны между собой физическими указателями, т.е. физическими адресами, где запись находится на диске.

Связи между данными в иерархической модели показаны на рис. 1.1.

 

Рис. 1. 1. Представление связей в иерархической модели

 

  В этой модели каждая запись базы данных представляла конкретную деталь, между записями существовали отношения предок-потомок, связывающие каждую часть с деталями, входящими в нее, чтобы получить доступ к данным программа могла:



1. найти конкретную деталь по ее номеру.

2. перейти вниз к 1-му  потомку.

3. Перейти вверх к предку.

4. Перейти в сторону к другому потомку.

Т.о. для чтения данных из базы данных требовалось перемещение по записям. Перемещение осуществлялось за счет указателей.

Между предками и потомками автоматически поддерживается контроль целостности связей, т.е.: потомок не может существовать без родителя, а у некоторых родителей может не быть потомков. Механизмы поддержания целостности связей между записями различных деревьев отсутствуют.

Достоинства: 1)эффективное использование памяти ЭВМ. 2)модель данных удобна для работы с иерархически упорядоченной информацией.

Недостатки: 1) громоздкость для обработки информации с достаточно сложными логическими связями, а также сложность понимания для обычного пользователя. 2) не все связи между данными можно представить в виде иерархии.

Сетевые архитектуры - характеризует то, что связи между объектами базы данных не упорядочены и представляют сеть, т.е. поддеревья-потомки, могут иметь любое число корней. В таких моделях также использовались физические указатели. Последняя существующая структура подобной архитектуры - базы данных . DB Vista.

Сетевая модель данных позволяет отображать разнообразные взаимосвязи элементов данных в виде произвольного графа, обобщая тем самым иерархическую модель данных (рис. 1.2).

 

  

Рис. 1.2. Представление связей в сетевой модели



 

Сетевая БД состоит из набора записей и набора соответствующих связей. Если в иерархических структурах запись - потомок могла иметь только одну запись предка, то в сетевой модели данных запись - потомок может иметь произвольное число записей - предков (сводных родителей).

“+”: 1)возможность эффективной реализации по показателям затрат памяти и оперативности; 2)большие возможности в смысле допустимости образования произвольных связей.

“-“:1)высокая сложность схемы БД, построенной на ее основе; 2) сложность для понимания и выполнения обработки информации в БД обычным пользователем; 3)ослаблен контроль целостности данных связей.


2. Реляционные структуры данных.


В 1970 г. Е.Ф.Кодд предложил, что данные можно связывать в соответствии с их внутренними логическими взаимоотношениями, а не физическими указателями. Эта теория стала революционным событием в развитии базы данных.

Кодд предложил модель данных, в которой все данные связаны  в таблицы, состоящие из строк и столбцов. Эти таблицы получили название реляций, а модель стала называться реляционной.

Для работы с ней в основе лежит аппарат реляционной алгебры и реляционного исчисления, которые обеспечивают работу с данными на основе логических характеристик, а не физических указателей.

В реляционной БД пользователь указывает данные которые для него необходимы, а не то, как осуществить доступ к этим данным. Процесс перемещения по БД осуществляется автоматически. Реляционные БД выполняют и функцию каталога, в нем содержится описание всех объектов, из которых состоит БД: триггеры, индекс, процедуры и таблицы.

В 1970 г. Кодд разработал правила реляционной модели:

1. Вся информация представлена в виде реляционных таблиц.

2. Реляционная СУБД поддерживает три реляционных оператора (Выбор, Проектирование и Объединение), с помощью которых пользователь получает данные. Модель также поддерживает теоретико-множественные операции (Объединение, Пересечение, Дополнение).

3. Поддерживает логическую структуру данных не зависимо от их физического представления.

4. Использует язык высокого уровня для структурирования, выполнения запросов и изменения информации.

5. Поддерживает виртуальные таблицы, обеспечивая пользователям альтернативный способ просмотра данных

6. Обеспечивает механизмы для поддержки целостности, транзакции и восстановления данных.

Элементы РМД и формы их представления приведены в таблице 1.


Таблица.1 Элементы реляционной модели

Элемент реляционной модели

Форма представления

Отношение

Таблица

Схема отношения

Строка заголовков столбцов таблицы (заголовок таблицы)

Кортеж

Строка таблицы

Сущность

Описание свойств объекта

Атрибут

Заголовок столбца таблицы

Домен

Множество допустимых значений атрибута

Значение атрибута

Значение поля в записи

Первичный ключ

Один или несколько атрибутов

Тип данных

Тип значений элементов таблицы

 

Итак, каждая таблица состоит из строк и столбцов, каждая строка  описывает отдельный объект, каждый столбец характеризует объект.

Каждый элемент данных или значения определяется пересечением строки и столбца. Для того, чтобы знать требуемый элемент, надо знать: 1) имя табл. 2) значение РК или уникального идентификатора.

Для реляционных БД характерна независимость на физическом и логических уровнях.

Свойства отношений:

1. Отношение не должно содержать двух одинаковых  картежей.

2. Картежи не упорядочены сверху вниз

3. Атрибуты в заголовке располагаются произвольно

4. Значения атрибутов состоят из логически не делимых единиц.

 Реляционная модель представляет собой логически связанные между собой сущности.

Типы связей:

1. один - ко - многим. (каждому значению одного объекта соответствует множество значений другого объекта)

2. один - к - одному

3. многие - ко - многим. (Надо разбивать)

Примером Объектно-реляционной СУБД можно считать продукты Oracle 8.x


Реляционная модель БД. Таблицы. Ограничения целостности данных. Реляционная алгебра. Реляционное исчисление.


Реляционные модели (РМ) данных в настоящее время приобрели наибольшую популярность и практически все современные СУБД ориентированы именно на такое представление данных.  РМ можно представить как особый метод рассмотрения данных, содержащий и собственно данные (в виде таблиц), и способы работы и манипуляции с ними (в виде связей). РМ предполагает три концептуальных элемента: структура, целостность и обработка данных. В этих элементах есть свои специальные понятия, которые необходимо пояснить. Таблица рассматривается как непосредственное «хранилище» данных. Традиционно в реляционных системах таблицу называют отношением. Строку таблицы называют кортежем,  а столбец - атрибутом. При этом атрибуты имеют уникальные (в пределах отношения) имена. Количество кортежей в таблице называют кардинальным числом, а количество атрибутов - степенью. Для отношения предусматривают уникальный идентификатор, то есть один или несколько атрибутов, значения которых в одно и то же время не бывают одинаковыми - идентификатор называют первичным ключом. Домен - это множество допустимых однородных значений для того или иного атрибута. Т. о., домен можно рассмотреть как именованное множество данных, причем остальные части этого множества являются логически неделимыми единицами (в качестве домена могут выступать, например, перечень фамилий сотрудников учреждения, однако не все фамилии могут присутствовать в таблице).

Отношение содержит две части - заголовок и собственно содержательную часть. Заголовок содержит конечное множество атрибутов, а содержательная часть (тело отношения) - множество пар имени атрибута и его значения.

Отличие реляционных БД от других моделей: В реляционных БД пользователь указывает, какие данные для него необходимы, а не то, как это делать. По этой причине процесс перемещения и навигации по БД в реляционных системах является автоматическим, а эту задачу в таких СУБД выполняет так называемый оптимизатор. Его работа заключается, например, в том, чтобы наиболее эффективным способом произвести выборку данных из БД по запросу.

Целостность данных

Ключ или потенциальный ключ - это минимальный набор атрибутов, по значениям которых можно однозначно найти требуемый кортеж. Каждое отношение обладает хотя бы одним возможным ключом. Один из них принимается за первичный ключ. При выборе первичного ключа следует отдавать предпочтение несоставным ключам или ключам, составленным из минимального числа атрибутов. Нежелательно также использовать ключи с длинными текстовыми значениями, не д.б. null. Так, для идентификации работника можно использовать либо уникальный табельный номер или номер паспорта, либо набор из Ф.И.О. и №отдела.  Внешние ключи. При этом для каждого внешнего ключа необходимо решить проблему, связанную с возможностью (или невозможностью) появления во внешних ключах неопределенных значений (NULL - значений - значений атрибута для отсутствующей информации). Другими словами, может ли существовать некоторый кортеж в отношении, для которого неизвестен кортеж в связанном с ним отношении. С другой стороны, необходимо заранее обдумать вопрос о том, что произойдет при попытке удаления кортежей из отношения, на которое ссылается внешний ключ. При этом существуют следующие вероятные возможности:

∙ операция каскадируется - то есть удаление кортежей в отношении приводит к удалению соответствующих кортежей в связанном отношении. Например, удаление информации о фамилии, имени и т. п. сотрудника в одном отношении приводит к удалению информации о его заработной плате в другом;

операция ограничивается - то есть удаляются лишь те кортежи, для которых связанной информации в другом отношении (таблице) нет. Если таковая информация имеется, то удаление осуществить нельзя. Наконец, нужно предусмотреть технологию того, что будет происходить при попытке обновления первичного ключа отношения на которое ссылается некоторый внешний ключ. Здесь имеются те же возможности, как и при удалении:

∙ операция каскадируется - то есть при обновлении первичного ключа происходит обновление внешнего ключа в связанном отношении. Например, обновление первичного ключа в отношении, где хранится информация о сотруднике приводит к обновлению внешнего ключа в отношении с информацией о его заработной плате;

∙ операция ограничивается - то есть обновляются лишь те первичные ключи, для которых связанной информации в другом отношении нет. Если таковая информация имеется, то обновление сделать нельзя. Например, обновление первичного ключа в отношении, где хранится информация о сотруднике, возможно в том случае, если информация о его заработной плате в связанном отношении отсутствует.

Реляционные операции

Начальный обзор; традиционные операции над множествами; специальные реляционные операции; операции расширения и подведения итогов; операторы обновления; реляционные сравнения.

Формальной основой РМ  БД являются реляционная алгебра, рассматривают основные операторы над сущностями. Основных операторов в реляционной алгебре восемь. Конкретный язык манипулирования реляционными БД называется реляционно-полным. Опишем вариант определения реляционной алгебры, который был предложен Коддом. В этом варианте набор алгебраических операций состоит из восьми основных:

∙ выборка отношения;

∙проекция отношения;

∙объединение отношений;

∙ пересечение отношений;

∙ вычитание отношений;

∙ произведение отношений;

∙ соединение отношений;

∙ деление отношений.

Эти операции можно объяснить следующим образом:

∙ результатом выборки отношения по некоторому условию является отношение, которое включает только те кортежи первоначального отношения, которые удовлетворяют этому условию;

∙ при осуществлении проекции отношения на заданный набор его атрибутов будет получено отношение, кортежи которого взяты из соответствующих кортежей первоначального отношения:

∙ при выполнении операции объединения двух отношений будет получено отношение, включающее все кортежи, входящие хотя бы в одно из участвующих в операции отношений;

∙ в качестве результата операции пересечения двух отношений получается отношение, включающее все кортежи, входящие в оба первоначальные отношения;

∙ отношение, являющееся разностью двух отношений, включает все кортежи, входящие в первое отношение и одновременно такие, что ни один из них не входит в отношение, являющееся вторым;

∙ при выполнении прямого произведения двух отношений,  получается отношение, кортежи которого являются сочетанием кортежей первого и второго отношения;

∙ при соединении двух отношений по некоторому условию образуется результирующее отношение, кортежи которого являются сочетанием кортежей первого и второго отношений, удовлетворяющим этому условию;

∙ операция реляционного деления имеет два операнда - бинарное (т. е. состоящее из двух атрибутов) и унарное (содержит один атрибут) отношения. Результат операции - отношение, состоящее из кортежей, включающих значения первого атрибута кортежей первого отношения, причем таких, что множество значений второго атрибута совпадает со множеством значений второго отношения.

Помимо вышеперечисленных, есть ряд особых операций, характерных для работы с БД:

∙ как результат операции переименования получается отношение, набор кортежей которого совпадает с телом первоначального отношения, но имена атрибутов изменены;

∙ операция присваивания позволяет сохранить результат вычисления реляционного выражения в существующем отношении БД.

Дополнительные операции реляционной алгебры.

1. Переименование позволяет изменить имя атрибута отношения

RENAME «исходное отношение» «старое имя атрибута» AS «новое имя атрибута»

2. Операция расширения порождает новое отношение, похожее на исходное, но отличающееся наличием добавленного атрибута, значения которого получаются путем некоторых скалярных вычислений;

EXTEND «исходное отношение» ADD «выражение»AS «новый атрибут».

К исходным отношениям добавляется «новый атрибут», подсчитываемый по правилам, заданным «выражением».

«исходное отношение» может быть задано именем отношения и с помощью реляционной алгебры в выражении могут использоваться следующие операции:

-  Арифметические (+,-,*,/);

 - Операции сравнения (>,<,>=,<=);

-  Итоговые функции (count-количество, sum-сумма, AVG-средняя, max,min);

 - Множественные расширения (extend «отношение» ADD «выражение 1» AS «атрибут», «выражение 2» AS «атрибут 2», «выражение N» AS «атрибут N»).

 1. операция подведения итогов.

  Summarize <исходное отношение> by (<атрибут>)   add <выражение> as <новый атрибут>, где <выражение>- это скалярное выражение как у extend.

2. К основным операциям, позволяющим применять тело отношения относится операция реляционного присваивания :=;

3. Вставка insert;

4. Обновление update;

5. Удаление delete.

5. SQL ориентированный и навигационный подходы к организации хранения и обработки данных. Машины баз данных. Краткая характеристика распространенных SQL серверов.




Распределенная обработка данных. Распределенные базы данных


 

Под распределенной обработкой данных понимается такой способ хранения и обработки данных, когда отдельное приложение может обрабатывать данные, распределенные на множестве различных баз данных, управление которыми осуществляют различными СУБД, работающие на различных машинах с различными операционными системами, соединенных коммуникационными системами. Распределенная база данных (РБД) является виртуальным объектом, части которого расположены на удаленных базах данных, связанных каналами связи.

Физически РБД состоит из набора узлов, связанных коммуникационной сетью, в которой:

Каждый узел обладает своими собственными системами баз данных;

Узлы работают согласованно, поэтому пользователь может получить доступ к данным на любом узле сети, как будто все данные находятся на собственном узле.

Каждый узел обладает своими собственными базами данных, собственными локальными пользователями, собственной СУБД и программным обеспечением для управления транзакциями, а так же собственным диспетчером передачи данных. Распределенная СУБД может рассматриваться как некий способ совместной работы отдельных локальных СУБД, расположенных на разных локальных узлах. Причем новый компонент программного обеспечения на каждом узле поддерживает все необходимые функции совместной работы. Комбинация этого компонента и существующей СУБД называется Распределенной Системой Управления Базами Данных (РСУБД).

В основе распределённых баз данных лежат следующие требования:


  1. Локальная автономия;

  2. Независимость от центрального узла;

  3. Непрерывное функционирование;

  4. Независимость от расположения;

  5. Независимость от фрагментации;

  6. Независимость от репликации;

  7. Обработка распределённых запросов;

  8. Управление распределёнными транзакциями;

  9. Независимость от аппаратного обеспечения;

  10. Независимость от операционной системы;

  11. Независимость от сети;

  12. Независимость от СУБД.

 

Локальная автономия

В распределенной системе узлы следует делать автономными. Локальная автономия означает, что функционирование любого узла Х не зависит от успешного выполнения операций на некотором узле У. В противном случае выход из строя узла У может привести к невозможности выполнения операций на узле Х. Из принципа локальной автономии следует, что владение и управление данными осуществляется локально вместе с локальным ведением учета. В действительности цель локальной автономии достигается не полностью, поскольку часто узел Х должен представлять некоторую часть управления узлу У, поэтому говорят не о полной, а о максимально возможной автономии.

Независимость от центрального узла.

 

Под локальной автономией понимается, что все узлы должны рассматриваться как равные. Следовательно, не должно существовать никакой зависимости и от центрального «основного» узла с некоторым централизованным обслуживанием, например централизованной обработкой запросов, централизованным управлением транзакциями или централизованным присвоением имен. Зависимость от центрального узла нежелательна по двум причинам. Во-первых, центральный узел может быть «узким» местом всей системы, а во-вторых, более важно то, что система в целом становится уязвимой, т.е. при повреждении центрального узла может выйти из строя вся система.



 

Непрерывное функционирование

Одним из преимуществ распределенных систем является то, что они обеспечивают более высокую надежность и доступность.

Надежность (вероятность того, что система выполняет свойственные ей функции в заданный момент времени) повышается благодаря работе распределенных систем не по принципу «все или ничего», а в постоянном режиме; т.е. работа системы продолжается, хотя и на более низком уровне, даже в случае неисправности некоторого отдельного компонента, например узла.

Доступность (вероятность того, что система исправна и работает в течение некоторого промежутка времени) повышается частично по той же причине, а частично благодаря возможности репликации данных.

Независимость от расположения

Эта цель предполагает обеспечение такого режима работы с данными, при котором пользователю не нужно знать, на каком узле находятся требуемые данные. При этом значительно упрощаются пользовательские программы, а также не требуется их изменения при перемещении данных в системе.

Независимость от фрагментации

В системе поддерживается фрагментация данных, если некоторое отношение из соображений физического хранения необходимо разделить на части или фрагменты. Фрагментация желательна для повышения производительности системы, поскольку данные лучше хранить в том месте, где они наиболее часто используются. При такой организации многие операции становятся локальными, а объем передаваемых в сети данных снизится.

Существует два типа фрагментации - горизонтальная и вертикальная, которые связаны с операциями селекции и проекции соответственно, т.е. горизонтальный фрагмент может быть получен с помощью операции селекции, а вертикальный - проекцией. Реконструкцию исходного отношения на основе его фрагментов можно осуществить с помощью операций соединения (для вертикальных фрагментов) и объединения (для горизонтальных фрагментов).

В фрагментированной системе необходимо обеспечить поддержку независимости от фрагментации, т.е. пользователь не должен «ощущать» фрагментацию данных.

Независимость от репликации

В системе поддерживается независимость от репликации, если заданное отношение или фрагмент могут быть представлены различными копиями (репликами) хранимыми на разных узлах. Репликация полезна по двум причинам. Во-первых, благодаря ей достигается большая производительность, т.к. приложения могут работать с локальными копиями, не обмениваясь данными с удаленными узлами. Во-вторых, репликация позволяет обеспечить большую доступность, т.к. реплицированный объект остается доступным для обработки до тех пор, пока остается хотя бы одна его реплика. Главный недостаток репликации заключается в том, что при обновлении реплицируемого объекта, все его копии должны синхронизироваться.

В системе, которая поддерживает репликацию данных, должна также поддерживаться независимость от репликации, т.е. пользователь не должен касаться проблем связанных с созданием и синхронизацией копий.

Обработка распределенных запросов

При обработке в распределенной системе запроса необходимо выработать эффективную стратегию его реализации. Например, запрос на объединение отношений Rx , расположенного на узле X , и отношения Ry , хранимого на узле Y , может быть выполнен с помощью перемещения отношения Rx на узел Y , перемещения отношения Ry на узел X или перемещения этих двух отношений на третий узел Z и т.д. Это означает, что при выполнении запроса на распределенной БД необходим его предварительный анализ с последующим выбором оптимальной стратегии его реализации.

Управление распределенными транзакциями

В распределенной системе выполнение транзакции связано с исполнением программных кодов на нескольких узлах. Транзакция это логическая единица работы, которая включает всю совокупность действий, необходимых для реализации запроса. Транзакция считается неделимым процессом, т.е. если какое либо из составляющих действий окажется не выполненным, то вся транзакция считается не выполненной. Каждый программный код, исполняемый на каком либо узле при выполнении транзакции, называется агентом. Таким образом, транзакция состоит из нескольких агентов, т.е. процессов реализующих транзакцию.

В процессе управления транзакцией выделяют управление восстановлением и управление параллельной обработкой. Первое из них базируется на протоколе двухфазной фиксации. В грубом приближении в соответствии с этим протоколом в начале транзакции устанавливается точка фиксации данных, т.е. как бы создается копия данных, которые предполагается изменить в результате транзакции. Если транзакция завершена нормально, то точка фиксации сохраняется до выполнения следующей транзакции. Если же произошел сбой, то система возвращает состояние данных в точку фиксации, позволяя не допустить необратимого неправильного изменения БД. Управление параллельной обработкой предполагает установку блокировок на отношения, группы записей с целью не допустить изменение данных другим пользователем во время выполнения транзакции.

Независимость от аппаратного обеспечения

Используемые в настоящее время компьютеры характеризуются большим разнообразием. В связи с этим существует необходимость интеграции данных на всех системах и создания для пользователя представления единой системы. Должна иметься возможность запуска одной и той же СУБД на разном аппаратном обеспечении.

Независимость от операционной системы

Эта цель является следствием предыдущей. Необходимо, чтобы одна и та же СУБД могла работать под управлением разных ОС.

Независимость от сети

Если система в состоянии поддерживать несколько узлов с разным аппаратным обеспечением и разными операционными системами, то желательно, чтобы в ней поддерживались разные типы сетей.

Независимость от СУБД

Эта цель означает, что желательно, чтобы распределенная БД допускала использование различных СУБД разными пользователями. Это возможно только если эти СУБД поддерживают некоторый общий стандарт представления данных, например, официальный стандарт языка SQL.




30. Проблема создания и сжатия больших информационных массивов, информационных хранилищ и складов данных.


Хранилища данных. Многомерные хранилища данных


 

Комбинация многомерного и реляционного подхода: киоск данных

 

Каждая из описанных моделей имеет как достоинства, так и недостатки. Многомерная модель позволяет производить быстрый анализ данных, не позволяет хранить  большие массивы информации. Реляционная модель практически не имеет ограничений по объему накапливаемых данных, однако имеет    низкую скорость выполнения аналитических запросов. Можно ли совместить эти два подхода? Во-первых, редко возникает операция когда для анализа необходима вся информация, хранящая в хранилище. Обычно каждый аналитик обслуживает одно из направлений деятельности организации. Реальный объем этих данных позволяет вместить их в многомерные хранилища. Источником данных для них должен быть центральное хранилище организации. Многомерные хранилища данных выполняют роль мелких складов.



Киоск данных - это специализированное многомерное хранилище, обслуживающее одно из направлений деятельности предприятия.

Комбинация будет выглядеть следующим образом.

 
Системы, использующие хранилища данных строятся на основе архитектуры «клиент-сервер». Хранилище размещается на специализированном сервере для него используют мощные многопроцессорные вычислительные системы. В качестве СУБД используют СУБД, поддерживающие параллельную обработку запросов:

1. TERADATA,NCD

2. DB\2, IBM

3. Oracle

4. INFORMIK

Киоски данных реализуются с использованием серверов многомерных баз данных:

1. Essbase (Arbor Soft ware)

2. Oracle Express (Oracle)

3. Centium (Planning Sciences)

Хранилища данных принято делить:



ип хранилища

объем данных

число строк в фактологической таблице

Маленькие

до 3 Гбайт

несколько миллионов строк

Средние

до 25 Гбайт

до 100 млн. строк

Большие

до 200 Гбайт

 


несколько сотен млн.строк

Сверхбольшие

свыше 200 Гбайт

миллиард и более

 

                В таблице приведен полезный объем, использованный для анализа. Дисковое пространство обычно в несколько раз больше за счет того, что необходимо поддерживать систему индексов, обычно в 5-10 раз.



31. Основы фракталов. Фрактальная математика. Фрактальные методы в архивации.




Понятие "фрактал"


 

Понятия фрактал и фрактальная геометрия, появившиеся в конце 70-х, с середины 80-х прочно вошли в обиход математиков и программистов. Слово фрактал образовано от латинского fractus и в переводе означает состоящий из фрагментов. Оно было предложено Бенуа Мандельбротом в 1975 году для обозначения нерегулярных, но самоподобных структур, которыми он занимался. Рождение фрактальной геометрии принято связывать с выходом в 1977 году книги Мандельброта `The Fractal Geometry of Nature'. В его работах использованы научные результаты других ученых, работавших в период 1875-1925 годов в той же области (Пуанкаре, Фату, Жюлиа, Кантор, Хаусдорф). Но только в наше время удалось объединить их работы в единую систему.

Роль фракталов в машинной графике сегодня достаточно велика. Они приходят на помощь, например, когда требуется, с помощью нескольких коэффициентов, задать линии и поверхности очень сложной формы. С точки зрения машинной графики, фрактальная геометрия незаменима при генерации искусственных облаков, гор, поверхности моря. Фактически найден способ легкого представления сложных неевклидовых объектов, образы которых весьма похожи на природные.

Одним из основных свойств фракталов является самоподобие. В самом простом случае небольшая часть фрактала содержит информацию о всем фрактале.

Определение фрактала, данное Мандельбротом, звучит так: "Фракталом называется структура, состоящая из частей, которые в каком-то смысле подобны целому".

Фрактальное сжатие


 

В декабре 1992 года, перед самым Рождеством, компания Microsoft выпустила свой новый компакт-диск Microsoft Encarta. С тех пор эта мультимедиа-энциклопедия, содержащая информацию о животных, цветах, деревьях и живописных местах, не покидает списки наиболее популярных энциклопедий на компакт-дисках. В недавнем опросе Microsoft Encarta опять заняла первое место, опередив ближайшего конкурента - Комптоновскую мультимедиа-энциклопедию. Причина подобной популярности кроется в удобстве использования, высоком качестве статей и, главное, в большом количестве материалов. На диск записано 7 часов звука, 100 анимационных роликов, примерно 800 масштабируемых карт, а также 7000 качественных фотографий. И все это - на одном диске! Напомним, что обычный компакт-диск в 650 Мбайт без использования компрессии может содержать либо 56 минут качественного звука, либо 1 час видео разрешения с разрешением 320х200 в формате MPEG-1, либо 700 полноцветных изображений размером 640х480.

Чтобы разместить больше информации, необходимы достаточно эффективные алгоритмы архивации. Мы не будем останавливаться на методах архивации для видео и звука. Речь пойдет о новом перспективном алгоритме - фрактальном сжатии графической информации.

Когда в 1991 году впервые была опубликована информация о возможностях фрактального сжатия, она наделала много шуму. Майкл Барнсли, один из разработчиков алгоритма, утверждал, что разработан способ нахождения коэффициентов фрактала, сколь угодно близкого к исходной картинке.

Фракталы, эти красивые образы динамических систем, ранее использовались в машинной графике в основном для построения изображений неба, листьев, гор, травы. Красивое и, что важнее, достоверно имитирующее природный объект изображение могло быть задано всего несколькими коэффициентами. Неудивительно, что идея использовать фракталы при сжатии возникала и раньше, но считалось практически невозможным построить соответствующий алгоритм, который подбирал бы коэффициенты за приемлемое время.

Итак, в 1991 году такой алгоритм был найден. Кроме того, в дальнейших его статьях декларировался ряд уникальных возможностей новой технологии. Так, фрактальный архиватор позволяет, например, при распаковке произвольно менять разрешение (размеры) изображения без появления эффекта зернистости. Более того, он распаковывает гораздо быстрее, чем ближайший конкурент JPEG, и не только статическую графику, но и видео. В качестве примера приводилась программа, показывающая на машине с процессором i386/33 МГц цветной видеофильм с частотой 20 кадров в секунду без всякой аппаратной поддержки. В отличие от JPEG, в алгоритм изначально заложена возможность управлять степенью потерь на участках с максимальными потерями качества. Коэффициент сжатия изображений в целом примерно как у JPEG, но на некоторых реальных картинках достигалось сжатие в 10000 (!) раз.

Звучит это более чем внушительно, поэтому необходимо спокойно разобраться с преимуществами, которые обещает фрактальная компрессия, а также с возможными неприятными сторонами этого алгоритма.


История фрактального сжатия


 

Рождение фрактальной геометрии обычно связывают с выходом в 1977 году книги Б. Мандельброта "Фрактальная геометрия природы". Одна из основных идей книги заключалась в том, что средствами традиционной геометрии (то есть используя линии и поверхности), чрезвычайно сложно представить природные объекты. Фрактальная геометрия задает их очень просто. В 1981 году Джон Хатчинсон опубликовал статью "Фракталы и самоподобие", в которой была представлена теория построения фракталов с помощью системы итерируемых функций (IFS, Iterated Function System). Четыре года спустя появилась статья Майкла Барнсли и Стефана Демко, в которой приводилась уже достаточно стройная теория IFS. В 1987 году Барнсли основал Iterated Systems, компанию, основной деятельностью которой является создание новых алгоритмов и ПО с использованием фракталов.

Всего через год, в 1988 году, он выпустил фундаментальный труд "Фракталы повсюду". Помимо описания IFS, в ней был получен результат, известный сейчас как Collage Theorem, который лежит в основе математического обоснования идеи фрактальной компрессии.

Если построение изображений с помощью фрактальной математики можно назвать прямой задачей, то построение по изображению IFS - это обратная задача. Довольно долго она считалась неразрешимой, однако Барнсли, используя Collage Theorem, построил соответствующий алгоритм. (В 1990 и 1991 годах эта идея была защищена патентами.) Если коэффициенты занимают меньше места, чем исходное изображение, то алгоритм является алгоритмом архивации.

Первая статья об успехах Барнсли в области компрессии появилась в журнале BYTE в январе 1988 года. В ней не описывалось решение обратной задачи, но приводилось несколько изображений, сжатых с коэффициентом 1:10000, что было совершенно ошеломительно. Но практически сразу было отмечено, что несмотря на броские названия ("Темный лес", "Побережье Монтере", "Поле подсолнухов") изображения в действительности имели искусственную природу. Это, вызвало массу скептических замечаний, подогреваемых еще и заявлением Барнсли о том, что "среднее изображение требует для сжатия порядка 100 часов работы на мощной двухпроцессорной рабочей станции, причем с участием человека".

Отношение к новому методу изменилось в 1992 году, когда Арнауд Джеквин, один из сотрудников Барнсли, при защите диссертации описал практический алгоритм и опубликовал его. Этот алгоритм был крайне медленным и не претендовал на компрессию в 10000 раз (полноцветное 24-разрядное изображение с его помощью могло быть сжато без существенных потерь с коэффициентом 1:8 - 1:50); но его несомненным достоинством было то, что вмешательство человека удалось полностью исключить. Сегодня все известные программы фрактальной компрессии базируются на алгоритме Джеквина. В 1993 году вышел первый коммерческий продукт компании Iterated Systems. Ему было посвящено достаточно много публикаций, но о коммерческом успехе речь не шла, продукт был достаточно "сырой", компания не предпринимала никаких рекламных шагов, и приобрести программу было тяжело.

В 1994 году Ювал Фишер были предоставил во всеобщее пользование исходные тексты исследовательской программы, в которой использовалось разложение изображения в квадродерево и были реализованы алгоритмы оптимизации поиска. Позднее появилось еще несколько исследовательских проектов, которые в качестве начального варианта программы использовали программу Фишера.

В июле 1995 года в Тронхейме (Швеция) состоялась первая школа-конференция, посвященная фрактальной компрессии. Таким образом, многие важные события в области фрактальной компрессии произошли за последние три года: алгоритм только-только начинает развиваться.



Идея фрактальной архивации


 

Фрактальная архивация основана на том, что с помощью коэффициентов системы итерируемых функций изображение представляется в более компактной форме. Прежде чем рассматривать процесс архивации, разберем, как IFS строит изображение.

Строго говоря, IFS - это набор трехмерных аффинных преобразований, переводящих одно изображение в другое. Преобразованию подвергаются точки в трехмерном пространстве (x координата, у координата, яркость).

Наиболее наглядно этот процесс продемонстрировал сам Барнсли в своей книге "Фрактальное сжатие изображения". В ней введено понятие Фотокопировальной Машины, состоящей из экрана, на котором изображена исходная картинка, и системы линз, проецирующих изображение на другой экран. Каждая линза проецирует часть исходного изображения. Расставляя линзы и меняя их характеристики, можно управлять получаемым изображением. На линзы накладывается требование: они должны уменьшать в размерах проектируемую часть изображения. Кроме того, они могут менять яркость фрагмента и проецируют не круги, а области с произвольной границей.

Одна шаг Машины состоит в построении с помощью проецирования по исходному изображению нового. Утверждается, что на некотором шаге изображение перестанет изменяться. Оно будет зависеть только от расположения и характеристик линз, и не будет зависеть от исходной картинки. Это изображение называется неподвижной точкой или аттрактором данной IFS. Collage Theorem гарантирует наличие ровно одной неподвижной точки для каждой IFS. Поскольку отображение линз является сжимающим, каждая линза в явном виде задает самоподобные области в нашем изображении. Благодаря самоподобию мы получаем сложную структуру изображения при любом увеличении.

Наиболее известны два изображения, полученных с помощью IFS треугольник Серпинского и папоротник Барнсли Первое задается тремя, а второе - питью аффинными преобразованиями (или, в нашей терминологии, линзами). Каждое преобразование задается буквально считанными байтами, в то время, как изображение, построенное с их помощью, может занимать и несколько мегабайт.

Становится понятно, как работает архиватор, и почему ему требуется так много времени. Фактически, фрактальная компрессия - это поиск самоподобных областей в изображении и определение для них параметров аффинных преобразований.

В худшем случае, если не будет применяться оптимизирующий алгоритм, потребуется перебор и сравнение всех возможных фрагментов изображения разного размера. Даже для небольших изображений при учете дискретности мы получим астрономическое число перебираемых вариантов. Даже резкое сужение классов преобразований, например, за счет масштабирования только в определенное число раз, не позволит добиться приемлемого времени. Кроме того, при этом теряется качество изображения. Подавляющее большинство исследований в области фрактальной компрессии сейчас направлены на уменьшение времени архивации, необходимого для получения качественного изображения.

 

Сравнение с JPEG


 

Сегодня наиболее распространенным алгоритмом архивации графики является JPEG. Сравним его с фрактальной компрессией. Во-первых, заметим, что и тот, и другой алгоритм оперируют 8-битными (в градациях серого) и 24-битными полноцветными изображениями. Оба являются алгоритмами сжатия с потерями и обеспечивают близкие коэффициенты архивации. И у фрактального алгоритма, и у JPEG существует возможность увеличить степень сжатия за счет увеличения потерь. Кроме того, оба алгоритма очень хорошо распараллеливаются. Различия начинаются, если мы рассмотрим время, необходимое алгоритмам для архивации/разархивации. Так, фрактальный алгоритм сжимает в сотни и даже в тысячи раз дольше, чем JPEG. Распаковка изображения, наоборот, произойдет в 5-10 раз быстрее. Поэтому, если изображение будет сжато только один раз, а передано по сети и распаковано множество раз, то выгодней использовать фрактальный алгоритм.

JPEG использует разложение изображения по косинусоидальным функциям, поэтому потери в нем (даже при заданных минимальных потерях) проявляются в волнах и ореолах на границе резких переходов цветов. Именно за этот эффект его не любят использовать при сжатии изображений, которые готовят для качественной печати: там этот эффект может стать очень заметен.

Фрактальный алгоритм избавлен от этого недостатка. Более того, при печати изображения каждый раз приходится выполнять операцию масштабирования, поскольку растр (или линиатура) печатающего устройства не совпадает с растром изображения. При преобразовании также может возникнуть несколько неприятных эффектов, с которыми можно бороться либо масштабируя изображение программно (для дешевых устройств печати типа обычных лазерных и струйных принтеров), либо снабжая устройство печати своим процессором, винчестером и набором программ обработки изображений (для дорогих фотонаборных автоматов). Как можно догадаться, при использовании фрактального алгоритма таких проблем практически не возникает.

Вытеснение JPEG фрактальным алгоритмом в повсеместном использовании произойдет, еще не скоро (хотя бы в силу низкой скорости архивации последнего), однако в области приложений мультимедиа, в компьютерных играх его использование вполне оправдано.

  1. Типология БД. Документальные БД. Фактографические БД.




Документальные системы


 Назначение - чаще всего информация представляется в виде простых текстовых документов. За такими системами укоренилось название информационно-поисковые системы (ИПС).

Документальные информационно-поисковые системы (ДИПС) должны отвечать на запросы пользователей на основе проведения информационного поиска документов. Пользователь формирует информационный запрос к ДИПС на естественном языке (ЕЯ). В теории ДИПС введены 2 фундаментальных понятия:

1. пертинентность - соответствие смыслового содержания документа информационной потребности пользователя

2. релевантность - соответствие содержания документа информационному запросу в том виде, в котором он сформирован.

Автоматизация процесса информационного поиска требовало формализации представлений смыслового содержания информационных запросов и документов в виде поисковых предписаний (ПП) и поискового образа документа (ПОД).

Для записи ПП и ПОД применяют специализированные языки - информационно-поисковые языки (ИПЯ). Поиск осуществляется на основе сопоставления поискового образа документа и поискового предписания ПП и применяется решение о выдачи документа



Обобщенная функциональная структура ДИПС.


 

В состав типичной ДИПС входят основные подсистемы

1. ввод и регистрация

2. обработка

3. хранение

4. поиск
 

ПП - поисковые предписания

ПОД - поисковый образ документа

КСС - критерий смыслового соответствия

Текстовые документы, поступающие на вход в системы могут быть представлены как в бумажном, так и в электронном виде. Поэтому подсистема ввода и регистрации решает следующие задачи:

1. создание электронных копий бумажных документов, сканирование с последующим распознаванием или ввод с клавиатуры;

2. обеспечение подключения к каналам, доставляющие электронные документы;

3. распознавание, а при необходимости, преобразование формата электронных документов;

4. присвоение электронным документам уникальных идентификаторов (регистрация).

Все поступающие документы поступают в подсистему хранения для сохранения в базе документов. Подсистема хранения представляет собой  совокупность стандартных и специализированных средств архивации, обеспечивающих возможность доступа к данным по предъявляемому идентификатору. Хранение осуществляется в файлах ,распределяясь по каталогам жесткого диска. Далее документы поступают в подсистему обработки, задачей которой является программирование для каждого документа поискового образа документа ПОД. ПОД сохраняется в индексе, индекс представляет таблицу, строки которой соответствуют документам, а столбцы- информационным признакам, на основе которых стоится поисковый образ документа ПОД. При поступлении на вход системы запрос пользователя он преобразуется в поисковое предписание и подается на вход подсистемы поиска, задачей которой является описание в индексе поискового образа документа ПОД, удовлетворяющего поисковому предписанию ПП

Идентификаторы релевантных документов  подаются с выхода подсистемы поиска на вход подсистемы хранения, которая осуществляет выдачу пользователю самых релевантных документов.

В организации ДИПС существует проблема информационного представления содержания текста:

1. недостатки естественного языка:

многообразие средств передачи;

2. семантическая неоднозначность:

- синонимия, т.е. тождественность или общность значению слов, выражающих одно и тоже понятие;

- многозначность, характеризует неоднозначность понимания отдельных слов, делится на полисемию - совпадение названий различных предметов и анонимию - совпадение названий различных предметов, не имеющих между собой общих свойств;

лексичность - пропуск подразумеваемых слов.

                Поэтому внедрили информационно-поисковые языки (ИПЯ).

ИПЯ - специализированный искусственный язык, предназначенный для описания основного смыслового содержания, поступающих в систему сообщений, с целью обеспечения возможности последующего их поиска.

ИПЯ создается на базе ЕЯ, но более компактен, имеет четкие грамматические правила, отсутствие семантической неоднозначности.

ИПЯ делиться на:

- классификационные

- дескрипторные

Классификационные, в них наравне со славами, выражениями в простые понятия включены словосочетания и фразы, выражающее сложное понятие.

Например:

Политика. Внутренняя. Федеральная.

Политика. Внутренняя. Региональная.

Политика. Внутренняя.

Следовательно, производится классификация сообщений. Частный случай классификации языка является рубрикатор. Дескрипторные, в них сложное предложение создаются путем объема лексических единиц во время работы. Готовых предложений или фраз нет из-за  небольшого числа лексических единиц такие языки позволяют строить предложения иного смысла, в них отсутствует грамматика.

Например:

Владеть Иванов автомобиль.

Иванов Владеть автомобиль.



33. Гипертекстовые и мультимедийные БД. XML-серверы. Объектно-ориентированные БД. Распределенные БД. Коммерческие БД.



Коммерческие базы данных.


 

Коммерческие базы данных представляют собой базы данных, специально предназначенные для продажи пользователям. Эти БД могут передаваться пользователям на машинных носителях либо к ним может обеспечиваться доступ в режиме «он-лайн». Кроме того, могут предоставляться печатные аналоги базы данных. В качестве машинных носителей используются как магнитные носители, так и оптические диски. Выбор способа предоставления информации определяется многими факторами:

1) характером информации и особенно степенью ее изменчивости («летучести»);

2) характером использования информации в организации-потребителе;

3) состоянием средств телекоммуникации в регионе, а также наличием технических средств у потребителей;

4) стоимостными параметрами (стоимость оплаты телефонных услуг или иных услуг по передаче информации, стоимость технических и программных средств и др.);

5) числом пользователей и интенсивностью их обращений к БД;

6) традициями в форме использования информации.

Развитие технических средств обработки данных и средств связи оказывает большое влияние на структуру индустрии информации. Так, с созданием национальных и глобальных сетей передачи данных (середина 70-х годов) ведущим видом информационных услуг в мире стал диалоговый поиск информации в удаленных от пользователя базах данных. Наблюдается как абсолютный рост числа он-лайновых баз данных, так и увеличение их доли в общем числе коммерческих баз данных. В России из-за недостаточного количества и качества каналов связи число он-лайновых баз данных невелико. Однако следует подчеркнуть, что если интенсивность изменения информации велика, а для пользователя важно иметь актуальную и полную информацию, то речь может идти только об он-лайновом доступе к БД.

Влияние характера использования информации в организации-потребителе на способ получения информации можно проиллюстрировать на следующем примере. Пусть имеется база данных о предприятиях и организациях. Если у потребителя эпизодически появляется потребность в отборе небольшого объема информации из этой базы данных, то лучше получать данные в диалоговом режиме. Если потребность возникает часто, размер выборки большой, а полученная информация используется в дальнейшей обработке (например, для распечатки адресов в письмах), то имеет смысл приобрести базу данных на машинном носителе.

1.1. Классификация коммерческих баз данных. С некоторой степенью условности рынок электронной информации можно разделить на три крупных сектора:

∙ сектор деловой информации;

∙ сектор профессиональной (патентной, научно-технической и т. п.) информации;

∙ сектор массовой потребительской информации.

Каждый из секторов имеет своих потребителей, предъявляет специфические требования к актуальности и точности информации и, как следствие, к языковым, программным и техническим средствам поддержки данных.

Тематический охват коммерческих баз данных практически безграничен, а их пользователем может быть практически каждый: в процессе своей профессиональной деятельности каждый индивид может быть потребителем или поставщиком информации первых двух секторов, а в повседневной жизни ─ пользователем информации третьего сектора.

Несмотря на растущее значение в общественном производстве, индустрия информации не является самостоятельной отраслью: она обеспечивает эффективную работу других отраслей общественного производства, т. е. является инфраструктурной отраслью. В связи с вышесказанным, а также с тем, что базы данных отражают определенную предметную область, состав, значение и потребительская стоимость информации сильно зависят от общего состояния той системы, в которую встраиваются коммерческие БД. Так, в «доперестроечные» времена коммерческие базы данных в стране практически не были распространены. С развитием рыночных отношений стал развиваться и рынок информационных услуг. Но и здесь конъюнктура сильно зависит от состояния экономических процессов, происходящих в стране. Например, изменения в системе распределения жилья привели к необходимости создания баз данных жилого фонда и появления большого интереса к этой информации у многих пользователей. Аналогичная ситуация возникает с землей, нежилым фондом, акциями и ценными бумагами и другой информацией. Такие базы данных практически отсутствовали у нас в стране в связи со спецификой политико-экономического устройства. Здесь есть и обратная зависимость ─ функционирование рынка невозможно без соответствующей информационной инфраструктуры, и переход к рынку у нас в стране с неизбежностью приведет к резкому росту числа коммерческих баз данных и особенно в первом секторе ─ секторе деловой информации.

Анализ использования коммерческих баз данных с точки зрения приносимых доходов показывает, что наибольший доход приносят именно БД деловой информации. По данным [6], «в США доходы по предоставлению услуг доступа к базам данных НТИ не превышали 7%, а в Западной Европе─10%, тогда как информация в сфере бизнеса приносила более 70% доходов, профессиональная информация─16%, а потребительская ─ 6%». Следует обратить внимание, что речь идет о развитых в информационном отношении странах, где число «потребительских» баз данных и абонентов велико. Приведенное выше соотношение доходов не в последнюю очередь определяется тем, что за деловую информацию, отсутствие или искажение которой может вызвать непоправимые последствия для бизнеса, пользователь вынужден и может платить «большие» деньги, в то время как при оплате за бытовую информацию он не так щедр. Наибольшая зависимость состава требуемых баз данных от социально-экономического устройства общества наблюдается в секторе деловой информации, однако, такая зависимость присуща и для сектора массовой и научно-технической информации. Так, в некоторых странах библиотечные услуги являются платными, и это, безусловно, сказывается на развитии коммерческих БД в этой области.

В пределах каждого сектора рынка электронной информации могут быть выделены подсекторы.

В секторе деловой информации важную роль играет подсектор биржевой и финансовой информации. В нем информация характеризуется высокой степенью изменчивости, большими объемами. Со стороны пользователей предъявляются требования к абсолютной полноте и точности информации, к ее оперативности. Именно в этом подсекторе информационного рынка особенно бурно развиваются новые информационные технологии. К этому подсектору происходит большое количество обращений, и он приносит большие доходы. Информация о котировках ценных бумаг (акций, облигаций, закладных) и товаров, учетных ставках и обменных курсах выступает основной на данном рынке. Основными потребителями биржевой информации являются другие биржи и специализированные службы по распространению биржевой и финансовой информации. Для обработки биржевой информации необходимы специальные посреднические фирмы. Следует обратить внимание на интерес зарубежных фирм к этому сектору информации. В настоящее время этот сектор информации развивается быстро. Причем здесь наблюдается использование наиболее современных технических средств (как ЭВМ, так и средств связи, в том числе спутниковой). И если в других секторах у нас пока преобладающим является оф-лайновое предоставление информации, то по биржевой информации естественным является он-лайновое обслуживание. Для финансовой информации важное значение имеет проблема стандартизации. Это касается как представления данных, так и систем коммуникации. Коммерческая информация по сравнению с биржевой и финансовой имеет более стабильный характер. Рынок коммерческой информации в мире оценивается всего в 10─20% от рынка биржевой и финансовой информации. В этом секторе рынка информационных услуг может быть получена прежде всего справочная информация о предприятиях/организациях, их продукции, финансовом состоянии (в том числе полные отчеты компаний), связях, сделках, адресах и телефонах руководителей и т. п.

В некоторых странах есть понятие «публичное» предприятие. Такое предприятие обязано сообщать сведения о своей деятельности, и за это оно получает некоторые финансовые и налоговые льготы. В других странах четко определено, какие сведения и с какой периодичностью должно сообщать предприятие в статистические органы, и эти отчеты могут служить источником коммерческой информации. Возможно, что это будут и собственные сведения, собираемые организациями, подготавливающими справочную информацию. БД, в которых хранятся сведения о продукции, как правило, специализированы по видам продукции. Иногда наряду с коммерческой информацией такие базы данных содержат и научно-техническую информацию, особенно если речь идет о сложной промышленной продукции. Для распространения коммерческой информации широко используются теле- и радиоканалы. Вообще в мире наблюдается тенденция к сближению и взаимодействию всех видов информации и созданию на этой основе эффективной среды поддержания всей цепочки торгово-платежных операций, начиная с просмотра каталогов торговых предложений, товаров и услуг и кончая контролем за поставкой товара и получением по электронной почте сопроводительных документов.

Сектор профессиональной информации включает в себя информацию, расширяющую профессиональные знания в предметной области профильной специализации ее потребителей:

∙ информацию о методиках экономических исследований ─ для экономистов и бизнесменов;

∙ законы и другие правовые акты ─ для юристов, бизнесменов, управленческого персонала;

∙ информацию о свойствах материалов ─ для технологов, химиков и т. п.

Кроме того, специалисты обращаются и к информации из сектора деловой информации.

В секторе массовой потребительской информации можно выделить следующие блоки:

∙ новости, предоставляемые различными агентствами новостей;

∙ энциклопедии, справочники;

∙ торговая сеть;

∙  искусство;

∙ гидрометеорология;

∙ путешествия;

∙ расписания движения транспорта и т. п.

Следует отметить, что приведенное разбиение рынка информации на секторы условно, как всякая классификация, и зависит от цели исследования. Кроме деления информации по секторам в зависимости от ее содержания и назначения часто используют деление информации на актуальную и «историческую» (это деление в основном относится к деловой информации). Актуальной считается информация, которая меняется очень быстро (ежеминутно и даже ежесекундно). Это, к примеру, информация о курсах валют, котировках акций и т. п. Информационные компании, связанные с актуальной деловой информацией, имеют большую прибыль, чем те, для кого основной является «историческая» информация. По оценкам специалистов, услуги диалогового доступа имеют перспективы стать по-настоящему массовыми прежде всего в сфере экономической, биржевой, финансовой информации, а также в области резервирования и заказа (билетов, мест в гостиницах, товаров и т. п.). Различают БД-указатели и БД-источники. Число баз данных первого типа составляет около трети всех баз данных. БД этого типа указывают пользователю источник, к которому надо обратиться для получения интересующих его сведений. В числе этих баз 20% содержат библиографические описания, а также реферат, а 13% указывают на лицо, организацию, проект или что-то иное, отличное от документа [6]. Такие базы данных в основном относятся к сектору профессиональной информации.

Среди баз данных-источников различают числовые, полнотекстовые, текст-числовые, мультитиповые. В последние годы получают развитие и графические базы данных (в частности, для хранения торговых марок, структурных формул химических элементов, конструкторских элементов и т. п.). Иногда в отдельный тип БД-источников выделяют базы, содержащие тексты программ для ЭВМ.

Во второй половине 80-х годов доля библиографической информации сократилась и резко возросла доля полнотекстовых баз данных. Возросла также и доля справочных баз данных. Согласно данным, приведенным в [6], в 1990 г. библиографические БД составляли 23%, полнотекстовые ─ 45% и справочные─18% общего рынка баз данных.

В России в 1992 г, насчитывалось более 100 негосударственных служб деловой, прежде всего коммерческой информации. Обслуживание довольно небольшого рынка таким большим числом информационных служб свидетельствует о большом спросе на информацию и одновременно о незрелости информационного рынка.

В настоящее время в России наблюдается ситуация, когда многие тематические области не охвачены, а с другой стороны, имеет место сильное дублирование в других предметных областях (например, имеются множество баз данных по законодательству, баз данных предприятий и организаций, дайджесты рекламы и т. п.).

Пользователи коммерческих баз данных

           При создании любой коммерческой базы данных необходимо определить сферу ее применения, круг потенциальных пользователей, решаемые им задачи. При этом необходимы классификация пользователей (в том числе и потенциальных) и выявление их информационных потребностей.

Различают пользователей коллективных и индивидуальных. Среди коллективных выделяются: правительственные органы, неправительственные организации, средства массовой информации, учебные заведения, научные организации, предприятия и др.

Существуют коммерческие БД, ориентированные на определенный круг пользователей; могут вводиться и более жесткие ограничения на доступ к информации (такие, как обоснованность запроса). Примером служит база данных по сомнительной клиентуре коммерческих банков, создававшаяся по решению Совета Ассоциации российских банков. Пользователями такой базы данных могут стать коммерческие банки, участвующие в ее создании и подписавшие обязательства использовать полученную информацию, не нанося ущерба друг другу. Основанием для запроса о благонадежности клиента банка являются представленные ими в информационный центр кредитные заявки на выдачу ссуд, превышающих определенный размер, а также сведения о случаях передачи материалов на клиента в правоохранительные или судебные органы.

Коммерческие БД могут быть ориентированы не только на конечных пользователей, но и на промежуточных - так называемых информационных посредников. Ориентация на конечного пользователя предъявляет повышенные требования к разработке дружественного интерфейса и обеспечению эффективности доступа вне зависимости от квалификации пользователя. Ориентация на промежуточных пользователей может упростить разработку БД, но при этом возникает лишнее звено со всеми вытекающими отсюда отрицательными последствиями: удорожание услуг, увеличение времени реакции системы на первоначальный запрос пользователя и т. п. В настоящее время наблюдается тенденция к ориентации коммерческих БД на конечного пользователя.

По отношению к стране пользователи разделяются на внутренние и внешние. Тенденция к интеграции, которая наблюдается во всем мире, в наибольшей мере сказывается в информационной сфере. Речь идет не только об эффективном использовании тех огромных накопленных в мире информационных ресурсов, внедрении современных информационных технологий, но и о продаже внутренней информации на внешнем рынке. Внешние пользователи территориально не обязательно должны находиться за пределами государства. К ним относятся, например, работники посольств, торгпредств, корпунктов и т. п. Работа коммерческих БД с внешними пользователями имеет специфические особенности, связанные с расчетами в разных валютах, с многоязычием и т. п. В последнее время наблюдается рост трансграничного обмена информацией.

 Последствия коммерциализации информации.

Подход к информации как к товару наряду с очевидными преимуществами таит в себе целый ряд существенных опасностей. Так, по экономическим соображениям в коммерческие БД должны вводиться данные, которые нужны большому числу пользователей. Но с точки зрения развития науки этот критерий далеко не всегда правильный. Есть информация, которая «обгоняет» свое время, и поэтому она долгое время остается невостребованной. Такая информация не должна потеряться, так как плохое информирование в науке резко замедляет развитие общества и приводит к большим потерям, вызванным дублированием научно-исследовательских работ. Кроме того, доступ к информации ставится в зависимость от финансового положения пользователей, что снижает эффективность деятельности недостаточно «имущих» пользователей, ограничивает их естественные права на получение информации и, как следствие, снижает эффективность функционирования всей системы в целом. Кроме коммерческих баз данных необходимо создать и некоммерческие БД общего пользования.

Следует отметить, что, несмотря на постоянное увеличение доли коммерческого сектора в области создания баз данных в странах Европейского сообщества, в конце 80-х годов доля бесприбыльных организаций, создающих базы данных, остается значительной и составляет более 50% [6]. Бесприбыльные организации в основном заняты созданием библиографических баз данных и баз статистических данных.



Распределенная обработка данных. Распределенные базы данных.


 

Под распределенной обработкой данных понимается такой способ хранения и обработки данных, когда отдельное приложение может обрабатывать данные, распределенные на множестве различных баз данных, управление которыми осуществляют различными СУБД, работающие на различных машинах с различными операционными системами, соединенных коммуникационными системами. Распределенная база данных (РБД) является виртуальным объектом, части которого расположены на удаленных базах данных, связанных каналами связи. Физически РБД состоит из набора узлов, связанных коммуникационной сетью, в которой:

- Каждый узел обладает своими собственными системами баз данных.

- Узлы работают согласованно, поэтому пользователь может получить доступ к данным на любом узле сети, как будто все данные находятся на собственном узле.

- Каждый узел обладает своими собственными базами данных, собственными локальными пользователями, собственной СУБД и программным обеспечением для управления транзакциями, а так же собственным диспетчером передачи данных.

- Распределенная СУБД может рассматриваться как некий способ совместной работы отдельных локальных СУБД, расположенных на разных локальных узлах. Причем новый компонент программного обеспечения на каждом узле поддерживает все необходимые функции совместной работы.

- Комбинация этого компонента и существующей СУБД называется Распределенной Системой Управления Базами Данных (РСУБД).

В основе распределённых баз данных лежат следующие требования:

Локальная автономия;

Независимость от центрального узла;

Непрерывное функционирование;

Независимость от расположения;

Независимость от фрагментации;

Независимость от репликации;

Обработка распределённых запросов;

Управление распределёнными транзакциями;

Независимость от аппаратного обеспечения;

Независимость от операционной системы;

Независимость от сети;

Независимость от СУБД.

 

Локальная автономия



В распределенной системе узлы следует делать автономными. Локальная автономия означает, что функционирование любого узла Х не зависит от успешного выполнения операций на некотором узле У. В противном случае выход из строя узла У может привести к невозможности выполнения операций на узле Х. Из принципа локальной автономии следует, что владение и управление данными осуществляется локально вместе с локальным ведением учета. В действительности цель локальной автономии достигается не полностью, поскольку часто узел Х должен представлять некоторую часть управления узлу У, поэтому говорят не о полной, а о максимально возможной автономии.

Независимость от центрального узла.

 

Под локальной автономией понимается, что все узлы должны рассматриваться как равные. Следовательно, не должно существовать никакой зависимости и от центрального «основного» узла с некоторым централизованным обслуживанием, например централизованной обработкой запросов, централизованным управлением транзакциями или централизованным присвоением имен. Зависимость от центрального узла нежелательна по двум причинам. Во-первых, центральный узел может быть «узким» местом всей системы, а во-вторых, более важно то, что система в целом становится уязвимой, т.е. при повреждении центрального узла может выйти из строя вся система.



 

Непрерывное функционирование

Одним из преимуществ распределенных систем является то, что они обеспечивают более высокую надежность и доступность. Надежность (вероятность того, что система выполняет свойственные ей функции в заданный момент времени) повышается благодаря работе распределенных систем не по принципу «все или ничего», а в постоянном режиме; т.е. работа системы продолжается, хотя и на более низком уровне, даже в случае неисправности некоторого отдельного компонента, например узла. Доступность (вероятность того, что система исправна и работает в течение некоторого промежутка времени) повышается частично по той же причине, а частично благодаря возможности репликации данных. Независимость от расположения. Эта цель предполагает обеспечение такого режима работы с данными, при котором пользователю не нужно знать, на каком узле находятся требуемые данные. При этом значительно упрощаются пользовательские программы, а также не требуется их изменения при перемещении данных в системе.

Независимость от фрагментации

В системе поддерживается фрагментация данных, если некоторое отношение из соображений физического хранения необходимо разделить на части или фрагменты. Фрагментация желательна для повышения производительности системы, поскольку данные лучше хранить в том месте, где они наиболее часто используются. При такой организации многие операции становятся локальными, а объем передаваемых в сети данных снизится. Существует два типа фрагментации - горизонтальная и вертикальная, которые связаны с операциями селекции и проекции соответственно, т.е. горизонтальный фрагмент может быть получен с помощью операции селекции, а вертикальный - проекцией. Реконструкцию исходного отношения на основе его фрагментов можно осуществить с помощью операций соединения (для вертикальных фрагментов) и объединения (для горизонтальных фрагментов). В фрагментированной системе необходимо обеспечить поддержку независимости от фрагментации, т.е. пользователь не должен «ощущать» фрагментацию данных.

Независимость от репликации

В системе поддерживается независимость от репликации, если заданное отношение или фрагмент могут быть представлены различными копиями (репликами) хранимыми на разных узлах. Репликация полезна по двум причинам. Во-первых, благодаря ей достигается большая производительность, т.к. приложения могут работать с локальными копиями , не обмениваясь данными с удаленными узлами. Во-вторых, репликация позволяет обеспечить большую доступность, т.к. реплицированный объект остается доступным для обработки до тех пор, пока остается хотя бы одна его реплика. Главный недостаток репликации заключается в том, что при обновлении реплицируемого объекта, все его копии должны синхронизироваться. В системе, которая поддерживает репликацию данных, должна также поддерживаться независимость от репликации, т.е. пользователь не должен касаться проблем связанных с созданием и синхронизацией копий.

Обработка распределенных запросов

При обработке в распределенной системе запроса необходимо выработать эффективную стратегию его реализации. Например, запрос на объединение отношений Rx , расположенного на узле X , и отношения Ry , хранимого на узле Y , может быть выполнен с помощью перемещения отношения Rx на узел Y , перемещения отношения Ry на узел X или перемещения этих двух отношений на третий узел Z и т.д. Это означает, что при выполнении запроса на распределенной БД необходим его предварительный анализ с последующим выбором оптимальной стратегии его реализации.

Управление распределенными транзакциями

В распределенной системе выполнение транзакции связано с исполнением программных кодов на нескольких узлах. Транзакция это логическая единица работы, которая включает всю совокупность действий, необходимых для реализации запроса. Транзакция считается неделимым процессом, т.е. если какое либо из составляющих действий окажется не выполненным, то вся транзакция считается не выполненной. Каждый программный код, исполняемый на каком либо узле при выполнении транзакции, называется агентом. Таким образом, транзакция состоит из нескольких агентов, т.е. процессов реализующих транзакцию.

В процессе управления транзакцией выделяют управление восстановлением и управление параллельной обработкой. Первое из них базируется на протоколе двухфазной фиксации. В грубом приближении в соответствии с этим протоколом в начале транзакции устанавливается точка фиксации данных, т.е. как бы создается копия данных, которые предполагается изменить в результате транзакции. Если транзакция завершена нормально, то точка фиксации сохраняется до выполнения следующей транзакции. Если же произошел сбой, то система возвращает состояние данных в точку фиксации, позволяя не допустить необратимого неправильного изменения БД. Управление параллельной обработкой предполагает установку блокировок на отношения, группы записей с целью не допустить изменение данных другим пользователем во время выполнения транзакции.

Независимость от аппаратного обеспечения

Используемые в настоящее время компьютеры характеризуются большим разнообразием. В связи с этим существует необходимость интеграции данных на всех системах и создания для пользователя представления единой системы. Должна иметься возможность запуска одной и той же СУБД на разном аппаратном обеспечении.

Независимость от операционной системы

Эта цель является следствием предыдущей. Необходимо, чтобы одна и та же СУБД могла работать под управлением разных ОС.

Независимость от сети

Если система в состоянии поддерживать несколько узлов с разным аппаратным обеспечением и разными операционными системами, то желательно, чтобы в ней поддерживались разные типы сетей.



Независимость от СУБД

Эта цель означает, что желательно, чтобы распределенная БД допускала использование различных СУБД разными пользователями. Это возможно только если эти СУБД поддерживают некоторый общий стандарт представления данных, например, официальный стандарт языка SQL.


izumzum.ru