ETL-сервис Универсальной витрины данных#

Модуль «ETL-сервис Универсальной витрины данных» обеспечивает приём данных из ведомственных информационных систем (ВИС), их предобработку/трансформацию и последующую передачу в универсальную витрину данных (УВД) в соответствии с едиными функциональными и техническими требованиями (ЕФТТ) Минцифры РФ. Сервис поддерживает сценарии пакетной загрузки, контроль качества и отслеживание статусов публикации/ошибок на стороне принимающей системы.

Модуль позволяет:

  • создавать новые соединения к источникам данных;

  • задавать и изменять параметры соединения к источникам данных;

  • удалять соединения к источникам данных.

Авторизация#

Аутентификация пользователей выполняется через корпоративный сервис IdP Keycloak (SSO).

Для работы в системе существуют роли пользователя и администратора, разграничивающие права доступа. Учётные записи создаёт администратор системы по заявке.

Для входа в ETL-сервис откройте адрес веб-интерфейса ETL. Появится страница входа IdP.

Введите логин/пароль учетной записи.

../../_images/etl_unidatamart_1.png

При успешной аутентификации откроется главная страница ETL-сервиса. Доступные разделы отображаются в зависимости от назначенной роли.

Для выхода из системы нажмите «Выйти» в правом верхнем углу. Сессия в IdP завершится, повторный вход потребует повторной аутентификации.

В соответствии с политикой безопасности сессия завершается автоматически при длительном бездействии (настройка в IdP).

Ошибки доступа и типовые ситуации:

  • Недостаточно прав (403/«Доступ запрещён») – обратитесь к администратору для назначения требуемой роли.

  • Неверные учётные данные/блокировка – восстановление, разблокировка выполняются средствами IdP по регламенту организации.

Раздел «Системы»#

Раздел предназначен для учета всех интегрируемых информационных систем (ВИС-источники и приемники данных). Здесь отображаются карточки систем с их наименованием и мнемоникой – коротким кодом, который затем используется при настройке соединений и процессов.

../../_images/etl_unidatamart_2.png

Для просмотра карточки системы нажмите на запись в таблице. В карточке отображаются: дата создания, дата изменения, создатель, имя, мнемоника.

../../_images/etl_unidatamart_3.png

Раздел «Соединения»#

Раздел предназначен для управления подключениями ETL к внешним системам: источникам (ВИС) и приемникам (например, РВД/УРВД, файловые системы). Здесь можно просматривать соединения.

../../_images/etl_unidatamart_4.png

Раздел «Процессы»#

Раздел отображает все настроенные ETL-процессы. Процесс описывает полную цепочку извлечения, преобразования и загрузки (или удаления) конкретного вида данных из системы-источника в систему-приемник через выбранные соединения.

../../_images/etl_unidatamart_5.png

Таблица процессов содержит следующие сведения:

  • система-источник;

  • система-приемник;

  • вид данных – название и техкод в скобках (например, Заявления… (requests_users), Статусы заявлений (requests_statuses), Атрибуты шаблона комментария… (template_attributes), Документы, прилагаемые к статусу и т.п.);

  • вид операции – загрузка или удаление;

  • статус:

    • Остановлен из-за ошибки – выполнение прервано ошибкой; в карточке отображается красный инфоблок с текстом причины;

    • Остановлен – процесс не активен. Серая плашка «Остановлен»;

    • Запущен – процесс активен. В реестре зеленая плашка «Запущен»;

    • Создан – дата создания.

Сортировка строк осуществляется сначала по колонке [Статус] в следующем порядке: Остановлен из-за ошибки, Остановлен, Запущен. Далее – по алфавиту значений поля [Система-источник].

При нажатии на запись в таблице откроется карточка процесса:

../../_images/etl_unidatamart_6.png

В карточке отображаются:

  • вид данных и вид операции (загрузка/удаление);

  • источник данных:

    • система-источник;

  • приемник данных:

    • система-приемник (например, Региональная витрина данных);

    • соединение (например, РВД);

  • адрес для проверки статуса запроса:

    • соединение (обычно то же соединение, что на приемник, например, РВД).

Раздел «Запросы»#

Раздел отображает все запросы на загрузку и удаление данных, передаваемых из выбранной системы-источника в систему-приемник. Реестр служит для мониторинга статусов обработки, отборов по фильтрам и перехода в карточку конкретного запроса.

По умолчанию открыта вкладка «На загрузку». Список отсортирован по убыванию даты запроса (последние сверху).

../../_images/etl_unidatamart_7.png

Таблица запросов содержит следующие сведения:

  • система-источник;

  • система-приемник;

  • вид данных;

  • статус с временем его последнего изменения;

  • дата запроса.

Для ограничения списка запросов доступны фильтры «Система-источник», «Вид данных», «Статус».

При выборе значения из списка фильтр применяется мгновенно, список запросов динамически изменяется. Фильтр применяется одновременно к двум вкладкам «На загрузку» и «На удаление». При переключении между вкладками фильтры не сбрасываются.

Чтобы сбросить фильтрацию, нажмите кнопку Сбросить все.

Запросы на загрузку и на удаление могут иметь следующие статусы:

  • Передан в приемник – запрос доставлен в приемник, ожидается обработка;

  • Успешно обработан – приемник подтвердил обработку (данные загружены/запись удалена);

  • Ошибка ФЛК – приемник вернул ошибки форматно-логического контроля (ФЛК);

  • Отклонен приемником – приемник отверг запрос по внешней причине (бизнес-правило/контракт).

При нажатии на запись в таблице откроется карточка запроса с основными сведениями:

../../_images/etl_unidatamart_8.png

В карточках запросов со статусами «Ошибка ФЛК» или «Отклонен приемником» будет кнопка Посмотреть объект с ошибками:

../../_images/etl_unidatamart_9.png

При нажатии на кнопку откроется новая вкладка с результатом проверки данных.

Раздел «Ошибки в данных»#

Раздел показывает все записи с выявленными ошибками качества данных при передаче из системы-источника в систему-приемник.

../../_images/etl_unidatamart_10.png

Список отсортирован по убыванию даты проверки (последние проверки сверху).

Для ограничения списка с записями об ошибках доступны фильтры «Система-источник» и «Вид данных».

Нажатие на запись таблицы откроет карточку с результатами проверки данных. Для поля, в котором обнаружена ошибка, будет выведена подсказка красного цвета с правилом заполнения.

Для исправления ошибки необходимо вернуться в исходные данные и привести их в вид, подходящий для обработки и передачи.

Глоссарий#

ETL – конвейер «извлечение - преобразование - загрузка» данных между системой-источником и системой-приемником. В данном случае – веб-сервис, обеспечивающий прием, предобработку и передачу данных в УВД.

УВД / РВД – Универсальная/региональная витрина данных – система-приемник, куда ETL публикует наборы данных в соответствии с едиными функциональными техническими требованиями (ЕФТТ) v11.0.

ВИС – Ведомственная информационная система – система-источник данных для ETL.

DQ / ФЛК – контроль качества данных / форматно-логический контроль. Используется для выявления ошибок при проверке и приемке данных.

«Карантин» – реестр записей с блокирующими ошибками качества данных, которые должны быть исправлены на стороне источника до повторной загрузки.

Система-источник – карточка системы, из которой извлекаются данные (создается в разделе «Системы»).

Система-приемник – карточка целевой системы (обычно РВД), куда отправляются данные.

Соединение – параметры подключения к системе (API, файловая система, RVD и др.), используемые процессами.

Процесс ETL – настройка, описывающая цепочку перемещения данных (источник → приемник), тип данных и операцию (загрузка/удаление); может иметь зависимости («родительские»/«дочерние»).

Вид данных – тип публикуемого набора (например, requests_users, requests_statuses, template_attributes).

Вид операции – «Загрузка» (Upload) или «Удаление» (Delete) для выбранного вида данных.

Запрос – единичная операция загрузки/удаления, отображаемая в разделе «Запросы» по вкладкам «На загрузку» и «На удаление».

Идентификатор запроса / requestId – сквозной UUID операции публикации/удаления, отображается в карточке запроса.

Карточка запроса – экран с деталями запроса (статус, вид данных, источник/приемник и пр.) и ссылкой на «Объект с ошибками» при наличии ФЛК/отклонения.

ApiHandler – входной HTTP-сервис приема батчей/файлов (единая точка входа).

REST-uploader – компонент/канал приемника, применяемый для загрузки/удаления и проверки статуса обработки.

CSV – формат выгрузки: UTF-8 (без BOM), ; – разделитель, заголовки в нижнем регистре, ISO-форматы дат/времени, экранирование " и ограничения по объему.

Kafka – брокер сообщений, используемый для внутренних очередей/событий.

MinIO S3 – объектное хранилище; бинарные вложения доступны по идентификатору из витрины.

Атрибутивный состав – структура таблиц/наборов и обязательность полей, требуемые ЕФТТ/ТЗ для публикации в УВД.

Дедупликация – требование не создавать дубликаты; статусы и ссылки должны указывать на единственную запись.

Справочники – нормативные кодовые перечни (ОКТМО, регионы РФ и др.), на соответствие которым проверяются значения при ФЛК/DQ.