ETL-сервис Универсальной витрины данных#
Модуль «ETL-сервис Универсальной витрины данных» обеспечивает приём данных из ведомственных информационных систем (ВИС), их предобработку/трансформацию и последующую передачу в универсальную витрину данных (УВД) в соответствии с едиными функциональными и техническими требованиями (ЕФТТ) Минцифры РФ. Сервис поддерживает сценарии пакетной загрузки, контроль качества и отслеживание статусов публикации/ошибок на стороне принимающей системы.
Модуль позволяет:
создавать новые соединения к источникам данных;
задавать и изменять параметры соединения к источникам данных;
удалять соединения к источникам данных.
Авторизация#
Аутентификация пользователей выполняется через корпоративный сервис IdP Keycloak (SSO).
Для работы в системе существуют роли пользователя и администратора, разграничивающие права доступа. Учётные записи создаёт администратор системы по заявке.
Для входа в ETL-сервис откройте адрес веб-интерфейса ETL. Появится страница входа IdP.
Введите логин/пароль учетной записи.
 
При успешной аутентификации откроется главная страница ETL-сервиса. Доступные разделы отображаются в зависимости от назначенной роли.
Для выхода из системы нажмите «Выйти» в правом верхнем углу. Сессия в IdP завершится, повторный вход потребует повторной аутентификации.
В соответствии с политикой безопасности сессия завершается автоматически при длительном бездействии (настройка в IdP).
Ошибки доступа и типовые ситуации:
Недостаточно прав (403/«Доступ запрещён») – обратитесь к администратору для назначения требуемой роли.
Неверные учётные данные/блокировка – восстановление, разблокировка выполняются средствами IdP по регламенту организации.
Раздел «Системы»#
Раздел предназначен для учета всех интегрируемых информационных систем (ВИС-источники и приемники данных). Здесь отображаются карточки систем с их наименованием и мнемоникой – коротким кодом, который затем используется при настройке соединений и процессов.
 
Для просмотра карточки системы нажмите на запись в таблице. В карточке отображаются: дата создания, дата изменения, создатель, имя, мнемоника.
 
Раздел «Соединения»#
Раздел предназначен для управления подключениями ETL к внешним системам: источникам (ВИС) и приемникам (например, РВД/УРВД, файловые системы). Здесь можно просматривать соединения.
 
Раздел «Процессы»#
Раздел отображает все настроенные ETL-процессы. Процесс описывает полную цепочку извлечения, преобразования и загрузки (или удаления) конкретного вида данных из системы-источника в систему-приемник через выбранные соединения.
 
Таблица процессов содержит следующие сведения:
система-источник;
система-приемник;
вид данных – название и техкод в скобках (например, Заявления… (requests_users), Статусы заявлений (requests_statuses), Атрибуты шаблона комментария… (template_attributes), Документы, прилагаемые к статусу и т.п.);
вид операции – загрузка или удаление;
статус:
Остановлен из-за ошибки – выполнение прервано ошибкой; в карточке отображается красный инфоблок с текстом причины;
Остановлен – процесс не активен. Серая плашка «Остановлен»;
Запущен – процесс активен. В реестре зеленая плашка «Запущен»;
Создан – дата создания.
Сортировка строк осуществляется сначала по колонке [Статус] в следующем порядке: Остановлен из-за ошибки, Остановлен, Запущен. Далее – по алфавиту значений поля [Система-источник].
При нажатии на запись в таблице откроется карточка процесса:
 
В карточке отображаются:
вид данных и вид операции (загрузка/удаление);
источник данных:
система-источник;
приемник данных:
система-приемник (например, Региональная витрина данных);
соединение (например, РВД);
адрес для проверки статуса запроса:
соединение (обычно то же соединение, что на приемник, например, РВД).
Раздел «Запросы»#
Раздел отображает все запросы на загрузку и удаление данных, передаваемых из выбранной системы-источника в систему-приемник. Реестр служит для мониторинга статусов обработки, отборов по фильтрам и перехода в карточку конкретного запроса.
По умолчанию открыта вкладка «На загрузку». Список отсортирован по убыванию даты запроса (последние сверху).
 
Таблица запросов содержит следующие сведения:
система-источник;
система-приемник;
вид данных;
статус с временем его последнего изменения;
дата запроса.
Для ограничения списка запросов доступны фильтры «Система-источник», «Вид данных», «Статус».
При выборе значения из списка фильтр применяется мгновенно, список запросов динамически изменяется. Фильтр применяется одновременно к двум вкладкам «На загрузку» и «На удаление». При переключении между вкладками фильтры не сбрасываются.
Чтобы сбросить фильтрацию, нажмите кнопку Сбросить все.
Запросы на загрузку и на удаление могут иметь следующие статусы:
Передан в приемник – запрос доставлен в приемник, ожидается обработка;
Успешно обработан – приемник подтвердил обработку (данные загружены/запись удалена);
Ошибка ФЛК – приемник вернул ошибки форматно-логического контроля (ФЛК);
Отклонен приемником – приемник отверг запрос по внешней причине (бизнес-правило/контракт).
При нажатии на запись в таблице откроется карточка запроса с основными сведениями:
 
В карточках запросов со статусами «Ошибка ФЛК» или «Отклонен приемником» будет кнопка Посмотреть объект с ошибками:
 
При нажатии на кнопку откроется новая вкладка с результатом проверки данных.
Раздел «Ошибки в данных»#
Раздел показывает все записи с выявленными ошибками качества данных при передаче из системы-источника в систему-приемник.
 
Список отсортирован по убыванию даты проверки (последние проверки сверху).
Для ограничения списка с записями об ошибках доступны фильтры «Система-источник» и «Вид данных».
Нажатие на запись таблицы откроет карточку с результатами проверки данных. Для поля, в котором обнаружена ошибка, будет выведена подсказка красного цвета с правилом заполнения.
Для исправления ошибки необходимо вернуться в исходные данные и привести их в вид, подходящий для обработки и передачи.
Глоссарий#
ETL – конвейер «извлечение - преобразование - загрузка» данных между системой-источником и системой-приемником. В данном случае – веб-сервис, обеспечивающий прием, предобработку и передачу данных в УВД.
УВД / РВД – Универсальная/региональная витрина данных – система-приемник, куда ETL публикует наборы данных в соответствии с едиными функциональными техническими требованиями (ЕФТТ) v11.0.
ВИС – Ведомственная информационная система – система-источник данных для ETL.
DQ / ФЛК – контроль качества данных / форматно-логический контроль. Используется для выявления ошибок при проверке и приемке данных.
«Карантин» – реестр записей с блокирующими ошибками качества данных, которые должны быть исправлены на стороне источника до повторной загрузки.
Система-источник – карточка системы, из которой извлекаются данные (создается в разделе «Системы»).
Система-приемник – карточка целевой системы (обычно РВД), куда отправляются данные.
Соединение – параметры подключения к системе (API, файловая система, RVD и др.), используемые процессами.
Процесс ETL – настройка, описывающая цепочку перемещения данных (источник → приемник), тип данных и операцию (загрузка/удаление); может иметь зависимости («родительские»/«дочерние»).
Вид данных – тип публикуемого набора (например, requests_users, requests_statuses, template_attributes).
Вид операции – «Загрузка» (Upload) или «Удаление» (Delete) для выбранного вида данных.
Запрос – единичная операция загрузки/удаления, отображаемая в разделе «Запросы» по вкладкам «На загрузку» и «На удаление».
Идентификатор запроса / requestId – сквозной UUID операции публикации/удаления, отображается в карточке запроса.
Карточка запроса – экран с деталями запроса (статус, вид данных, источник/приемник и пр.) и ссылкой на «Объект с ошибками» при наличии ФЛК/отклонения.
ApiHandler – входной HTTP-сервис приема батчей/файлов (единая точка входа).
REST-uploader – компонент/канал приемника, применяемый для загрузки/удаления и проверки статуса обработки.
CSV – формат выгрузки: UTF-8 (без BOM), ; – разделитель, заголовки в нижнем регистре, ISO-форматы дат/времени, экранирование " и ограничения по объему.
Kafka – брокер сообщений, используемый для внутренних очередей/событий.
MinIO S3 – объектное хранилище; бинарные вложения доступны по идентификатору из витрины.
Атрибутивный состав – структура таблиц/наборов и обязательность полей, требуемые ЕФТТ/ТЗ для публикации в УВД.
Дедупликация – требование не создавать дубликаты; статусы и ссылки должны указывать на единственную запись.
Справочники – нормативные кодовые перечни (ОКТМО, регионы РФ и др.), на соответствие которым проверяются значения при ФЛК/DQ.