CLI Скрипты

Скрипты устанавливаются вместе с pip пакетом и их можно вызывать из командной строки, как обычные bash-комманды.

Выгрузка датасета из задачи

Скачать исходные данные для разметки по идентификатору задачи в указанную папку.

download-task-data -t <task id> -d <destination dir>

Выгрузка результатов задачи

Скачать результаты разметки по идентификатору задачи в указанный путь.

download-task-results -t <task id> -d <result file>

Также вы можете скачать результаты в виде таблицы:

download_table -t <task id> -d <file name>

Выгрузка статистики

Выгрузить статистику качества по задачам или заданиям.

get_quality_stats -O <item|task> -f <json|csv>

Загрузка данных в задачу

Загрузить данные для разметки в задачу.

upload-task-data -t <task id> -d <dir>

Если нужно загрузить задания в виде PDF-файлов, используйте скрипт:

upload_pdf -d <destination dir> -t <task id>

Для использования необходимо указать параметры подключения к внешнему хранилищу в секции cloud config-файла. В интерфейсе платформы загруженные PDF-файлы файлы отображаются в виде JSON.

Загрузка навыков

Загрузить в организацию навыки из таблицы.

import_skills -p <tsv file>

Расширение отчета

Сделать расширенный отчет по результатам разметки (ФИО автора задания, ФИО разметчиков, название задачи).

extend-task-results -e <result file> -d <extended results> -o <organisation name>

Сегментация изображений: экспорт → валидация

Сформировать данные для задачи на валидацию из исходных изображений, которые загружены в задачу на разметку, и файла с результатами разметки этих изображений.

image-segmentation-e2v -e <export file> -d <destination file> --base64 <flag> -o <organization name> -c <config path>

Сегментация изображений: yolo → валидация

Сформировать данные для задачи на валидацию из исходного изображнения и файла с предразметкой в YOLO.

image-segmentation-y2b -f <src dir> -d <destination dir>

Клонирование проекта

Склонировать проект с задачами и перенести туда еще не размеченные задания.

clone_project -t <task id> -d <destination dir>

Возвращает ссылку на новый проект.

Синхронизация задач

Запустить синхронизацию для задач с настройками пайплайна.

pipeline_sync [-p <project_id>] [-t <task_id>] [--dry-run] [--limit <n>] [-o <organization>]

Параметры конфига пайплайна в PAYLOAD задачи или секции CONFIG проекта:

Параметр	Описание
source_task	uid задачи, результаты разметки которой будут использованы для конфига в PAYLOAD задачи
source_project	uid проекта, результаты разметки задач в котором будут использованы для конфига в секции CONFIG проекта
fields	Список пар полей в исходном и целевом задании, в соответствии с которым будут скопированы данные. Возможные значения: * file — бинарный файл; * file.audio — поле audio входного JSON-файла. Могут быть использованы любые поля входного JSON; * result.text — поле text в результатах разметки. Могут быть использованы любые поля в результатах разметки; * premarkup.marks — объект marks в данных предразметки
result_aggregation	Правило агрегации результатов разметки. Возможные значения: * aggregate – результаты нескольких разметчиков будут скопированы в одно задание и представлены списком; * separate – на каждый ответ разных разметчиков по одному заданию будет создано отдельное задание
consistency_filter	Условие отбора результатов на основе согласованности. Возможные значения: * all_unique – все уникальные результаты разметки будут скопированы в задачу на валидацию; * unsure – только результаты разметки по заданиям, в которых согласованность ниже установленного порога будут скопированы
consistency_share_threshold	Доля одинаковых ответов, чтобы считать результат согласованным. Например, 0.5 — половина ответов разметчиков должна совпадать чтобы считать, что задание не требует валидации. Если перекрытие в задаче 3 и нужно отправлять на валидацию только в том случае, если нет хотя бы двух одинаковых ответов, — подойдет значение 0.6 (⇐2/3)
ignore_fields	Список полей исходных заданий, которые нужно исключить из расчета консистентности и целевых заданий
executor	По умолчанию None. Обработчик задач запускается пользователем SDK через cli команды. * True — использовать автоматический обработчик задач. Пользователь tagme_pipelines@sberbank.ru должен быть добавлен в организацию как заказчик
auto_create_task	Создавать задачи автоматически при связи на уровне проектов
auto_start_task	Запускать задачу после дозагрузки файлов

Параметр

Описание

source_task

uid задачи, результаты разметки которой будут использованы для конфига в PAYLOAD задачи

source_project

uid проекта, результаты разметки задач в котором будут использованы для конфига в секции CONFIG проекта

fields

Список пар полей в исходном и целевом задании, в соответствии с которым будут скопированы данные.

Возможные значения:

* file — бинарный файл;

* file.audio — поле audio входного JSON-файла. Могут быть использованы любые поля входного JSON;

* result.text — поле text в результатах разметки. Могут быть использованы любые поля в результатах разметки;

* premarkup.marks — объект marks в данных предразметки

result_aggregation

Правило агрегации результатов разметки.

Возможные значения:

* aggregate – результаты нескольких разметчиков будут скопированы в одно задание и представлены списком;

* separate – на каждый ответ разных разметчиков по одному заданию будет создано отдельное задание

consistency_filter

Условие отбора результатов на основе согласованности.

Возможные значения:

* all_unique – все уникальные результаты разметки будут скопированы в задачу на валидацию;

* unsure – только результаты разметки по заданиям, в которых согласованность ниже установленного порога будут скопированы

consistency_share_threshold

Доля одинаковых ответов, чтобы считать результат согласованным.

Например, 0.5 — половина ответов разметчиков должна совпадать чтобы считать, что задание не требует валидации.

Если перекрытие в задаче 3 и нужно отправлять на валидацию только в том случае, если нет хотя бы двух одинаковых ответов, — подойдет значение 0.6 (⇐2/3)

ignore_fields

Список полей исходных заданий, которые нужно исключить из расчета консистентности и целевых заданий

executor

По умолчанию None. Обработчик задач запускается пользователем SDK через cli команды.

* True — использовать автоматический обработчик задач. Пользователь tagme_pipelines@sberbank.ru должен быть добавлен в организацию как заказчик

auto_create_task

Создавать задачи автоматически при связи на уровне проектов

auto_start_task

Запускать задачу после дозагрузки файлов

Пример секции CONFIG пайплайна в PAYLOAD задачи

{
  "pipeline": {
      "source_task": "fcc1f83e-4441-4bd6-90be-6ed50b6056ee",
      "source_project": "fcc1f83e-4441-4bd6-90be-6ed50b6056ee",
      "fields": [
        ["file", "file"],
        ["result.marks", "premarkup.marks"]
      ],
      "result_aggregation": "aggregate",
      "consistency_filter": "unsure",
      "consistency_share_threshold": 0.6,
      "ignore_fields": ["result.marks.id"],
        "executor": "example",
        "auto_create_task": true,
        "auto_start_task": false
  }
}