В CVAT для удобства разметки данных есть функция отображения контекстных изображений, которые по сути являются подсказкой-указателем для исполнителя.
Для их создания необходимо сформировать изображения с необходимой информацией и создать определенную файловую структуру, как описано в документации выше.
Как и в случае с созданием масок можно использовать библиотеки
Pillow
OpenCV: OpenCV-Python Tutorials
opencv-python
Выбрать случайным образом n файлов по m из кадой дочерней директории
Инструменты для работы с файлами могут быть самыми разными в зависимости от задачи, для манипуляций с файлами датасета, как правило, используются библиотеки из Python Core:
os - Miscellaneous operating system interfaces
shutil - High-level file operations
pathlib - Object-oriented filesystem paths
В данной задаче необходимо почистить метаданные у заданных изображений. После очистки мета данных может случиться так, что изображение “ляжет на бок”. В этом случае необходимо восстановить правильную ориентацию изображения.
Для этого можно использовать python-библиотеку Pillow.
В этой задаче необходимо нарисовать маски разных типов по заданной разметке.
Для парсинга файлов с разметкой можно использовать Python-библиотеки
Beautiful Soup Documentation - Beautiful Soup 4.9.0 documentation
xml.etree.ElementTree - The ElementTree XML API
Для работы с самими изображениями
Pillow
OpenCV: OpenCV-Python Tutorials
opencv-python
Создание набора изображений из кадров видео, взятых с определенной частотой.