Skip to content

Sapf3ar/case1

Repository files navigation

Решение команды mlballs_v2 (misis) для кейса ФАУ «Главгосэкспертиза России» на хакатоне Цифровой прорыв.

Наше решение для ФАУ «Главгосэкспертиза России» — это продукт, который с помощью машинного обучения (ML) автоматически определяет и сравнивает наименование объектов капитального строительства в проектной документации. Оно значительно упрощает и ускоряет процесс обработки больших массивов текстовых данных, снижая вероятность ошибок и расхождений.

Описание решения

Нашим решением является веб портал. На нем можно осуществить следующие действия:

  • загрузить набор документов с наименованием объекта капитального строительства (ОКС) (pdf)
  • извлечь из файла наименование ОКС
  • получить отчет с описанием всех ошибок в наименовании ОКС.
  • отчет можно просматривать прямо на веб портале или загрузить архив с pdf файлами, в которых отмечены все ошибки
  • отчет можно получить в виде csv файла с указанием всех ошибок и их места в файлах

Инструкция по запуску

Работа с сервисом

Фронтенд нашего сервиса доступен по ссылке: 94.45.223.241:46875 Вы можете использовать его для тестирования. Однако, если вы хотите запустить сервис локально, то вам необходимо выполнить следующие действия:

Локальный запуск

Перед тем, как развернуть у себя сервис необходимо установить Docker и Docker Compose на вашу машину.

Структура проекта

Репозиторий состоит из следующих папок:

  • server - содержит backend сервиса
  • ML - содержит модель для обработки документов
  • frontend - содержит фронтенд сервиса

Архитектура

На диаграмме ниже можно посмотреть на верхнеуровневую архитектуру нашего сервиса. image

Машинное Обучение

Стек

  • hugginface - библиотека для разработки и использования моделей глубокого обучения для обработки естественного языка (NLP)
  • sklearn - библиотека с обучающим пайплайном для торча
  • nltk - пакет библиотек и программ для символьной и статистической обработки естественного языка

Также использовали: Levenshtein-distance, мера матч(Жаккара) как метрики.

Подходы

  • NLP - подход, основанный на обработке естественного языка
  • Text Classification - подход, основанный на классификации текста
  • Text Preprocessing - подход, основанный на предобработке текста

Контакты

В случае возникновения каких-либо ошибок или вопросов не стесняйтесь создавать Issue в репозитории.