Решение команды mlballs_v2 (misis) для кейса ФАУ «Главгосэкспертиза России» на хакатоне Цифровой прорыв.
Наше решение для ФАУ «Главгосэкспертиза России» — это продукт, который с помощью машинного обучения (ML) автоматически определяет и сравнивает наименование объектов капитального строительства в проектной документации. Оно значительно упрощает и ускоряет процесс обработки больших массивов текстовых данных, снижая вероятность ошибок и расхождений.
Нашим решением является веб портал. На нем можно осуществить следующие действия:
- загрузить набор документов с наименованием объекта капитального строительства (ОКС) (pdf)
- извлечь из файла наименование ОКС
- получить отчет с описанием всех ошибок в наименовании ОКС.
- отчет можно просматривать прямо на веб портале или загрузить архив с pdf файлами, в которых отмечены все ошибки
- отчет можно получить в виде csv файла с указанием всех ошибок и их места в файлах
Фронтенд нашего сервиса доступен по ссылке: 94.45.223.241:46875 Вы можете использовать его для тестирования. Однако, если вы хотите запустить сервис локально, то вам необходимо выполнить следующие действия:
Перед тем, как развернуть у себя сервис необходимо установить Docker и Docker Compose на вашу машину.
Репозиторий состоит из следующих папок:
- server - содержит backend сервиса
- ML - содержит модель для обработки документов
- frontend - содержит фронтенд сервиса
На диаграмме ниже можно посмотреть на верхнеуровневую архитектуру нашего сервиса.
- hugginface - библиотека для разработки и использования моделей глубокого обучения для обработки естественного языка (NLP)
- sklearn - библиотека с обучающим пайплайном для торча
- nltk - пакет библиотек и программ для символьной и статистической обработки естественного языка
Также использовали: Levenshtein-distance, мера матч(Жаккара) как метрики.
- NLP - подход, основанный на обработке естественного языка
- Text Classification - подход, основанный на классификации текста
- Text Preprocessing - подход, основанный на предобработке текста
В случае возникновения каких-либо ошибок или вопросов не стесняйтесь создавать Issue в репозитории.