Решение кейса «Приведение номенклатуры участников рынка к официальному Классификатору Строительных Ресурсов», занявшее 2 место на хакатоне «Цифровой прорыв. Сезон: искусственный интеллект» в УрФО 17-19 мая 2024 года.
При составлении технической документации и закупках необходимо указывать строительные материалы и ресурсы в соответствии с официальным Классификатором строительных ресурсов (КСР). Решение представляет собой веб-сервис с API для автоматизированного подбора официального наименования и кода строительного ресурса на основании произвольного названия.
Технической особенностью является индексация КСР с помощью современного свободно распространяемого поискового движка ElasticSearch. Уникальностью решения является использование модели Sentence BERT MOADdev/multilingual-e5-large-amethyst
, дообученной на текстах предметной области строительства, что позволяет актуализировать индексацию КСР без модификации поисковых средств.
docker compose --env-file .env up --build -d
После запуска требуется добавить в директорию /app/data
контейнера backend
файлы с КСР и векторными представлениями наименований. В дальнейшем это будет осуществляться в автоматическом режиме.
Документация конечных точек API представлена в файле API-DOCUMENTATION.md. Материалы исследований моделей искусственного интеллекта находятся в директории research.
- CPU: 2 ядра, 2 ГГц
- RAM: 12 ГБ
- Disk Space: 30 ГБ
- Интеллектуальный подбор наименований: ElasticSearch, SentenceTransformer;
- API: FastAPI, Uvicorn, Nginx;
- Frontend: Vue.js.
From MOAD.dev to Amethyst Capital with <3