Функции потерь для обучения моделей сегментации изображений документов
https://doi.org/10.15514/ISPRAS-2022-34(2)-8
Аннотация
Работа посвящена повышению качества результатов сегментации изображений документов различных научных статей и нормативно-правовых актов нейросетевыми моделями путём обучения с использованием модифицированных функций потерь, учитывающих особенности изображений выбранной предметной области. Проводится анализ существующих функций потерь, а также разработка новых функций, оперирующих, как только координатами ограничивающих прямоугольников, так и использующих информацию о пикселях входного изображения. Для оценки качества выполняется обучение нейросетевой модели сегментации с модифицированными функциями потерь, а также проводится теоретическая оценка с помощью симуляционного эксперимента, показывающего скорость сходимости и ошибку сегментации. В результате исследования созданы быстро сходящиеся функции потерь, улучшающие качество сегментации изображений документов с использованием дополнительной информации о входных данных.
Об авторах
Андрей Игоревич ПЕРМИНОВРоссия
Студент магистратуры кафедры системного программирования
Денис Юрьевич ТУРДАКОВ
Россия
Кандидат физико-математических наук, заведующий отделом ИСП РАН, доцент кафедры системного программирования ф-та ВМК МГУ
Оксана Владимировна БЕЛЯЕВА
Россия
Аспирант
Список литературы
1. Zheng Z., Wang P. et al. Distance-IoU loss: Faster and better learning for bounding box regression. Proceedings of the AAAI Conference on Artificial Intelligence, vol. 34, no. 07, 2020, pp. 12993-13000.
2. Rezatofighi H., Tsoi N. et al. Generalized intersection over union: A metric and a loss for bounding box regression. In Proc. of the IEEE/CVF conference on computer vision and pattern recognition, 2019, pp. 658-666.
3. Zheng T., Zhao S. et al. SCALoss: Side and Corner Aligned Loss for Bounding Box Regression. arXiv preprint arXiv:2104.00462, 2021, 9 p.
4. He J., Erfani S. et al. α-IoU: A Family of Power Intersection over Union Losses for Bounding Box Regression. Advances in Neural Information Processing Systems, vol. 34, 2021, 13 p.
5. Wu S., Yang J. et al. Iou-balanced loss functions for single-stage object detection. Pattern Recognition Letters, vol. 156, 2022, pp. 96-103.
6. Du S., Zhang B., Zhang P. Scale-Sensitive IOU Loss: An Improved Regression Loss Function in Remote Sensing Object Detection. IEEE Access, vol. 9, 2021, pp. 141258-141272.
7. Redmon J., Farhadi A. Yolov3: An incremental improvement. arXiv preprint arXiv:1804.02767, 2018, 6 p.
8. Zhong X., Tang J., Yepes A.J. Publaynet: largest dataset ever for document layout analysis. In Proc. of the 2019 International Conference on Document Analysis and Recognition (ICDAR), 2019, pp. 1015-1022.
9. Беляева О.В., Перминов А.И., Козлов И.С. Использование синтетических данных для тонкой настройки моделей сегментации документов. Труды ИСП РАН, том 32, вып. 4, 2020 г., стр. 189-202. DOI: 10.15514/ISPRAS–2020–32(4)–14 / Belyaeva O.V., Perminov A.I., Kozlov I.S. Synthetic data usage for document segmentation models fine-tuning. Trudy ISP RAN/Proc. ISP RAS, vol. 32, issue 4, 2020. pp. 189-202.
Рецензия
Для цитирования:
ПЕРМИНОВ А.И., ТУРДАКОВ Д.Ю., БЕЛЯЕВА О.В. Функции потерь для обучения моделей сегментации изображений документов. Труды Института системного программирования РАН. 2022;34(2):89-110. https://doi.org/10.15514/ISPRAS-2022-34(2)-8
For citation:
PERMINOV A.I., TURDAKOV D.Yu., BELYAEVA O.V. Loss functions for train document image segmentation models. Proceedings of the Institute for System Programming of the RAS (Proceedings of ISP RAS). 2022;34(2):89-110. (In Russ.) https://doi.org/10.15514/ISPRAS-2022-34(2)-8