Preview

Труды Института системного программирования РАН

Расширенный поиск

Функции потерь для обучения моделей сегментации изображений документов

https://doi.org/10.15514/ISPRAS-2022-34(2)-8

Аннотация

Работа посвящена повышению качества результатов сегментации изображений документов различных научных статей и нормативно-правовых актов нейросетевыми моделями путём обучения с использованием модифицированных функций потерь, учитывающих особенности изображений выбранной предметной области. Проводится анализ существующих функций потерь, а также разработка новых функций, оперирующих, как только координатами ограничивающих прямоугольников, так и использующих информацию о пикселях входного изображения. Для оценки качества выполняется обучение нейросетевой модели сегментации с модифицированными функциями потерь, а также проводится теоретическая оценка с помощью симуляционного эксперимента, показывающего скорость сходимости и ошибку сегментации. В результате исследования созданы быстро сходящиеся функции потерь, улучшающие качество сегментации изображений документов с использованием дополнительной информации о входных данных.

Об авторах

Андрей Игоревич ПЕРМИНОВ
Институт системного программирования им. В.П. Иванникова РАН, Московский государственный университет имени М.В. Ломоносова
Россия

Студент магистратуры кафедры системного программирования



Денис Юрьевич ТУРДАКОВ
Институт системного программирования им. В.П. Иванникова РАН, Московский государственный университет имени М.В. Ломоносова
Россия

Кандидат физико-математических наук, заведующий отделом ИСП РАН, доцент кафедры системного программирования ф-та ВМК МГУ



Оксана Владимировна БЕЛЯЕВА
Институт системного программирования им. В.П. Иванникова РАН
Россия

Аспирант



Список литературы

1. Zheng Z., Wang P. et al. Distance-IoU loss: Faster and better learning for bounding box regression. Proceedings of the AAAI Conference on Artificial Intelligence, vol. 34, no. 07, 2020, pp. 12993-13000.

2. Rezatofighi H., Tsoi N. et al. Generalized intersection over union: A metric and a loss for bounding box regression. In Proc. of the IEEE/CVF conference on computer vision and pattern recognition, 2019, pp. 658-666.

3. Zheng T., Zhao S. et al. SCALoss: Side and Corner Aligned Loss for Bounding Box Regression. arXiv preprint arXiv:2104.00462, 2021, 9 p.

4. He J., Erfani S. et al. α-IoU: A Family of Power Intersection over Union Losses for Bounding Box Regression. Advances in Neural Information Processing Systems, vol. 34, 2021, 13 p.

5. Wu S., Yang J. et al. Iou-balanced loss functions for single-stage object detection. Pattern Recognition Letters, vol. 156, 2022, pp. 96-103.

6. Du S., Zhang B., Zhang P. Scale-Sensitive IOU Loss: An Improved Regression Loss Function in Remote Sensing Object Detection. IEEE Access, vol. 9, 2021, pp. 141258-141272.

7. Redmon J., Farhadi A. Yolov3: An incremental improvement. arXiv preprint arXiv:1804.02767, 2018, 6 p.

8. Zhong X., Tang J., Yepes A.J. Publaynet: largest dataset ever for document layout analysis. In Proc. of the 2019 International Conference on Document Analysis and Recognition (ICDAR), 2019, pp. 1015-1022.

9. Беляева О.В., Перминов А.И., Козлов И.С. Использование синтетических данных для тонкой настройки моделей сегментации документов. Труды ИСП РАН, том 32, вып. 4, 2020 г., стр. 189-202. DOI: 10.15514/ISPRAS–2020–32(4)–14 / Belyaeva O.V., Perminov A.I., Kozlov I.S. Synthetic data usage for document segmentation models fine-tuning. Trudy ISP RAN/Proc. ISP RAS, vol. 32, issue 4, 2020. pp. 189-202.


Рецензия

Для цитирования:


ПЕРМИНОВ А.И., ТУРДАКОВ Д.Ю., БЕЛЯЕВА О.В. Функции потерь для обучения моделей сегментации изображений документов. Труды Института системного программирования РАН. 2022;34(2):89-110. https://doi.org/10.15514/ISPRAS-2022-34(2)-8

For citation:


PERMINOV A.I., TURDAKOV D.Yu., BELYAEVA O.V. Loss functions for train document image segmentation models. Proceedings of the Institute for System Programming of the RAS (Proceedings of ISP RAS). 2022;34(2):89-110. (In Russ.) https://doi.org/10.15514/ISPRAS-2022-34(2)-8



Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 2079-8156 (Print)
ISSN 2220-6426 (Online)