Цель исследования

izvestswsu

Известия Юго-Западного государственного университета

Proceedings of the Southwest State University

2223-15602686-6757

ЮЗГУ

10.21869/2223-1560-2025-29-2-186-200

izvestswsu-1463

Research Article

Информатика, вычислительная техника и управление

Computer science, computer engineering and IT managment

Программное обеспечение для преобразования двумерных изображений в трехмерные модели

Software for converting two-dimensional images into three-dimensional models

https://orcid.org/0000-0002-2497-6433

Зоткина

А. А.

Zotkina

A. A.

Зоткина Алена Александровна, старший преподаватель кафедры «Программирование»,

пр. Байдукова/ул. Гагарина, д. 1а/11, г. Пенза 440039.

Alena A. Zotkina, Senior Lecturer of the Programming Department,

1a/11, Baidukova ave. / Gagarina str., Penza 440039.

alena.zotkina.97@mail.ru

Пензенский государственный технологический университетPenza State Technological University

2025

01102025

292186200

2025

Зоткина А.А.

Zotkina A.A.

Данная работа распространяется под лицензией Creative Commons Attribution 4.0.

This work is licensed under a Creative Commons Attribution 4.0 License.

https://izvestswsu.elpub.ru/jour/article/view/1463

Цель исследования

Цель исследования. Разработка программного комплекса для автоматического создания фотореалистичных трехмерных моделей лиц на основе одного входного изображения, который обеспечит высокую степень детализации и реалистичности моделей, а также простоту использования,

Методы

Методы. В исследовании используется комплексный подход для создания фотореалистичных трехмерных моделей лиц из двумерных изображений, основанный на методах обратного рендеринга и каскадных сверточных нейронных сетей (CNN). Основным элементом является трехмерная трансформируемая модель (3DMM), которая описывает геометрию и альбедо лица через линейные комбинации базисов главных компонент (PCA). Для соответствия 3D-геометрии и 2D-изображению применяется слабая перспективная проекция, учитывающая углы Эйлера и условия освещения. Оптимизация целевой функции с использованием метода Гаусса-Ньютона минимизирует различия между входным и визуализированным изображениями, а коррекция глубины и деталей лица достигается через адаптацию 3D-графики. Линейная интерполяция альбедо уточняет детали модели в ключевых областях, что способствует созданию высококачественных и реалистичных 3D-моделей лиц.

Результаты

Результаты. В данной статье успешно реализован программный комплекс, способный генерировать фотореалистичные трехмерные модели лиц из одномерных изображений с использованием обратного рендеринга и каскадных сверточных нейронных сетей. Проведенные эксперименты подтвердили способность алгоритма к восприятию важных характеристик лиц и создают возможности для дальнейших приложений в сферах компьютерной графики, анимации и виртуальных интерфейсов.

Заключение

Заключение. Полученные результаты свидетельствуют о высокой эффективности разработанного алгоритма для генерации фотореалистичных трехмерных моделей лиц из двумерных изображений. Кроме того, результаты подтверждают, что применение методов обратного рендеринга совместно с каскад-ными сверточными нейронными сетями позволяет добиться значительных улучшений в качестве визуализации.

Purpose of reseach

Purpose of reseach. Development of a software package for the automatic creation of photorealistic threedimensional models of faces based on a single input image, which will provide a high degree of detail and realism of models, as well as ease of use,

Methods

Methods. The study uses an integrated approach to create photorealistic three-dimensional models of faces from two-dimensional images based on reverse rendering methods and cascading convolutional neural networks (CNN). The main element is a three-dimensional transformable model (3DMM), which describes the geometry and albedo of a face through linear combinations of principal component bases (PCA). To match the 3D geometry and the 2D image, a weak perspective projection is used, taking into account Euler angles and lighting conditions. Optimization of the objective function using the Gauss-Newton method minimizes the differences between the input and rendered images, and correction of depth and facial details is achieved through the adaptation of 3D graphics. Linear albedo interpolation clarifies the details of the model in key areas, which contributes to the creation of high-quality and realistic 3D models of faces.

Results

Results. This article successfully implements a software package capable of generating photorealistic threedimensional models of faces from one-dimensional images using reverse rendering and cascading convolutional neural networks. The experiments have confirmed the algorithm's ability to perceive important facial characteristics and create opportunities for further applications in the fields of computer graphics, animation and virtual interfaces.

Conclusion

Conclusion. The results obtained indicate the high efficiency of the developed algorithm for generating photorealistic three-dimensional models of faces from two-dimensional images. In addition, the results confirm that the use of reverse rendering methods in conjunction with cascading convolutional neural networks allows for significant improvements in visualization quality.

программный комплекс3D-объект/модельсверточные нейронные сетирендеринг3DMM

software package3D object/modelconvolutional neural networksrendering3DMM

References1

Lee H., Ranganath R., Ng A.Y. Convolutional Deep Belief Networks for Scalable Unsupervised Learning of Hierarchical Representations. Grosse // Proceedings of the 26th Annual International Conference on Machine Learning. 2009. Р. 34–45.

Lee H., Ranganath R., Ng A.Y. Convolutional Deep Belief Networks for Scalable Unsupervised Learning of Hierarchical Representations. Grosse. Proceedings of the 26th Annual International Conference on Machine Learning. 2009. P. 34-45.

Bengio Y. Learning deep architectures for AI // Foundations and Trends in Machine Learning, 2009. P. 245–257.

Bengio Y. Learning deep architectures for AI. Foundations and Trends in Machine Learning. 2009. P. 245-257.

Ignatenko A., Konushin A. A Framework for Depth Image-Based Modeling and Rendering // Graphicon-2003 Proceedings. Moscow, 2003. 246 р.

Ignatenko A., Konushin A. Framework for Depth Image-Based Modeling and Rendering. Graphicon-2003 Proceedings. Moscow; 2003. 246 p.

Василенко B. A. Сплайн-функции: теория, алгоритмы, программы. Новосибирск: Наука, 1983. 215 с.

Vasilenko B. A. Spline functions: theory, algorithms, programs. Novosibirsk: Nauka; 1983. 215 p. (In Russ.).

Соловьева А. Алгоритм модификации типового трехмерного портрета по заданным фотоизображениям // Труды XX международной конференции по компьютерной графике и машинному зрению. M.: изд-во «Графикон», 2010. С. 346–347.

Solovyova A. Algorithm for modification of a typical three-dimensional portrait based on specified photographic images. In: Trudy XX mezhdunarodnoi konferentsii po komp'yuternoi grafike i mashinnomu zreniyu = Proceedings of the XX International Conference on Computer Graphics and Machine Vision. Moscow; 2010. P. 346-347. (In Russ.).

Zhao H., Osher S. Visualization, analysis and shape reconstruction of unorganized data sets // Geometric Level Set Methods in Imaging and Vision and Graphics. SpringerVerlag, 2002. 256 p.

Zhao H., Osher S. Visualization, analysis and shape reconstruction of unorganized data sets. In: Geometric Level Set Methods in Imaging and Vision and Graphics. SpringerVerlag, 2002. 256 p.

Зоткина А.А. Анализ алгоритмов машинного обучения, используемых в классификации изображений, публикуемых пользователями социальных сетей // Современные информационные технологии. 2023. № 38 (38). С. 38-40.

Zotkina A.A. Analysis of machine learning algorithms used in the classification of images published by users of social networks. Sovremennye informatsionnye tekhnologii = Modern information technologies. 2023; (38): 38-40. (In Russ.).

Зоткина А.А. Распознавание изображений с помощью сверточных нейронных сетей // Современные информационные технологии. 2023. № 38 (38). С. 60-63.

Zotkina A.A. Image recognition using convolutional neural networks. Sovremennye informatsionnye tekhnologii= Modern information technologies. 2023; (38): 60-63. (In Russ.).

Зоткина А.А., Мартышкин А.И., Ткаченко А.В. Особенности работы сверточных нейронных сетей: архитектура и применение // Современные методы и средства обработки пространственно-временных сигналов: сборник статей XX Всероссийской научно-технической конференции. Пенза, 2023. С. 32-35.

Zotkina A.A., Martyshkin A.I., Tkachenko A.V. Features of convolutional neural networks: architecture and application. In: Sovremennye metody i sredstva obrabotki prostranstvennovremennykh signalov. Sbornik statei XX Vserossiiskoi nauchno-tekhnicheskoi konferentsii = Modern methods and means of processing spatiotemporal signals. Collection of articles of the XX AllRussian Scientific and Technical Conference. Penza; 2023. P. 32-35. (In Russ.).

Blanz V., Vetter T. Face recognition based on fitting a 3-D morphable model // IEEE Trans Pattern Anal Mach Intell. 2003. 25(9). Р. 1063-1074.

Blanz V., Vetter T. Face recognition is based on fitting a 3-D morphable model. IEEE Trans Pattern Anal Mach Intell. 2003; 25(9):1063-1074.

Learning detailed face reconstruction from a single image // IEEE conference on computer vision and pattern recognition (CVPR) / E. Richardson, M. Sela, R. OR-EL, R. Kimmel. Honolulu, HI, 2017. P. 5553-5562.

Richardson E., Sela M., OR-EL R., Kimmel R. Learning detailed face reconstruction from a single image. In: IEEE conference on computer vision and pattern recognition (CVPR). Honolulu, HI; 2017. P. 5553-5562.

Blanz V., Vetter T.A. Morphable model for the synthesis of 3-D faces // 26th annual conference on Computer graphics and interactive techniques (SIGGRAPH ’99). ACM Press/AddisonWesley Publishing Co., USA, 1999. P. 5553-5562.

Blanz V., Vetter T.A. Morphable model for the synthesis of 3-D faces. In: 26th annual conference on Computer graphics and interactive techniques (SIGGRAPH ’99). ACM Press/AddisonWesley Publishing Co., USA; 1999. P. 5553-5562.

Heo J.Three-dimensional generic elastic models for two-dimensionalpose synthesis and face recognition. Proquest, Umi Dissertation Publishing, 2011. 154 c.

Heo J.Three-dimensional generic elastic models for two-dimensionalpose synthesis and face recognition. Proquest, Umi Dissertation Publishing; 2011. 154 p.

Korikov A.M., Tungusova A.V. Neural network technologies for image classification // 21st Int. Symp. Atmos. Ocean Opt. Atmos. Phys. 2015. Vol. 9680. P. 426–429.

Korikov A.M., Tungusova A.V. Neural network technologies for image classification. 21st Int. Symp. Atmos. Ocean Opt. Atmos. Phys. 2015; 9680: 426–429.

Krizhevsky A., Sutskever I., Hinton G.E. Imagenet classification with deep convolutional neural networks // Adv. Neural Inf. Process. Syst. 2012. Vol. 25.

Krizhevsky A., Sutskever I., Hinton G.E. Imagenet classification with deep convolutional neural networks. Adv. Neural Inf. Process. Syst. 2012; 25.

Face recognition: A literature survey / W. Zhao, R. Chellappa, P.J. Phillips, A. Rosenfeld // ACM Comput. Surv. 2003. Vol. 35, № 4. P. 399– 458.

Zhao W., Chellappa R., Phillips P.J., Rosenfeld A. Face recognition: A literature survey. ACM Comput. Surv. 2003; 35(4): 399 – 458.

Is faster R-CNN doing well for pedestrian detection? / L. Zhang, L. Lin, X. Liang, K. He // Eur. Conf. Comput. vision. Springer, Cham, 2016. P. 443–457.

Zhang L., Lin L., Liang X., He K. Is faster R-CNN doing well for pedestrian detection? Eur. Conf. Comput. vision. Springer, Cham; 2016. P. 443–457.

Коэльо Л. П., Ричарт В. Построение систем машинного обучения на языке Python / пер. с англ. А. А. Слинкин. 2-е изд. М.: ДМК Пресс, 2016. 302 с. URL: https://e.lanbook.com/book/82818

Coelho L. P., Richart V. Building machine learning systems in Python. Moscow: DMK Press; 2016. 302 p. (In Russ.). Available at: https://e.lanbook.com/book/82818

Флах П. Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных. М.: ДМК Пресс, 2015. 400 с. URL: https://e.lanbook.com/book/69955

Flach P. Machine learning. The science and art of building algorithms that extract knowledge from data. Moscow: DMK Press; 2015. 400 p. (In Russ.). Available at: https://e.lanbook.com/book/69955

PyTorch. URL: https://pytorch.org/

PyTorch. Available at: https://pytorch.org/

Numpy. URL: https://numpy.org/

Numpy. Available at: https://numpy.org/

How to install dlib library for Python in Windows 10. URL: https://medium.com/analytics-vidhya/how-to-install-dlib-library-for-python-in-windows-10-57348ba1117f 23. Opencv. URL: https://opencv.org/

How to install dlib library for Python in Windows 10. Available at: https://medium.com/analytics-vidhya/how-to-install-dlib-library-for-python-in-windows-10-57348ba1117f23 Opencv. Available at: https://opencv.org/

The authors declare that there are no conflicts of interest present.