Preview

Известия Юго-Западного государственного университета

Расширенный поиск

Применение глубокого обучения сверточной нейронной сети для классификации жестов из набора данных Sign Language MNIST

https://doi.org/10.21869/2223-1560-2025-29-3-86-98

Аннотация

Цель исследования. Задача распознавания жестов в системах компьютерного зрения имеет важное значение для разработки доступных интерфейсов взаимодействия человека с компьютером, в том числе и для людей с ограниченными возможностями. Традиционные методы, например использование ручного выделения признаков (HOG, SIFT) в сочетании с классификаторами типа SVM, обладают ограниченной точностью и чувствительны к изменениям освещения, фона и позы руки. Целью данной работы является построение и обучение сверточной нейронной сети (CNN) для эффективной классификации жестов на основе набора данных Sign Language MNIST. В рамках исследования решались задачи предобработки данных, проектирования архитектуры модели, её обучения и оценки качества распознавания на тестовом наборе.

Методы. Использовались библиотеки TensorFlow и Keras для реализации CNN. Модель включает сверточ-ные слои для извлечения локальных признаков, слой Flatten для векторизации, полносвязные слои с функ-цией активации ReLU и выходной слой с Softmax. Обучение проводилось с использованием оптимизатора Adam и функции потерь sparse_categorical_crossentropy на 27 455 изображениях, тестирование — на 7 172 примерах.

Результаты. Предложенная модель достигла точности 89,14 % на тестовом наборе данных после 18 эпох обучения, что превосходит результаты традиционных методов (HOG + SVM – 70,1 %) и простых нейронных сетей (78,4 %).

Заключение. Применение сверточных нейронных сетей для классификации жестов является эффективным подходом, обеспечивающим высокую точность и устойчивость к вариациям входных данных, что делает его перспективным для задач компьютерного зрения и разработки систем жестового взаимодействия.

Об авторах

М. В. Бобырь
Юго-Западный государственный университет
Россия

Бобырь Максим Владимирович - доктор технических наук, профессор кафедры программной инженерии.

ул. 50 лет Октября, д. 94, Курск 305040

Researcher ID G-2604-2013


Конфликт интересов:

Нет



А. А. Асеев
Юго-Западный государственный университет
Россия

Асеев Артем Андреевич - аспирант кафедры программной инженерии.

ул. 50 лет Октября, д. 94, Курск 305040


Конфликт интересов:

Нет



Список литературы

1. Gradient-based learning applied to document recognition / Y. LeCun, L. Bottou, Y. Bengio, P. Haffner // Proceedings of the IEEE. 1998. № 86(11). P. 2278–2324.

2. Krizhevsky A., Sutskever I., Hinton G. ImageNet Classification with Deep Convolutional Neural Networks // Advances in Neural Information Processing Systems. 2012. Vol. 25. P. 1097–1105.

3. Воронцов К. В. Машинное обучение и анализ данных // Труды международной научной конференции "Нейроинформатика". М.: МФТИ, 2020. 452 с.

4. Петров И. В., Смирнов А. А. Применение сверточных нейронных сетей для классификации изображений в задачах компьютерного зрения // Искусственный интеллект и принятие решений. 2021. № 2. С. 45-58.

5. Китенко А. М. Метод поиска и разметки артефактов на изображениях с использованием алгоритмов детекции и сегментации // Системы анализа и обработки данных. 2021. № 4(84). С. 7-18.

6. Robust Hand Gesture Recognition Using HOG-9ULBP Features and SVM Model / J. Li, C. Li, J. Han, et al. // Electronics. 2022. Vol. 11(7). P. 988.

7. Козлов С. В., Иванова Е. П. Сравнительный анализ архитектур глубоких нейронных сетей для распознавания образов // Программные продукты и системы. 2022. № 3. С. 28-36.

8. Simonyan K., Zisserman A. Very Deep Convolutional Networks for Large-Scale Image Recognition // International Conference on Learning Representations (ICLR). 2015. arXiv:1409.1556.

9. Kumar R., Patel S., Sharma M. Enhancing Sign Language Detection through MediaPipe and Convolutional Neural Networks // arXiv preprint. 2024. arXiv:2406.03729v1.

10. Ioffe S., Szegedy C. Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift // Proceedings of the 32nd International Conference on Machine Learning (ICML). 2015. P. 448-456.

11. Семенов Д. А., Кузнецов М. И. Оптимизация процесса обучения сверточных нейронных сетей с использованием адаптивных алгоритмов // Информационные технологии. 2023. Т. 29, № 4. С. 195-203.

12. Nair V., Hinton G. E. Rectified Linear Units Improve Restricted Boltzmann Machines // Proceedings of the 27th International Conference on Machine Learning (ICML). 2010. P. 807-814.

13. Deep Residual Learning for Image Recognition / K. He, X. Zhang, S. Ren, J. Sun // IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2016. P. 770-778.

14. Kingma D. P., Ba J. Adam: A Method for Stochastic Optimization // International Conference on Learning Representations (ICLR). 2015. arXiv:1412.6980.

15. Dropout: A Simple Way to Prevent Neural Networks from Overfitting / N. Srivastava, G. Hinton, A. Krizhevsky, I. Sutskever, R. Salakhutdinov // Journal of Machine Learning Research. 2014. Vol. 15, № 1. P. 1929-1958.

16. Going deeper with convolutions / C. Szegedy, W. Liu, Y. Jia, et al. // IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2015. P. 1-9.

17. Фаворская М. Н., Пахирка А. И. Построение карт глубины при обнаружении презентационных атак в системах распознавания лиц // Информационные и математические технологии в науке и управлении. 2022. № 3(27). С. 40-48.

18. Sign Language Transformers: Joint End-to-End Sign Language Recognition and Translation / N. C. Camgoz, O. Koller, S. Hadfield, R. Bowden // IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2020. P. 10023-10033.

19. Исследование устройства нечеткого цифрового фильтра для робота-манипулятора / М.В. Бобырь, Н.А. Милостная, В.А. Булатников, М.Ю. Лунева // Известия Юго-Западного государственного университета. 2020. T. 24, №1. С. 115-129. https:// doi.org/10.21869/2223-1560-2020-24-1-115-129

20. Бобырь М. В., Нассер А. А., Абдулджаббар М. А. Исследование свойств мягкого алгоритма нечетко-логического вывода // Известия Юго-Западного государственного университета. 2016. № 1. С. 31-49.


Рецензия

Для цитирования:


Бобырь М.В., Асеев А.А. Применение глубокого обучения сверточной нейронной сети для классификации жестов из набора данных Sign Language MNIST. Известия Юго-Западного государственного университета. 2025;29(3):86-98. https://doi.org/10.21869/2223-1560-2025-29-3-86-98

For citation:


Bobyr M.V., Aseev A.A. Applying deep learning convolutional neural network to classify gestures from MNIST Sign Language dataset. Proceedings of the Southwest State University. 2025;29(3):86-98. (In Russ.) https://doi.org/10.21869/2223-1560-2025-29-3-86-98

Просмотров: 47


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 2223-1560 (Print)
ISSN 2686-6757 (Online)