Система ідентифікації оригіналу відео за його фрагментом з використанням згорткових нейронних мереж

Open Access

29 April 2021

journal article
Published by Ukrainian National Forestry University in Scientific Bulletin of UNFU

Vol. 31 (3), 94-100
https://doi.org/10.36930/40310315

Abstract

Розглянуто основні сучасні та популярні підходи до вирішення задач розпізнавання ознак зображень і відео. Встановлено переваги та недоліки актуальних методів оброблення візуальної інформації, а також сучасні невирішені проблеми, пов'язані із цим сегментом робіт. Спираючись на сучасний стан досліджень з цієї предметної області, запропоновано нову систему, призначення якої "навчитись" ідентифікувати відео за його фрагментом, враховуючи характеристики зображеного у відеоряді. Першим етапом аналізу відео є його розбиття на окремі кадри, враховуючи зміну ентропії, колірної схеми та структурні відмінності сцени. Спираючись на сучасні методи, реалізовано алгоритм перетворення відео в набір кадрів. Виявлено, що компактне представлення відео у вигляді набору ключових кадрів дає змогу виділити основні контекстні характеристики. Враховуючи сучасні методи визначення характеристик зображень та ефективність машинного навчання, вирішено застосувати згорткові нейронні мережі для визначення векторних представлень. Під час вибору коректної архітектури та моделі нейронної мережі здійснено порівняльний аналіз ефективності їх роботи з використанням бази ImageNet. В наступних етапах, роботу із відео буде представлено у вигляді маніпуляції із векторами характеристик кожного кадру. Запропоновано спосіб пошуку збігу фрагментів, враховуючи оцінку кута між векторами представлень кадрів. Для покращення оптимізації пошуку розглянуто способи застосування методів індексації векторного простору кадрів. Варто застосувати цей підхід оптимізації, щоб уникнути різкої деградації ефективності пошуку із збільшенням бази. Унаслідок виконаної роботи реалізовано програмну систему у вигляді вебаплікації, яка демонструє пошук відео за його фрагментом. Проте це тільки прототип для візуалізації процесу. Під час проведення експериментів оцінено вплив та залежність довжини відео, його роздільної здатності та обсягу тестової бази від ефективності процесу пошуку. Передусім ця робота є актуальною через цінність досліджень в напрямку розвитку методів оброблення та аналізу відеоконтенту. Виявлено, що ця система має подальший розвиток та право на існування, якщо врахувати майбутні оптимізації пошуку та покращення вилучення дескрипторів.

This publication has 15 references indexed in Scilit:

Key frame extraction for video summarization using local description and repeatability graph clustering
Signal, Image and Video Processing, 2018
Indexing of the CNN features for the large scale image search
Multimedia Tools and Applications, 2018
Evaluation of Distance Measures for Feature based Image Registration using AlexNet
International Journal of Advanced Computer Science and Applications, 2018
Deep Residual Learning for Image Recognition
Published by Institute of Electrical and Electronics Engineers (IEEE) ,2016
ImageNet Large Scale Visual Recognition Challenge
International Journal of Computer Vision, 2015
Million-scale near-duplicate video retrieval system
Published by Association for Computing Machinery (ACM) ,2011
Detection and representation of scenes in videos
IEEE Transactions on Multimedia, 2005
RECENT ADVANCES IN VIDEO CONTENT ANALYSIS: FROM VISUAL FEATURES TO SEMANTIC VIDEO SEGMENTS
International Journal of Image and Graphics, 2001
Efficient Search for Approximate Nearest Neighbor in High Dimensional Spaces
SIAM Journal on Computing, 2000
An integrated scheme for automated video abstraction based on unsupervised cluster-validity analysis
IEEE Transactions on Circuits and Systems for Video Technology, 1999