Система ідентифікації оригіналу відео за його фрагментом з використанням згорткових нейронних мереж
Open Access
- 29 April 2021
- journal article
- Published by Ukrainian National Forestry University in Scientific Bulletin of UNFU
- Vol. 31 (3), 94-100
- https://doi.org/10.36930/40310315
Abstract
Розглянуто основні сучасні та популярні підходи до вирішення задач розпізнавання ознак зображень і відео. Встановлено переваги та недоліки актуальних методів оброблення візуальної інформації, а також сучасні невирішені проблеми, пов'язані із цим сегментом робіт. Спираючись на сучасний стан досліджень з цієї предметної області, запропоновано нову систему, призначення якої "навчитись" ідентифікувати відео за його фрагментом, враховуючи характеристики зображеного у відеоряді. Першим етапом аналізу відео є його розбиття на окремі кадри, враховуючи зміну ентропії, колірної схеми та структурні відмінності сцени. Спираючись на сучасні методи, реалізовано алгоритм перетворення відео в набір кадрів. Виявлено, що компактне представлення відео у вигляді набору ключових кадрів дає змогу виділити основні контекстні характеристики. Враховуючи сучасні методи визначення характеристик зображень та ефективність машинного навчання, вирішено застосувати згорткові нейронні мережі для визначення векторних представлень. Під час вибору коректної архітектури та моделі нейронної мережі здійснено порівняльний аналіз ефективності їх роботи з використанням бази ImageNet. В наступних етапах, роботу із відео буде представлено у вигляді маніпуляції із векторами характеристик кожного кадру. Запропоновано спосіб пошуку збігу фрагментів, враховуючи оцінку кута між векторами представлень кадрів. Для покращення оптимізації пошуку розглянуто способи застосування методів індексації векторного простору кадрів. Варто застосувати цей підхід оптимізації, щоб уникнути різкої деградації ефективності пошуку із збільшенням бази. Унаслідок виконаної роботи реалізовано програмну систему у вигляді вебаплікації, яка демонструє пошук відео за його фрагментом. Проте це тільки прототип для візуалізації процесу. Під час проведення експериментів оцінено вплив та залежність довжини відео, його роздільної здатності та обсягу тестової бази від ефективності процесу пошуку. Передусім ця робота є актуальною через цінність досліджень в напрямку розвитку методів оброблення та аналізу відеоконтенту. Виявлено, що ця система має подальший розвиток та право на існування, якщо врахувати майбутні оптимізації пошуку та покращення вилучення дескрипторів.This publication has 15 references indexed in Scilit:
- Key frame extraction for video summarization using local description and repeatability graph clusteringSignal, Image and Video Processing, 2018
- Indexing of the CNN features for the large scale image searchMultimedia Tools and Applications, 2018
- Evaluation of Distance Measures for Feature based Image Registration using AlexNetInternational Journal of Advanced Computer Science and Applications, 2018
- Deep Residual Learning for Image RecognitionPublished by Institute of Electrical and Electronics Engineers (IEEE) ,2016
- ImageNet Large Scale Visual Recognition ChallengeInternational Journal of Computer Vision, 2015
- Million-scale near-duplicate video retrieval systemPublished by Association for Computing Machinery (ACM) ,2011
- Detection and representation of scenes in videosIEEE Transactions on Multimedia, 2005
- RECENT ADVANCES IN VIDEO CONTENT ANALYSIS: FROM VISUAL FEATURES TO SEMANTIC VIDEO SEGMENTSInternational Journal of Image and Graphics, 2001
- Efficient Search for Approximate Nearest Neighbor in High Dimensional SpacesSIAM Journal on Computing, 2000
- An integrated scheme for automated video abstraction based on unsupervised cluster-validity analysisIEEE Transactions on Circuits and Systems for Video Technology, 1999