Content uploaded by Soukaina Ouhame
Author content
All content in this area was uploaded by Soukaina Ouhame on Mar 29, 2019
Content may be subject to copyright.
Classification automatique des séquences vidéo : État de l'art
S. OUHAME, Mr. AMEUR
Laboratoire de Recherches Informatiques et de Télécommunications(LARIT)
Faculté des sciences, Université Ibn Tofail, Kenitra
ouhamesoukaina@gmail.com ameurelbachir@yahoo.fr
Résumé
Aujourd’hui le monde informatique connaît une grande diffusion de différents types de données;
textuelles, audio et vidéos, cependant ces derniers posent un certain nombre de problèmes comme
l’indexation, la recherche des vidéos dans le but d’analyser leurs contenus, Dans ce cadre on aura
besoin de faire une classification des vidéos. Nombreuses recherches ont été faites dans ce domaine et
beaucoup sont attendues, on va illustrer des caractéristiques utilisées et résumer les approches
existantes sur les modèles de classification des vidéos.
Mots clefs
Informatique, diffusion, vidéos, indexation, analyser, classification, caractéristiques, apprentissage,
automatique, séquences, profond, réseaux, neurones
1 Introduction
Avec le développement des technologies d’acquisition et de traitement des photos et vidéos d’une part,
et la croissance des contenus audio et vidéos d’autre part, la recherche d’un document ou d’une vidéo
dans une grande collection de données afin d’analyser son contenu devient un important enjeu. Dans
ce contexte l’intérêt est porté sur les méthodes permettant d’extraire de manière automatique des
données sémantiques permettant de décrire le contenu d’une vidéo et le classer (s’il s’agit par exemple
d’une vidéo, d’un match de football ou d’une vidéo de météo, etc..) et ça ce qu’on appelle la
classification d’une séquence vidéo tel que la vidéo en entrée est représentée par une séquence de
vecteurs de description (cf figure 1), On peut voir ce type de classification dans plusieurs domaines; la
vidéosurveillance, par exemple la détection d’un événement qui s’est passé dans un lieu quelconque
(aéroport, banque, etc..), ou encore dans la vision robotique qui inclut la reconnaissance d’objets, et la
reconnaissance d’actions, par exemple la plateforme VOIR, et aussi dans d’autres domaines...
En général, un modèle de classification de vidéo passe par deux étapes: Une phase d’extraction de
caractéristiques, qui consiste à extraire à partir de la vidéo les informations les plus pertinentes
décrivant son contenu, et les transformer sous forme des vecteurs, et une autre de classification, qui
permet de classer la vidéo en se basant sur ces vecteurs.
Dans cet article, nous allons citer quelques caractéristiques visuelles (manuelles et celles apprises
automatiquement) les plus utilisées dans l’état d’art pour entraîner les modèles de classification de
séquences. Ensuite on va citer quelques modèles de classification de séquences parmi les plus
populaires de l’état de l’art et qui ont été utilisés dans différentes applications liés à la classification de
vidéo.
Figure 1 – Schéma général d’un modèle de classification de séquences vidéo basé sur une
représentation séquentielle des données.
2 Extraction des caractéristiques
Il existe deux types de caractéristiques qu’on peut extraire d’une vidéo afin de la classer: les
caractéristiques conçues manuelles (à partir des connaissances à priori) et autres sont apprises
automatiquement.
2.1 Les caractéristiques manuelles
Le domaine de classification des vidéos peut se diviser en sous domaines dont chacun on extrait ses
caractéristiques, dans la reconnaissance d’action humaines il ya deux types de caractéristiques
manuelles utilisées: des caractéristiques locales comme les MoSIFT qui sont des détecteurs des points
d’intérêts spatio-temporels introduits par Chen et Hauptmann [1]. (cf figure 2), et des caractéristiques
globales comme des MEI (Motion Energy Images) et MHI (Motion History Images) associés à des
descripteurs différents comme dans les travaux de Lv et Nevatia [2].
Figure 2 – Détection de points d’intérêts par le détecteur de MoSIFT. Figure extraite de [1].
Dans le domaine de reconnaissance d’expressions faciales, Valstar et al [3] ont proposé de calculer
une caractéristique d’apparence, qui sont les motifs locaux binaires sur toutes les images de la vidéo,
de les classer une à une avec un classifieur SVM, et d’utiliser un système de vote pour attribuer le
label final. Il ya une autre catégorie des caractéristiques géométriques comme la méthode de la pose-
tête [4] qui est basée sur un ensemble de points de visage caractéristiques, extraits à l'aide d'AAM
(Active Appearence Models).
Dans le domaine de classification de séquences vidéo de sport, Ballan et al [5] ont proposé une autre
approche basée sur les sacs de mots visuels. Les auteurs représentent une séquence vidéo par une
séquence d’histogrammes de mots visuels, ces derniers étant extraits par un clustering k-moyennes sur
un ensemble de descripteurs SIFT calculés sur les images de toutes les vidéos. Ces séquences
d’histogrammes sont ensuite utilisées pour entraîner un classifieur SVM avec un noyau adapté à la
classification de séquences. Les expérimentations ont été effectuées sur une base de 100 vidéos de
football comprenant 4 classes et le taux de classification obtenu est de 73, 25%.
2.2 Modèles d’apprentissage automatique des caractéristiques
Les réseaux de neurones à convolution (CNNs) : LeCun et al ont proposé une version moderne
de CNN: c’est LeNet-5 qui a obtenu la performance sur plusieurs ensembles de données de
reconnaissance de motifs [6]. LeNet-5 contient plusieurs couches et il est formé avec l'algorithme
de rétro-propagation dans une formulation end to end, C'est-à-dire il se base sur la classification
des motifs visuels directement en utilisant des images brutes. Cependant, le Net5 souffre de
certaines limites telles que l'échelle des données limité et du pouvoir de calcul petit. Pour mieux
former des réseaux profonds, Hinton et al ont introduit Deep Belief Networks (DBN) pour former
chaque couche de DBN de manière non supervisée [7]. Et les chercheurs ont développé plus de
méthodes pour surmonter les difficultés d’apprentissage des architectures CNN. En particulier,
AlexNet [8] a été proposé Par Krizhevsky et al en 2012 et il a été appliqué avec succès à la
classification d'image à grande échelle dans le défi d’ImageNet. AlexNet contient cinq couches
convolutives suivies de 3 couches entièrement connectées. Inspiré par AlexNet, plusieurs
variantes, dont VGGNet [9], GoogLeNet [10] et ResNet [11], ont été proposés pour améliorer
encore la performance des CNN sur les tâches de reconnaissance visuelle.
Les réseaux récurrents de longue mémoire à court terme (LSTM) : Les architectures CNN
sont des réseaux de neurones feed-forward dont les connexions ne forment pas de cycles, ce qui
est insuffisant pour l'étiquetage de la séquence. Pour mieux explorer l'information temporelle des
données séquentielles, des réseaux récurrents (RNNs) ont été introduits, ils autorisent des
connexions cycliques ce qui active une "mémoire" des entrées précédentes pour persister dans
l'état interne du réseau [12]. Le problème avec les RNNs est qu'ils ne sont pas bien capables de
modéliser à longue distance les dépendances et de stocker des informations sur les entrées passées
pour une longue période. Pour résoudre ces problèmes, les chercheurs ont introduit les réseaux
récurrents de longue mémoire à court terme(LSTM) qui est une variante de RNNs conçue pour
stocker et accéder à l'information dans une séquence de longue durée. Comparés aux RNNs
standards, des portes multiplicatives non linéaires et une cellule de mémoire sont introduites. Ces
portes, y compris l'entrée, la sortie et la porte d'oubli, régissent l'information circulée à l’intérieur
et l’extérieur de la cellule de mémoire. Avec ces unités, LSTM est capable d'exploiter la mémoire
temporelle à longue distance et évite les problèmes de disparition de gradients et explosion.
3. Modèles de classification des vidéos
3.1 Apprentissage profond supervisé pour la classification
Classification vidéo basée sur l'image : Le grand succès des CNN sur l'analyse d'image [13] a
encouragé l'utilisation de fonctions profondes pour la classification vidéo. L'idée générale est de
traiter une vidéo en tant que collection d’images, puis pour chaque image. La représentation des
caractéristiques pourrait être obtenue en exécutant un passage d'alimentation jusqu'à une certaine
couche entièrement connectée avec les modèles d’apprentissage profonds les plus récents sur
ImageNet [14], y compris AlexNet [8], VGGNet [9], GoogleNet [10] et ResNet [11], comme
indiqué précédemment. Enfin, les caractéristiques au niveau de l’image sont calculées en moyenne
dans les représentations de niveau vidéo comme entrées de classificateurs pour la reconnaissance,
tels que les SVM. Parmi les travaux sur la classification vidéo basée sur l'image, Zha et al ont
étudié la performance de la reconnaissance vidéo basée sur l'image en utilisant des caractéristiques
de différentes couches de modèles profonds avec plusieurs noyaux pour la classification [15]. Ils
ont démontré que les caractéristiques des CNNs appliquées aux SVM peuvent obtenir de bonnes
performances de reconnaissance.
Modélisation de la dynamique temporelle à long terme : Pendant l’entrainement des modèles
CNN, chaque balayage prend un seul cadre (ou une image de cadre optique empilée) comme
entrées du réseau, sans prendre l'ordre des images en compte. Ceci n'est pas suffisant pour
l'analyse vidéo, puisque les événements sont complexes dans les vidéos et consistent en actions
multiples déroulants durant une longue période. Par conséquent, les chercheurs ont récemment
tenté d’utiliser des modèles RNN pour tenir compte de la dynamique temporelle dans les vidéos,
parmi lesquels le modèle LSTM qui a démontré son efficacité dans plusieurs tâches comme le
sous-titrage image/vidéo [16], etc. Wu et al ont fusionné les sorties des modèles LSTM avec les
modèles CNN pour modéliser ensemble des indices spatio-temporels pour la classification vidéo
et ont observé que Les CNN et les LSTM sont très complémentaires [17]. Récemment, les LSTM
sont utilisés pour modéliser encore l'information temporelle des flux, de mouvement et de vidéo.
En outre, Wu et al ont employé encore une CNN fonctionnant sur des spectrogrammes dérivés à
partir de bandes sonores de vidéos pour compenser les indices visuels capturés par CNN et LSTM,
et ont démontré de bons résultats [18].
Figure 5: Utilisation des LSTMs pour explorer la dynamique temporelle dans les vidéos avec les
caractéristiques CNN comme entrées.
3.2 Apprentissage profond non supervisé pour la classification
Graham et al ont proposé une machine Boltzmann à convolution pour apprendre à représenter le
flux optique et décrire le mouvement [19], Le et al ont utilisé des modèles ISA à deux couches
pour apprendre des modèles spatio-temporels pour la reconnaissance d’action [20]. Plus
récemment, Srivastava et al ont adopté un codeur-décodeur LSTM pour apprendre les
représentations de caractéristiques de manière non supervisée [21]. Ils ont mappé d'abord une
séquence d'entrée dans une représentation de longueur fixe par un codeur LSTM qui sera encore
décodé avec un décodeur unique ou multiple LSTM pour effectuer différentes tâches, telles que la
reconstruction de la séquence d'entrée, ou prédire la séquence future, le modèle est d'abord
entrainé sur les données de You Tube sans étiquettes manuelles puis réglé sur des repères standard
pour reconnaître les actions.
4. Conclusion
Nous avons résumé dans cet article les approches les plus populaires et récemment utilisées dans le
domaine de classification des vidéos, les modèles d’apprentissage automatiques des caractéristiques et
de la classification, Il reste à faire une étude comparative entre ces modèles afin de choisir le modèle
de classification que nous allons utiliser pour la suite.
5. Références
[1] M. Y. Chen et A. Hauptmann : MoSIFT : Recognizing human actions in surveillance videos. Rapport technique CMU-
CS-09-161, School of Computer Science, Carnegie Mellon University, Pittsburgh PA 15213, September 2009. xv, 16, 131
[2] F. Lv et R. Nevatia : Single view human action recognition using key pose matching and viterbi path searching. In IEEE
Conference on Computer Vision and Pattern Recognition, pages 1–8, 2007. 19
[3] M.F. Valstar, B. Jiang, M. Mehu, M. Pantic et K. Scherer : The first facial expression recognition and analysis challenge.
In IEEE International Conference on Automatic Face & Gesture Recognition, pages 921–926, 2011. xviii, 21, 111, 121, 122,
132, 141
[4] Hinton, G., Deng, L., Yu, D., Dahl, G. E., Mohamed, A.-r., Jaitly, N., Senior, A., Vanhoucke, V., Nguyen, P., Sainath, T.
N., et al., 2012. Deep neural networks for acoustic modeling in speech recognition: The shared views of four research groups.
IEEE Signal Processing Magazine
[5] L. Ballan, M. Bertini, A.D. Bimbo et G. Serra : Action categorization in soccer videos using string kernels. In IEEE
International Workshop on ContentBased Multimedia Indexing, pages 13–18, 2009. xv, xvi, xvii, xix, 5, 28, 53, 64, 66, 67,
72, 73, 74, 75, 76, 78, 79, 80, 140
[6]LeCun, B. B., Denker, J. S., Henderson, D., Howard, R. E., Hubbard, W., Jackel, L. D., 1990. Handwritten digit
recognition with a backpropagation network. In: NIPS.
[7] Hinton, G. E., Osindero, S., Teh, Y.-W., 2006. A fast learning algorithm for deep belief nets. Neural computation.
[8] Krizhevsky, A., Sutskever, I., Hinton, G. E., 2012. Imagenet classification with deep convolutional neural networks. In:
NIPS.
[9] Simonyan, K., Zisserman, A., 2015. Very deep convolutional networks for large-scale image recognition. In: ICLR.
[10] Szegedy, C., Liu, W., Jia, Y., Sermanet, P., Reed, S., Anguelov, D., Erhan, D., Vanhoucke, V., Rabinovich, A., 2015.
Going deeper with convolutions. In: CVPR.
[11] He, K., Zhang, X., Ren, S., Sun, J., 2016. Deep residual learning for image recognition. In: CVPR.
[12] Graves, A., 2012. Supervised sequence labelling with recurrent neural networks. Springer.
[13] Girshick, R., Donahue, J., Darrell, T., Malik, J., 2014. Rich feature hierarchies for accurate object detection and semantic
segmentation. In: CVPR.
[14]Deng, J., Dong, W., Socher, R., Li, L.-J., Li, K., Fei-Fei, L., 2009. ImageNet: A large-scale hierarchical image database.
In: CVPR.
[15] Zha, S., Luisier, F., Andrews, W., Srivastava, N., Salakhutdinov, R., 2015. Exploiting image-trained cnn architectures
for unconstrained video classification. In: BMVC.
[16] Donahue, J., Hendricks, L. A., Guadarrama, S., Rohrbach, M., Venugopalan, S., Saenko, K., Darrell, T., 2015. Long-
term recurrent convolutional networks for visual recognition and description. In: CVPR.
[17] Wu, Z., Wang, X., Jiang, Y.-G., Ye, H., Xue, X., 2015. Modeling spatial-temporal clues in a hybrid deep learning
framework for video classification. In: ACM Multimedia.
[18] Wu, Z., Jiang, Y.-G., Wang, X., Ye, H., Xue, X., 2016. Multi-stream multi-class fusion of deep networks for video
classification. In: ACM Multimedia
[19] Taylor, G. W., Fergus, R., LeCun, Y., Bregler, C., 2010. Convolutional learning of spatio-temporal features. In: ECCV.
[20] Le, Q. V., Zou, W. Y., Yeung, S. Y., Ng, A. Y., 2011. Learning hierarchical invariant spatio-temporal features for action
recognition with independent subspace analysis. In: CVPR.
[21] Srivastava, N., Mansimov, E., Salakhutdinov, R., 2015. Unsupervised learning of video representations using LSTMs.
In: ICML.