Recalage GPS / SIG / Video, et synthèse de textures de bâtiments
ABSTRACT Dans le contexte du recalage de données SIG de bâtiments avec des vidéos — par exemple pour des applications de réalité augmentée — nous présentons une solution à un des problèmes les plus critiques, à savoir l'initialisation de ce recalage. La méthode proposée exploite d'une part les informations sémantiques que l'on peut associer aux primitives extraites des images, et d'autre part le principe même de l'algorithme robuste RANSAC pour trouver automatiquement la pose initiale de la caméra d'acquisition. Nous montrons également comment ce recalage peut être exploité pour enrichir la base SIG visualisée par des textures réelles, calculées à partir des images acquises au sol, et ce de façon tout aussi automatique.
-
Citations (0)
-
Cited In (0)
Page 1
Recalage GPS / SIG / Video, et synthèse de textures de bâtiments
G. Sourimant1
T. Colleu1
V. Jantet1
L. Morin2
1Irisa / Inria Rennes Bretagne Atlantique, Campus Universitaire de Beaulieu, 35042 Rennes Cedex
2Insa Rennes, 20, Avenue des Buttes de Coësmes, 35043 Rennes Cedex
{gael.sourimant, thomas.colleu, vincent.jantet}@irisa.fr
luce.morin@insa-rennes.fr
Résumé
Dans le contexte du recalage de données SIG de bâtiments
avec des vidéos — par exemple pour des applications de
réalité augmentée — nous présentons une solution à un
des problèmes les plus critiques, à savoir l’initialisation
de ce recalage. La méthode proposée exploite d’une part
les informations sémantiques que l’on peut associer aux
primitives extraites des images, et d’autre part le principe
même de l’algorithme robuste RANSAC pour trouver auto-
matiquement la pose initiale de la caméra d’acquisition.
Nous montrons également comment ce recalage peut être
exploité pour enrichir la base SIG visualisée par des tex-
tures réelles, calculées à partir des images acquises au sol,
et ce de façon tout aussi automatique.
Mots clefs
Recalage 2D/3D, GPS, SIG, RANSAC, Modélisation Ur-
baine, Synthèse de Textures.
1Introduction
La génération de modèles 3D d’environnements urbains a
de nombreuses applications en réalité virtuelle ou augmen-
tée. On a d’une part une demande de plus en plus forte pour
avoir accès à des modèles 3D de qualité pour des applica-
tions de navigation virtuelle, comme on peut s’en rendre
compte avec le succès de Google Earth ou Virtual Earth.
D’autre part, on peut également chercher à rajouter des in-
formations virtuelles sur des vidéos réelles, par exemple
dans le cadre d’une navigation à l’aide d’un GPS utilisant
les images de ce que voit réellement l’utilisateur plutôt que
des cartes virtuelles.
La fusion de données géométriques synthétiques de bâti-
ments avec des images réelles est le point central de ces
deux approches complémentaires. Notre étude se place
dans ce cadre : on dispose d’un modèle synthétique géo-
référencé de bâtiments (issu d’un SIG, pour Système d’In-
formation Géographique), qui contient pour chaque bâti-
ment son empreinte au sol et son élévation, ainsi que des
vidéos acquises en milieu urbain conjointement avec des
mesures GPS. Nous montrons qu’un recalage entre les mo-
dèles 3D de bâtiments avec les vidéos est possible — reca-
lage qui pourrait alors être utilisé pour des applications de
réalité augmentée — et que ce recalage peut être exploité
pour améliorer les modèles 3D existants, par exemple en
extrayant les textures réelles des façades des bâtiments —
qui peuvent alors être utilisées dans des outils de naviga-
tion virtuelle.
Les données GPS fournissent une position approximative
de la caméra dans un repère géo-référencé. Pour fusionner
les informations de la vidéo et les informations du SIG, les
données vidéo et SIG doivent être recalées : pour chaque
image de la séquence, on doit déterminer la position et
l’orientation de la caméra dans le repère géo-référencé, de
telle sorte que la projection perspective du SIG dans le plan
de la caméra soit alignée avec les contours des bâtiments
dans l’image.
L’initialisation du recalage consiste à estimer simultané-
ment la pose de la caméra pour la première image et un
ensemble de primitives en correspondances 2D/3D. C’est
un problème délicat pour lequel on trouve de nombreuses
contributionsdanslalittérature.Unesolutionconsisteàéli-
miner une des deux inconnues (correspondance ou pose)
grâce à une intervention manuelle ou à du matériel de me-
sure. Ainsi, dans [1, 2, 3] l’utilisateur indique lui-même les
correspondances. Dans [4, 5], c’est la pose qui est directe-
ment mesurée à l’aide d’un matériel de navigation (GPS +
centraleinertielle).D’autressolutionssontproposéesàpar-
tir de modèles plus riches comme un modèle texturé [5] ou
un modèle provenant d’un scanner 3D [6]. Le modèle 3D
dont nous disposons ne contient que les contours des bâti-
ments. Dans ce cas, deux méthodes existent, ayant chacune
leur inconvénient et à condition qu’une pose approximative
soit disponible. La première utilise l’algorithme RANSAC
[7], et est efficace si l’ensemble de primitives est petit et
possède peu d’outliers. La deuxième méthode est basée sur
la minimisation d’une fonction d’énergie [8], et peut ne pas
converger du fait de la non-linéarité de la fonction de coût.
Dans cet article, nous effectuons le recalage initial en deux
étapes. Tout d’abord, nous calculons une pose approxi-
mative de la caméra permettant d’obtenir pour le modèle
SIG projeté les mêmes primitives que celles présentes dans
l’image. Cette première estimation utilise uniquement les
hal-00457633, version 1 - 9 Mar 2010
Manuscrit auteur, publié dans "Conférence COmpression et REpresentation des Signaux Audiovisuels, CORESA'2009, Toulouse
: France (2009)"
Page 2
données GPS et la vidéo et ne fait pas intervenir le mo-
dèle SIG. Puis nous estimons simultanément des corres-
pondances 2D/3D et la pose en utilisant une méthode basée
RANSAC. Cette estimation utilise le modèle SIG et la pre-
mière image de la séquence vidéo. La pose est alors suivie
dans les images suivantes en utilisant un algorithme d’as-
servissement visuel virtuel robuste.
Une fois le recalage avec le modèle effectué, nous propo-
sons de l’exploiter pour extraire de la vidéo non pas une
texture mais un ensemble de textures pour chaque façade
de bâtiment. Elles sont définies dans l’espace du plan prin-
cipal de celle-ci [9, 10] (par opposition au choix d’une
image de référence [11, 12]). A partir de la pile de textures
obtenue, nous proposons un algorithme de fusion pixel à
pixel pour calculer l’image finale. Les problèmes générale-
ment rencontrés pour le calcul de textures de façades sont
de plusieurs ordres. Un bâtiment n’est pas forcément vi-
sible complètement dans chaque image, et peut être mas-
qué partiellement par un autre bâtiment. On parle alors
d’occultations modélisables, qui peuvent être traitées via
l’utilisationdemasquescalculésàpartirdurecalageavecle
modèle 3D [13, 9, 10]. Les occultations non modélisables
(i.e.générées pardes objetsnon modélisés dansla base3D)
sont quant à elles généralement supprimées en utilisant soit
des outils robustes basés sur des mesures de luminances
médianes [11, 12], soit un processus itératif basé sur des
masques de corrélation [10]. De façon plus anecdotique,
certains travaux se penchent également sur les différences
de résolution spatiale des images de la pile [10, 9, 13], le
remplissage des zones inconnues [14, 12] ou les variations
d’illumination [10].
Dans la section 2, nous présentons notre méthode de re-
calage automatique entre des données SIG et vidéo. Nous
montrons dans la section 3 comment ce recalage peut-être
exploité pour le calcul de textures photoréalistes de fa-
çades, avant de conclure et d’indiquer quelques perspec-
tives (section 4).
2 Recalage SIG - Vidéo
Nous présentons dans cette partie une méthode automa-
tique permettant de calculer de façon précise la pose de la
caméra pour toutes les images de la vidéo considérée. Ce
calcul de pose se décompose en deux étapes principales :
1. Calculdeposepourlapremièreimage.Unalgorithme
basé sur les premières images et les mesures GPS per-
met de calculer précisément la pose pour la première
image de la vidéo, pour laquelle on ne connait à ce
stade qu’une approximation de la position.
2. Suivi de la pose. La mise en correspondance entre des
primitives extraites des images et le modèle 3D, asso-
ciée au suivi de ces primitives dans la vidéo, permet
de suivre la projection du modèle recalée pour la pre-
mière image.
2.1
Recalage initial exploitant une image clé de la vidéo.
Pour initialiser le recalage entre le modèle 3D issu du
SIG et la vidéo acquise, la seule donnée dont on dispose
de prime abord est l’ensemble des mesures de positionne-
ment GPS associées au trajet effectué par la caméra. Nous
sommes donc capables à ce point de nous positionner ap-
proximativement au sein du modèle SIG, mais pas de nous
orienter pour savoir quelle direction avait la caméra. Pour
lever cette ambiguité, nous proposons de découper une fois
encore le problème en deux parties :
Estimation aproximative de la pose. Le mouvement ap-
proximatif entre deux positions données de la caméra est
estimé en utilisant les images seules. La translation esti-
mée est alors mise en correspondance avec la translation
mesurée par GPS pour donner l’orientation approximative.
Raffinement de la pose. La pose approchée est exploitée
pour détecter des droites 3D dans le modèle, et les mettre
encorrespondanceavecdesdroites2Dextraitesdesimages
(contraintes par le contexte de l’image : droites au sol, ver-
ticales, ou à la limite avec le ciel). La pose est calculée via
un RANSAC qui recherche le meilleur jeu de correspon-
dances qui minimise l’erreur entre les droites extraites des
images et les droites 3D projetées.
Ces travaux ont déjà été décrits avec plus de détails dans
[15]. La principale limitation de cette approche est qu’elle
nécessite de choisir au sein de la vidéo une image clé, uti-
lisée pour estimer la pose relative entre la première image
et celle-ci, dont la translation est mise en correspondance
avec celle mesurée par GPS. Dans [15], l’image clé est sé-
lectionnée manuellement.
Initialisation du recalage
Recalage initial automatique.
ser encore l’intervention de l’utilisateur, pour tendre vers
une procédure complètement automatique. Le choix arbi-
traire de l’image clé n’est en effet pas satisfaisant car trop
dépendant des données : les mesures GPS sont souvent trop
bruitées en milieu urbain, entraînant de fait une fausse es-
timation approximative de la pose, dont on ne peut extraire
de correspondances 2D/3D pour calculer la pose de façon
précise.
Nous proposons alors un algorithme supervisé pour le re-
calage initial, où l’intervention de l’utilisateur se limite à
valider ou non une pose calculée. En cas de rejet, une nou-
velle pose est proposée à l’utilisateur. Cette méthode se
base sur le postulat suivant : étant donnée une image clé,
quels sont les critères permettant de déterminer que la pose
estimée (ou estimable) est viable? La procédure de reca-
lage devient alors séquentielle, dans le sens où l’on teste
potentiellementtouteslesimagesdelavidéocommeimage
clé, l’une après l’autre, en utilisant l’algorithme décrit dans
[15]. Plusieurs critères sont utilisés pour déterminer si une
image est une image clé valide pour le calcul de pose. Dès
que l’un de ces critères est invalidé, l’image suivante de la
vidéo est utilisée comme image clé.
Géométrie épipolaire. Tout d’abord, nous évaluons la
Nous souhaitons minimi-
hal-00457633, version 1 - 9 Mar 2010
Page 3
quantité de résidu épipolaire induit par la matrice fonda-
mentale estimée F, calculée par un algorithme robuste basé
sur RANSAC. Si ce résidu est trop élevé, la géométrie épi-
polaire est considérée comme trop mal estimée pour calcu-
ler la pose relative des caméras. Sinon, on calcule la pose
approximative par identification avec la translation GPS.
Extraction des primitives. La pose approximative étant es-
timée, l’image est conservée si suffisament de droites 3D
projetées peuvent être extraites et mises en correspon-
dancesaveclesdroites2Dpourcalculerlapose.Lenombre
de droites et leur configuration géométrique nécessaires
sont décrites dans [15].
Mise en correspondance robuste. A partir des droites 2D et
3D, un algorithme basé RANSAC itère sur l’ensemble de
correspondances possibles pour supprimer les outliers et
ne conserver que celles qui sont valides. Le succès de cette
phase peut être mesuré par le nombre d’itérations RAN-
SAC et le nombre de correspondances trouvées. En effet,
ce nombre décroît quand la probabilité de trouver une so-
lution valide augmente. Un simple seuillage sur ce nombre
permet ou non de valider l’image clé sélectionnée.
Si une image passe ces trois tests successifs, alors la pose
trouvée est soumise à l’utilisateur, qui la valide ou non, au-
quel cas, une nouvelle image clé est déterminée et la pro-
cédure itérée. Un exemple de recalage proposé par notre
méthode est illustré sur la figure 5. Il s’agit ici de la pre-
mière proposition de solution faite par l’algorithme.
2.2Suivi du recalage
Une fois la pose de la caméra estimée pour la première
image de la vidéo, on souhaite la calculer pour toutes les
imagesrestantes.Sousl’hypothèsedefaiblesdéplacements
inter-images, ce calcul de pose revient à un suivi du reca-
lage estimé pour la première image. Nous présentons ici un
rapide résumé de notre méthode. Plus de détails peuvent
être trouvés dans [16].
Plusieurs approches pour effectuer un tel suivi sont dé-
crites dans la littérature (par exemple [17]). La méthode
que nous avons retenue est une variation robuste de l’al-
gorithme d’asservissement visuel virtuel [18]. Le calcul de
pose par asservissement nécessite un ensemble de corres-
pondances entre des primitives 3D appartenant au modèle
à recaler, et la projection 2D de ces primitives dans les
images. De par la simplicité de leur modélisation, de leur
extraction et de leur suivi, nous utilisons des points pour
cette mise en correspondance de primitives. Pour assurer le
suivi du modèle 3D tout au long de la séquence d’images,
nousutilisonsunschémadetransfertdepointsd’uneimage
à l’autre. Les points utilisables sont a priori ceux présents
à la fois dans les images et le modèle 3D, c’est-à-dire ceux
appartenant aux façades.
Pour assurer un suivi robuste et minimiser la dérive de la
pose estimée de la caméra au cours du temps, nous pro-
posons d’extraire en plus des points de façades des points
appartenant au sol. Les informations 3D associées à ces
points sont (en l’absence ici de DEM) estimées à par-
tir d’une triangulation de Delaunay des empreintes au sol
des bâtiments. De plus, la loi de commande d’asservisse-
ment utilisée pour calculer la pose est augmentée d’un M-
Estimateur comme le propose [18]. La fonctionnelle à mi-
nimiser est alors :
v = −λ(DL)+D(P(X) − x),
avec D = diag(w1,...,wN) l’ensemble des poids calculés
lors de la M-Estimation (via une fonction de coût robuste
de Cauchy), v le vecteur décrivant la pose de la caméra re-
cherchée, P(X)−x la différence pour un point donné entre
sa position mesurée dans l’image et la projection de son
correspondant 3D à la pose donnée, et L la matrice d’inter-
action dépendant des primitives projetées et de la profon-
deur relative entre la caméra et l’objet visualisé.
Des résultats de suivi pour deux séquences sont présentés
sur la figure 4. On remarque que même en présence d’ob-
jets occultants, ou de bâtiments qui disparaissent puis ré-
apparaissent, le suivi reste satisfaisant.
3 Extraction des textures de façades
Le problème que l’on cherche à résoudre ici consiste à
exploiter le recalage entre les images source et la projec-
tion du modèle 3D correspondante pour calculer la texture
finale T de chaque façade visible du modèle. Pour cela,
chaque façade f visible dans chaque image Ikpermet de
générer une texture Tf
masquée par des objets du premier plan mais non modéli-
sés dans la base SIG, et plus ou moins floue selon la mé-
thode d’extraction et la configuration géométrique de la ca-
méra. Le calcul de T se fait alors en deux étapes : extrac-
tion des textures Tf
correspondante, puis calcul T par fusion texel à texel1de
la pile d’images.
3.1 Extraction des textures
Soit une image Ik (k ∈ {1..n}) de la séquence d’ori-
gine. On suppose que m façades sont visibles dans Ik.
On cherche alors à calculer les m textures Tf
dant à une image fronto-parallèle des-dites façades. Le ra-
tio des dimensions de Tf
la façade dans le modèle. Nous utilisons donc un facteur
d’échelle η pour passer du domaine métrique au domaine
texel.
Les données connues, une fois le recalage image-modèle
effectué, sont les coordonnées dans le repère image des
quatre coins de chaque façade x = [uivi]?, i ∈ {1..4}.
Pour calculer la transformation homographique permettant
de passer dans le repère texture Tf
correspondance avec les quatre coins de Tf
nées x?= [0/u?
largeur (resp. la hauteur) de la façade f, on a alors u?
et v?
(1)
k, qui sera généralement incomplète,
ket construction de la pile d’images
kcorrespon-
krespecte celui des dimensions de
k, on met ces points en
k, de coordon-
j0/v?
j]?, j ∈ {1..4}. Si w (resp. h) est la
j= ηw
j= ηh. On notera également que la connaissance de la
1On différentie dans le texte les pixels, qui sont les unités de base des
images, des texels qui sont les unités de base dans les textures, pour mieux
différentier les deux représentations.
hal-00457633, version 1 - 9 Mar 2010
Page 4
pose de la caméra par rapport au modèle 3D n’impose pas
aux points de x de se situer dans les limites de l’image. Ces
correspondances sont illustrées sur la figure 1.
ηw1
ηh
ηw2
Hf1
k
Hf2
k
Tf2
k
Tf2
k
????
zone inconnue
u?
u?
u
vv?
v?
w2
w1
Figure 1 – Utilisation des coordonnées de sommets de fa-
çades pour calculer les textures Tf
k
La correspondance entre x et x?est formalisée par la rela-
tion homographique x?∼ Hf
tion un système linéaire de la forme Ah = x?, h étant un
vecteur contenant les entrées de l’homographie souhaitée.
Une fois les homographies Hf
sont calculées en utilisant la transformée inverse Hf
couleur de chaque texel [u?v?]?de Tf
interpolation bicubique de son correspondant [u v]?dans
Ik.
3.2 Fusion des textures
On dispose désormais d’une pile de textures, et le calcul de
la texture finale Tfse fait texel à texel. Pour chaque pile
de texels, la couleur finale est calculée comme la somme
pondérée des couleurs de la pile, le poids associé à chaque
texel de la pile étant défini par wf,u,v. La mise en place de
ces poids est explicitée dans les paragraphes suivants.
kx. On déduit de cette équa-
kestimées, les textures Tf
k
k
−1, la
kétant donnée par
Occultations modélisables.
couleur de chaque texel Tf
puis interpolation que sont gérées les occultations modéli-
sables. A ce stade, chaque texel se voit attribuer un poids
wf,u,v
pixel de coordonnées [u v 1]?∼ Hf
dehors de l’image Ik, alors le texel n’est pas visible. De
plus, si le pixel est dans l’image, la pose de la caméra est
utilisée pour déterminer par rétro-projection la façade f?à
laquelle appartient ce pixel. Si f ?= f?, alors il n’est pas
non plus visible (voir figure 2).
?
C’est lors du calcul de la
k u,vpar transformation inverse
occ.mod., qui vaut 1 si le texel est visible et 0 sinon. Si le
k
−1[u?v?1]?est en
wf,u,v
wf,u,v
occ.mod= 1
occ.mod= 0
si le texel est visible
sinon
(2)
Zones inconnues
wf,u2,v2
occ.mod= 1
wf,u3,v3
occ.mod= 0
wf,u1,v1
occ.mod= 0
Projection en dehors de l’image
Masquage par un autre bˆ atiment
Figure 2 – Gestion des occultations modélisables lors de la
construction des textures
Occultations non modélisables.
texels de position [u v]?dans Tf. Certains de ces texels
sont entachés d’erreur (au sens de la couleur) du fait des
objets occultants non modélisés (outliers). On souhaite ne
conserver que les texels correspondant à la façade (in-
liers) pour calculer la couleur finale du texel dans T . Si
on suppose que pour Tf
de 50% des échantillons, alors le texel Tf
leur est la médiane des couleurs de la pile est un inlier.
Ceux dont la couleur est suffisamment proche sont égale-
ment considérés comme des inliers. Soit C(Tf
leur du jièmetexel de la pile. La couleur médiane est don-
née par C(Tf
j
l’écart des inliers à cette couleur de façon robuste en pre-
nant la médiane de la valeur absolue de l’écart des couleurs
à C(Tf
Soit Tf
u,vla pile de
u,vles outliers représentent moins
u,vjdont la cou-
u,vj) la cou-
u,v)med = med
(C(Tf
u,vj)). On peut calculer
u,v)med:
∆C(Tf
u,v)= MAD(C(Tf
= med
j
u,v))
u,vj) − med
(|C(Tf
k
(C(Tf
u,vk))|)
(3)
On peut considérer que les inliers conservés?
λ∆C(Tf
Tf
u,v se-
ront tous ceux dont l’écart à C(Tf
u,v), λ étant un scalaire fixé à 2 dans notre cas :
u,v)med est inférieur à
∀k,Tf
u,vk∈?
occ.n.mod.nul :
?
Tf
u,v⇔ |C(Tf
u,vk)−C(Tf
u,v)med| ≤ λ∆C(Tf
u,v)
(4)
La suppression des outliers se fait en leur attribuant un
poids wf,u,v
wf,u,v
wf,u,v
occ.n.mod.= 1 si Tf
occ.n.mod.= 0 sinon
u,vk∈?
Tf
u,v
(5)
Résolution Spatiale.
cherche désormais à calculer la couleur finale du texel Tu,v.
Nous attribuons un poids à chaque inlier de la pile de telle
sorte que l’influence des texels de plus haute résolution soit
plus importante que ceux de basse résolution. Plusieurs cri-
tères peuvent être utilisés pour mesurer cette résolution,
soit en utilisant la configuration géométrique de la scène,
soit en considérant les images en entrée elles-mêmes.
A partir de la liste d’inliers?
Tf
u,v, on
Distance et angle
vue du pixel et celle du projeté du centre optique sur la
façade est utilisé. Plus cet angle est important, plus le poids
wf,u,v
peut poser :
wf,u,v
Dans [10], l’angle θ entre la ligne de
angleest faible. Si on considère que θ ∈]−π
2;π
2[, alors on
angle= cos|θ|
(6)
La distance entre la façade et la caméra étant également
déterminante pour la résolution finale des texels, nous pro-
posons en plus de leur assigner un poids wf,u,v
comme la distance entre le centre optique de la caméra
dist, défini
hal-00457633, version 1 - 9 Mar 2010
Page 5
et le pixel considéré. Cette distance est calculée en utili-
sant le z-buffer2pour l’image k, au point de coordonnées
[u?v?1]?∼ Hf
wf,u,v
k
−1[u v 1]?.
dist= 1/z-buffer(k,u?,v?)
(7)
Aire de projection
lution des texels en utilisant la géométrie de la scène est
de calculer, pour chacun d’entre eux, l’aire du quadrilatère
correspondant dans l’image d’origine (voir figure 3). Plus
l’aire est grande, plus le texel apporte une information vi-
suelle pertinente. Si a, b, c et d sont les coordonnées des
"sommets" du texel dans la texture Tf, alors les coordon-
nées correspondantes a?, b?, c?et d?dans If
à l’aide de l’homographie Hf
k
calculé comme l’aire du quadrilatère (a?,b?,c?,d?), c’est-
à-dire comme la moitié de la norme du produit vectoriel de
ses diagonales :
Un autre moyen de mesurer la réso-
ksont calculées
aireest alors
−1. Le poids wf,u,v
wf,u,v
aire=1
2?(a?− c?) × (b?− d?)?
(8)
q1
q2
Aire(q1) > Aire(q2)
⇒
wf,u1,v1
aire
> wf,u2,v2
aire
u1
u2
v1,v2
Figure 3 – Mesure de l’aire des texels projetés
3.3
Sur la figure 6 on peut voir deux textures extraites d’une
video de synthèse pour laquelle le recalage est connu, ainsi
que la texture reconstruite à partir des textures élémentaires
extraites (la mesure d’aire est utilisée pour la résolution).
On peut voir que les objets occultants sont bien supprimés,
que la résolution spatiale de l’image est conservée, et que
les spécularités dans les fenêtres sont également absentes
de la texture finale. On fait exactement le même constat
pour les images réelles (figure 7). Une vue totalement vir-
tuelle calculée en utilisant une unique vidéo est présentée
sur la figure 8.
Lors de nos tests, nous n’avons pas pu déterminer quelle
méthode entre la mesure d’aire ou de distance-angle était la
meilleure pour conserver la résolution spatiale. Nous pré-
conisons donc la première par souci de simplicité et d’effi-
cacité d’implémentation.
4Conclusion
Nous avons présenté dans cet article une méthodologie per-
mettant le recalage — même initial — d’un modèle 3D
basé SIG avec une vidéo, en exploitant des mesures GPS.
Résultats
2Le z-buffer contient la distance de chaque pixel à un objet 3D affiché,
ici les bâtiments SIG.
Dans le cadre du recalage initial, nous proposons une so-
lution automatique mais supervisée contrairement à la plu-
part des approches existantes. Nous montrons également
comment un tel recalage peut-être exploité pour calculer
automatiquement des textures de façades photoréalistes à
partir d’images acquises au niveau du sol.
Dans un cadre plus contraint, où l’on a une confiance plus
importante dans la précision des mesures GPS, on pourra
lever la contrainte de supervision pour avoir une méthode
complètement automatique de recalage SIG / Vidéo.
De plus, pour rendre le recalage au cours du temps en-
core plus robuste, nous souhaiterions d’une part intégrer
certains outils du recalage initial dans le suivi (calcul de
pose à partir de droites), et d’autre part intégrer des résul-
tats de Structure from Motion pour mettre en correspon-
dance non plus uniquement des primitives 2D/3D, mais
également 3D/3D.
Références
[1] Heung-Yeung Shum, Mei Han, et Rick Szeliski. Interactive
construction of 3d models from panoramic mosaics. Dans
Proc. of CVPR’98, June 1998.
[2] Paul E. Debevec, Camillo J. Taylor, et Jitendra Malik. Mo-
deling and rendering architecture from photographs : A hy-
brid geometry- and image-based approach. Computer Gra-
phics, 30 :11–20, 1996.
[3] K. Karner, J. Bauer, A. Klaus, et K. Schindler. Metropogis :
a city information system. Dans ICIP02, pages III : 533–
536, 2002.
[4] Seth Teller, Matthew Antone, Zachary Bodnar, Michael
Bosse, Satyan Coorg, Manish Jethwa, et Neel Master. Cali-
brated, registered images of an extended urban area. Int. J.
Comput. Vision, 53(1), 2003.
[5] Gerhard Reitmayr et Tom Drummond. Going out : robust
model-based tracking for outdoor augmented reality. Dans
ISMAR, pages 109–118, 2006.
[6] LingyunLiuet IoannisStamos. Automatic3d to2dregistra-
tion for the photorealistic rendering of urban scenes. Dans
CVPR ’05, pages 137–143, 2005.
[7] Martin A. Fischler et Robert C. Bolles. Random sample
consensus : a paradigm for model fitting with applications to
image analysis and automated cartography. Commun. ACM,
24(6) :381–395, 1981.
[8] Philip David, Daniel DeMenthon, Ramani Duraiswami, et
Hanan Samet. Softposit : Simultaneous pose and corres-
pondence determination. Dans ECCV (3), pages 698–714,
2002.
[9] Heinz Mayer, Alexander Bornik, Joachim Bauer, Konrad F.
Karner, et Franz Leberl. Multiresolution texture for photo-
realistic rendering. Dans Spring Conference on Computer
Graphics, 2001.
[10] Xiaoguang Wang, Stefano Totaro, Franck Taillandier, Al-
len Hanson, et Seth Teller. Recovering facade texture and
microstructure from real-world images.
Conference on Computer Vision, 2002.
[11] Diego Ortin et Fabio Remondino. Occlusion-free image
generation for realistic texture mapping. Dans 3D-ARCH
Dans European
hal-00457633, version 1 - 9 Mar 2010