ThesisPDF Available

Algorithmes de fouilles de données appliques a la cartographie numérique des sols : mise en place et tests de stratégies robustes d'estimations des incertitudes de prédiction

Authors:

Abstract and Figures

Réalisée en lien avec une activité de recherche au sein de l’unité mixte de recherche (UMR) du laboratoire d’études des interactions entre sols agrosystème et hydrosystème (LISAH), cette étude porte sur l’application des algorithmes de fouille de données dans la cartographie numérique des sols sur la mise en place et tests des stratégies robustes d’estimations des incertitudes de prédiction. La cartographie numérique des sols (CNS) permet de prédire les classes ou les propriétés des sols, à partir des modèles mathématiques ou géostatistiques, en prenant en compte des données disponibles du sol ou des formalisations numériques de l’expertise de pédologues. L’utilisation des algorithmes de fouilles de données dans la CNS permet de pouvoir répondre à ce besoin principal de la CNS, afin d’estimer les incertitudes de prédiction. Nous présentons dans ce travail, une nouvelle approche des tests stratégiques d’estimations des incertitudes de prédiction, basée sur l’utilisation de trois types d’analyses : 1)l’analyse de sensibilité globale pour permettre d'analyser un modèle mathématique en étudiant l'impact et l’importance des paramètres d'entrée du modèle sur les sorties (indicateurs d’incertitudes), 2)l’analyse de sensibilité empirique, qui vient appuyer celle précédente dans l’objectif de fixer les valeurs des paramètres du modèle pour différents types de jeux de données de calibration et 3)l’analyse de la qualité de l’échantillonnage pour identifier les bons ensembles de sites de calibration qui donnent les meilleurs résultats en sortie du modèle (indicateurs d’incertitudes). Les résultats obtenus pour les trois analyses sont des recommandations pour estimer correctement les incertitudes de prédiction des sols pour différents types de jeux de données de calibration en CNS.
Content may be subject to copyright.
UNIVERSITE NATIONALE DU VIETNAM, HANOI
INSTITUIT DE LA FRANCOPHONIE POUR L’INNOVATION
(RENOMME DE L’INSTITUT FRANCOPHONE INTERNATIONAL, IFI)
NKUBA KASANDA Lievin
ALGORITHMES DE FOUILLES DE DONNEES APPLIQUES A LA
CARTOGRAPHIE NUMERIQUE DES SOLS : MISE EN PLACE ET
TESTS DE STRATEGIES ROBUSTES D'ESTIMATIONS DES
INCERTITUDES DE PREDICTION
CÁC THUT TOÁN KHAI PHÁ D LIỆU ĐƯỢC ÁP DNG CHO LP
BẢN ĐỒ ĐẤT K THUT SỐ: CÀI ĐẶT VÀ KIM TRA CÁC CHIN
C ỔN ĐỊNH CHO VIỆC ƯỚC LƯỢNG TÍNH KHÔNG CHC CHN
CA CÁC D ĐOÁN
MEMOIRE DE FIN D’ETUDES DU MASTER INFORMATIQUE
HANOI 2018
UNIVERSITE NATIONALE DU VIETNAM, HANOI
INSTITUIT DE LA FRANCOPHONIE POUR L’INNOVATION
(RENOMME DE L’INSTITUT FRANCOPHONE INTERNATIONAL, IFI)
NKUBA KASANDA Lievin
ALGORITHMES DE FOUILLES DE DONNEES APPLIQUES A LA
CARTOGRAPHIE NUMERIQUE DES SOLS : MISE EN PLACE ET
TESTS DE STRATEGIES ROBUSTES D'ESTIMATIONS DES
INCERTITUDES DE PREDICTION
CÁC THUT TOÁN KHAI PHÁ D LIỆU ĐƯỢC ÁP DNG CHO LP
BẢN ĐỒ ĐẤT K THUT SỐ: CÀI ĐẶT VÀ KIM TRA CÁC CHIN
C ỔN ĐỊNH CHO VIỆC ƯỚC LƯỢNG TÍNH KHÔNG CHC CHN
CA CÁC D ĐOÁN
MEMOIRE DE FIN D’ETUDES DU MASTER INFORMATIQUE
HANOI 2018
UNIVERSITE NATIONALE DU VIETNAM, HANOI
INSTITUIT DE LA FRANCOPHONIE POUR L’INNOVATION
(RENOMME DE L’INSTITUT FRANCOPHONE INTERNATIONAL, IFI)
NKUBA KASANDA Lievin
ALGORITHMES DE FOUILLES DE DONNEES APPLIQUES A LA
CARTOGRAPHIE NUMERIQUE DES SOLS : MISE EN PLACE ET
TESTS DE STRATEGIES ROBUSTES D'ESTIMATIONS DES
INCERTITUDES DE PREDICTION
CÁC THUT TOÁN KHAI PHÁ D LIỆU ĐƯỢC ÁP DNG CHO LP
BẢN ĐỒ ĐẤT K THUT SỐ: CÀI ĐẶT VÀ KIM TRA CÁC CHIN
C ỔN ĐỊNH CHO VIỆC ƯỚC LƯỢNG TÍNH KHÔNG CHC CHN
CA CÁC D ĐOÁN
Spécialité: Systèmes intelligents et multimédia
Code: Programme pilote
MEMOIRE DE FIN D’ETUDES DU MASTER INFORMATIQUE
Sous la direction de:
- Philippe LAGACHERIE, Ingénieur de recherche, LISAH INRA
- Cécile GOMEZ, Chargée de recherche, LISAH IRD
HANOI
2018
ATTESTATION SUR L’HONNEUR
J’atteste sur l’honneur que ce mémoire a été réalisé par moi-même et que les
données et les résultats qui y sont présentés sont exacts et n’ont jamais été publiés
ailleurs. La source des informations citées dans ce mémoire a été bien précisée.
LỜI CAM ĐOAN
Tôi cam đoan đây là công trình nghiên cu ca riêng tôi.
Các s liu, kết qu nêu trong Luận văn là trung thực và chưa từng được ai
công b trong bt k công trình nào khác. Các thông tin trích dn trong Luận văn
đã được ch rõ ngun gc.
NKUBA KASANDA Lievin
[i]
RÉSUMÉ
Réalisée en lien avec une activité de recherche au sein de l’unité mixte de
recherche (UMR) du laboratoire d’études des interactions entre sols agrosystème et
hydrosystème (LISAH), cette étude porte sur l’application des algorithmes de fouille
de données dans la cartographie numérique des sols sur la mise en place et tests des
stratégies robustes d’estimations des incertitudes de prédiction.
La cartographie numérique des sols (CNS) permet de prédire les classes
ou les propriétés des sols, à partir des modèles mathématiques ou géostatistiques, en
prenant en compte des données disponibles du sol ou des formalisations numériques
de l’expertise de pédologues. L’utilisation des algorithmes de fouilles de données dans
la CNS permet de pouvoir répondre à ce besoin principal de la CNS, afin d’estimer
les incertitudes de prédiction. Nous présentons dans ce travail, une nouvelle approche
des tests stratégiques d’estimations des incertitudes de prédiction, basée sur
l’utilisation de trois types d’analyses : 1)l’analyse de sensibilité globale pour
permettre d'analyser un modèle mathématique en étudiant l'impact et l’importance des
paramètres d'entrée du modèle sur les sorties (indicateurs d’incertitudes), 2)l’analyse
de sensibilité empirique, qui vient appuyer celle précédente dans l’objectif de fixer les
valeurs des paramètres du modèle pour différents types de jeux de données de
calibration et 3)l’analyse de la qualité de l’échantillonnage pour identifier les bons
ensembles de sites de calibration qui donnent les meilleurs résultats en sortie du
modèle (indicateurs d’incertitudes).
Les résultats obtenus pour les trois analyses sont des recommandations
pour estimer correctement les incertitudes de prédiction des sols pour différents types
de jeux de données de calibration en CNS.
[ii]
ABSTRACT
Conducted in connection with a research activity within the Joint
Research Unit (UMR) of the Agrosystem and Hydrosystem Soil Interactions
Laboratory (LISAH), this study focuses on the application of data mining algorithms
in digital mapping of soils on the implementation and testing of robust strategies for
estimating prediction uncertainties.
Digital soil mapping (CNS) can be used to predict soil classes or
properties, using mathematical or geostatistical models, taking into account available
soil data or numerical formalizations of soil scientists' expertise. The use of data
mining algorithms in the CNS makes it possible to respond to this main need of the
CNS, in order to estimate the prediction uncertainties. We present in this work, a new
approach of the strategic tests of estimates of the uncertainties of prediction, based on
the use of three types of analyzes: 1) the analysis of global sensitivity to allow to
analyze a mathematical model by studying the impact and importance of the input
parameters of the model on the outputs (uncertainty indicators), 2) the empirical
sensitivity analysis, which supports the previous one in order to set the values of the
model parameters for different types of calibration datasets and 3) sampling quality
analysis to identify the correct sets of calibration sites that give the best results at the
output of the model (uncertainty indicators).
The results obtained for the three analyzes are recommendations for
correctly estimating the soil prediction uncertainties for different types of CNS
calibration datasets.
[iii]
« Si j'ai vu si loin, c'est que j'étais
monté sur des épaules de géants ».
Isaac Newton
[iv]
TABLE DES MATIÈRES
RÉSUMÉ ............................................................................................................................................. i
ABSTRACT ....................................................................................................................................... ii
TABLE DES MATIÈRES................................................................................................................ iv
LISTE DES ABRÉVIATIONS, DES SIGLES ET DES ACRONYMES .................................... vi
GLOSSAIRE ..................................................................................................................................... vi
REMERCIEMENTS ....................................................................................................................... vii
LISTE DES FIGURES ..................................................................................................................... ix
LISTE DES TABLEAUX ................................................................................................................. x
CHAPITRE 1 - INTRODUCTION ................................................................................................. 1
CHAPITRE 2 - ÉTAT DE L’ART .................................................................................................. 3
2.1 Cartographie numérique des sols ........................................................................................... 3
2.1.1 La fonction de prédiction ................................................................................................. 4
2.1.2 Les données spatiales sur les sols (S) ............................................................................... 6
2.1.3 Les covariables des sols .................................................................................................... 7
2.2 Les incertitudes de prédiction ................................................................................................ 7
2.3 Technique d’échantillonnage en CNS .................................................................................... 8
2.4 Analyse de sensibilité de modèle ........................................................................................... 10
2.5 Objectifs spécifiques .............................................................................................................. 13
CHAPITRE 3 - MÉTHODOLOGIE DE CARTOGRAPHIE NUMÉRIQUE DE SOL .......... 14
3.1 Forêts de régression quantile ................................................................................................ 15
3.2 Données disponibles ............................................................................................................... 18
3.2.1 Données spatialisées sur les sols S ................................................................................. 18
3.2.2 Covariables de relief R et données de localisation N ................................................... 19
3.3 Constitution des bases de données de calibration et validation ......................................... 19
3.3.1 Base de données initiale .................................................................................................. 20
3.3.2 Base de données de validation ....................................................................................... 22
3.3.3 Base de données de calibration ...................................................................................... 22
3.4 Évaluations des performances des modèles de cartographie numérique des sols ........... 23
CHAPITRE 4 - MÉTHODOLOGIE DE L’ANALYSE DE SENSIBILITÉ ............................. 26
4.1 Analyse de sensibilité globale ................................................................................................ 26
4.2 Recherche des valeurs optimales des paramètres mtry et nodesize .................................. 30
4.3 Analyse de l’échantillon de calibration ................................................................................ 33
4.3.1 Les critères basés sur la distance ................................................................................... 33
4.3.2 Mesure de discrépance ................................................................................................... 34
[v]
4.3.3 La variance ...................................................................................................................... 35
CHAPITRE 5 - RÉSULTATS ........................................................................................................ 36
5.1 Analyse de sensibilité globale ................................................................................................ 37
5.2 Recherche de valeurs optimales des paramètres mtry et nodesize .................................... 40
5.3 Analyse de l’échantillonnage de calibration ........................................................................ 42
CONCLUSION ................................................................................................................................ 46
ANNEXES ........................................................................................................................................ 48
RÉFÉRENCES ................................................................................................................................ 68
[vi]
LISTE DES ABRÉVIATIONS, DES SIGLES ET DES ACRONYMES
AS : Analyse de sensibilité
CNS : Cartographie Numérique de Sol
INRA : Institut National des Recherches Agronomiques
IRD : Institut de Recherche pour le Développement
MNT : Modèle Numérique de Terrain
QRF : Quantile Regression Forest
UMR LISAH : Unité Mixte de Recherche Laboratoire d’études des Interactions entre
Sol Agrosystème et Hydrosystème.
RF : Random Forest
SI : Indice de Sensibilité de premier ordre
TSI : Indice de Sensibilité Total
GLOSSAIRE
Analyse de sensibilité C’est une étude de l'influence et l’importance des paramètres
d’entrée p sur une sortie de modèle Yi.
Indicateur d’incertitude C’est une mesure de performance de modèle de CNS.
Modèle C’est une fonction de prédiction des propriétés des sols
Pédologie C’est une science d’étude de la formation et de l’évolution des sols
Site C’est les données d’un échantillon
Strate C’est une cellule d’une zone d’étude
Télédétection C’est l’ensemble des procédés et techniques qui permettent d’acquérir
à distance des informations sur les objets terrestres, en utilisant les
propriétés des ondes électromagnétiques émises ou réfléchies par ces
objets.
[vii]
REMERCIEMENTS
S’engager dans un travail de recherche pendant son cursus universitaire
est un travail fastidieux et demande une prise de distance vis-à-vis de son
environnement quotidien ainsi que dans la façon d’aborder son propre parcours. Tous
mes remerciements s’adressent aux responsables et corps scientifiques de l’Institut
Francophone International M. Ngô T Lp, Directeur, et son adjoint, M. H ng
Vinh qui ont contribué à ce que ce travail devienne réalité et qui y ont, pendant ces
deux années, apporté leur contribution.
Mes remerciements s'adressent également à mes superviseurs de stage :
Philippe Lagacherie (INRA) et Cécile Gomez (IRD). Leur temps qu’ils ont consacrés,
leur patience, leur aide et leur disponibilité ont permis une collaboration enrichissante,
autant sur le plan professionnel que personnel. La qualité et la richesse de leurs
relectures n’ont cessé de m’impressionner. À travers eux, j’associe toute l’UMR
LISAH qui m'a fait découvrir le milieu de la recherche et m'a donné l'envie de
continuer à le faire. Une pensée particulière à Jean-Stéphane Bailly par qui,
finalement, le travail a émergé. Un grand merci à tous ceux qui ont participé aux
différents comités de suivi de ce travail, en particulier les unités URSol et Infosol
d'Orléans. La collaboration avec Fabrice Vinatier et Styc Quentin, m'a beaucoup
apportée et je tiens à les remercier pour leur confiance.
A mes frères et sœurs : Pierrot MPOYI, Annie NTANGA, Papy
KABENGELA, Patrick KASANDA, John MUKUNA, Zadio KAZADI, Patrick-
Divin Kasanda, Jean TSHIBANGU, Annie MUJINGA, Marie-Louise KAPINGA,
Déclime MUKENDI, Théodore NDALA, Carole MUJINGA, Carine NGOYA, Mimi
MULANGA, Makeba MUKEBA, JP NKODILA, Novah TSHIBASU etc... que ce
travail soit pour vous un modèle à suivre. A mes nièces, neveux et futurs enfants pour
leur épanouissement scientifique. Que les amies et amis : Christian NGALULA,
Franck TSHIBANDA, Tchantshes NGONGO, Judith BONDO, Joe MUPANGA,
Yannis MULUMBA, Yannick NAWEJ, etc... trouvent ici l’expression de notre
reconnaissance pour leurs conseils et encadrement techniques. Et ceux dont les noms
ne sont pas cités, pour leur assistance tant matérielle, que morale qu’ils nous ont
apportée.
[viii]
Je tiens à remercier tous ceux qui m'ont supporté pendant tout mon cursus
: Mes parents Charlotte NGUDIA et Patrick KASANDA pour leur soutien dans les
prières, conseils et motivations, mon oncle Jean-Médard MUKUNA pour son soutient
spécial, Yannick et Caroline TSHIBASU pour leur assistance et attention
personnelles, Deborah BONDO pour son soutien exceptionnel dans les moments les
moins et les plus rigolo qui m'ont aidé dans la dernière ligne droite. Nous achevons
ces remerciements en rendant tout l’honneur à DIEU, tout puissant pour les
innombrables bienfaits dont il ne cesse de nous combler.
Enfin, les tentations ont été nombreuses de « sortir » du cadre de la
préparation de ce travail : merci aux nombreux amis à qui j’ai refusé des invitations
pour des soirées festives, des randonnées dominicales, des vacances des retrouvailles,
Lievin NKUBA KASANDA
[ix]
LISTE DES FIGURES
Figure 1 : Principe général de la cartographie numérique des sols [15]
Figure 2 : Techniques de stratification CNS [12]
Figure 3 : Zone d’étude [10]
Figure 4 : Modèle de cartographie numérique testé
Figure 5 : Carte d’argile obtenue par imagerie hyperspectrale
Figure 6 : Méthodologie de sélection des bases de données
Figure 7 : Stratification de la zone d’étude par strates géographiques compactes
Figure 8 : Histogramme des données de validation par strate
Figure 9 : Étapes d’analyse de sensibilité globale
Figure 10 : Étapes d’analyse empirique
Figure 11 : Analyse de sensibilité globale pour 200 sites de calibration
Figure 12 : Analyse de sensibilité globale pour 2000 sites de calibration
Figure 13 : Analyse de sensibilité globale pour 10 000 sites de calibration
Figure 14 : Matrice de corrélation entre covariables et argile pour 200 sites de
calibration
Figure 15: Matrice de corrélation entre indicateurs d’incertitude et descripteurs de
qualité pour 200 sites de calibration
Figure 16: Matrice de corrélation entre indicateurs d’incertitude et descripteurs de
qualité pour 1000 sites de calibration
Figure 17: Matrice de corrélation entre indicateurs d’incertitude et descripteurs de
qualité pour 2000 sites de calibration
Figure 18 : Scatter plot entre l’ « error of error » et la variance de l’argile (à gauche),
picp et la variance de l’argile (milieu), et mse_model et la variance de
l’argile (à droite) calculées pour 200 sites de calibration
Figure 19 : Scatter plot entre l’ « error of error » et la variance de l’argile (à gauche),
picp et la variance de l’argile (milieu), et mse_model et la variance de
l’argile (à droite) calculées pour 200 sites de calibration
[x]
Figure 20 : Scatter plot entre l’ « error of error » et la variance de l’argile (à gauche),
picp et la variance de l’argile (milieu), et mse_model et la variance de
l’argile (à droite) calculées pour 200 sites de calibration
LISTE DES TABLEAUX
Tableau 1 : Moyenne (en gras) et écart-type (entre parenthèse et italique) des
indicateurs d’incertitude en fonction de jeu de données de calibration
Tableau 2 : Résultats Recherche de valeurs optimales des paramètres mtry et nodesize
[1]
CHAPITRE 1 - INTRODUCTION
Le sol représente la partie très superficielle de l’écorce terrestre à
l’interface entre atmosphère, lithosphère, biosphère et anthroposphère. Cette position
particulière confère au sol un rôle essentiel vis à vis des grands enjeux agro-
environnementaux qui se posent à l’échelle planétaire (sécurité alimentaire,
changement climatique, urbanisation et artificialisation, gestion de l’eau,…) et se
déclinent à des échelles très locales au travers des décisions prises par les agriculteurs
et les aménageurs intervenant sur les territoires.
Actuellement un frein important à ces prises de décisions est constitué par
le manque de données quantitatives et spatialisées sur les propriétés des sols. En effet,
les bases de données géographiques actuellement disponibles restent trop imprécises
pour constituer un support de décision pertinent. Pour pallier ce problème, des
recherches méthodologiques sont menées depuis quelques années en cartographie
numérique des sols (CNS) [15]. La CNS produit une estimation en tout point de
l’espace des propriétés des sols, ou des classes de sol, à partir d’observations et
d’analyses de sols associées à des données spatiales sur le milieu (relief, géologie,
végétation etc.). Chaque valeur de propriété de sol est associée à une certaine valeur
d’incertitude expliquant la qualité de la donnée [17].
Les méthodes de CNS les plus opérationnelles pour obtenir des
estimations de sol reposent entre autre sur l’utilisation d’algorithmes de fouille de
données tels que Random Forest [2] dont certains sont aussi susceptibles de fournir
une estimation d’incertitude comme la méthode Quantile Regression Forest [20].
Il est indispensable que les modèles de CNS pour l’estimation des
propriétés des sols soient robustes et stables. Alors, il est important non seulement de
construire de bons modèles prédictifs mais également d’étudier leur sensibilité aux
paramètres d’entrée. En effet, les estimations étant entachées d’une incertitude liée à
l’impact des paramètres d’entrée du modèle sur les sorties, celle-ci peut influencer sur
la qualité des décisions prises. A titre d’exemple, un échantillonnage ayant un nombre
de sites mal positionnés dans l’espace peut générer des biais d’estimation d’incertitude
non négligeables [15].
[2]
L’objectif général de ce travail est l’évaluation des performances de ces
algorithmes, non seulement en terme de qualité d’estimation mais aussi en terme de
précision des estimations d’incertitude associées, ce dernier point étant encore une
question ouverte en cartographie numérique des sols. Le présent travail est constitué
de cinq chapitres, dont cette présente introduction. Le second chapitre présente l’état
de l’art, dont les concepts de la cartographie numériques des sols et d’analyse de
sensibilité de modèles. Le troisième chapitre présente la méthodologie de la CNS. Le
quatrième chapitre présente la méthodologie d’analyse de sensibilité. Le cinquième
chapitre présente les résultats. Le dernier chapitre est dédié à la conclusion et
perspectives de ces travaux. Finalement, les annexes décrivent les démonstrations et
preuves des résultats obtenus de nos expériences au laboratoire.
[3]
CHAPITRE 2 - ÉTAT DE L’ART
Ce chapitre présente le contexte dans lequel s’inscrivent les travaux de
cette étude. Il comprend deux parties : La première partie est dédiée à la cartographie
numérique des sols et, la deuxième partie est dédiée à l’analyse de sensibilité de
modèle.
2.1 Cartographie numérique des sols
La CNS se définit comme « la création et l'enrichissement de systèmes
d'information pédologiques à références spatiales par des modèles numériques
inférant les variations spatiales et temporelles des sols et de leurs propriétés à partir
d'observations de sol et de données spatiales d'environnement des sols » (Lagacherie
et McBratney, 2007).
Le principe général de la cartographie numérique des sols est résumé en
figure 1. Il s’agit de prédire des classes des sols ou des propriétés de sol (terme S à
gauche de l’équation figure 1) en utilisant d’une part les données spatiales sur les sols
disponibles sur la zone à étudier (terme S à droite de l’équation figure 1) et, d’autre
part, les données spatiales représentant des éléments du paysage en relation (de
causalité ou non) avec le sol ou l’une de ses propriétés (termes C, O, R, P, A et N à
droite de l’équation figure 1). Ces données spatiales, appelées « covariables du sol »,
sont supposées être facilement disponibles sous forme numérique sur la zone à
cartographier (ex : modèle numérique de terrain, carte d’occupation du sol, carte
géologique, etc….).
Les estimations de classes de sol ou de propriétés de sol sont réalisées par
des fonctions de prédiction f induites soit par des modèles statistiques ou
géostatistiques, soit par des formalisations numériques de l’expertise de pédologues.
Ces fonctions f sont calibrées au moyen des données spatiales sur les sols, délivrant
ainsi une estimation de l’incertitude de prédiction (ε).
[4]
Figure 1 : Principe général de la cartographie numérique des sols [15]
Ainsi, l’équation de la fonction de prédiction des propriétés des sols
présentée figure 1 est fonction de la fonction de prédiction, des données spatialisées
sur les sols utilisées, des données de paysage auxiliaires, et de l’estimation de
l’incertitude.
2.1.1 La fonction de prédiction
McBratney et al. (2003) définissent la fonction de prédiction, comme
étant une fonction permettant de prédire une estimation des classes ou des propriétés
des sols sur des sites inconnus. Lorsque la prédiction est une classe des propriétés des
sols, la fonction donne en sortie une valeur de probabilité de trouver chacune des
classes des sols présente dans la zone d’étude, associée à une incertitude. Par contre,
dans le cas la prédiction est une estimation des propriétés des sols, la fonction
donne en chaque site une valeur des propriétés à une certaine profondeur.
[5]
Deux approches des modèles de fonction de prédiction sont utilisées selon
les types de données en CNS :
- L’approche pédo-statistique, utilise le jeu de données d’un ensemble de calibration
composé de la classe ou propriété des sols et de l’ensemble des covariables du sol.
Les modèles pédo-statistiques sont calibrés avec les données de calibration et validés
avec les données non renseignées pour prédire les classes ou les propriétés des sols
associées d’une estimation d’incertitude.
Lorsque nous avons une faible densité de données de calibration, la
prédiction est faite à partir des valeurs locales de covariables des sols. Et le modèle
pédo-statistique est un modèle de fouille de données. Dans ce cas, si l’on cherche à
prédire une classe des sols, on utilise une méthode de classification : réseaux de
neurones, arbres de décision, forêt aléatoire, etc..., et si on cherche à prédire une
propriété des sols, le modèle utilisé est celui de type régression : linéaire, multiple,
etc.…
Avec une forte densité de données de calibration, l’incertitude associée à
la prédiction est déduite par interpolation des erreurs connues sur les données
observées proches. Le modèle pédo-statistique utilisé, est simplement celui
géostatistique, comme la régression mixte ou, la régression-krigeage.
- L’approche de formalisme d’une expertise pédologique existante, exploite
l’expertise pédologique provenant :
Soit d’un pédologue ayant la connaissance de la zone d’étude. Alors dans
ce cas, la prédiction de classes des sols est faite grâce aux outils de l’intelligence
artificielle exploitant la logique floue et la prédiction de propriétés des sols, est faite
par des règles de décision comme le modèle des arbres de décision.
Soit d’une carte pédologique. Une carte pédologique peut être utilisée de
plusieurs façons. Une première voie consiste à utiliser des descripteurs des unités
cartographiques du sol afin de dériver des estimations des propriétés des sols de la
zone couverte par la carte. Si ces descripteurs sont simples alors les valeurs des
propriétés des sols sont estimées à partir des profils représentatifs (Leenhart et al.,
1994). Si ces descripteurs sont complexes, alors on utilise les approches comme les
[6]
moyennes pondérées par la surface des unités cartographiques, etc… Et une seconde
voie consiste à utiliser des approches géostatistiques pour permettre l’extrapolation
des cartes pédologiques d’extension limitée sur des plus grandes superficies pour
lesquelles, elles seraient représentatives.
L’avantage avec les fonctions de prédiction est qu’elles peuvent être
calibrées et validées, délivrant ainsi une estimation de l’incertitude de prédiction. Les
méthodes les plus opérationnelles pour obtenir les prédictions de sol reposent sur
l’utilisation d’algorithmes de fouille de données (ex Random Forest) dont certains
d’entre eux sont aussi susceptibles de fournir une estimation d’incertitude (Quantile
Random Forest) [15].
2.1.2 Les données spatiales sur les sols (S)
Elles sont constituées des données des sites ayant des caractéristiques
locales du sol et des cartes pédologiques existantes. Les échantillonnages spatiaux de
sites avec caractérisations locales du sol sont constitués des données des classes du
sol et des mesures des propriétés des sols utilisant les modèles géostatistiques. Ces
données peuvent être acquises soit :
- par utilisation des profils pédologiques existants, qui sont des données des sols
codifiées et stockées dans les banques de données puis intégrées dans les bases de
données. La constitution de ces bases de données de profils de sol est sujette à des
erreurs de notations sur le terrain, de différentes d’opérateurs sur le terrain et en
laboratoire d’analyse de sol, de représentation de profil de sol dans le paysage, de
géoréférencement. Certaines de ces difficultés peuvent être néanmoins palier par
l’utilisation de techniques de détection et de correction de biais d’analyse, et par
expertise pédologique.
- par optimisation des échantillonnages, qui permet la réduction des coûts de
prélèvement et d’analyse des données en identifiant un nombre et une localisation
des sites d’échantillonnage qui constituent le meilleur compromis entre coût et
précision. La CNS optimise la calibration de la fonction de prédiction qui peut
s’adapter à toute la zone d’étude, en ayant au préalable la connaissance des
covariables dans un paysage donné. La méthode d’échantillonnage par hypercube
[7]
latin est utilisée pour découper les covariables dans des classes, et faire le tirage
aléatoire des sites parmi l’ensemble des combinaisons des classes existantes.
- par spectrométrie des sols, qui permet d’augmenter des échantillons de données
des sols utilisés en CNS à faible coût. La spectrométrie (visible proche infrarouge
et moyen-infrarouge) est utilisée pour mesurer la réflectance des échantillons de
sols. Et des outils de chimiomètre (tel que la régression aux moindres carrées
partielles) permet de fournir des estimations de propriétés des sols à partir de ces
mesures de réflectance de sol [27].
- Les cartes dologiques anciennes, qui sont utilisées comme covariables des sols
dans les approches pédo-statistiques. Elles possèdent des informations sous forme
de base de données pédologiques.
2.1.3 Les covariables des sols
Dans leur étude, Lagacherie et al. (2013) décrivent les covariables des
sols comme étant des données des paysages auxiliaires expliquant la variabilité des
sols. Les covariables n’influencent pas le sol durant son évolution mais traduisent ses
variations dans le temps. Nous avons les covariables de relief (R) sous forme d’un
modèle numérique de terrain (MNT), les covariables des organismes (O) sous forme
d’images satellites ou aéroportées, les covariables de matériau parental (P) soit sous
forme des cartes géologiques numériques mais difficile à interpréter ses données ou
soit sous forme d’images de télédétection pour l’identification de certains matériaux
géologiques, et enfin les covariables de climat (C), qui sont très important dans la
prédiction de l’évolution de certains paramètres des sols dont en particulier le carbone
organique.
2.2 Les incertitudes de prédiction
L’objectif principal est d’estimer l’incertitude par le développement des
procédures de calibration et validation non biaisées. Cette estimation de l’incertitude
est importante dans la cartographie numérique des sols pour savoir la probabilité
d’erreur affectant la prédiction des classes ou propriétés des sols. L’utilisation
d’algorithmes de fouille de données pour la prédiction des classes ou propriétés est
[8]
susceptible de fournir une estimation d’incertitude engendrée par les erreurs dues à la
calibration [15].
Les incertitudes de prédiction peuvent donc être quantifiées par des
estimations non biaisées par :
- Quantification à priori de l’incertitude à travers les fonctionnalités de certains
modèles de CNS permettant de prédire également l’incertitude des modèles
géostattistiques. Ceci est fait soit par le calcul de l’erreur moyenne de calibration
du modèle ou soit par l’erreur out of bag respectivement de quantile random forest
et random forest [15].
- Quantification à posteriori à partir d’un échantillonnage de sites de validation n’ayant
pas participé à la calibration de l’algorithme. Ceci est réalisé soit en validation croisée
soit en validation à partir de nouveaux sites [25].
Un aspect très sensible concernant l’application de ces deux stratégies est
le nombre et la localisation raisonnée ou non des sites utilisés pour calibrer (pour la
première stratégie) ou valider (pour la deuxième stratégie) les prédictions obtenues.
Un trop petit nombre de sites mal positionnés dans l’espace peut générer des biais
d’estimation d’incertitude non négligeables. Or, ces situations limitées en données se
rencontrent souvent dans les applications de cartographie numérique des sols
opérationnelle.
2.3 Technique d’échantillonnage en CNS
Il est très difficile en CNS de reconstituer des échantillons des ensembles
de données couvrant une grande zone d’étude. L'un des plus gros problèmes de cette
limitation en données est due par la simple raison du coût nécessaire pour collecter
des données sur le sol, et la difficulté d’accès à la totalité de la zone d’étude pour
caractériser de façon satisfaisante la variabilité du sol dans le paysage [12].
Avec l’arrivée des nouvelles technologies dans ce domaine, de telles
limites inhérentes aux méthodes conventionnelles d’acquisition des données,
évoquées ci-haut sont repoussées. Nous avons des technologies telles que l'imagerie
hyperspectrale par télédétection [10] - [13] - [24], qui ont été proposées pour estimer
les propriétés des sols. L’objectif principal avec ces nouvelles technologies est de
[9]
trouver une mesure analytique moins coûteuse pour l’acquisition de l’échantillonnage
de données des propriétés de sol.
Plusieurs méthodes d’échantillonnage existent parmi lesquelles, nous
évoquons deux méthodes : la méthode d'échantillonnage aléatoire simple, qui consiste
à tirer un nombre fixe de points d'échantillonnage aléatoirement et indépendamment
les uns des autres dans la zone d’étude. Et la méthode d'échantillonnage aléatoire
simple stratifié, permettant d’obtenir un échantillonnage homogène couvrant toute la
zone d’étude, par stratification de cette dernière [12].
Gruijter et al., (2015) présentent dans leur travail quatre techniques de
stratification d’échantillonnage d’une zone d’étude. La première est une stratification
ographique compacte (figure 2 (a)) est un clustering en strates de la zone d’étude
réalisé sur base de coordonnées spatiales. Ceci permet de s'assurer que la zone d’étude
est entièrement couverte spatialement. La stratification géographique compacte est
utilisée dans le cas l’on est en possession d’aucune précision sur les caractéristiques
à priori de la zone d’étude. La seconde technique est une stratification par covariables
(figure 2 (b)), qui consiste à faire un clustering en strates de la zone d’étude en se
basant sur l’utilisation des covariables (McBratney et de Gruijter, 1992). La troisième
technique est une stratification par une carte de prédictions de la variable cible (figure
2 (c)), qui exploite les connaissances quantitatives disponibles, les relations entre les
covariables et la variable cible pour stratifier la zone d’étude [12]. Cela permet de
répartir la taille de l'échantillon dans chaque strate de façon à accroître l'efficacité de
l'enquête et à accroître la précision ou à réduire les coûts [11]. Enfin la technique de
la stratification par une carte de prédictions avec des incertitudes, tient compte des
erreurs associées à la prédiction en utilisant un raster de données prédites avec des
variances d'erreur associées et produit des stratifications optimisées qui minimisent la
variance d'échantillonnage attendue, en supposant une allocation optimale des tailles
d'échantillon aux strates [12].
[10]
Figure 2 : Techniques de stratification CNS [12]
2.4 Analyse de sensibilité de modèle
L'analyse de sensibilité détermine l'influence des paramètres d’entrée du
modèle sur la variable de sortie. L'analyse de sensibilité permet la hiérarchisation de
l'influence des paramètres d’entrée du modèle en sortie. Ceci permet de connaître avec
plus de précision en amont, les entrées qui ont le plus d'influence sur la sortie [23].
L'analyse de sensibilité est utilisée pour résoudre des problèmes : de validation d’une
méthode, d’un code de calcul, de modification en terme d’une modification d’un
système [7].
[11]
Plusieurs méthodes d’analyse de sensibilité existent, parmi lesquelles [7]
- [23] :
- L'analyse de sensibilité locale permettant d’évaluer quantitativement l’impact
d’une petite variation des entrées du modèle autour d'une valeur précise d’entrée.
L'analyse de sensibilité locale ne s’intéresse pas à la variabilité de la sortie.
- L'analyse de sensibilité globale permet d’évaluer l’importance des entrées du
modèle sur la variabilité en sortie autour de toutes les valeurs du domaine d’entrée.
L’analyse de sensibilité peut être décrite comme un processus en 4 étapes [5]:
a) Définir les distributions des valeurs des N entrées (X1 ... XN ) du modèle,
souvent uniformes dans leur domaine de définition.
b) Générer un échantillon, X, des entrées conditionnellement aux distributions en
(a), en utilisant la méthode : Monte Carlo, Latine Hypercube Sampling, etc….
c) Calculer les valeurs de la sortie Y du modèle sur le plan d’expérience engendré
par l’échantillon X en (b).
d) Estimer les valeurs des indices de sensibilité.
La méthode de la décomposition de la variance permet d’estimer la
variance de la sortie du modèle par rapport à la variance des paramètres d’entrée,
chacune. Soit Y la sortie du modèle, X l'ensemble des paramètres du modèle, V(Xi)
la part de variance de Y attribuée au paramètre ou à un groupe des paramètres d’entrée
Xi. Nous pouvons donc exprimer la variance de la sortie Y, V(Y) du modèle comme
étant la somme des variances induites par les paramètres d’entrée. Analytiquement,
on aura :
Var(Y)= V(X1)+...+V(XN)+V(X1,X2)+ ...+ V(XN-1,XN )+...+V(X1, ... ,XN ) (1)
On distingue deux indices importants : l’indice de premier ordre (ou
indice principal) et l’indice total [7] :
- L’indice de sensibilité de premier ordre (SI) est la part de la variance induite
par le paramètre Xi seul en sortie Y du modèle. Cet indice détermine le classement
par ordre de priorité des paramètres d’entrée du modèle par rapport à la sortie Y.
[12]
L’indice de sensibilité de premier ordre peut alors être calculé par :
SIi = V( Xi) / Var(Y) = Var(E(Y| Xi)) / Var(Y) (2)
Au regard de l’équation (1), la variance de V(Xi) est inférieure à la variance de
Y. A partir de l’équation (2), l’indice de sensibilité résultante est compris entre 0 et 1.
Cet indice permet de hiérarchiser les paramètres d’entrées par ordre de priorité
d’importance (paramètre le plus important SI proche de 1).
- L’indice de sensibilité total (STI) est la part de la variance induite par le
paramètre Xi mais aussi des interactions associées avec les autres paramètres
d’entrée du modèle. STI est donné par :
TSIi = E [ Var(E(Y|X-i))] / Var(Y) (3)
X-i est l’ensemble des paramètres d’entrée du modèle sauf Xi. Si le TSIi d’une
variable Xi est faible (proche de 0). Alors, la valeur de Xi peut être fixée sans pour
autant influencer la sortie Y du modèle.
Ces indices sont souvent difficiles à calculer analytiquement et
nécessitent d’être estimés numériquement. Les méthodes d’estimation les plus
connues sont [3] - [5]:
- La méthode de Sobol : Cette méthode est basée sur une analyse fonctionnelle de
la variance. Elle exige un nombre élevé de simulations et trouve application pour
des modèles peu coûteux.
- La méthode FAST (Fourier Amplitude Sensitivity Testing) : Cette méthode
utilise le principe de l’analyse de Fourier pour calculer la variance de la sortie Y
du modèle. FAST nécessite un temps de calcul énorme mais est plus rapide et plus
stable que la méthode de Sobol.
- La méthode de Morris : Cette méthode s’appuie sur une discrétisation de l’espace
des paramètres d’entrée du modèle, c’est-à-dire qu’il n’y a qu’un certain nombre
de points des paramètres d’entrées du modèle qui peuvent être échantillonnés. La
sensibilité de la sortie Y à un des paramètres Xi est mesurée en comparant des
résultats seul ce paramètre Xi aura varié. Cette méthode est utilisée à priori
comme une première approche de l’analyse de sensibilité d’un modèle et doit être
complétée par une des méthodes précédentes.
[13]
2.5 Objectifs spécifiques
Au vu de l’état de l’art précédemment développé, des choix ont été fait
pour contenir le travail dans des limites compatibles avec le temps imparti pour le
stage :
- Parmi les différents modèles de cartographie numérique des sols possible, les
forêts de régression quantile ont été retenues car 1) elles appartiennent à une
famille d’algorithme (Random Forest) largement utilisée dans la discipline et 2)
elles permettent une estimation locale d’incertitude sur les valeurs prédites.
- Parmi les différentes stratégies pour estimer l’incertitude, il a été privilégié des
stratégies d’estimation a priori, ce qui revient à tester des stratégies de calibration
robustes qui vont s’approcher au maximum des valeurs réelles d’incertitudes qui
seraient obtenues en situation de prédiction.
Par ailleurs, nous avons retenu l’opportunité qu’offrait une région d’étude
couverte par une image hyperspectrale aéroportée pour travailler sur une base de
donnée de sites dont la taille était très importante (plus de 5M de sites), permettant
ainsi la définition et l’évaluation d’un grand nombre de calibrations possibles selon
les ensembles de sites de calibration choisis, de taille et de localisation différentes.
A partir de ce cadrage, il a été possible de décliner trois objectifs de ce travail.
1) Identifier l’importance respective des paramètres des forêts aléatoire et de
l’échantillon de calibration (données d’entrées) sur les différents indicateurs de
performances du modèle de cartographie numérique de sol (données de sortie).
Ceci se traite par une analyse de sensibilité globale. Ces travaux sont décrits
en section 4.1.
2) Identifier des valeurs optimales des paramètres des forêts aléatoires
susceptibles d’obtenir les estimations d’incertitudes les plus exactes. Ceci se
réalise par une approche empirique consistant à comparer les performances de
différentes forêts aléatoires construites avec une gamme large de ces
paramètres. Ces travaux sont décrits en section 4.2.
3) Identifier les caractéristiques de l’échantillon de calibration qui impactent la
qualité des estimations à priori d’incertitude. Ces travaux sont décrits en
section 4.3.
[14]
CHAPITRE 3 - MÉTHODOLOGIE DE CARTOGRAPHIE
NUMÉRIQUE DE SOL
Afin d’analyser les incertitudes de prédiction d’un modèle de CNS, nous
avons choisi de nous intéresser à la prédiction de l’Argile Texturale sur une zone
d’étude rurale en Tunisie de 300 km² avec une résolution spatiale de 5 m, qui est un
bassin versant localisé dans la région du Cap Bon, 60 km à l'est de Tunis en figure 3.
C’est un site agricole totalement consacré à la culture des céréales en plus des
légumineuses, des oliviers, des vignobles et de la végétation naturelle pour les
animaux [10].
Figure 3 : Zone d’étude [10]
La figure 4 ci-dessous explicite le modèle de la cartographie numérique des sols
construits et analyser dans notre travail. Ce modèle est basé sur :
- une fonction de prédiction f, induite par le modèle mathématique qui est les forêts
de régression quantile (Meinshauzen, 2006). Ce modèle est décrit en section 3.1.
- des données spatialisées sur les sols S issues d’une carte d’argiles texturale [10]
décrites en section 3.2.
- des données spatialisées sur les déterminants des variations du sol qui sont les
covariables de relief R qui sont très largement utilisée dans la littérature et des
données de localisation N qui sont les coordonnées géographiques décrites en
section 3.3.
[15]
Figure 4 : Modèle de cartographie numérique testé
3.1 Forêts de régression quantile
La fonction de prédiction f de l’équation en figure 4 a été construite en
utilisant la méthode du Quantile regression forest (QRF), en français les forêts de
régression quantile (Meichausen, 2006) qui est une méthode de la famille des forêts
aléatoires [2]. Les forêts aléatoires permettent de construire en modèle de régression
et de classification des grands ensembles des données, en prédisant la moyenne
conditionnelle et fournissant la répartition conditionnelle complète de la variable cible
lorsqu’elles sont utilisées en régression. Par contre, les forêts de régression quantile
prédisent la distribution conditionnelle de l’estimation des quantiles conditionnels de
la variable cible.
Soit Y une variable cible ou à prédire et X une variable prédictive (ou
covariable), éventuellement de grande dimension. L’objectif général de l’analyse
statistique est d’inférer (déduire), d’une manière ou d’une autre, la relation entre Y et
X. Les forêts aléatoires estiment une valeur µ(x) de la moyenne conditionnelle E(Y |
X=x) de la variable cible Y, donnée X=x. Elles développent un ensemble de forêts de
plus de 500 arbres avec n observations indépendantes (Yi,Xi), i=1,…,n. L’algorithme
de forêts aléatoire tient compte de plusieurs paramètres que l’utilisateur doit définir :
- ntree est le nombre d’arbres à construire, le plus grand est le mieux pour stabiliser
l’erreur en calibration du modèle. En outre, il est recommandé de construire une
grande forêt lorsque le nombre des variables est plus grand que le nombre
d’observation afin d'augmenter les chances d'évaluer tous les descripteurs au
[16]
moins une fois dans votre forêt, car le nombre de nœuds de test des arbres est
limité par au nombre d’observations. Breiman (2001) propose la valeur de ntree
par défaut de 500 arbres.
- nodesize est le nombre minimum d’individus des nœuds terminaux des arbres. Il
permet de régler la profondeur de l’arbre à construire. Plus la taille de nodesize est
petite, plus les arbres sont profonds et complexes. Breiman (2001) propose la
valeur de nodesize par défaut de 1 en classification et de 5 en régression.
- mtry est le nombre de variables tirées aléatoirement pour constituer l’ensemble
dans lequel sera sélectionnée la variable de segmentation de chaque nœud.
Breiman (2001) propose d'essayer la valeur par défaut de √n en classification et
n/3 en régression avec n nombre des variables prédictives, sa moitié et son double.
Quand le Random Forest est utilisé en régression, un nouveau point de
donnée X=x est prédite à partir d’un seul arbre de Random Forest comme étant la
moyenne pondérée des observations originales Yi, i=1,…,n :
(4)
Avec ωi(x,θ), vecteur de poids donné par une constante positive si l’observation Xi
fait partie de la même feuille de l’arbre construite à partir du vecteur aléatoire des
variables θ dans lesquelles x a été abandonné et donné par 0 sinon.
(5)
En utilisant les forêts aléatoires, la moyenne conditionnelle E(Y|X=x) est
approximée par la prédiction moyenne de k arbres uniques, chacun construit avec un
vecteur indépendant et identique distribué t, t=1,…,k. Soit wi(x) la moyenne de wi(T)
de l’ensemble de tous les arbres de la forêt :
(6)
[17]
Et la prédiction de Random Foret est donnée par :
(7)
Les forêts de régression quantile estiment la distribution conditionnelle
complète de la variable cible Y, donnée X=x tenant compte de toutes les autres
caractéristiques d’intérêt possible négligées précédemment. La fonction de
distribution conditionnelle F (y | X = x) est donnée par la probabilité que, pour X = x,
Y soit inférieur à y,
(8)
Pour une fonction de distribution continue, le α-quantile Qα (x) est alors
défini de telle sorte que la probabilité que Y soit plus petit que Qα (x) soit, pour un X
= x donné, exactement égal à α.
(9)
Les quantiles donnent des informations plus complètes sur la répartition
de Y en fonction de la variable prédictive X par rapport à la moyenne conditionnelle
seule. Les forêts de régression quantile peuvent être utilisées pour construire des
intervalles de prédiction en considérant une valeur donnée de α. Par exemple, un
intervalle de prédiction de 95% pour la valeur de:
(10)
C'est-à-dire qu'une nouvelle observation de Y, pour X = x, est de forte
probabilité = 0,95), dans l'intervalle I (x). La distribution conditionnelle de Y,
donnée X=x est estimée par :
(11)
[18]
L'algorithme pour calculer l'estimation F(y|X=x) peut être résumée
comme suit [20] :
- Poussez les arbres k T (θt), t = 1, ..., k, comme dans les forêts aléatoires.
Cependant, pour chaque feuille de chaque arbre, prenez note de toutes les
observations de cette feuille, pas seulement leur moyenne.
- Pour un X donné = x, déposez x vers le bas tous les arbres. Calculez le poids wi
(x, θt) de l'observation i є {1, ..., n} pour chaque arbre comme dans (Éq. (2)).
Calculer le poids wi (x) pour chaque observation i ε {1, ..., n} comme moyenne
sur wi (x, θt), t = 1, ..., k, comme dans (Éq. (6)).
- Calculez l'estimation de la fonction de distribution comme dans (Éq. (11)) pour
tout y, en utilisant les poids de l'étape b).
- Les estimations des quantiles conditionnels Qα (x) sont obtenues à partir de
l'équation (9).
Les fonctions de Random Forests et Quantile Random Forest sont
disponibles sous R (R Core Team, 2014) dans les packages RandomForest [16] et
quantregForest [19], respectivement.
3.2 Données disponibles
3.2.1 Données spatialisées sur les sols S
Les données spatialisées sur les sols S utilisées dans notre étude sont des
prédictions d’argile obtenues par traitement de données hyper-spectrales (figure 5,
[10]. Ces prédictions couvrent près de 46% de la surface d’étude et sont à une
résolution spatiale de 5m. Au total, près de 5millions sites sont associés à une
prédiction d’argile géo-référencée.
[19]
Figure 5 : Carte d’argile obtenue par imagerie hyperspectrale
3.2.2 Covariables de relief R et données de localisation N
Les covariables de relief R sont calculées à partir des indicateurs
géomorphométriques dérivés d’un modèle numérique de terrain, MNT tels que :
élévation (DEM30), pente (slope), aspect, courbure du plan (plan curvature), courbure
du profil (profil curvature), planéité inférieure de la vallée à plusieurs résolutions
(MRVBF) de résolution spatiale de données de localisation N à 5mx5m [17].
3.3 Constitution des bases de données de calibration et validation
La méthodologie de sélection des bases de données qui seront utilisées
pour calibrer et valider les modèles à tester est présentée en figure 6. La base de
données initiale (décrite en section 3.3.1) détient toutes les données brutes des pixels
(sols, covariables de relief et coordonnées géographiques). A partir de cette base de
données initiale, nous sélectionnons d’une part une base de données de validation
[20]
maître (décrite en section 3.3.2) qui servira à calculer les indicateurs de performance
de référence pour tous les modèles construits dans cette étude. D’autre part, seront
sélectionnées n bases de données de calibrations (n étant défini pour chaque étape de
travail) (décrite en section 3.3.3) qui serviront à la construction des modèles qui seront
testés.
Figure 6 : Méthodologie de sélection des bases de données
La base de données initiale a été stratifiée en 25 strates (figure 7). Nous
utilisons la stratification géographique compacte se basant sur les coordonnées
spatiales afin de s'assurer que la zone à étudier est entièrement couverte spatialement
[12].
3.3.1 Base de données initiale
La Base de Données initiale contient l’ensemble des données disponibles
pour la construction des modèles. Après avoir supprimé les sites ayant des valeurs de
données manquantes ou erronées, nous avons renseigné chaque site conservé avec les
données suivantes :
1) une prédiction d’argile,
2) une localisation, et
3) les 6 covariables de relief.
[21]
Pour pouvoir appliquer la méthode d’échantillonnage stratifié par strates
géographiques compactes recommandée dans la littérature (Gruijter et al., 2016), 25
strates ont été définies a priori (figure 7), chaque site étant caractérisé, en plus, par un
label de strate.
Figure 7 : Stratification de la zone d’étude par strates géographiques compactes
Après avoir reconstitué toute la base de données initiale contenant des
données réelles, nous l’avons segmentée en 25 strates par la méthode de stratification
géographique compacte (Gruijter et al., 2016) (figure 7). Ainsi de cette base de
données initiale est extraite la base des données de validation maître et la base des
données de calibration ayant des sites couvrant spatialement toute la zone d’étude.
[22]
3.3.2 Base de données de validation
La base de données de validation maître, utilisée tout au long de ces
travaux, est extraite de la base de données initiale en utilisant la méthode
d’échantillonnage aléatoire stratifié par strates géographiques compactes dans le but
d’assurer une répartition homogène dans l’espace des points de validation (Gruijter et
al., 2016). Un total de 100 000 sites ont été sélectionnées, réparties dans les 25 strates
prédéfinies (voir figure 7) contribuant à l’échantillonnage au prorata de nombre total
de sites qu’elle contient.
L’histogramme de la figure 8 ci-dessous, nous donne les détails sur la
répartition des 100 000 sites de la base de données de validation maître avec en
abscisse le numéro de strate de validation et en ordonnée les effectifs par strate.
Figure 8 : Histogramme des données de validation par strate
3.3.3 Base de données de calibration
Les différentes bases de données de calibration qui vont être utilisées dans
ce travail sont extraites d’une base de données de sites de calibrations potentiels
obtenue en retirant à la base de données initiale les sites appartenant à la base de
données de validation maître.
[23]
Huit séries des bases de données de calibration correspondant à huit
effectifs différents (200, 400, 800, 1000, 1500, 2000, 5000 et 10000 sites.) ont été
considérés. Chaque base de données de calibration est obtenue par la méthode
d’échantillonnage aléatoire uniforme dans le but d’obtenir un maximum de diversité
d’échantillonnage, permettant ainsi :
- de pouvoir comparer sans biais, au moyen de l’analyse de sensibilité,
l’importance relative de cet échantillonnage par rapport au choix des paramètres
de quantile random forest, qui seront également choisis aléatoirement.
- de s’assurer de la plus grande variabilité d’échantillonnage possible, cette
variabilité générant ainsi une grande variabilité de performance des modèles dont
nous pourrons comprendre les déterminants majeurs.
3.4 Évaluations des performances des modèles de cartographie
numérique des sols
Pour chaque base de données de calibration, un modèle est construit en
appliquant l’algorithme de forêt de régression quantile. Afin de répondre aux objectifs
fixés en chapitre 2, 3850 modèles de CNS ont été construits pour chaque jeu de
calibration, en se basant sur le plan d’expérience par hypercube latin. Les valeurs des
paramètres et de la base de données de calibration sont générées par le plan
d’expérience hypercube latin.
L’évaluation des performances de ces modèles de CNS s’effectue par le
biais d’indicateurs d’incertitude. Il en existe plusieurs en cartographie numérique des
sols [25], parmi lesquels, nous avons sélectionné les plus utilisés. Ils sont de deux
types :
- Les indicateurs fournis par le modèle : l'erreur quadratique moyenne du modèle
(MSE_model), qui est une mesure de l’exactitude de calibration.
- Les indicateurs calculés à partir de l’ensemble de validation maître :
L’échantillonnage étant stratifié, tous ces indicateurs d’incertitude sont calculés en
tenant compte de l'échantillonnage stratifié par strate géographique compacte [14],
sur base des expressions mathématiques suivantes :
[24]
La taille globale des sites dans les strates estimée par échantillonnage aléatoire
stratifié est donnée par :
(12)
avec ah la taille relative de la strate et ÿhi est la moyenne de l'échantillon des sites de
validation de la strate h =1,2,…,H, donnée par :
(13)
avec yhi est le nombre des sites dans la strate h, et ÿhi le nombre de sites
d'échantillonnage dans la strate h . L’erreur moyenne, ME est une mesure du biais des
prédictions. ME est calculée à partir du nombre des sites de validation dans la strate
h=1,2,…,H [1] - [25] Elle est calculée à partir de l’expression suivante :
(14)
L’erreur quadratique moyenne MSE est l’estimateur de la moyenne mais
au carré de l’erreur moyenne [1] - [25]. MSE est une mesure de l’exactitude des
prédictions. Elle est calculée en élevant au carré le nombre des sites de validation dans
la strate h=1,2,…,H, de la manière suivante :
(15)
avec Ĉlhi la prédiction des propriétés des sols dans la strate h=1,2,…,H et Clhi, la
prédiction observée des propriétés des sols.
L'erreur quadratique moyenne (RMSE) est l’estimateur de la moyenne,
mesurant l’exactitude des prédictions et s’exprime par la racine carrée de l’erreur
quadratique moyenne (MSE). RMSE est l'écart-type des résidus (erreurs de
prédiction). Les résidus sont une mesure de la distance des sites de données de la ligne
de régression expliquant le niveau de la concentration des sites autour de la ligne de
meilleur ajustement [1] - [25].
[25]
De Gruijter et al. (2006) évaluent la valeur de la variance totale
d'échantillonnage de la moyenne des sites de validation dans les strates h=1,2,…,H
par:
(16)
Avec la variance d'échantillonnage de la moyenne des sites dans la strate
h=1,2,…,H, donnée par:
(17)
Le coefficient de détermination (R2) est une mesure de performance. R2
est donné par :
(18)
La probabilité de couverture d’intervalle de prédiction (PICP), qui est une
mesure de proportion qui fait que la valeur observée reste dans le bon intervalle de
prédiction de probabilité, est estimée par :
(19)
avec V nombre d’observation total dans les strates, PICPyhi = 1 si PICPyhi Є
[0.05,0.95] sinon PICPyhi = 0
De plus, nous nous calculons le ratio des erreurs à partir de l'erreur
quadratique moyenne de prédiction (MSE_predict) et de l'erreur quadratique moyenne
du modèle (MSE_model). Le ratio des erreurs est un indicateur de plus qui s’ajoute à
ceux précédent pour améliorer la précision de l’évaluation des performances des
modèles. Il permet d’estimer le rapport d’erreurs appelé « error of error ».
(20)
[26]
CHAPITRE 4 - MÉTHODOLOGIE DE L’ANALYSE DE
SENSIBILITÉ
Nos travaux ont été divisé en 3 axes : 1) étude de la sensibilité de n
modèles de CNS (n nombre fini) aux paramètres d’entrées (nodesize, mtry et base de
données de calibration), afin d’analyser leurs impacts sur les sorties (prédictions
d’argile) avec le paramètre nombre d’arbre fixé à 1000 pour l’ensemble de nos
travaux. 2) Sélection des valeurs optimales des paramètres d’entrée du modèle (pour
chaque jeu de données de calibration), à partir de couple des valeurs [mtry,nodesize]
qui donne la même variabilité en sortie du modèle. Et enfin 3), caractérisation des
échantillons de calibration, qui donnent les meilleurs variabilités en sortie (indicateurs
de performance). La méthodologie mise en place pour chacun de ces axes est décrite
dans ce chapitre.
4.1 Analyse de sensibilité globale
L'analyse de sensibilité globale développée dans ce travail est basée sur
la décomposition de la variance [22]. On considère ici notre modèle comme une boîte
noire à entrées scalaire et spatiales et avec plusieurs sorties (indicateurs d’incertitude
de prédiction spatiale).
L'analyse de sensibilité globale a pour objectif de déterminer l'importance
de chaque entrée du modèle (mtry, nodesize et échantillonnage de calibration d’entrée
du modèle QRF) sur les indicateurs en sortie. Pour mesurer cette importance par
analyse de variances, on définit au préalable une loi d’incertitude de chaque entrée
que l’on souhaite tester.
En résultat d’analyse, chacune de ces entrées se voit indicée par une
valeur généralement comprise entre 0 et 1, appelée indice de sensibilité globale ou
indice de Sobol. L’indice de sensibilité (dit de premier ordre) permet alors de
hiérarchiser l'influence de chacune des entrées sur les indicateurs de sorties : plus
l’indice de sensibilité de premier ordre est proche de 1, plus cette entrée a un impact
importante.
[27]
Selon Faivre et al. (2013), l’analyse de sensibilité est un processus que
l’on construit en quatre étapes. Nous nous basons sur ses quatre étapes pour présenter
notre étude (figure 9).
1) La première étape est la définition de la distribution des incertitudes des
entrées scalaires (mtry et nodesize) et spatiales (échantillonnage de calibration)
considéré. Pour ce faire, nous avons utilisé la méthode de Lillburne et Tarantolla
(2009) dit d’étiquetage qui consiste, pour une entrée Xi en la génération d’un jeu de
n réalisations aléatoires de cette entrée (si n, est spatialisée, on utilise n cartes). Ces n
réalisations sont ensuite considérées équiprobables, et chacune est associée à un
unique entier entre 1 et n. On introduit alors dans l’analyse de sensibilité une variable
d’entrée scalaire Z prenant ses valeurs de manière uniforme discrète dans l’ensemble
[1,n], qui forment les entrées du modèle QRF.
Nous obtenons ainsi :
- n1=7 valeurs pour nodesize : [1,5,10,15,20,30,60]
- n2=11 valeurs pour mtry : [1,2,3,4,5,6,7,8,9,10,11]
- un jeu de plans de n3=77 plans d’échantillonnage spatiaux de calibration.
Notons que le plus petit commun multiple des différents niveaux de ces trois
variables d’entrées est 77.
2) La deuxième étape consiste à générer un plan d’expérience, c’est-à-dire
l’ensemble des triplets de valeurs des entrées du modèle conditionnellement aux
distributions définies auparavant. Nous utilisons la méthode d’échantillonnage
hypercube latin (LHS) :
- Pour chaque entrée, nous avons 77 niveaux définis sur le domaine de définition de
sa plage des valeurs.
- Un échantillon LHS permet de conserver un échantillonnage des niveaux des
entrées équilibrés (chaque niveau est tiré au hasard un même nombre de fois) tout
en étant aléatoire : il permet de couvrir efficacement l’espace de variation des
entrées.
- Nous répétons cette génération des valeurs aléatoires 10 fois (afin d’avoir 10
répétitions par niveaux d’entrée). Une matrice de triplet est donc de taille
N=10*77=770 (770 lignes).
[28]
- Cependant deux matrices A et B aléatoires telles que définies au-dessus sont
nécessaires pour estimer de manière efficace les indices de sensibilité selon la
méthode Saltelli (2002), comme indiqué dans Saint-Geours et al., (2010). Afin de
pouvoir estimer les espérances des variances conditionnelles qui définissent les
indices de sensibilité de Sobol, de nouveaux échantillons sont créés par
permutations entre les matrices A et B, colonne à colonne.
- La matrice finale C qui regroupe l’ensemble des triplets d’entrées compris dans A
et B (mtry, nodesize, plans d’échantillonnage spatial de calibration) et donc
l’ensemble des simulations du modèle QRF est donc C = (nombre d’entrées +
2)*N, soit C=3850. Cette matrice de l’échantillon des variables d’entrée (mtry,
nodesize et jeu d’échantillonnage de calibration) ainsi définit par la première et la
deuxième étape est appelée « plan d’expérience »
3) La troisième étape concerne le calcul des valeurs des indicateurs
d’incertitude de la sortie du modèle QRF sur le plan d’expérience des entrées (mtry,
nodesize et plan d’échantillonnage spatial de calibration) défini aux précédentes
étapes. Le calcul de tous ces indicateurs est tel que détaillé au paragraphe sur les
indicateurs d’incertitude.
4) La quatrième étape est l’estimation des indices de sensibilité de Sobol (de
premier ordre et totaux) par la méthode de Saltelli.
Notons également que par la suite, cette procédure sera répétée de
manière indépendante pour des tailles croissantes d’échantillon de calibration : [200,
400, 800, 1000, 1500, 2000, 5000, 10000].
[29]
Figure 9 : Étapes d’analyse de sensibilité globale
[30]
Les indices de Sobol de premier ordre que seuls, nous utiliserons sont
compris entre 0 et 1 pour nous donner l’importance de chaque entrée. L’expression
de cet indice ; pour une entrée Xi, et une sortie (un indicateur)Y est :
(21)
Plus la valeur de l’indice s’approche vers 1, plus le paramètre ou
l’échantillonnage de calibration est le plus important et a plus d’effet sur l’indicateur.
Notons que sont également calculés des indices de sensibilité totaux St,
qui tiennent compte en plus de l’effet des interactions entre facteurs (présents dans les
figures en annexe) mais nous ne les commenterons pas dans ce travail.
4.2 Recherche des valeurs optimales des paramètres mtry et nodesize
L’analyse empirique dans le cas de notre étude permet de compléter
l’analyse précédente en identifiant les valeurs optimales des deux paramètres (mtry et
nodesize) par jeu d’échantillonnage de calibration en se basant sur le plan
d’expérience défini dans la section précédente. Nous allons réutiliser la première, la
deuxième et la troisième étape de l’analyse de sensibilité globale pour calculer et
déduire les valeurs des indicateurs d’incertitude.
Nous avons réalisé notre analyse empirique en se basant de principe de
tel que défini dans les trois premières étapes de l’analyse de sensibilité globale selon
le schéma chronologique suivant :
1) Sélectionner un nombre de jeu de données de calibration de n sites dans
l’ordre défini en section 5.3.
2) Tirer un vecteur de trois valeurs des paramètres (mtry et nodesize) et de
l’échantillonnage de calibration généré par le plan d’expérience construit
à la deuxième étape de l’analyse de sensibilité globale.
3) Calibrer le modèle QRF avec le vecteur des données tiré en (2).
[31]
4) Valider le modèle QRF avec la base de données de validation maître des
n sites indépendants.
5) Calculer les indicateurs d’incertitude tel que détaillé en section 5.5 sur les
n sites de validation maître.
6) Répéter 3850 fois les étapes 2 à 5.
Estimer les valeurs optimales des paramètres (mtry et nodesize) est une
étape très sensible. Les valeurs optimales sont fixées en se référant aux valeurs par
défaut dans la littérature et/ou au meilleur coefficient de détermination R2. Notre
analyse de sensibilité empirique pour fixer les valeurs optimales de couple
[mtry ;nodesize] consiste à analyser les sorties de QRF pour un couple de valeurs de
mtry et de nodesize de la façon suivante:
a) fixer les seuils de tolérances pour les indicateurs PICP et error_of_error
correspondant à des valeurs proches des valeurs idéales correspondant à 90 %
pour le picp et 1 pour error_of_error.
b) Faire un test pour s’assurer que les valeurs idéales de PICP et error of error
sont bien comprises entre les quartiles Q1 et Q3 de la population de PICP et
error of error caractérisant les QRF obtenus avec un couple [mtry ;nodesize]
donné.
c) Considérer que les valeurs de couple [mtry ;nodesize] dont la valeur de la
médiane des quartiles qui se rapproche beaucoup plus de de seuil de référence.
d) Tester plusieurs seuils de ces deux indicateurs afin d’avoir une ou deux valeurs
de couple [mtry ;nodesize].
e) Si la valeur de couple mtry et nodesize est unique alors ce sont des valeurs
optimales de mtry et nodesize. Sinon valider une seule valeur de couple
[mtry ;nodesize] en se référant sur le couple des valeurs qui a le meilleur
coefficient de détermination (R2) et la littérature (Figure 10).
[32]
Figure 10 : Étapes d’analyse empirique
[33]
4.3 Analyse de l’échantillon de calibration
L’étude des critères de qualité des bases de données de calibration qui
donnent la meilleure réponse en sortie de QRF permet d’analyser la sensibilité des
indicateurs d’incertitudes vis à vis bases de données de calibration. Cette variabilité
sera étudiée grâce à des critères de mesure de la qualité de l’échantillonnage [8].
Ces critères permettent de caractériser la distribution des sites de bases
de données de calibration. Nous avons utilisé les critères basés sur : la distance [8],
la mesure de discrépance [6] et la variance [26]. L’ensemble de ces indicateurs a été
calculé sous R, en utilisant le package DiceDesign (Dupay et al., 2015).
4.3.1 Les critères basés sur la distance
Nous avons utilisés trois critères basés sur la distance entre deux paires
des sites de la base de données de calibration. Ces critères sont : la couverture [4], le
ratio entre la distances maximale et la distance minimale [4] et enfin la distance
minimale [4] - [8].
1) La couverture
La couverture est une mesure de qualité de la base de données de
calibration permettant de savoir si la base de données de calibration est proche d’un
maillage régulier. Un maillage est dit régulier lorsque la couverture est nulle. A
l’inverse, un maillage est dit irrégulier lorsque la mesure de couverture est proche de
1.
Notons yi la distance minimale entre le site xi et les autres sites de la base
de données de calibration et ȳ la moyenne des yi. L’expression mathématique de la
couverture est donnée par :
(22)
[34]
2) Le ratio entre la distance maximale et la distance minimale
Le ratio entre la distance maximale et la distance minimale est une mesure
de qualité de la base de données de calibration. La base de données de calibration est
régulière lorsque le ratio est égal à 1. Il est donc préférable d’avoir une valeur de ratio
faible (proche de 1) pour s’approcher d’une base de données de calibration régulière.
Notons yi la distance minimale entre le site xi et les autres sites de la base
de données de calibration. L’expression mathématique de ratio entre la plus grande
distance minimale et la plus petite distance minimale est donnée par :
(23)
3) La distance minimale
La distance minimale appelée aussi maxmin est une mesure de qualité de
la base de données de calibration permettant de savoir la plus petite distance entre
deux site de la base de données de calibration.
Soit yi la distance minimale entre le site xi et les autres sites de la base de
données de calibration. L’expression mathématique de maxmin est donnée par :
(24)
4.3.2 Mesure de discrépance
La discrépance est une mesure de la qualité de la base de données
de calibration, qui fournit la distance maximale de la distribution des sites de la base
de données de calibration par rapport à la répartition uniforme des sites de la base de
données de calibration [8]. Elle compare une distribution de points à la distribution
uniforme [4]. La discrépance est une mesure de l’uniformité de la base de données de
calibration [9].
[35]
Soit Vol (J) le volume d'un sous-ensemble J [0, 1]d et A (X, J) le
nombre de points de X qui tombent dans [4]. L’expression mathématique de la
discrépance L2-star est donnée par :
(25)
Avec
4.3.3 La variance
La variance qui est une mesure de la dispersion d'une série de données
autour de sa moyenne. Une variance faible indique que les valeurs d’observations de
la série de données sont proches l'un de l'autre. Une variance élevée indique que les
valeurs d’observations sont très distantes [26].
(26)
A partir de toutes ces mesures faites sur la base de données de calibration,
nous allons les calculer dans plusieurs espaces différents :
a) l’espace des variables géographiques
b) l’espace de la variable cible (argile)
c) l’espace des covariables
d) toute union 2 à 2 des espaces précités
e) l’espace de toutes les variables possibles
[36]
CHAPITRE 5 - RÉSULTATS
Trois analyses (analyse de sensibilité globale, recherche des valeurs des
paramètres de Random Forest optimales et analyse de l’échantillon de calibration) ont
été réalisées pour estimer avec précision les incertitudes de prédiction des sols de
CNS. Ces trois analyses considèrent :
- huit jeux des bases de données de calibration fixés par rapport aux jeux de données
possibles de CNS, tel que défini en section 3.6.
- des distributions des valeurs des paramètres d’entrée (mtry et nodesize) de QRF
fixées à la première étape de l’analyse de sensibilité globale en section 4.1.
Le tableau 1 ci-dessous, nous donne les valeurs de la moyenne et de la
déviation standard (écart-type) des indicateurs d’incertitude en fonction de chaque jeu
de calibration de 3850 modèles construits.
200
sites
400
sites
800
sites
1000
sites
1500
sites
2000
sites
5000
sites
10 000
sites
ME
-7.2
(13.9)
-10.9
(9)
-10.2
(6.2)
-9.1
(5.4)
-9.2
(4.8)
-8.4
(3.6)
-7.6
(2.5)
-7.4
(2.2)
MSEmodel
19730
(1743)
18240
(1150)
16833
(1096)
16356
(1141)
15562
(1118)
14886
(1187)
12874
(1426)
11300
(1613)
MSEpredict
20234
(837)
18656
(666)
17066
(767)
16541
(894)
15685
(979)
14757
(1050)
12738
(1336)
11129
(1535)
RMSE
142.2
(2.9)
136.6
(2.4)
130.6
(2.9)
128.6
(3.4)
125.2
(3.9)
121.4
(4.3)
112.7
(5.8)
105.3
(7)
PICP
89
(2.2)
90
(1.5)
90.4
(1.2)
90.8
(1.1)
90.9
(1.1)
91.4
(1)
92
(0.9)
92.3
(1.1)
R2
0.25
(0.03)
0.32
(0.02)
0.37
(0.03)
0.39
(0.03)
0.43
(0.04)
0.46
(1.02)
0.53
(0.05)
0.59
(0.06)
Error_of_error
1.03
(0.11)
1.03
(0.07)
1.02
(0.05)
1.01
(0.04)
1.01
(0.04)
0.99
(0.03)
0.99
(0.02)
0.99
(0.02)
Tableau 1 : Moyenne (en gras) et écart-type (entre parenthèse et italique) des
indicateurs d’incertitude en fonction de jeu de données de calibration
[37]
Plus le nombre des sites des données de calibration augmente, plus le R²
augmente, et plus les RMSE, MSEpredict et MSEmodel diminuent, indiquant une
amélioration de la qualité des modèles lorsque le nombre des sites des données de
calibration augmente. De manière inattendue, le PICP, quant à lui, s’éloigne de la
valeur optimale 90, lorsque le nombre des sites des données de calibration augmente.
De même les valeurs de ME sont négatives et ne suivent aucune logique par rapport
à la variation de nombre sites des données de calibration.
La déviation standard des indicateurs d’incertitude, nous donne une idée
sur la dispersion des données par rapport au nombre de sites de données de calibration.
Aucune valeur de déviation standard des indicateurs d’incertitude (tableau 1) ne
présente une évolution proportionnelle ou inversement proportionnelle au nombre de
sites des données de calibration, sauf la standard déviation de l’ « error of error » qui
diminue avec l’augmentation de nombre de site des données de calibration.
La valeur de l’écart-type est faible pour error of error à partir de plus de
5000 sites des données de calibration, R2 à 400 sites des données de calibration et
PICP entre 2000 et 5000 sites des données de calibration. Par conséquent, ces trois
indicateurs aux valeurs faibles de la déviation standard, présentent une dispersion des
données faible avec de probabilités d’obtenir des résultats près de la moyenne afin de
faire des prédictions fiables. Le reste des indicateurs d’incertitude présentent l’écart-
type plus élevé. Par conséquent, la dispersion des données est élevée et il y a beaucoup
de risque de faire des prédictions non fiables.
5.1 Analyse de sensibilité globale
Afin d'illustrer l’importance respective des paramètres (mtry, nodesize)
de Random Forest et le choix de l’échantillonnage de calibration sur l’estimation de
l’incertitude des modèles, nous considérons à titre d’exemple trois jeux de données de
calibration de 200 sites, 2000 sites et 10 000 sites, générant respectivement des
modèles de CNS de qualité faible, moyenne et satisfaisante.
Nous nous sommes intéressés à la valeur de l’indice de Sobol de premier
ordre pour expliquer l'influence de chaque entrée (mtry ou nodesize ou échantillon de
calibration) sur une sortie de modèle (Error of error, PICP, R2 et ME). Les figures 11,
12 et 13 suivantes, montrent tous les détails sur la variabilité de l’indice de Sobol de
[38]
premier ordre (équation 21) pour chaque entrée du modèle (mtry ou nodesize ou
échantillon de calibration). Ces indices sont calculés pour trois jeux de données de
calibrations (200 sites, 2000 sites et 10 000 sites).
Compte tenu d’un nombre insuffisant de modèles, ces indices ne sont pas
tous contenus entre 0 et 1 comme attendus. Sur les graphiques présentés, les valeurs
des des indices de Sobol obtenues ont été tronquées à 1 pour toutes les valeurs des
indices de Sobol supérieures à 1, et à 0 pour toutes les valeurs des indices de Sobol
inférieures à 0. A défaut d’avoir des valeurs précises de ces indices, ces graphiques
nous ont permis d’apprécier qualitativement l’importance respective de tous les
paramètres et échantillonnage de données de calibration.
Les mêmes graphiques pour les autres sorties de modèle et pour les autres
tailles d’échantillon de données de calibration sont fournis en annexe A.
Figure 11 : Analyse de sensibilité globale pour 200 sites de calibration
[39]
Figure 12 : Analyse de sensibilité globale pour 2000 sites de calibration
Figure 13 : Analyse de sensibilité globale pour 10 000 sites de calibration
[40]
Cette analyse des indices de Sobol montre que :
o L’analyse de sensibilité globale ne permet pas d’apprécier l’impact respectif
des deux paramètres et de l’échantillonnage de calibration sur la valeur de
PICP. C’est également le cas avec les valeurs de « erro of error » pour les deux
grandes tailles d’échantillon des données de calibration (2000 et 10 000). Le
plan d’expérience choisi n’apparaît pas suffisant.
o Pour de faibles tailles d’échantillon des données de calibration, l’analyse révèle
une plus grande sensibilité à l’échantillonnage des données de calibration
qu’aux valeurs de paramètres mtry et nodesize. Ce résultat s’inverse dès 2000
sites des données de calibration pour R2 et à 10 000 sites des données de
calibration pour ME. Ainsi, logiquement, l’échantillonnage des données de
calibration revêt une importance maximale lorsque de petits effectifs de sites
des données de calibration sont considérés.
o Le paramètre mtry semble avoir un impact légèrement plus important que le
paramètre nodesize sur les sorties du modèle de CNS.
5.2 Recherche de valeurs optimales des paramètres mtry et nodesize
Cette analyse de la recherche de valeurs optimales des paramètres mtry
et nodesize est faite avec 8 jeux de données de calibration (200, 400, 800, 1000, 1500,
2000, 5000 et 10 000 sites).
La règle décrite en section 4.2 a été appliquée afin d’obtenir les valeurs
optimales des paramètres [mtry;nodesize]. Nous avons dû cependant ajuster pour
chaque taille d’échantillon des données de calibration la tolérance sur les valeurs des
indicateurs d’incertitude (error of error et PICP) afin d’obtenir à chaque fois au moins
une valeur possiblement optimale tout en ne baissant pas trop la tolérance au risque
de présélectionner trop de valeurs possiblement optimales parmi lesquelles il aurait
été difficile de choisir. Les valeurs de tolérances et le nombre de valeurs de mtry et
nodesize présélectionnées sont indiqués dans le tableau 2.
[41]
200
sites
400
sites
800
sites
1000
sites
1500
sites
2000
sites
5000
sites
10 000
sites
Tolérance
error
of error
± 0.005
± 0.015
± 0.01
± 0.005
± 0.01
± 0.01
± 0.05
± 0.05
Tolérance
PICP
± 0.2
± 0.3
± 0.4
± 0.4
± 0.4
± 0.4
± 0.2
± 0.2
Nombre
mtry retenu
6
4
2
3
4
4
2
2
Valeur
mtry retenue
4
7
3
3
3
5
7
6
Nombre
nodesize
retenu
4
4
2
2
2
2
1
1
Valeur
nodesize
retenue
10
10
5
5
1
1
1
1
Tableau 2 : Résultats Recherche de valeurs optimales des paramètres mtry et
nodesize
Suite à cette phase de pré-sélection, des valeurs uniques de mtry et
nodesize ont été retenues (tableau 2) en se basant sur la meilleure performance
obtenue, mesurée par le R2 et, en cas d’égalité, en retenant la valeur de paramètre la
plus proche des recommandations de la littérature.
Au vu de ce tableau, on observe que les valeurs optimales de nodesize
diminuent lorsque l’effectif des ensembles des données de calibration augmente. Pour
les faibles effectifs, il semble que des valeurs de nodesize importantes soit nécessaires
pour obtenir des modèles qui estiment correctement les incertitudes de prédiction,
prévenant ainsi le phénomène d’overfitting. Par contre, les valeurs optimales de mtry,
ne semblent pas en relation avec les effectifs des ensembles des données de
calibration.
[42]
5.3 Analyse de l’échantillonnage de calibration
Une première analyse préliminaire de la corrélation est faite sur les
données de l’échantillon de calibration pour savoir à priori la nature de la relation
entre les données. Nous constatons sur la figure 14, une relation faible (non
significative) entre les covariables et l’argile, sauf une petite relation significative
avec l’argile apparaissant pour les covariables slope, profil curvative et MRVBF quel
que soit le jeu de données de calibration (ANNEXE C).
Figure 14: Matrice de corrélation entre covariables et argile pour 200 sites de
calibration
Afin de rechercher les descripteurs permettant d’apprécier à priori la
qualité de l’échantillonnage des données de calibration, on mesure les corrélations
entre les indicateurs d’incertitude de la sortie du modèle de CNS et la série de
descripteurs envisagés et décrits en section 4.3. Les indicateurs qui ont l’air de former
une liaison de dépendance significative avec certains descripteurs (discrépance de
l’argile et surtout la variance de l’argile) sont error of error, picp et mse_model quelle
que soit la taille de jeu de données de calibration comme le montre sur les figures 15,
16 et 17 et ANNEXE C.
[43]
Figure 15: Matrice de corrélation entre indicateurs d’incertitude et descripteurs de
qualité pour 200 sites de calibration
Figure 16: Matrice de corrélation entre indicateurs d’incertitude et descripteurs de
qualité pour 1000 sites de calibration
[44]
Figure 17: Matrice de corrélation entre indicateurs d’incertitude et descripteurs de
qualité pour 2000 sites de calibration
Les autres descripteurs de la qualité de l’échantillonnage des données de
calibration supposés estimés à priori les incertitudes de prédiction se sont avérés sans
relation avec les indicateurs d’incertitudes calculés. Par ailleurs, aucun indicateur
d’incertitude autre que MSE_model, PICP et error of error n’a pu être mis en
corrélation avec un descripteur de la qualité de l’échantillonnage des données de
calibration. Les figures 18 à 20 permettent d’approfondir l’étude des relations
significatives entre le seul descripteur de la qualité de l’échantillonnage des données
de calibration « variance d’argile » et les trois indicateurs MSE_model, PICP et error
of error.
Figure 18 : Scatter plot entre l’ « error of error » et la variance de l’argile (à gauche),
picp et la variance de l’argile (milieu), et mse_model et la variance de l’argile (à
droite) calculées pour 200 sites de calibration
[45]
Figure 19 : Scatter plot entre l’ « error of error » et la variance de l’argile (à gauche),
picp et la variance de l’argile (milieu), et mse_model et la variance de l’argile (à
droite) calculées pour 1000 sites de calibration
Figure 20 : Scatter plot entre l’ « error of error » et la variance de l’argile (à gauche),
picp et la variance de l’argile (milieu), et mse_model et la variance de l’argile (à
droite) calculées pour 2000 sites de calibration
Quel que soit la taille de l’échantillon de calibration considéré, il semble
que les valeurs satisfaisantes des modèles de CNS pour PICP et error of error
(respectivement proches de 90% et proches de 1) soient obtenues avec des ensembles
de calibration ayant une variance « moyenne ». On remarque ainsi que des ensembles
de calibration ayant des variances trop faibles ont tendance à sous-estimer
l’incertitude précision alors qu’au contraire ceux ayant des variances trop fortes ont
tendance à sous-estimer cette incertitude.
[46]
CONCLUSION
Ce travail a recherché comment l’utilisation de la forêt de régression
quantile (QRF) pouvait fournir des estimations à priori fiables de l’incertitude sur les
prédictions de propriétés des sols (l’argile) de modèle CNS. Pour y arriver, nous avons
procédé en trois étapes. Premièrement une analyse de sensibilité globale, nous a
permis d’étudier les impacts respectifs de deux paramètres de QRF (mtry et nodesize)
et de l’échantillonnage des données de calibration sur un certain nombre d’indicateurs
de performance de QRF. Dans un deuxième temps, nous avons recherché, par une
analyse empirique, les valeurs optimales des paramètres [mtry;nodesize] de QRF pour
différentes tailles possibles d’ensemble des données de calibration. Et enfin, il a été
conduit une étude de la qualité de l’échantillonnage des données de calibration vis à
vis des performances des QRF. Nous avons tenté d’apprécier cette qualité
d’échantillonnage des données de calibration au travers les descripteurs de la qualité
de l’échantillonnage des données de calibration reconnus dans la littérature avec
l’espoir que ces descripteurs, pourraient ultérieurement nous orienter les stratégies
optimales d’échantillonnage des sites de calibration.
Nous avons mis partiellement en évidence, au moyen d’une analyse de
sensibilité globale, l’importance respective des paramètres de QRF et des ensembles
de calibration sur les performances des modèles. Nous avons noté que l’importance
des ensembles de calibration était maximale pour de faibles effectifs d’ensemble de
calibration, l’importance des paramètres de QRF étant prépondérante pour les
effectifs important. Cependant, il n’a pas été possible d’apprécier l’importance de tous
les paramètres du fait d’un manque de puissance de notre test. Une analyse de
sensibilité basée sur un plan d’expérience utilisant un nombre de sites plus important
est une perspective à retenir.
D’autre part, la plupart des indicateurs qualifiant les ensembles de
calibration se sont avérés inopérant pour prédire à priori la qualité des résultats
obtenus avec QRF. Seule la variance sur la propriété à prédire s’est trouvée corrélée
avec les indicateurs appréciant l’aptitude du modèle à prédire son incertitude. Il
semble qu’une variance moyenne, vraisemblablement proche de la vraie variance de
la propriété à prédire sur la zone d’étude, soit à rechercher pour échantillonner les
ensembles de calibration. Ceci suggère qu’il faudrait avoir connaissance à priori de la
vraie variance des propriétés sur la zone d’étude et stratifier de sorte que la variance
choisie soit proche de cette variance. Il convient de remarquer que les stratégies
[47]
d’échantillonnages usuellement conseillées dans la discipline, consistant à stratifier
les ensembles des données de calibration selon la localisation géographique ou selon
les covariables sont démontrées inopérantes dans ce cas d’étude. En effet, il n’a pas
été possible de montrer que des ensembles des données de calibration bien distribués
vis à vis de ces donnaient de meilleurs modèles.
Des nouvelles études peuvent être empruntées dans le sens de notre
travail en élargissant les distributions des paramètres d’entrée de QRF pour offrir un
plan d’expérience assez important. Avec ce nouveau plan d’expérience, aborder
l’analyse de sensibilité globale à deux niveaux. Premièrement, en omettant
l’échantillonnage des données de calibration parmi les paramètres d’entrée de QRF,
vu la taille de sa distribution trop petite. Et deuxièmement, par considération de
l’échantillonnage des données de calibration comme paramètre d’entrée de QRF.
Comparer les deux niveaux de l’analyse de sensibilité globale et prouver les impacts
respectifs de deux paramètres de QRF (mtry et nodesize) et de l’échantillonnage des
données de calibration pour l’estimation des incertitudes de prédiction des propriétés
des sols de modèle CNS, afin de faire des recommandations sur la meilleure façon
d’étudier l’analyse de sensibilité globale de modèle de CNS. De plus, vu la corrélation
qui existe entre les covariables et l’argile, un autre élément de plus peut dans l’étude
peut concerner que seule l’utilisation des covariables ayant l’air corrélé avec l’argile
dans les données de calibration pour estimer les incertitudes de prédiction de modèles
de CNS.
[48]
ANNEXES
[49]
ANNEXE A :
Analyse de sensibilité globale
[50]
L’analyse de sensibilité globale à 200 sites de calibration montre que pour les
paramètres Error of error, ME et R2 l’échantillonnage est important face aux
paramètres. On ne sait rien dire pour PICP : Insensible aux entrées du modèle.
A partir de 400 sites de calibration, nous remarquons l’instabilité de
l’importance de l’échantillonnage face aux paramètres de QRF, sauf pour le cas de
paramètre PICP où l’on ne sait rien dire.
[51]
Pour les sites plus grands (plus de 400 sites de données de calibration) que les
précédents, l’échantillonnage de données de calibration perd totalement son
importance face aux paramètres [mtry;nodesize].
[52]
[53]
[54]
ANNEXE B :
Recherche des valeurs optimales des paramètres mtry et nodesize
[55]
Valeurs optimales paramètres [mtry ;nodesize] pour 200 sites
Nous avons 6 valeurs optimales pour mtry et 4 valeurs optimales pour nodesize,
à partir de paramètre R2, on a une valeur optimale pour mtry=4 et nodesize=10.
[56]
Valeurs optimales paramètres [mtry ;nodesize] pour 400 sites
Pour 400 sites de données de calibration, on a 4 valeurs optimales pour mtry et
4 valeurs optimales pour nodesize. En observant R2, on a une valeur optimale pour
mtry=7 et nodesize=10.
[57]
Valeurs optimales paramètres [mtry ;nodesize] pour 800 sites
Avec 800 sites de données de calibration, nous avons 2 valeurs optimales pour
mtry et 2 valeurs optimales pour nodesize. Nous fixons une valeur optimale pour
mtry=3 et nodesize=5 à partir de paramètre R2.
[58]
Valeurs optimales paramètres [mtry ;nodesize] pour 1000 sites
Nous avons pour 1000 sites de données de calibration, 3 valeurs optimales pour
mtry et 2 valeurs optimales pour nodesize. En se référant aux valeurs de paramètre
R2, on une valeur optimale pour mtry=3 et nodesize=5.
[59]
Valeurs optimales paramètres [mtry ;nodesize] pour 1500 sites
Pour 1500 sites de données de calibration, nous avons 4 valeurs optimales pour
mtry et 2 valeurs optimales pour nodesize. En se référant aux valeurs de paramètre
R2, on une valeur optimale pour mtry=3 et nodesize=1.
[60]
Valeurs optimales paramètres [mtry ;nodesize] pour 2000 sites
Pour 2000 sites de données de calibration, nous avons 4 valeurs optimales pour
mtry et 2 valeurs optimales pour nodesize. En se référant aux valeurs de paramètre
R2, on une valeur optimale pour mtry=5 et nodesize=1.
[61]
Valeurs optimales paramètres [mtry ;nodesize] pour 5000 sites
A partir de plus de 5000 sites de calibration, nous obtenons 2 valeurs optimales
pour mtry et 1 seule valeur optimale pour nodesize à 1. En se référant aux valeurs de
paramètre R2, on une valeur optimale pour mtry=7. Et il en est de même pour le cas
de 10 000 sites des données de calibration.
Valeurs optimales paramètres [mtry ;nodesize] pour 10 000 sites
[62]
ANNEXE C :
Analyse de l’échantillonnage de calibration
[63]
Scatter plot entre l’ « error of error » et la variance de l’argile (à gauche), picp
et la variance de l’argile (milieu), et mse_model et la variance de l’argile (à droite)
calculées pour 200 sites de calibration
[64]
Scatter plot entre l’ « error of error » et la variance de l’argile (à gauche),
picp et la variance de l’argile (milieu), et mse_model et la variance de l’argile
droite) calculées pour 400 sites de calibration
[65]
Scatter plot entre l’ « error of error » et la variance de l’argile (à gauche),
picp et la variance de l’argile (milieu), et mse_model et la variance de l’argile
droite) calculées pour 800 sites de calibration
[66]
Scatter plot entre l’ « error of error » et la variance de l’argile (à gauche),
picp et la variance de l’argile (milieu), et mse_model et la variance de l’argile
droite) calculées pour 1000 sites de calibration
[67]
Scatter plot entre l’ « error of error » et la variance de l’argile (à gauche),
picp et la variance de l’argile (milieu), et mse_model et la variance de l’argile
droite) calculées pour 2000 sites de calibration
.
[68]
RÉFÉRENCES
1. Barnston, (1992), « Correspondance entre la corrélation [erreur quadratique
moyenne] et les mesures de vérification de Heidke; Raffinement du score de Heidke »
Notes et correspondance, Centre d'analyse du climat.
2. Breiman Leo (2001), « Random Forests, Machine Learning », 45, pp. 532.
3. M. Coustaroux (2013), « Analyse de sensibilité et planification d’expériences »,
INSA Toulouse, MIAT INRA.
4. D. Dupuy, C. Helbert, J. Franco (2015), « DiceDesign and DiceEval: Two R
Packages for Design and Analysis of Computer Experiments », Journal of Statistical
Software, Volume 65, Issue 11.
5. R. Faivre, B. Iooss, S. Mahévas, D. Makowski, H. Monod (2013), « Analyse de
sensibilité et exploration de modèles : application aux sciences de la nature et de
l'environnement », éditions Quae, Collection Savoir-faire, Versailles, pp. 324.
6. F. Hickernell (1998), « A generalized discrepancy and quadrature error bound.
Mathematics of Computation », 67, pp.299322.
7. J. Jacques (2011) « Pratique de l’analyse de sensibilité : comment évaluer
l’impact des entrées aléatoires sur la sortie d’un modèle mathématique », PUB. IRMA,
LILLE Vol. 71, N°III.
8. LM. Johnson, PS. Kayn, ES. Kahn, M. Grunstein (1990), « Genetic evidence for
an interaction between SIR3 and histone H4 in the repression of the silent mating loci
Saccharomyces cerevisiae », volume 87(16):6286-90.
9. B. Gandar, G. Loosli, G. Deffuant (2009), « Sélection de points en apprentissage
actif Discrépance et dispersion : des critères optimaux », MajecSTIC.
10. C. Gomez, P. Lagacherie, Guillaume Coulouma (2012), « Regional predictions
of eight common soil properties and their spatial structures from hyperspectral Vis
NIR data », Geoderma.
11. de Gruijter, D.J. Brus, M.F.P. Bierkens, M. Knotters (2006), « Sampling for
Natural Resource Monitoring Springer ».
12. de Gruijter, A.B. McBratney, B. Minasny, I. Wheeler, B.P. Malone, U.
Stockmann (2015), « Farm-scale soil carbon auditing, Geoderma 120130 ».
13. C. Gomez, R.A. Viscarra Rossel, A.B. McBratney (2008), « Soil organic carbon
prediction by hyperspectral remote sensing and field visNIR spectroscopy: an
Australian case study », Geoderma, pp. 403411.
14. B. Kempen, D.J. Brus, J.J. Stoorvogel (2011), « Cartographie tridimensionnelle
de la teneur en matière organique du sol en utilisant des fonctions de profondeur
spécifiques au type de sol » Geoderma, 107123.
15. P. Lagacherie, D. Arrouays, C. Walter (2013), « étude et Gestion des Sols »,
Volume 20, 1, pp. 83 à 98.
[69]
16. A. Liaw, M. Wiener (2002), « Classification and regression by random Forest.
R News », pp. 1822.
17. A.B. McBratney, M.L. Mendonc Santos, B. Minasny (2003), « On digital soil
mapping », Geoderma, pp.352.
18. A.B. McBratney, J.J. de Gruijter (2015), « A continuum approach to soil
classification by modified fuzzy k-means with extragrades J. Soil Sci », 43 (1992),
pp. 159175.
19. N. Meinshausen, L. Schiesser, « Quantile Regression Forests. R package ».
20. N. Meinshausen (2006), « Quantile Regression Forests, Machine Learning
Research », pp. 983999.
21. N. Saint-Geours, C. Lavergne, J. S. Bailly, F. Grelot (2011), « Analyse de
sensibilité globale d'un modèle spatialisé pour l'évaluation économique du risque
d'inondation ». Journal de la Société Française de Statistique, 152(1), p-24.
22. A. Saltelli, M. Ratto, T. Andres , F. Campolongo, J. Cariboni , D. Gatelli, M.
Saisana, S. Tarantola (2008), « Global Sensitivity Analysis - The Primer. Wiley ».
23. A. Saltelli, K. Chan, E.M. Scott (2000), « Sensitivity Analysis. Wiley ».
24. A. Stevens, T. Udelhoven, A. Denis, B. Tychon, R. Lioy, L. Hoffmann, B. van
Wesemael (2010), « Measuring soil organic carbon in croplands at regional scale
using airborne imaging spectroscopy », Geoderma, pp. 3245.
25. K. Vaysse, P. Lagacherie (2017), « Using quantile regression forest to estimate
uncertainty of digital soil mapping products », Geoderma, pp.5564.
26. Y. Velenik (2017), Probabilités et Statistique », Université de Genève.
27. R. A. Viscarra Rossel, D. J. J. Walvoort, A. B. McBratney, L. J. Janik, J. O.
Skjemstad (2006), « Visible, near-infrared, mid-infrared or combined diffuse
reflectance spectroscopy for simultaneous assessment of various soil properties »,
Geoderma, 131, pp. 5975.
ResearchGate has not been able to resolve any citations for this publication.
Article
Full-text available
This paper introduces two R packages available on the Comprehensive R Archive network. The main application concerns the study of computer code output. Package DiceDesign is dedicated to numerical design of experiments, from the construction to the study of the design properties. Package DiceEval deals with the fit, the validation and the comparison of metamodels. After a brief presentation of the context, we focus on the architecture of these two packages. A two-dimensional test function will be a running example to illustrate the main functionalities of these packages and an industrial case study in five dimensions will also be detailed.
Article
Digital Soil Mapping (DSM) products are simplified representations of more complex and partially unknown patterns of soil variations. Therefore, any prediction of a soil property that can be derived from these products has an irreducible uncertainty that needs to be mapped. The objective of this study was to compare the most current DSM method – Regression Kriging (RK) – with a new approach derived from RandomForest – Quantile Regression Forest (QRF) – in regard to their ability of predicting the uncertainties of GlobalSoilMap soil property grids. The comparison was performed for three soil properties, pH, organic carbon and clay content at 5–15 cm depth in a 27,236 km² Mediterranean French region with sparse sets of measured soil profiles (1/13.5 km²) and for a set of environmental covariates characterizing the relief, climate, geology and land use of the region. Apart from classical performance indicators, comparisons involved accuracy plots and the visual examinations of the uncertainty maps provided by the two methods.
Article
The potential of the visible–near infrared (Vis–NIR; 400–2500 nm) laboratory spectroscopy for the estimation of soil properties has been previously demonstrated in the literature, and the Vis–NIR spatial spectroscopy is expected to provide direct estimates of these properties at the soil surface. The aim of this work was to examine whether Vis–NIR airborne spectroscopy could be used for mapping eight of the most common soil properties, including clay, sand, silt, calcium carbonate (CaCO3), free iron, cation-exchange capacity (CEC), organic carbon and pH, without mispredicting the local values of these properties and their spatial structures. Our study was based on 95 soil samples and a HyMap hyperspectral image available over 192 bare soil fields scattered within a 24.6 km² area. Predictions of soil properties from HyMap spectra were computed for the eight soil properties using partial least squares regression (PLSR). The results showed that 1) four out of the eight soil properties (CaCO3, iron, clay and CEC) were suitable for mapping using hyperspectral data, and both accurate local predictions and good representations of spatial structures were observed and 2) the application of prediction models using hyperspectral data over the study area provided statistical characterizations within soilscape variations and variograms that describe in details the short range soil variations. All results were consistent with the previous pedological knowledge of the studied region. This study opens up the possibility of more extensive use of hyperspectral data for digital soil mapping of these successfully predicted soil properties.
Article
The need for a more continuous approach to soil classification is discussed, and methods based on the mathematical constructs known as fuzzy sets are considered most appropriate for this. A centroidal grouping method, fuzzy k-means with extragrades, which quantifies the intragrading and extragrading of soil individuals is described. An example of the application of this technique to an area of 4800 ha at Wesepe in The Netherlands is presented. The results show that the technique could create a classification that reflects the main pedological features of the area in a continuous way. Although there may be problems in selecting the optimal number of groups and degree of fuzziness, we conclude that the method is most promising and worthy of consideration when any type of quantitative soil classification is required.
Article
Historically, our understanding of the soil and assessment of its quality and function has been gained through routine soil chemical and physical laboratory analysis. There is a global thrust towards the development of more time- and cost-efficient methodologies for soil analysis as there is a great demand for larger amounts of good quality, inexpensive soil data to be used in environmental monitoring, modelling and precision agriculture. Diffuse reflectance spectroscopy provides a good alternative that may be used to enhance or replace conventional methods of soil analysis, as it overcomes some of their limitations. Spectroscopy is rapid, timely, less expensive, non-destructive, straightforward and sometimes more accurate than conventional analysis. Furthermore, a single spectrum allows for simultaneous characterisation of various soil properties and the techniques are adaptable for ‘on-the-go’ field use. The aims of this paper are threefold: (i) determine the value of qualitative analysis in the visible (VIS) (400–700 nm), near infrared (NIR) (700–2500 nm) and mid infrared (MIR) (2500–25,000 nm); (ii) compare the simultaneous predictions of a number of different soil properties in each of these regions and the combined VIS–NIR–MIR to determine whether the combined information produces better predictions of soil properties than each of the individual regions; and (iii) deduce which of these regions may be best suited for simultaneous analysis of various soil properties. In this instance we implemented partial least-squares regression (PLSR) to construct calibration models, which were independently validated for the prediction of various soil properties from the soil spectra. The soil properties examined were soil pHCa, pHw, lime requirement (LR), organic carbon (OC), clay, silt, sand, cation exchange capacity (CEC), exchangeable calcium (Ca), exchangeable aluminium (Al), nitrate–nitrogen (NO3–N), available phosphorus (PCol), exchangeable potassium (K) and electrical conductivity (EC). Our results demonstrated the value of qualitative soil interpretations using the loading weight vectors from the PLSR decomposition. The MIR was more suitable than the VIS or NIR for this type of analysis due to the higher incidence spectral bands in this region as well as the higher intensity and specificity of the signal. Quantitatively, the accuracy of PLSR predictions in each of the VIS, NIR, MIR and VIS–NIR–MIR spectral regions varied considerably amongst properties. However, more accurate predictions were obtained using the MIR for pH, LR, OC, CEC, clay, silt and sand contents, P and EC. The NIR produced more accurate predictions for exchangeable Al and K than any of the ranges. There were only minor improvements in predictions of clay, silt and sand content using the combined VIS–NIR–MIR range. This work demonstrates the potential of diffuse reflectance spectroscopy using the VIS, NIR and MIR for more efficient soil analysis and the acquisition of soil information.
Article
Conventional sampling techniques are often too expensive and time consuming to meet the amount of data required in soil monitoring or modelling studies. The emergence of portable and flexible spectrometers could provide the large amount of spatial data needed. In particular, the ability of airborne imaging spectroscopy to cover large surfaces in a single campaign and to study the spatial distribution of soil properties with a high spatial resolution represents an opportunity for improving the monitoring of soil characteristics and soil threats such as the decline of soil organic matter in the topsoil. However, airborne imaging spectroscopy has been generally applied over small areas with homogeneous soil types and surface conditions. Here, five hyperspectral images acquired with the AHS-160 sensor (430 nm–2540 nm) were analysed with the objective to map soil organic carbon (SOC) at a regional scale. The study area, covering a surface of ∼ 420 km2 and located in Luxembourg, is characterized by different soil types and a high variation in SOC contents. Reflectance data were related to surface SOC contents of bare croplands by means of 3 different multivariate calibration techniques: partial least square regression (PLSR), penalized-spline signal regression (PSR) and support vector machine regression (SVMR). The performance of these statistical tools was tested under different combinations of calibration/validation sets (global and local calibrations stratified according to agro-geological zones, soil type and image number). Under global calibration, the Root Mean Square Error in the Predictions reached 5.3–6.2 g C kg− 1. Under local calibrations, this error was reduced by a factor up to 1.9. SOC maps of bare agricultural fields were produced using the best calibration model. Two map excerpts were shown, which display intra- and inter-field variability of SOC contents possibly related to topography and land management.
Article
This paper compares predictions of soil organic carbon (SOC) using visible and near infrared reflectance (vis–NIR) hyperspectral proximal and remote sensing data. Soil samples were collected in the Narrabri region, dominated by Vertisols, in north western New South Wales (NSW), Australia. Vis–NIR spectra were collected over this region proximally with an AgriSpec portable spectrometer (350–2500 nm) and remotely from the Hyperion hyperspectral sensor onboard satellite (400–2500 nm). SOC contents were predicted by partial least-squares regression (PLSR) using both the proximal and remote sensing spectra. The spectral resolution of the proximal and remote sensing data did not affect prediction accuracy. However, predictions of SOC using the Hyperion spectra were less accurate than those of the Agrispec data resampled to similar resolution as the Hyperion spectra. Finally, the SOC map predicted using Hyperion data shows similarity with field observations. There is potential for the use of hyperspectral remote sensing for predictions of soil organic carbon. The use of these techniques will facilitate the implementation of digital soil mapping.