Conference PaperPDF Available

Elaboración de un mapa de carbono orgánico del suelo en la Región de Murcia

Authors:

Abstract

Se analizan diferentes algoritmos para modelizar el contenido de carbono orgánico del suelo con el objeto de crear un mapa para la Región de Murcia (Sudeste de España). Como predictores se utilizaron variables geomorfométricas extraídas a diferentes escalas, variables climáticas y usos y tipos de suelo. Para seleccionar las variables a incluir en el modelo se utilizó el índice de inflación de la varianza, consiguiendo reducirse el número de variables de 187 a 43. Para validar los resultados de los diferentes algoritmos se utiliza bootstrapping sobre un subconjunto de muestras de validación para obtener diversas validaciones. De esta manera se obtiene un intervalo de confianza para los estadísticos de error. Los resultados finales muestran que el algoritmo Random Forest y Máquinas de Vectores Soporte son los que mejores resultados consiguen, con valores medios de los errores cuadráticos medios de 9.4 y 9.46 respectivamente, siendo considerablemente menor el rango de resultados en Random Forest que en Máquinas de Vectores Soporte.
XVI Congreso Nacional de Tecnologías de la Información Geográfica
25, 26 y 27 de Junio de 2014. Alicante.
Elaboración de un mapa de carbono orgánico del suelo en la
Región de Murcia
Arantzazu Blanco Bernardeau
ab
, Francisco Alonso Sarría
b*
, Francisco Gomariz
Castillo
bcd
a
Departamento de Química agrícola y Edafología, Universidad de Murcia
b
Instituto Universitario de Agua y Medio Ambiente, Universidad de Murcia
c
Fundación Instituto Euromediterráneo del Agua
d
Departamento de Ciencias del Mar y Biología Aplicada, Universidad de Alicante
Resumen
Se analizan diferentes algoritmos para modelizar el contenido de carbono orgánico del suelo con el objeto de crear un
mapa para la Región de Murcia (Sudeste de España). Como predictores se utilizaron variables geomorfométricas extraídas
a diferentes escalas, variables climáticas y usos y tipos de suelo. Para seleccionar las variables a incluir en el modelo se
utilizó el índice de inflación de la varianza, consiguiendo reducirse el número de variables de 187 a 43. Para validar los
resultados de los diferentes algoritmos se utiliza bootstrapping sobre un subconjunto de muestras de validación para
obtener diversas validaciones. De esta manera se obtiene un intervalo de confianza para los estadísticos de error. Los
resultados finales muestran que el algoritmo Random Forest y Máquinas de Vectores Soporte son los que mejores
resultados consiguen, con valores medios de los errores cuadráticos medios de 9.4 y 9.46 respectivamente, siendo
considerablemente menor el rango de resultados en Random Forest que en Máquinas de Vectores Soporte.
Palabras clave: suelos; carbono orgánico; modelización; multiescala; selección de variables; random forest
*
E-mail : alonsarp@um.es
Bernardeau et al. 2014/
Elaboración de un mapa de carbono orgánico del suelo en la Región de Murcia
285
1. Introducción
El carbono orgánico del suelo tiene gran importancia en los distintos procesos del ecosistema (Raich y
Potter, 1995). Su concentración depende del aporte de biomasa y de la tasa de descomposición de la misma lo
que responde a los cambios de humedad, temperatura y acidez del suelo (Alexander, 1977, Brady y Weil,
2002). En zonas cultivadas se relaciona con el tipo de cultivos y la gestión del suelo (Bergstrom et al., 2001;
Lal, 2002). En zonas de vegetación natural, la cantidad y tipo de materia orgánica dependen de la estructura y
distribución de la vegetación y las especies existentes, que a su vez están relacionadas con factores
topográficos como la altitud, la posición en la ladera, la orientación y la forma (concavidad-convexidad) de la
ladera (Rodríguez-Murillo, 2001; Gessler et al., 1995; Thompson y Kolka, 2005; Yimer et al., 2007). Las
variables climáticas tienen importancia a pequeña escala (Liu et al., 2012), sin embargo, a escala local, las
variables geomorfométricas, junto al uso del suelo y el tipo de vegetación, podrían ser los factores dominantes
(Rezaei y Gilkes, 2005). Por su parte, Albadalejo et al. (2013), analizan cuales son los factores que explican la
variabilidad en el contenido de carbono orgánico en los suelos de la Región de Murcia.
El elevado coste de la cartografía de suelos llevada a cabo por procedimientos tradicionales ha llevado a
plantear la posibilidad de apoyar la creación de cartografía en herramientas SIG y métodos estadísticos dando
lugar a un nuevo enfoque denominado Pedometría o Cartografía digital de suelos (McBratney et al. 2003,
Scull et al., 2003). Este consiste en la modelización de las propiedades edáficas como variables respuesta a un
conjunto de factores climáticos, geomorfométricos o bióticos. Los modelos utilizados pueden ser de tipo
estadístico (modelos lineales o aditivos) o de aprendizaje automático (árboles de decisión, métodos kernel,
etc.). Como ejemplo de aplicación de modelos lineales generalizados para la interpolación del contenido de
carbono en el suelo cabe citar el trabajo de Doblas Miranda et al. (2013).
El objetivo de este trabajo es comparar la exactitud de los resultados obtenidos mediante algunas de estas
técnicas en la modelización del contenido de carbono orgánico del suelo en la Región de Murcia con el
propósito final de crear un mapa de esta variable con el modelo que mayor exactitud presente. Los modelos se
calibran con un subconjunto de las variables disponibles seleccionado para minimizar su colinealidad.
2. Metodología
2.1. Datos de partida
Los datos de partida para obtener las diferentes variables incluidas en los modelos se almacenaron como
capas raster o vectoriales en un SIG gestionado con GRASS. (Neteler y Mitasova, 2010). Dichos datos son:
Modelo Digital de Elevaciones (MDE) con resolución de 25 metros descargado de la página web del
CNIG.
Capas de datos climáticos obtenidas mediante un procedimiento de regresión-kriggeado con modelo GML
con una resolución de 200 metros (Gomariz-Castillo y Alonso-Sarria, 2013).
Usos del suelo correspondientes al mapa de 1990 del proyecto CORINE Land Cover (escala original
1:100.000) descargados de la página web del CNIG
Tipo de suelo y concentración de carbono orgánico (en g/kg) en muestras de capa arable del proyecto
LUCDEME (Alias y Ortiz, 1986-2004).
286 XVI Congreso de Tecnologías de la Información Geográfica, 25,26 y 27 de Junio de 2014
La estimación de las variables que pueden explicar las propiedades del suelo implica un claro problema de
escala. El valor puntual de un parámetro no tiene por qué ser el más adecuado, por tanto es necesario incluir
las diferentes propiedades geomorfométricas a diferentes escalas. Por otra parte, la incertidumbre asociada a
la posición de las muestras de capa arable en los datos del proyecto LUCDEME aconseja este enfoque.
El tipo y uso del suelo se incorporan como variables cualitativas. Las variables cuantitativas que
finalmente se calcularon y utilizaron como posibles variables predictoras son:
1. Derivadas de la altitud: pendiente (SLO), seno de la orientación (SIN), coseno (COS), curvatura de
perfil (PROF) y curvatura plana (PLAN), todas ellas aparecen descritas en Olaya (2009). Se calcularon
utilizando 10 tamaños de ventana (3,7,11,15,19,23,27,31,35 y 39 celdillas) por variable lo que da un
total de 50 capas.
2. Rugosidad: índice de rugosidad del terreno (TRI) (Riley et al, 1999), medida vectorial de rugosidad
(VRM) (Sappington et al, 2007), índice de Iwahashi y Kamiya (IKI) (Iwahashi y Pike, 2007) e índice de
Melton (MEL) (Melton, 1965). También se calcularon utilizando las mismas ventanas que en el caso
anterior, lo que da un total de 40 capas.
3. Posición topográfica: índice de posición topográfica (TPI) (Jennes, 2007, Tagil y Jennes, 2008) y cinco
índices cuyo cálculo se programó específicamente en GRASS para este trabajo: distancia en la línea de
flujo al cauce (distcau), distancia en la línea de flujo a la cresta (distX), diferencia de cota respecto al
cauce (dZcau), diferencia de cota respecto a la cresta (dZX) y percentil de la elevación en la ladera
(percZ). EL TPI se calculó para los 10 tamaños de ventana y el resto, al no ser operadores de vecindad,
se obtuvieron en una única capa. En total son 15 capas.
4. Índices secundarios que, sin ser necesariamente independientes de la escala, por razones prácticas se
consideran sólo sus valores a la escala más detallada: Índice topográfico de humedad (TWI) (Quinn et
al 1995, Beven, et al 1995), Parámetro LS de la USLE (Moore y Burch, 1986) e índice multiresolución
de planitud de fondo de valle (MRVBF) (Gallant y Dowling, 2003). Se calculó una sola capa por índice;
en total, y añadiendo el MDE a este grupo, sou un total de 4 capas.
5. Clima: temperatura máxima (TMX), mínima (TMN) y media (TMD), precipitación (PRE), humedad
(HUM) y radiación global (RAD). Estas variables se incluyen a nivel mensual lo que supone un total de
78 capas.
Todas estas variables se calcularon utilizando GRASS excepto MRVBF, LS, TWI y TPI que se calcularon
con SAGA (Olaya y Conrad, 2009). Los siguientes pasos de esta metodología se llevaron a cabo con R (R
Core Team, 2013) utilizando la librería spGRASS6 (Bivand, 2013) para cargar las distintas capas raster como
objetos de R.
2.2. Selección de variables
En total son 187 variables muchas de las cuales tendrán un alto grado de colinealidad. La aproximación
habitual en estos casos es el análisis de componentes principales. El problema de este método es que resulta
difícil entender el significado de los componentes. Por ello, en este trabajo hemos utilizado el método del
Factor de Inflación de la Varianza (Zuur et al., 2007). Este método calcula para cada variable un estadístico
(VIF) que resume el vector correspondiente de la matriz de correlaciones. De este modo cuanto mayor sea el
valor del estadístico mayor será el grado de colinealidad de la variable. Se ha utilizado como base el algoritmo
para el cálculo de VIF propuesto por Zuur et al (2007).
Bernardeau et al. 2014/
Elaboración de un mapa de carbono orgánico del suelo en la Región de Murcia
287
La aproximación habitual consiste en determinar un valor umbral por encima del cual se considera que la
variable es excesivamente colineal con las demás y se elimina del análisis. Zuur et al (2007) recomiendan un
valor umbral entre 5 y 10. Este procedimiento presenta el inconveniente de que si un grupo de unas pocas
variables están muy correlacionadas entre si pero no con las demás, podrían eliminarse todas cuando lo más
conveniente sería conservar al menos una. Para solucionar este problema se ha desarrollado un procedimiento
iterativo que elimina la variable con mayor VIF, recalcula los estadísticos y vuelve a eliminar la variable con
mayor VIF. Este procedimiento se repite hasta que ningún VIF supera el valor umbral de 5 considerándose de
este modo que las variables restantes son no colineales.
2.3. Modelos predictivos
Los métodos utilizados para generar modelos predictivos fueron los siguientes:
Modelos Lineales Generalizados (GLM) con la distribución de Poisson asimilando los datos de carbono
orgánico a un conteo. Los modelos lineales generalizados superan la restricción de los modelos lineales
clásicos que limitaba su uso a variables con una distribución normal. De esta manera, además, el rango de
variación de las predicciones puede limitarse poniendo una cota inferior de cero (como en este caso) o
limitando los valores al intervalo [0,1].
Modelos Aditivos Generalizados (GAM), también con la distribución de Poisson, utilizando el paquete de
R mgcv (Wood, 2006). Se trata de modelos de regresión no paramétricos que superan la limitación de los
modelos lineales y GLM que obliga a que la respuesta sea creciente (o decreciente) respecto a cada uno de
los predictores. De esta manera son más efectivos para modelizar situaciones en las que la respuesta
alcanza un máximo para un valor intermedio del predictor, disminuyendo hacia los extremos.
Splines de Regresión Adaptativa Multivariante (MARS) utilizando el paquete de R earth. Se trata de otro
modelo de regresión no paramétrico en el que se utilizan polinomios para estimar la respuesta en diferentes
regiones del espacio de variables definido por los predictores.
Random Forest (RF) utilizando el paquete de R randomForest (Liam y Wienner, 2002). Este método
consiste en utilizar numerosos (500-1000) árboles de decisión alimentados con un subconjunto de los datos
de calibración (obtenido mediante remuestreo con reemplazamiento) y con un subconjunto de los
predictores. Esto garantiza la descorrelación de las predicciones de los distintos árboles. Al final cada uno
de los árboles predice el resultado en cada pixel y la predicción final se obtiene, cuando se trata de árboles
de regresión, promediando estos valores.
Máquinas de Vectores Soporte (SVM) utilizando el paquete de R kernlab (Karatzoglou et al., 2002). Al
igual que Random Forest, se trata en principio de un método de clasificación que también puede utilizarse
en regresión. Funciona dividiendo el espacio de variables en sectores con una respuesta homogénea, pero
las fronteras entre sectores se trazan maximizando la distancia entre esta y los casos más cercanos a uno y
otro lado de la frontera (los vectores soporte). Permite también trazar fronteras curvilíneas en el espacio de
variables.
K-vecinos más próximos (KNN) utilizando el paquete de R kknn. Este método estima el valor de cada
nuevo caso como el promedio de los valores de la variable respuesta en los K casos utilizados para calibrar
más próximos en el espacio de variables definido por los predictores.
Estos métodos son buenos ejemplos de diferentes algoritmos de aprendizaje automático. Todos ellos están
detalladamente descritos en Hastie et al. (2009) o Kuhn y Johnson (2013). En James et al. (2013) aparecen
ejemplos de su uso con R.
288 XVI Congreso de Tecnologías de la Información Geográfica, 25,26 y 27 de Junio de 2014
La base de datos de capa arable del proyecto LUCDEME dispone de 1436 muestras con medidas de
carbono orgánico en la Región de Murcia. De estas, 1150 se utilizaron para calibrar los diferentes modelos,
obteniéndose así 6 modelos de predicción.
2.4. Validación
La validación final de los modelos se hizo a partir de las restantes 284 muestras de capa arable. Estos se
remuestrearon 1000 veces mediante bootstrapping (James et al., 2013) y en cada muestra se calculó la raíz
cuadrada del error cuadrático medio (RMSE) para cada uno de los 6 modelos utilizados. De este modo, en vez
de un único valor de error puede obtenerse, para cada modelo, la distribución del estadístico (figura 1 y tabla
2).
3. Resultados
3.1. Selección de variables
El procedimiento de selección de variables (VIF) devolvió 43 variables (tabla 1) a las que se añadió la de
tipos y la de usos del suelo. La tabla 1 muestra que variables resumen de manera más apropiada las
características morfométricas y climáticas del área de estudio. Destaca la permanencia de la curvatura plana
en todas las escalas analizadas. Los índices de rugosidad VRM y el de Iwahashi se mantienen en diferentes
escalas. También parece destacable que los cinco índices de posición topográfica programados para este
trabajo se mantienen, lo que indica su escasa correlación entre si y con el resto de las variables seleccionadas.
3.2. Modelos predictivos
La tabla 2 y la figura 1 resumen los resultados de la validación mediante bootstrapping. Puede observarse
que las distribuciones de los errores siguen una distribución normal. Los métodos que mejores resultados
obtienen son RF y SVM, seguidos de MARS y KNN, y finalmente GAM y GLM. Los dos mejores métodos
apenas muestran diferencia en cuanto a su error medio pero RF muestra menor incertidumbre (menor
desviación típica) por lo que se considera el método más apropiado y se utilizará para generar el mapa.
Tabla 1. Variables resultantes del proceso de selección de variables, entre paréntesis se incluye el valor del índice de inflación de la
varianza.
Derivadas del terreno
SLO_39 (4.828) SIN_3 (2.821) SIN_39 (1.665) COS_3 (2.094) COS_15 (4.053)
COS_39 (2.893) PROF_3 (2.316) PROF_7 (3.517) PROF_11 (3.932) PROF_23 (3.032)
PROF_39 (2.293) PLAN_3 (1) PLAN_7 (1.361) PLAN_11 (1.841) PLAN_15 (2.057)
PLAN_19 (2.248) PLAN_23 (2.349) PLAN_27 (2.226) PLAN_31 (2.408)
PLAN_35 (2.506) PLAN_39 (1.83)
Índices de rugosidad
VRM_11 (2.314) VRM_39 (4.448) IWA_27 (3.165) IWA_39 (3.36)
Índices de posición topográfica
TPI_3 (2.397) dZcau (4.317) distX (2.181) dZtop (4.983) distTopX (3.137)
percentZ (2.098)
Bernardeau et al. 2014/
Elaboración de un mapa de carbono orgánico del suelo en la Región de Murcia
289
Índices secundarios
MRVBF (3.554) LS (4.689)
Variables climáticas
PRE_4 (2.822) PRE_7 (2.826) PRE_9 (2.59) PRE_10 (1.446) TMD_7 (3.403)
TMX_8 (3.019) TMN_12 (1.755) RAD_6 (2.773) RAD_12 (2.48) HUM_9 (3.163)
Dada la diferencia que muestra la figura 1 entre los tres pares de métodos antes mencionados, no
consideramos necesario hacer un test estadístico para comprobar que modelos obtienen resultados
significativamente diferentes entre sí.
A partir de los residuos del modelo se calculó un semivariograma para comprobar si existía una estructura
de variación espacial que pudiera ser modelizada mediante kriggeado pero el semivariograma resultó
totalmente plano por lo que no se consideró necesario interpolar los residuos. La figura 2 muestra el mapa
generado a partir del modelo RF.
Tabla 2. Estadísticos de la distribución del error cuadrático medio obtenida mediante bootstrapping
Modelo Mínimo Máximo Media Dev.típica
GLM 13.96 21.1 17.20 1.17
GAM 14.01 21.1 17.20 1.21
MARS 8.66 13.83 11.22 0.77
RF 7.8 11.15 9.4 0.57
SVM 7.59 11.58 9.46 0.89
KNN 9.07 15.65 11.6 0.82
Fig. 1. Resultados de la validación mediante bootstrapping de los diferentes algoritmos de clasificación utilizados.
290 XVI Congreso de Tecnologías de la Información Geográfica, 25,26 y 27 de Junio de 2014
4. Conclusiones
El uso del índice VIF ha permitido reducir la dimensionalidad del problema disminuyendo su colinealidad.
De esta manera puede plantearse el análisis de grandes conjuntos de variables así como obtener un conjunto
mínimo de las mismas para caracterizar el paisaje.
La validación de los resultados mediante bootstrapping ha permitido obtener una estimación de la
distribución de los parámetros de error obteniéndose una evaluación estadísticamente más consistente de la
validación.
Los métodos que ofrecen mejores resultados para modelizar el carbono orgánico en el suelo son
Random Forest y las máquinas de vectores soporte. A raíz de los resultados parece claro que los métodos más
flexibles basados en aprendizaje automático han obtenido resultados considerablemente mejores que los
métodos estadísticos más clásicos.
Fig. 2. Mapa de concentración de carbono orgánico en la Región de Murcia resultante de la aplicación del modelo con Random Forest.
Las unidades son g/kg. Las manchas grises corresponden a zonas urbanas y tipos de suelo con muy ocas muestras por lo que no pudieron
ser consideradas en el modelo.
Bernardeau et al. 2014/
Elaboración de un mapa de carbono orgánico del suelo en la Región de Murcia
291
Referencias
Albaladejo, J.; Ortiz, R.; Garcia-Franco, N.; Ruiz Navarro, N.; Almagro, M.; Garcia Pintado, J.; Martínez-Mena, M. (2013) Land use and
climate change impacts on soil organic carbon stocks in semi-arid Spain Journal of Soils and Sediments,13-2, pp 265-277.
Alexander, M. (1977). Introduction to Soil Microbiology, Wiley, New York.
Alias, L. and Ortiz, R. (1986-2004). Memorias y mapas de suelos de las hojas del MTN a escala 1:50.000. Proyecto LUCDEME.
Ministerio de Medio Ambiente.
Bivand, R. (2013). spgrass6: Interface between GRASS 6 and R http://CRAN.R-project.org/package=spgrass6.
Burrough, P. A. y McDonnell, R. A. (1998). Principles of Geographical Information Systems. Oxford University Press Inc., New York.
Bergstrom, D.W.; Monreal, C.M. y St. Jacques, E. (2001). Influence of tillage practice on carbon sequestration is scale-
dependent .
Canadian Journal of Soil Science, 81, 63-70.
Beven, K.; Lamb, R.; Quinn, P.; Romanowicz, R. y Freer, J. (1995). TOPMODEL. In V. P. Singh (Ed.), Computer Models of Watershed
Hydrology, pp. 627–668.Water Resour. Publ., Highlands Ranch, Colorado.
Brady, L. y Weil, R. R. (2002). The Nature and Properties of Soil. Springer, Netherlands.
Doblas-Miranda, E.; Rovira, P.; Brotons, L.; Martínez-Vilalta, J.; Retana, J.; Pla, M.; and Vayreda, J. (2013) Soil carbon stocks and their
variability across the forests, shrublands and grasslands of peninsular Spain, Biogeosciences, 10, 8353-8361,.
Gallant, J.C. y Dowling, T.I. (2003). A multiresolution index of valley bottom flatness for mapping depositional areas,Water Resources
Research, 39(12),14.
Gessler, P.E.; Chadwick, O.A.; Chamron, F.; Holmes, K. y Althouse, L. (2000). Modeling soil-landscape and ecosystem properties using
terrain attributes, Soil Science Society of America Journal, 64, 2046-2056.
Gomariz-Castillo, F.; Alonso-Sarria, F. (2013). An R script to model monthly climatic variables with GLM to be used in hydrological
modelling 9th International R User Conference. Universidad de Albacte, Spain.
Hastie, T.; Tibshirani, R. y Friedman, J. (2009). The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Springer
Iwahashi, J. y Kamiya, I. (1995). Landform classification using digital elevation model by the skills of image processing–mainly using
the Digital National Land Information,Geoinformatics, 6(2),7-108.
James, G.; Witten, D.; Hastie, T. y Tibshirani, R. (2013). An Introduction to Statistical Learning, Springer.
Jennes, J. (2005). Topographic Position Index (tpi_jen.avx) Extension for ArcView 3.x. Technical Report, Jenness Enterprises,
http://www.jennessent.com.
Karatzoglou, A.; Smola, A.; Hornik, K.; Zeileis, A. (2004). kernlab - An S4 Package for Kernel Methods in R. Journal of Statistical
Software, 11(9),1-20.
Kuhn, M. Y Johnson, K. (2013). Applied Predictive Modeling, Springer.
Liaw, A.; Wiener, M. (2002). Classification and Regression by randomForest, R News, 2(3),18-22.
Lal, R. (2002). Soil carbon dynamics in cropland and rangeland, Environmental pollution, 116, 353-362.
Liu, Y.; Lu, J.; Zhang, B. y Bi, J. (2013). Spatial multi-scale variability of soil nutrients in relation to environmental factors in a typical
agricultural region, Eastern China, Science of The Total Environment, 450-451, 108-119.
McBratney, A. B.; Mendoça Santos, M. L. y Minasny, B. (2003). On digital soil mapping, Geoderma, 117(1-2), 3–52.
Melton, M.A. (1965). The geomorphic and paleoclimatic significance of alluvial deposits in southern Arizona, Journal of Geology, 73,1-
38.
Moore, I.D. y Burch, G.J. (1986). Modelling erosion and deposition: Topographic effects. Trans. Am. Soc. Agr. Engrs,29,1624-1630.
Neteler, M. Y Mitasova, H. (2010). Open Source GIS: A GRASS GIS Approach, Springer.
Olaya, V. (2009). Basic Land-Surface Parameters. In: T. Hengl y H.I. Reuter (Eds.), Geomorphometry - Concepts, Software,
Applications, Developments in Soil Science 33, Elsevier.
Olaya, V. y Conrad, O. (2009). Geomorphometry in SAGA. In: T. Hengl y H.I. Reuter (Eds.), Geomorphometry - Concepts, Software,
Applications, Developments in Soil Science 33, Elsevier.
Quinn, P.; Beven, K.; Chevallier, P. y Planchon, O. (1991). The prediction of hillslope paths for distributed hydrological modeling using
digital terrain models, Hydrological Processes,5,59-79.
Raich, J.W. y Potter, C. S. (1995). Global patterns of carbon dioxide emissions from soils. Global Biogeochemical Cycles, 9, 23-36.
Ramírez-Santiagosa, I., Vicente-Albadalejo, M., García Barceló, J.A. y Vaquero Gómez, A. (1999). Mapa Digital de Suelos de la Región
de Murcia, Consejería de Agricultura, Agua y Medio Ambiente.
Rezaei, S.A. y Gilkes, R.J. (2005). The effects of landscape attributes and plant community on soil chemical properties in rangelands,
Geoderma, 125, 167-176.
Riley, S.J.; DeGloria, S.D. y Elliot, R. (1999). A terrain ruggedness index that quantifies topographic heterogeneity, Intermountain
Journal of Sciences, 5 (1-4), 123-127.
R Core Team (2013) R: A Language and Environment for Statistical Computing R Foundation for Statistical Computing,Vienna,
Austria.
292 XVI Congreso de Tecnologías de la Información Geográfica, 25,26 y 27 de Junio de 2014
Rodríguez-Murillo, J.C. (2001). Organic carbon content under diffeerent types of land use and soil in peninsular Spain, Biol. Fertil. Soils,
33, 53-61.
Sappington, J.M.; Longshore, K.M. y Thompson, D.B. (2007). Quantifying Landscape Ruggedness for Animal Habitat Analysis: A Case
Study Using Bighorn Sheep in the Mojave Desert, Journal of Wildlife Management, 71(5),1419-1426.
Scull, P.; Franklin, J.; Chadwick, O.A. y McArthur, D. (2003). Predictive soil mapping: a review, Progress in Physical Geography,
27,2,171–197.
Tagil, S. y Jenness, J. (2008). GIS-Based Automated Landform Classification and Topographic, Landcover and Geologic Attributes of
Landforms Around the Yazoren Plje, Turkey, Journal of Applied Sciences, 8(6),910-921.
Thompson, J. A. y Kolka, R. K. (2005). Soil Carbon Storage Estimation in a Forested Watershed using Quantitative Soil-Landscape
Modeling, Soil Scicence Society of America Journal, 69, 1086-1093.
Wood, S.N. (2006). Generalized Additive Models: An Introduction with R. Chapman and Hall/CRC.
Yimer, F.; Ledin, S. y Abdelkadir, A. (2007). Changes in soil organic carbon and total nitrogen contents in three adjacent land use types
in the Bale Mountains, southeastern highlands of Ethiopia, Forest Ecology and Management, 242, 337-342.
Zuur, A.F.; Ieno, E.N.; Smith, G.M. (2007). Analysing Ecological Data, Springer.
... Concentración de carbono orgánico con una resolución de 25 metros (Blanco-Bernardeau et al., 2014). ...
... It would have been interesting to add quantitative soil properties to this analysis; however, the uncertainties of the estimation of such properties for all the study area discouraged us from using them. Just the concentration of soil organic carbon, for which we had an accurate enough map (Blanco-Bernardeau et al., 2014), was included in the analysis. • Climate layers: precipitation; absolute minimum, absolute maximum and average temperature; potential evapotranspiration and incident solar radiation. ...
Article
Land abandonment is a global phenomenon whose environmental consequences are difficult to asses. Murcia Region is one of the most arid regions in southern Europe and also one of the most prone to land abandonment. This study researches which environmental features are more relevant to explain abandonment at agricultural plot scale. Geomorphometric features were measured at different scales to investigate which scales could be more relevant. Two different models have been used: logistic regression, a statistical model that allows the interpretation of the involved features, and Random Forest, a machine learning model with a higher predictive power but lower interpretability. The combined use of both such models allows a set of predictors to be selected, which, when used with Random Forest, produce a map that is highly accurate for predicting abandonment and, when used with logistic regression, produce an interpretable model. The main conclusion is that climate is the most relevant factor to explain land abandonment. This article is protected by copyright. All rights reserved.
Chapter
Full-text available
RESUMEN: El abandono agrícola es un fenómeno global cuyas consecuencias ambientales son difíciles de evaluar. La Región de Murcia es una de las regiones más áridas del sur de Europa y también una de las más propensas al abandono. Este estudio trata de descubrir qué variables medioambientales (incluyendo variables climáticas y geomorfométricas, uso del suelo, tipo de suelo y tipo de roca), además de las distancias a áreas no cultivadas y distancias a las carreteras, son más relevantes para explicar el abandono a escala de parcela agrícola (25 metros de resolución de celda cuadrada). Las variables geomorfométricas se midieron a diferentes escalas para investigar qué escala podría ser más relevante. Para evitar el problema de colinealidad que surge cuando el número de predictores es elevado, en una primera fase se utilizó el factor de inflación de la varianza (VIF) para seleccionar un subconjunto de variables con baja correlación. Este subconjuto se ha utilizado para calibrar dos modelos diferentes: la regresión logística, modelo estadístico que permite la interpretación del efecto producido por las variable involucradas, y el Random Forest, modelo de aprendizaje automático con mayor capacidad predictiva pero que tiene el inconveniente de generar modelos menos interpretables. El uso combinado de estos modelos permite seleccionar un conjunto de variables predictoras que, cuando se utiliza con Random Forest, produce un mapa con una predicción muy exacta del abandono y, cuando se utiliza con regresión logística, producir un modelo muy interpretable. La principal conclusión es que, al menos a esta escala de trabajo, las características climáticas son más relevantes que las variables geomorfométricas para explicar el abandono de cultivos. Palabras-clave: Abandono de cultivos, predictores ambientales, selección de variables, análisis de datos, regresión logística, Random Forest, aprendizaje automático, sureste de España.
Book
Full-text available
Thoroughly updated and now in full color, the 15th edition of this market leading text brings the exciting field of soils to life. Explore this new edition to find: A comprehensive approach to soils with a focus on six major ecological roles of soil including growth of plants, climate change, recycling function, biodiversity, water, and soil properties and behavior. New full-color illustrations and the use of color throughout the text highlights the new and refined figures and illustrations to help make the study of soils more efficient, engaging, and relevant. Updated with the latest advances, concepts, and applications including hundreds of key references. New coverage of cutting edge soil science. Examples include coverage of the pedosphere concept, new insights into humus and soil carbon accumulation, subaqueous soils, soil effects on human health, principles and practice of organic farming, urban and human engineered soils, new understandings of the nitrogen cycle, water-saving irrigation techniques, hydraulic redistribution, soil food-web ecology, disease suppressive soils, soil microbial genomics, soil interactions with global climate change, digital soil maps, and many others Applications boxes and case study vignettes bring important soils topics to life. Examples include “Subaqueous Soils—Underwater Pedogenesis,” “Practical Applications of Unsaturated Water Flow in Contrasting Layers,” “Soil Microbiology in the Molecular Age,” and "Where have All the Humics Gone?” Calculations and practical numerical problems boxes help students explore and understand detailed calculations and practical numerical problems. Examples include “Calculating Lime Needs Based on pH Buffering,” “Leaching Requirement for Saline Soils,” "Toward a Global Soil Information System,” “Calculation of Nitrogen Mineralization,” and “Calculation of Percent Pore Space in Soils.”
Book
The first edition of this book has established itself as one of the leading references on generalized additive models (GAMs), and the only book on the topic to be introductory in nature with a wealth of practical examples and software implementation. It is self-contained, providing the necessary background in linear models, linear mixed models, and generalized linear models (GLMs), before presenting a balanced treatment of the theory and applications of GAMs and related models. The author bases his approach on a framework of penalized regression splines, and while firmly focused on the practical aspects of GAMs, discussions include fairly full explanations of the theory underlying the methods. Use of R software helps explain the theory and illustrates the practical application of the methodology. Each chapter contains an extensive set of exercises, with solutions in an appendix or in the book’s R data package gamair, to enable use as a course text or for self-study.
Book
An Introduction to Statistical Learning provides an accessible overview of the field of statistical learning, an essential toolset for making sense of the vast and complex data sets that have emerged in fields ranging from biology to finance to marketing to astrophysics in the past twenty years. This book presents some of the most important modeling and prediction techniques, along with relevant applications. Topics include linear regression, classification, resampling methods, shrinkage approaches, tree-based methods, support vector machines, clustering, and more. Color graphics and real-world examples are used to illustrate the methods presented. Since the goal of this textbook is to facilitate the use of these statistical learning techniques by practitioners in science, industry, and other fields, each chapter contains a tutorial on implementing the analyses and methods presented in R, an extremely popular open source statistical software platform. Two of the authors co-wrote The Elements of Statistical Learning (Hastie, Tibshirani and Friedman, 2nd edition 2009), a popular reference book for statistics and machine learning researchers. An Introduction to Statistical Learning covers many of the same topics, but at a level accessible to a much broader audience. This book is targeted at statisticians and non-statisticians alike who wish to use cutting-edge statistical learning techniques to analyze their data. The text assumes only a previous course in linear regression and no knowledge of matrix algebra.
Article
While the influence of management practices on soil organic C (OC) concentration and mass has been evaluated for the surface layer of small plots of homogeneous soils, there are few studies at a scale inclusive of the entire solum and heterogeneous soils. The objective of this study was to test for an interaction between tillage practice [no-till (NT) vs. conventional tillage (CT) by chisel-plow] and topography as determinants of OC stocks in the entire solum and layers thereof at a field-scale. Adjacent fields of contrasting tillage practice were stratified by soil series and drainage class for comparison. The effect of tillage practice on OC mass was contingent on slope position and sampling depth, i.e., scale-dependent. There was more OC in the surface layer (0-8 cm) of the A horizon of the NT than the CT field at well-drained upper slope positions, but not at imperfectly drained lower slope positions. At lower slope positions there was more OC in the entire A horizon of the CT than the NT field. Results of small-plot studies with homogeneous soils cannot be extrapolated arbitrarily to larger scales. Rather, assessments at larger scales that encompass heterogeneous soils are required.
Article
A physically based, computationally simple, analytical framework is developed for predicting the effects of topography on erosion and deposition on two-dimensional and quasi three-dimensional non-planar hillslopes. It is then extended to apply to more complex slope geometries found in real three-dimensional terrain using a digital terrain model. An example is given of predicted erosion and deposition patterns on an experimental catchment at Wagga Wagga, Australia. Predicted zones of high erosion show good agreement with the long term pattern of erosion and deposition in the catchment, especially the observed locations of gullies and zones of severe sheet erosion.
Book
Applied Predictive Modeling covers the overall predictive modeling process, beginning with the crucial steps of data preprocessing, data splitting and foundations of model tuning. The text then provides intuitive explanations of numerous common and modern regression and classification techniques, always with an emphasis on illustrating and solving real data problems. The text illustrates all parts of the modeling process through many hands-on, real-life examples, and every chapter contains extensive R code for each step of the process. This multi-purpose text can be used as an introduction to predictive models and the overall modeling process, a practitioner's reference handbook, or as a text for advanced undergraduate or graduate level predictive modeling courses. To that end, each chapter contains problem sets to help solidify the covered concepts and uses data available in the book's R package. This text is intended for a broad audience as both an introduction to predictive models as well as a guide to applying them. Non-mathematical readers will appreciate the intuitive explanations of the techniques while an emphasis on problem-solving with real data across a wide variety of applications will aid practitioners who wish to extend their expertise. Readers should have knowledge of basic statistical ideas, such as correlation and linear regression analysis. While the text is biased against complex equations, a mathematical background is needed for advanced topics. © Springer Science+Business Media New York 2013. All rights reserved.