Conference PaperPDF Available

Análisis preliminar de la potencialidad del color de la madera como variable predictiva para identificación de materiales del género Eucalyptus.

Authors:

Abstract

El objetivo de este trabajo fue analizar la potencialidad predictiva del color de la madera para la identificación de materiales del género Eucalyptus implantados en Argentina, mediante el desarrollo de modelos basados en algoritmos de aprendizaje automático. Se trabajó con 15 muestras de 20 materiales de Eucalyptus de entre 6 y 7 años, con diferente grado de mejora genética (especies y clones monoespecíficos e híbridos), a los cuales se les determinó el color en el espacio CIEL*a*b*, como también los valores de absorbancia en el rango del espectro visible (400-700 nm). Se probaron dos algoritmos de aprendizaje automático: random forest (RF) y support vector machines (SVM), y se definió como objetivo de la predicción a las especies o híbridos. El modelo desarrollado a partir de RF y los parámetros de color CIEL*a*b* presentó el mejor ajuste, con una exactitud del modelo del 59,7% y un valor de kappa de 0,514, con lo cual puede ser catalogado como moderado. Resulta necesario profundizar este análisis en vista de generar protocolos que permitan su implementación a otra escala, analizando otras secciones de la madera y bajo diferentes tratamientos superficiales. Palabras clave: eucaliptos, CIELab, aprendizaje automático, Random Forest, Support Vector Machines 1. INTRODUCCIÓN En general, la identificación de especies es un proceso laborioso que requiere de mucho tiempo, y para lo cual suele ser necesario cuantificar características anatómicas y estructurales de la madera (Vieira et al., 2022). Estas características deben ser contrastadas con bases de datos que incluyan esta información, las cuales muchas veces no existen, sumado al hecho de que estas características presentan cierto grado de plasticidad fenotípica (Bambil et al., 2020). Es por lo que se torna necesario el desarrollo de técnicas de identificación alternativas, entre las que puede mencionarse el color de la madera. Sin embargo, la clasificación visual por sí sola es altamente subjetiva y puede ser influenciada por diversos factores, como por ejemplo el nivel de iluminación. El uso de colorimetría puede ser una alternativa válida, debido a su rapidez y facilidad de uso (Vieira et al., 2022). En este sentido, Vieira et al. (2019) mostraron la potencialidad de esta técnica para distinguir especies de mirtáceas nativas de Brasil. Actualmente, existe una gran variedad de algoritmos de clasificación de aprendizaje automático (machine learning), los cuales pueden aplicarse a un mismo set de datos y comparar los resultados en cuanto a su rendimiento y eficacia del proceso clasificatorio (Bambil et al., 2020). Dos de los más ampliamente utilizados son random forest (RF) y support vector machines (SVM). RF clasifica en función de un conjunto de árboles de decisión, mediante la integración de múltiples modelos para resolver el mismo problema, lo cual aumenta la precisión al disminuir la varianza, y la clasificación se define mediante votación, siendo la más común la votación por mayoría (se asigna la categoría asignada por la mayoría de los clasificadores). SVM pertenece a una familia de clasificadores lineales
94
ANÁLISIS PRELIMINAR DE LA POTENCIALIDAD DEL COLOR DE LA MADERA
COMO VARIABLE PREDICTIVA PARA IDENTIFICACIÓN DE MATERIALES DEL
GÉNERO Eucalyptus
José BAROTTO
1
,
2
, María Laura TONELLO1,2, Juan Marcelo GAUNA2,
3
, Natalia RAFFAELI1,2
RESUMEN
El objetivo de este trabajo fue analizar la potencialidad predictiva del color de la madera para la
identificación de materiales del género Eucalyptus implantados en Argentina, mediante el desarrollo de
modelos basados en algoritmos de aprendizaje automático. Se traba con 15 muestras de 20
materiales de Eucalyptus de entre 6 y 7 años, con diferente grado de mejora genética (especies y
clones monoespecíficos e híbridos), a los cuales se les determinó el color en el espacio CIEL*a*b*,
como también los valores de absorbancia en el rango del espectro visible (400-700 nm). Se probaron
dos algoritmos de aprendizaje automático: random forest (RF) y support vector machines (SVM), y se
definió como objetivo de la predicción a las especies o híbridos. El modelo desarrollado a partir de RF
y los parámetros de color CIEL*a*b* presentó el mejor ajuste, con una exactitud del modelo del 59,7%
y un valor de kappa de 0,514, con lo cual puede ser catalogado como moderado. Resulta necesario
profundizar este análisis en vista de generar protocolos que permitan su implementación a otra escala,
analizando otras secciones de la madera y bajo diferentes tratamientos superficiales.
Palabras clave: eucaliptos, CIELab, aprendizaje automático, Random Forest, Support Vector
Machines
1. INTRODUCCIÓN
En general, la identificación de especies es un proceso laborioso que requiere de mucho tiempo, y para
lo cual suele ser necesario cuantificar características anatómicas y estructurales de la madera (Vieira
et al., 2022). Estas características deben ser contrastadas con bases de datos que incluyan esta
información, las cuales muchas veces no existen, sumado al hecho de que estas características
presentan cierto grado de plasticidad fenotípica (Bambil et al., 2020). Es por lo que se torna necesario
el desarrollo de técnicas de identificación alternativas, entre las que puede mencionarse el color de la
madera. Sin embargo, la clasificación visual por sí sola es altamente subjetiva y puede ser influenciada
por diversos factores, como por ejemplo el nivel de iluminación. El uso de colorimetría puede ser una
alternativa válida, debido a su rapidez y facilidad de uso (Vieira et al., 2022). En este sentido, Vieira et
al. (2019) mostraron la potencialidad de esta técnica para distinguir especies de mirtáceas nativas de
Brasil.
Actualmente, existe una gran variedad de algoritmos de clasificación de aprendizaje automático
(machine learning), los cuales pueden aplicarse a un mismo set de datos y comparar los resultados en
cuanto a su rendimiento y eficacia del proceso clasificatorio (Bambil et al., 2020). Dos de los más
ampliamente utilizados son random forest (RF) y support vector machines (SVM). RF clasifica en
función de un conjunto de árboles de decisión, mediante la integración de múltiples modelos para
resolver el mismo problema, lo cual aumenta la precisión al disminuir la varianza, y la clasificación se
define mediante votación, siendo la más común la votación por mayoría (se asigna la categoría
asignada por la mayoría de los clasificadores). SVM pertenece a una familia de clasificadores lineales
1
Laboratorio de Investigaciones en Madera (LIMAD), Facultad de Ciencias Agrarias y Forestales, Universidad Nacional de La
Plata. Contacto: jose.barotto@agro.unlp.edu.ar
2
Cátedra de Industrias de Transformación Química, Facultad de Ciencias Agrarias y Forestales, Universidad Nacional de La
Plata.
3
Instituto de Fisiología vegetal (INFIVE), Facultad de Ciencias Agrarias y Forestales, Universidad Nacional de La Plata.
95
no paramétricos, que busca maximizar la distancia que separa los elementos de dos clases diferentes,
mediante la definición de un hiperplano óptimo para separar el conjunto de datos en un número discreto
de clases predefinidas (Sheykhmousa et al., 2020). Estos y otros algoritmos de aprendizaje automático
se han aplicado satisfactoriamente para la identificación de especies a partir de imágenes de hojas
(Bambil et al., 2020), árboles (Hu et al., 2018) y de la madera (p. ej.: Rosa da Silva et al., 2022).
El objetivo de este trabajo fue analizar la potencialidad predictiva del color de la madera para la
identificación de materiales del género Eucalyptus implantados en Argentina, mediante el desarrollo de
modelos basados en algoritmos de aprendizaje automático.
2. MATERIALES Y MÉTODOS
Material vegetal, muestreo y acondicionamiento: se trabajó con material vegetal provisto por la Estación
Experimental Agropecuaria (EEA) INTA Concordia y por el Instituto de Recursos Biológicos (IRB) del
Centro de Investigaciones Agropecuarias INTA Castelar, y los materiales contaban con 7 y 6 años al
momento del apeo, respectivamente (Cuadro 1). Se obtuvieron rodajas a la altura del DAP de diferente
número de individuos, representativos del material considerado, que luego fueron procesadas para
obtener cubos de aproximadamente 2 cm de lado, tanto de la albura como del duramen, utilizados para
las evaluaciones de laboratorio. Se seleccionaron 15 cubos por cada material evaluado, representativos
del rango de coloración observado y, a fin de obtener una superficie lo más homegénea posible, fueron
lijados en una de sus caras transversales hasta una granulometría de 120. Se seleccionó esta
granulometría por cuestiones de disponibilidad de tiempo y la naturaleza preliminar de este trabajo.
Cuadro 1. Origen y edad de los materiales evaluados
Orígen
Materiales
Edad
INTA
Concordia
Especies: E. grandis HSP (EG), E. dunnii (ED), E. benthamii (BE), E.
cloeziana (CL), E. camaldulensis (EC) y E. tereticornis (ET).
Clones: E. grandis: EG INTA 36 (EG36), E. grandis x E. camaldulensis: GC
INTA 8 (GC8), GC INTA 9 (GC9), GC INTA 12 (GC12), GC INTA 24 (GC24),
GC INTA 27 (GC27). E. grandis x E. tereticornis: GT INTA 31 (GT31).
7 años
INTA
Castelar
Especies: E. sideroxylon (ES), E. viminalis (EV).
Clones: E. globulus: GL506, GL515, GL516, GL520, GL526.
6 años
Determinación de color: El color se determinó sobre la cara transversal acondicionada, a la cual se le
eliminó todo resto de polvo en la superficie de manera previa a la determinación de color. Se realizó
una determinación por cubo (n = 15 por material genético), mediante un espectrofotómetro BYK
Gardner Color-Guide 45/0, en el rango espectral entre 400 y 700 nm (visible), con iluminante D65,
ángulo de observación de 10° y una apertura de 4 mm de diámetro, y estas lecturas se tomaron a una
temperatura ambiente de 24 °C y humedad relativa en torno al 80%. Se recolectaron los datos de color
en el sistema CIEL*a*b* 1976, en particular L* (eje blanco/negro), a* (eje rojo/verde), b* (eje
amarillo/azul) y dE* (diferencia de color de la muestra respecto al patrón de referencia), como también
con valores de absorbancia en el rango del espectro visible (400-700 nm), registrados cada 20 nm.
Desarrollo de los modelos y análisis estadístico: se probaron dos algoritmos de aprendizaje automático:
random forest (RF) y support vector machines (SVM), y se definió como objetivo de la predicción a las
especies o híbridos. En este sentido, los materiales de E. grandis de semilla y el clon EG36 fueron
considerados como un solo material (n=30), al igual que los 5 materiales híbridos de E. grandis x E.
camaldulensis (n=75) y los 5 clones de E. globulus (n=75). A fin de lograr una representación adecuada,
se generó un set de entrenamiento compuesto por el 75% de los cubos de cada material, seleccionados
aleatoriamente. A partir de este set se entrenó el modelo, utilizando validación cruzada, con 4
particiones y 100 repeticiones, el cual fue validado frente al 25% de las muestras restantes. Se registró
la sensibilidad de los modelos, que refleja el grado de acierto en la predicción de cada material (Aciertos
/ (Aciertos + Falsos negativos)), así como la exactitud (Aciertos / Total) y el parámetro kappa de Cohen
(otra medida de acierto, más adecuada para datos desbalanceados, como en este caso). Todos los
96
análisis se llevaron a cabo mediante el software R (R Core Team, 2024), y la librería específica caret.
3. RESULTADOS Y DISCUSIÓN
En el cuadro 2 se detallan los resultados obtenidos por ambos algoritmos de clasificación para cada
sistema de color analizado. Es posible observar que el modelo desarrollado a partir de RF para el
sistema de color CIEL*a*b* presentó el mejor ajuste de los 4 modelos analizados (2 algoritmos x 2
sistemas de color), con una exactitud del modelo del 59,7% y un valor de kappa de 0,514. En el otro
extremo, el modelo desarrollado por SVM para los datos de absorbancia en el espectro visible presentó
el ajuste más deficiente (exactitud de 46,3% y kappa de 0,303).
Cuadro 2. Exactitud y parámetro Kappa para los dos algoritmos de clasificación ensayados y para
ambos sistemas de color probados.
Algoritmo
Sistema de color
Exactitud
Support Vector Machines (SVM)
CIEL*a*b*
49,3%
Espectro visible
46,3%
Random Forest (RF)
CIEL*a*b*
59,7%
Espectro visible
49,3%
En el cuadro 3 se detallan los valores de sensibilidad media de los 4 modelos para cada material
analizado, así como el desglose de este parámetro en función del algoritmo (promedio de sensibilidad
del algoritmo para ambos sistemas de color) y el sistema de color utilizado (promedio de sensibilidad
de ambos algoritmos para cada sistema de color). La sensibilidad media de los 4 modelos nos indica,
cuáles fueron los materiales que presentaron un mayor grado de acierto en la clasificación por parte de
los modelos. Respecto a este indicador, se destaca, en primer lugar, E. globulus (GL), con un 82%,
seguido por los híbridos GC con un 57%.
Cuadro 3. Sensibilidad media por material, a nivel general y desglosado por algoritmo y sistema de
color.
Material
n
Sensibilidad
media
Algoritmo
Sistema de color
SVM
RF
CIEL*a*b*
Espectro visible
BE
15
25%
0%
50%
33%
17%
CL
15
0%
0%
0%
0%
0%
EC
15
50%
50%
50%
33%
67%
ED
15
17%
0%
33%
17%
17%
EG
30
43%
36%
50%
50%
36%
ES
15
50%
67%
33%
67%
33%
ET
15
25%
17%
33%
17%
33%
EV
15
25%
0%
50%
50%
0%
GC
75
57%
47%
67%
58%
56%
GL
75
82%
94%
69%
83%
81%
GT
15
17%
0%
33%
33%
0%
En el otro extremo, E. cloeziana (CL) fue el material con menor nivel de predicción, ya que ninguna de
las probetas testeadas pudo ser correctamente clasificada. Respecto a este punto, en el Gráfico 1 es
posible observar que existe una relación directa y significativa entre el número de probetas analizadas
y el grado de sensibilidad en la clasificación. Esto nos indicaría que, para obtener modelos más
robustos, es necesario incrementar el número de muestras, lo cual es un resultado lógico y esperable.
Si observamos el análisis de sensibilidad media por algoritmo, vemos que RF presentó un nivel de
ajuste general superior a SVM, así como también para la mayoría de los materiales analizados. A nivel
del sistema de color utilizado, el ajuste fue mejor a partir de los parámetros del sistema CIEL*a*b*. Esto
es coincidente con lo reportado en el Gráfico 2, donde se observa una relación directa entre los valores
97
del parámetro kappa y la exactitud del modelo para los 4 modelos analizados, destacándose como
mejor modelo el que fue desarrollado a partir de RF y los parámetros del sistema de color CIEL*a*b*.
De acuerdo con la clasificación establecida por Landis y Koch (1977) este modelo puede ser catalogado
como moderado, mientras que los restantes entran en la categoría de modelos regulares.
4. CONCLUSIONES
El presente trabajo permite establecer el potencial de los parámetros de color de la madera como
variables predictivas para la identificación de materiales del género Eucalyptus. En este sentido, el
modelo desarrollado a partir del algoritmo random forest y los parámetros de color del sistema
CIEL*a*b* presentó un grado de ajuste moderado y alta capacidad predictiva, al menos para ciertos
materiales. Se destaca la necesidad de incrementar el número de muestras para lograr modelos más
robustos. Finalmente, y en vistas de generar protocolos que permitan su implementación a otra escala,
se requiere profundizar este trabajo, analizando otras secciones de la madera y bajo diferentes
granulometrías de lijado y/o tratamientos superficiales.
5. LITERATURA CITADA
BAMBIL, D., PISTORI, H., BAO, F., WEBER, V., ALVES, F. M., GONÇALVES, E. G., Figueiredo, L. F. A.; Abreu,
U. G. P.; Arruda, R.; BORTOLOTTO, I. M. 2020. Plant species identification using color learning resources,
shape, texture, through machine learning and artificial neural networks. Environment Systems and Decisions.
DOI:10.1007/s10669-020-09769-w
ROSA DA SILVA, N., DEKLERCK, V., BAETENS, J.M., VAN DEN BULCKE, J., DE RIDDER, M., ROUSSEAU, M.,
BRUNO, O.M., BEECKMAN, H., VAN ACKER, J., DE BAETS, B., VERWAEREN, J. 2022. Improved wood
species identification based on multi-view imagery of the three anatomical planes. Plant Methods 18(1): 79.
DOI: 10.1186/s13007-022-00910-1.
HU, M., FEN, H., YANG, Y., XIA, K., & REN, L. 2018. Tree Species Identification Based on the Fusion of Multiple
Deep Learning Models Transfer Learning. 2018 Chinese Automation Congress (CAC), Xi'an, China, pp. 2135-
2140. DOI:10.1109/cac.2018.8623484
LANDIS, J.R., KOCH, G.G. 1977. The measurement of observer agreement for categorical data. Biometrics, 33(1):
159174. DOI:10.2307/2529310
SHEYKHMOUSA, M., MAHDIANPARI, M., GHANBARI, H., MOHAMMADIMANESH, F., GHAMISI, P.,
HOMAYOUNI, S. 2020. Support Vector Machine Versus Random Forest for Remote Sensing Image
Classification: A Meta-Analysis and Systematic Review. IEEE Journal of Selected Topics in Applied Earth
Observations and Remote Sensing, vol. 13, pp. 6308-6325. DOI: 10.1109/JSTARS.2020.3026724.
VIEIRA, H.C., LOPES DA SILVA, E., DOS SANTOS, J.X., BOLZON DE MUÑIZ, G.I., RIBEIRO MORRONE, S.,
NISGOSKI, S. 2019. Wood colorimetry of native species of Myrtaceae from a Araucaria Forest. Floresta 49(2):
353-362. DOI: 10.5380/rf.v49 i2.58236
Gráfico 1. Sensibilidad media en función del número
de muestras de cada material.
Gráfico 2. Relación entre el parámetro kappa
y la exactitud, y clasificación de los modelos.
98
VIEIRA, H.C., DOS SANTOS, J.X., SOUZA, D.V., RIOS, P.DEA., BOLZON DE MUÑIZ, G.I., RIBEIRO MORRONE,
S., NISGOSKI, S. 2022. Applying colorimetry for wood differentiation of fabaceae species grown in southern
Brazil. Maderas. Ciencia y tecnología, 24(16). DOI: 10.4067/s0718-221x2022000100416
ResearchGate has not been able to resolve any citations for this publication.
Article
Full-text available
Background The identification of tropical African wood species based on microscopic imagery is a challenging problem due to the heterogeneous nature of the composition of wood combined with the vast number of candidate species. Image classification methods that rely on machine learning can facilitate this identification, provided that sufficient training material is available. Despite the fact that the three main anatomical sections contain information that is relevant for species identification, current methods only rely on transverse sections. Additionally, commonly used procedures for evaluating the performance of these methods neglect the fact that multiple images often originate from the same tree, leading to an overly optimistic estimate of the performance. Results We introduce a new image dataset containing microscopic images of the three main anatomical sections of 77 Congolese wood species. A dedicated multi-view image classification method is developed and obtains an accuracy (computed using the naive but common approach) of 95%, outperforming the single-view methods by a large margin. An in-depth analysis shows that naive accuracy estimates can lead to a dramatic over-prediction, of up to 60%, of the accuracy. Conclusions Additional images from non-transverse sections can boost the performance of machine-learning-based wood species identification methods. Additionally, care should be taken when evaluating the performance of machine-learning-based wood species identification methods to avoid an overestimation of the performance.
Article
Full-text available
Because of the need for identification of forest species, especially for detection of illegal wood trade, the objective of this study was to evaluate the potential of colorimetry for differentiation of Inga vera Willd., Muellera campestris (Mart. ex Benth.) M.J. Silva & A.M.G. Azevedo and Machaerium paraguariense Hassl., species of the Fabaceae family, native to the Araucaria Forest in the state of Santa Catarina, southern Brazil. Discs at breast height were collected from three trees of each species and the colorimetric parameters (L*, a*, b*, C* and h) and visible spectra were evaluated in different radial position of the trunk (near bark, intermediate and near pith) and three different anatomical sections (transversal, radial and tangential surfaces). Mean values of hue angle (h) among the colorimetric parameters resulted in the highest potential for species discrimination. With respect to radial trunk position and anatomical section, parameters a* (green-red) and h were not statistically different, independent of the wood samples evaluated. For other parameters (L*, b* and C*), each species presented distinct results. Principal component analysis with second derivative of visible spectra discriminated all species. Colorimetry associated with chemometrics allowed to distinguish I. vera, M. campestris and M. paraguariense.
Article
Full-text available
Several machine-learning algorithms have been proposed for remote sensing image classification during the past two decades. Among these machine learning algorithms, Random Forest (RF) and Support Vector Machines (SVM) have drawn attention to image classification in several remote sensing applications. This paper reviews RF and SVM concepts relevant to remote sensing image classification and applies a meta-analysis of 251 peer-reviewed journal papers. A database with more than 40 quantitative and qualitative fields was constructed from these reviewed papers. The meta-analysis mainly focuses on: (1) the analysis regarding the general characteristics of the studies, such as geographical distribution, frequency of the papers considering time, journals, application domains, and remote sensing software packages used in the case studies, and (2) a comparative analysis regarding the performances of RF and SVM classification against various parameters, such as data type, RS applications, spatial resolution, and the number of extracted features in the feature engineering step. The challenges, recommendations, and potential directions for future research are also discussed in detail. Moreover, a summary of the results is provided to aid researchers to customize their efforts in order to achieve the most accurate results based on their thematic applications.
Article
Full-text available
Morphological characteristics are still the most used tools for the identification of plant species. In this context, leaves are the most available plant organ used, given their perenniality and diversity. Computer-based image analysis help extract morphological features for botanical identification and maybe a solution to taxonomic problems requiring extensively trained specialists that use visual identification as the primary method for this approach. In this study, were collected 40 leaves from 30 trees and shrub species from 19 different families. Here, we compared two popular image capture devices: a scanner and a mobile phone. Features analyzed comprised color, shape, and texture. The performance of both devices was compared through three machine learning algorithms (adaptive boosting—AdaBoost, random forest, support vector machine—SVM) and an artificial neural network model (deep learning). Computer vision showed to be efficient in the identification of species (higher than 93%), with similar results obtained for both mobile phones and scanners. The algorithms SVM, random forest and deep learning performed more efficiently than AdaBoost. Based on the results, we present the Inovtaxon Plant Species Identification Software, available at https://github.com/DeborahBambil/Inovtaxon.
Article
Full-text available
Colorimetric parameters have potential to differentiate tree species through their wood type. Therefore, this can be used to aid the inspection of illegal trade. Thus, considering the need to identify species with precision and speed, this study aimed to explore the potential of these parameters in order to characterize wood of some species of native Myrtaceae from the Araucaria Forest: Campomanesia xanthocarpa Berg., Eugenia pyriformis Cambess., Myrcia retorta Cambess., and Plinia Peruviana (Poir.) Govaert. Twelve trees were collected randomly – three per species – for the removal of a disc at diameter at breast height (DBH). We took samples from three regions of the disc (next to the bark, intermediate and next to the pith) and analyzed them in three anatomical sections (transversal, radial and tangential) by the system CIE L*a*b* using a bench colorimeter. We analyzed the data based on the following criteria: test of means in order to differentiate species, quantitative factor analysis (considering the region of the disc and the anatomical section as factors), and principal components analysis (PCA). Then, we used the original spectrum and the values of parameters L*, a* and b* in order to verify the distribution of the species. The analysis determined that the species present different values for the colorimetric parameters. In addition, the factors region of the disc and anatomical section have specific influence for each species. Finally, the PCA indicated that only E. pyriformis differs from the others.
Article
This paper presents a general statistical methodology for the analysis of multivariate categorical data arising from observer reliability studies. The procedure essentially involves the construction of functions of the observed proportions which are directed at the extent to which the observers agree among themselves and the construction of test statistics for hypotheses involving these functions. Tests for interobserver bias are presented in terms of first-order marginal homogeneity and measures of interobserver agreement are developed as generalized kappa-type statistics. These procedures are illustrated with a clinical diagnosis example from the epidemiological literature.