Article

Análisis de Datos Multivariantes

Authors:
To read the full-text of this research, you can request a copy directly from the author.

Abstract

Introducción -- Álgebra matricial -- Descripción de datos multivariantes -- Análisis gráfico y datos atípicos -- Componentes principales -- Escalado multidimensional -- Análisis de correspondencias -- Análisis de conglomerados -- Distribuciones multivariantes -- Interferencia con datos multivariantes -- Métodos de inferencia avanzada multivariante -- Análisis factorial -- Análisis discriminante -- Discriminación logística y otros métodos de clasificación -- Clasificación mediante mezcla de distribuciones -- Dependencia entre conjuntos de variables: correlación canónica y otros métodos -- Apéndice -- Referencias

No full-text available

Request Full-text Paper PDF

To read the full-text of this research,
you can request a copy directly from the author.

... 1. Fijar objetivos del análisis factorial 2. Diseñar el análisis factorial 3. Supuestos en el análisis factorial 4. Estimación de los factores y valoración del ajuste general 5. Interpretación de los factores 6. Validación del análisis factorial Para el tratamiento de datos perdidos o faltantes, se aplicará un proceso de imputación múltiple, el cual consiste en reemplazar los datos perdidos por estimaciones; en relación a los datos atípicos, que pueden defi nirse como aquel punto que se encuentra lejos del centro de los datos (Peña, 2002), se emplearán la prueba de Grubbs, el criterio de Peirce y la prueba Q de Dixon. Para evitar obtener datos atípicos se realizará un análisis preliminar para detectar valores extremos mediante los residuos del modelo; en caso de detectarse, se evaluará si procede de un error humano o del instrumento de medida para ser corregido (Abellana y Farran, 2015). ...
... A partir de lo anterior mencionado, es que el análisis de conglomerados o de clúster se considera como el método estadístico idóneo para el estudio de la cooperación empresarial, ya que, identifi ca patrones a partir de una muestra de observaciones a través de las cuales se ha logrado clasifi car en grupos considerados como homogéneos o, dicho de otra manera, con características similares entre ellos (Peña, 2002). Una de las principales acciones del método de conglomerados es que la aplicación e implementación del mismo dentro de los estudios permite la construcción de estructuras jerárquicas, a través de las cuales se puede encontrar una partición de observaciones con un número de grupo bien defi nido, además de la disminución en sus dimensiones o la cantidad de variables (Peña, 2002). ...
... A partir de lo anterior mencionado, es que el análisis de conglomerados o de clúster se considera como el método estadístico idóneo para el estudio de la cooperación empresarial, ya que, identifi ca patrones a partir de una muestra de observaciones a través de las cuales se ha logrado clasifi car en grupos considerados como homogéneos o, dicho de otra manera, con características similares entre ellos (Peña, 2002). Una de las principales acciones del método de conglomerados es que la aplicación e implementación del mismo dentro de los estudios permite la construcción de estructuras jerárquicas, a través de las cuales se puede encontrar una partición de observaciones con un número de grupo bien defi nido, además de la disminución en sus dimensiones o la cantidad de variables (Peña, 2002). ...
... Nevertheless, the study question of this paper fits the purpose of using them. Thus, the general specification of the binomial logistic model, being p i the probability of earning a salary plaće nižeg od prosjeka u španjolskom gospodarstvu, a nezavisne varijable (X ki ) su sljedeće (Peña, 2002): ...
... Drugi najveći skup okuplja sve umjetne varijable: "spol" (Gen) koji je podijeljen na muški i ženski; "vrsta ugovora" (TC) s time da 1 označuje "ugovor na neodređeno vrijeme", a 0 znači "ugovor na određeno vrijeme"; "vrsta radnog dana" (TWD) s 1 za "ugovor na puno radno vrijeme" i 0 za "ugovor sa skraćenim radnim vremenom"; i "odgovornost" (Res) s oznakom 1 za "da" i suprotno. Slijede određene kategorijske varijable, postavljene kao umjetne za model: "neusklađenost obrazovanja" (EM) -"prikladna kvalificiranost", "nekvalificiranost" i "prekvalificiranost", "veličina" -"tvrtke s 9 zaposlenika", "tvrtke s 10-50 zaposlenika" i "tvrtke s više od 50 zaposlenika"; "stručna sprema" -"službenici", "poluk-lower than the Spanish economy average, and the independent variables (X ki ), goes as follows (Peña, 2002): ...
Article
Full-text available
The hospitality industry is commonly perceived as having low-added value and providing precarious jobs. Heretofore, academics have delved into measuring the determining factors of wages and the wage gap, especially between genders, but the latter question is not fully developed. Thus, through binomial logistic regressions and 2018 data from the Spanish Wage Structure Survey, this study analyses whether the gross hospitality wages are under the Spanish national average and which factors may influence that from traditional human capital and wage decomposition variables. The results show the significant impacts of gender, type of contract, responsibility, firm size and labour regulation to prevent salaries from falling under the national average. Conversely, there are striking impacts of overeducation and the category of the occupations on increasing the chances of earning below it. The findings fill a small but significant gap in the labour economics literature that may enable the stakeholders to better design job positions. Limitations revolve around the future implications of the recent labour reform.
... o r g / 1 0 . 1 5 4 4 6 / i n n o v a r . v 3 4 n 9 2 . 1 0 1 0 6 3 1 tipologías dentro de la muestra recolectada se requiere de algunas técnicas multivariadas que resultan las más apropiadas, dado que, como menciona Peña (2002), dentro de los objetivos de este tipo de análisis se encuentra detectar grupos en los datos si existiesen. Por lo tanto, a partir de estas técnicas se espera obtener la clasificación de las observaciones y se podrán establecer las tipologías de acuerdo con las tendencias en las variables que componen los índices exploratorios construidos (tabla 1). ...
... Al analizar la estructura de los datos, también se debe tener en cuenta la matriz de correlaciones o el grado de asociación lineal entre los componentes clave de competitividad, como lo es el análisis de componentes principales. Este segundo paso tiene por objetivo facilitar la descripción e interpretación de los datos (Peña, 2002). Otros trabajos, como los de Bedoya et al. (2017), han utilizado esta herramienta multivariada para describir la caracterización estructural de los micronegocios del sector manufacturero en Cartagena. ...
Article
Full-text available
Los micronegocios son las unidades económico-sociales más frecuentes en Colombia; no obstante, estos usualmente cuentan con condiciones adversas para su desarrollo y sostenibilidad. Así pues, por medio de este trabajo se busca identificar los principales aspectos de fortalecimiento para la reactivación y competitividad de los micronegocios en la ciudad más poblada del país, Bogotá. Para lograrlo, se utilizó un enfoque metodológico cuantitativo estadístico de análisis de conglomerados mixto, aplicado a una muestra de 1.197 micronegocios, recolectada durante el primer semestre del 2021. Se evidenció que los micronegocios se pueden tipificar en tres grandes grupos: el primero (43%), de competitividad media; el segundo (24%), de competitividad baja, y el trcero (33%), de competitividad alta. Por otra parte, dado que los métodos para la obtención de la muestra no fueron totalmente aleatorizados, esta investigación tiene implicaciones para la generalización de los resultados. Sin embargo, debido a que existen muy pocos estudios focalizados en este tipo de unidades económicas, la presente investigación contribuye a la comprensión y visibilización de esta población. Finalmente, se exponen conclusiones y recomendaciones que pueden servir como insumo para la formulación de futuros proyectos o políticas públicas.
... This clustering method is selected in this paper because it is rather simple to implement, it allows to consider the influence of socio-economic variables that are determinant of Pax, it can process large amounts of data, and the most important, the clusters obtained are easy to interpret. The k-means algorithm is the following (Peña, 2002): ...
... One of them is based on an approximation of the F test of variability reduction with the aim to create homogenous groups that minimize the within-cluster sum of squares. This test calculates the proportional variability reduction obtained when go from k to k + 1 cluster (Peña, 2002). The F test value is compared with the critical value of a F distribution with p, p(n− k− 1) degrees of freedom, where p is the number of variables used in the k-means methodology for segmenting data. ...
Article
A methodology to estimate the unmet demand is developed using machine learning algorithms. The unmet demand in an origin-destination airports pair (OD pair) is the unattended number of passengers that could not fly because of economic conditions of supply and demand. The forecast of the unmet demand is important for strategic decisions of new planning such as opening new routes, increasing/decreasing number of services, and aircraft choice. The first contribution of this paper is to develop a single-class methodology to unconstraint or detruncate pax demand to estimate the market size of an OD pair. This methodology mixes time-series methods with the bootstrap distribution function and machine learning algorithms. This methodology considers socioeconomic variables at community zone and airport levels to forecast the market size of an OD pair. The second contribution of this paper is to design a methodology that estimates the unmet demand of an OD pair. The advantage is its ability to simulate the unmet demand based on statistical analysis with a confidence level of (1-α)%. The calculations are evaluated by describing the distribution of the market size historical data because distribution functions give the possibility to calculate pax demand without knowing the parameters that have an influence on it. Finally, the third contribution of this paper is to develop an approach to identify new airline OD pairs which could be considered as potential airline markets with certain risk level. This approach is based on the calculations of the OD pair unmet demand and OD pair pax demand forecast on four scenarios. The proposed methodology is applied to the US air pax industry as case study. The results indicate that hubs airports are under extreme competition. Small and primary airports located in big cities are not under competition in some quarters meaning that socioeconomic factors among airports change according with the seasonality of year.
... The covariance matrix was selected because it gives an excellent expression of the variance in the representation plane of the new variables. The distribution of the selected spores and pollen in the studied section is shown as the species scores on the first, second and third axes of the PCA ordination diagrams (Supplementary material, Fig. 1), The final transformed variables (PC1, 2 and 3) explain more than 80% of the original variability according to Peña (2002). Cluster analysis (Q-mode) using Euclidean distance (Appendix 2) was applied to complement the PCA analysis in order to group samples with similar taxa, and therefore, similar influences of each SEG. ...
Article
The Los Molles Formation (Early–Middle Jurassic) in the Picún Leufú Sub-basin, Neuquén Basin, Argentina, is a clastic unit accumulated in a marine-delta system. Its deposits are rich in organic matter, and provide a detailed record for palaeoenvironmental reconstruction. The present contribution integrates sedimentological and palynological data from the Painemilla section (0-100 m interval) to infer palaeoenvironmental, palaeoecological, and palaeoclimatic conditions. The palaeoenvironment evolved from a hyperpycnal littoral delta during wetter periods to a marine littoral delta system during drier ones. The five identified palynofacies-types show a high terrestrial input due to the predominance of phytoclasts. PT-1, 2 and 5 are associated with light hyperpycnites, while PT-3 and 4 characterise offshore/prodelta deposits. Sporomorph assemblages dominated by Hirmeriellaceae and Araucariaceae are consistent with a seasonally dry (winterwet) biome. The highest values of Araucariaceae show a good correlation with the parasequences, representing the maximum water input into the basin. The Callialasporites complex record suggests an age no older than late Toarcian. A Sporomorph Ecogroup (SEG) analysis is applied for the first time in the Los Molles Formation. Principal Components Analysis points to variations in palaeoecology and the taphonomic component in the record (water/wind-transport taxa). This analysis reveals an active participation of the Coastal (Hirmeriellaceae), Lowland (Araucariaceae and Umkomasiaceae) and Riverside (Caytoniaceae) SEGs throughout the entire section, showing an increase in the Upland SEG supply towards the upper part of the section. This study highlights the role of light hyperpycnal flows in the sedimentary and palynological records, providing new insights into Jurassic palaeoenvironmental and ecological dynamics in the Neuquén Basin.
... 6 Transformar las variables al restarle su media y dividirla entre su desviación estándar, con el fin de quitarles efectos de escala 7 El MCM utiliza la "distancia ji-cuadrado", la cual pondera las diferencias en frecuencia relativa entre dos atributos de manera inversamente proporcional a la frecuencia. 8 Para una revisión más detallada de la técnica consultar el capítulo 7 de Peña (2002) y Greenacre (2007). para la categoría cero (no tiene agua entubada) es positiva y la de categoría uno es negativa (tiene agua entubada). ...
Technical Report
Full-text available
En el presente estudio se analiza la movilidad relativa intergeneracional de los mexicanos diferenciando por su condición de empresarios, empleados o auto-empleados. Para realizar el análisis se construye un índice de riqueza para dos generaciones (entrevistado y hogar de origen) mediante el método de correspondencias múltiples (MCM). Los resultados muestran que los empresarios experimentan mayores posibilidades de movilidad ascendente que los empleados y auto-empleados para aquéllos que parten del extremo inferior de la distribución. Por otro lado, también existen mayores posibilidades de reforzamiento de posición para aquellos empresarios con un origen en el quintil más alto. En lo que se refiere a la condición de ocupación del padre/jefe del hogar de origen, la misma tendencia anterior se cumple para los empresarios con respecto a los autoempleados, pero no pueden diferenciarse de aquéllos con padres/jefes del hogar de origen con condición de empleados.
... Para una revisión más detallada de la técnica consultar el capítulo 7 dePeña (2002). ...
Technical Report
Full-text available
Se propone el método de correspondencias múltiples (MCM) para construir un índice de riqueza que permita hacer análisis de movilidad relativa entre dos generaciones (padres e hijos). Para el ejercicio se utiliza la EMOVI-2006, instrumento con representatividad nacional para hombres jefes de hogar que cuenta con información retrospectiva. El uso del MCM resulta preferible cuando se utilizan sólo variables no continuas (categóricas), esto, debido a que utiliza las frecuencias relativas de cada categoría en cada una de las variables. Los resultados muestran que, por un lado, el grupo de mayor edad presenta mayores opciones de movilidad ascendente para los encuestados con un origen en el extremo inferior de la distribución. Sin embargo, este mismo grupo de edad muestra una mayor inmovilidad para aquellos encuestados provenientes del extremo superior de la distribución. A partir de la construcción de un índice que mide el grado de movilidad social en los extremos de la distribución, se concluye que la movilidad intergeneracional es menor en el grupo de mayor edad.
... To enhance the quality of the solution, the vectors x i should undergo a second normalization step to ensure they have a length of one before employing any clustering technique, as outlined in [12]. Once this step is completed, the normalized y i vectors can be clustered using point cloud algorithms like k-means [30] or any other agglomerative clustering approach [31]. ...
Article
Full-text available
This paper presents a methodology for reducing the complexity of large-scale power network models using spectral clustering, aggregation of electrical components, and cost function approximation. Two approaches are explored using unconstrained and constrained spectral clustering to determine areas for effective system reduction. Once the system areas are determined, both loads and generators by type are aggregated, and their new cost function is approximated through polynomial curve-fitting or statistical methods. The performance of reduced networks is evaluated in terms of their ability to follow the true daily cost of the original system over a 24-hour period considering a set of several days. Two test systems are taken as test beds. Application of the methodology to a modified version of the IEEE 39-bus system reduces it from 17 generators to a 4-bus system and 9 generators with about 93% of accuracy. Similarly, the IEEE 118-bus system is reduced from 19 generators to a 3-bus system with three aggregated units achieving over 99% of accuracy. These findings address scalability challenges and enhance accuracy for high and mid-loading level conditions, and by aggregating thermal units with similar cost functions.
... Para poder caracterizar y clasificar formalmente las estructuras monticulares se parte de la estadística multivariante como técnica para analizar los datos generados a partir de los MDT. Esta metodología permite el estudio de varios parámetros medidos y observados con el objetivo de describir las características principales de los datos, encontrar agrupaciones y relaciones de dos o más conjuntos de variables y poder clasificar las observaciones en grupos definidos (Peña, 2013 1. Confección de histogramas para representar gráficamente las variables en forma de barras y ver la distribución de los datos del muestreo estadístico. ...
Thesis
Enlace de descarga repositorio Colibrí de Facultad de Humanidades y Ciencias de la Educación (Montevideo, Uruguay) https://hdl.handle.net/20.500.12008/47421 La propuesta de investigación se centra en la caracterización de la variabilidad de la arquitectura monticular en tierra en Uruguay, durante la segunda mitad del Holoceno, a partir de la documentación y análisis con tecnologías geoespaciales. El abordaje se orienta a la documentación y análisis morfométrico de los montículos en tierra o cerritos de indios, a partir de la instrumentación de una metodología que permite caracterizar, interpretar y reproducir la variabilidad y tipologías constructivas. Esta caracterización sobre la variabilidad arquitectónica, todavía no abordada sistemáticamente en la investigación, se relaciona con información contextual, funcional y cronológica del registro arqueológico. Los resultados pretenden aportar a una perspectiva cognitiva, pudiendo complementar la información respecto a los modos de ocupación y transformación del espacio social en sociedades prehispánicas, así como a una perspectiva patrimonial en la instrumentación de una metodología integral de registro y análisis arqueológico que favorezca una mejor gestión del patrimonio cultural abordado. La hipótesis de investigación trata de profundizar en aspectos tipológicos y contextuales que evidencien las estrategias constructivas y sociales, inherentes en las construcciones monticulares en tierra, que por sus dimensiones, localización y relaciones espaciales son consideradas arquitecturas y construcciones monumentales en parte de la investigación arqueológica. El estudio se focaliza en dos regiones representativas de la arquitectura monticular en tierra del Uruguay: Tacuarembó (cuenca del Yaguarí, cuenca del Caraguatá y Paso de Aguiar) y Rocha (cuenca del Chafalote, India Muerta y sierra de los Ajos). La aplicación de tecnologías geoespaciales y análisis morfométricos sobre modelos digitales del terreno se presenta como el planteamiento metodológico para abordar de forma sistemática y precisa los parámetros, atributos y variables métricas que puedan caracterizar la morfología, variables tipológicas y escala de las estructuras monticulares en tierra.
... Aunado a lo anterior, según Peña (2002), las técnicas de conglomerados jerárquicos permiten formar grupos homogéneos con respecto a ciertas similitudes entre los elementos, por lo que se utilizaron estas técnicas con la finalidad de construir grupos para perfilar a las personas graduadas que realizan investigación. Las técnicas se caracterizan por determinar el número de grupos en los que se clasifican debido a que las personas dentro del grupo son homogéneas entre sí. ...
Article
Full-text available
El artículo presenta el análisis que se llevó a cabo para determinar el perfil de las personas que realizan investigación posterior a la graduación del posgrado en las universidades estatales de Costa Rica, ya que no se han desarrollado análisis que identifiquen las características principales de las personas investigadoras. Además, permite determinar el aporte de los posgrados a la vinculación y al desarrollo de la investigación para la toma de decisiones. El enfoque de la investigación es cuantitativo, la base de datos se obtuvo del “Estudio de las personas graduadas de posgrado 2017-2019 de las universidades estatales”, los datos fueron recolectados en el año 2021 por el Consejo Nacional de Rectores. Para el análisis se seleccionaron las personas graduadas de posgrado que participaron en procesos de investigación posteriores a la graduación, en total 1 240 personas. Se utilizaron las técnicas de conglomerados jerárquicos para construir grupos y perfilar a las personas graduadas que realizan investigación. Se calcularon las distancias: el vecino más cercano, el vecino más lejano, el salto promedio y la distancia de Ward para determinar las similitudes dentro de la composición de los grupos. En relación con la distancia entre las personas graduadas que realizan investigación, se utilizó la distancia de Gower. Se concluye que se conforman tres grupos de personas que realizan investigación a nivel de posgrado, caracterizados principalmente por el dominio de idiomas y el sector laboral al que pertenecen.
... One involves calculating the relative eigengap (see Section III-F2) as discussed in [17], [24], where the highest one determines the number of areas for load shedding. The other approach involves using agglomerative hierarchical clustering algorithms [29], where a dendrogram helps determine the number of areas that can be built based on the hierarchy of the similarity matrix. In this work, we consider the latter approach following the work of [25]. ...
Article
Full-text available
This work presents a proactive distributed model for power system frequency stability. High-level penetration of renewable energy sources into the grid have introduced unforeseen and unmodeled system dynamics. Underfrequency load shedding state-of-the-art solutions are reactive in design, with efficiency constrained by the modeling error. Being able to detect unstable conditions early makes it possible to generate optimized corrective actions. In this work, phasor measurement units are used to predict frequency values. When a disturbance is detected, the state of frequency is predicted a few seconds into the future via a particle filter algorithm. Corrective actions are modeled through a mixed integer linear programming algorithm within system areas established through spectral clustering. The solution is implemented on Matlab , considering IEEE test systems. The proactive design of the method combined with its multiple layers of optimization deliver results that outperform state-of-the-art solutions. Easy-to-implement model, without hard-to-derive parameters, highlights potential aspects towards real-life implementation.
... Fuente: elaboración propia. Para el Análisis Factorial Exploratorio (AFE) sobre los ítems que integran el cuestionario redefinido, respecto del presentado en Schweickardt (2023a), y aplicado a efectos de obtener los datos componentes de la muestra, fue utilizado el software STATA, siguiendo a Peña (2002). En la Tabla 1, se observan la medida de adecuación muestral de Kaiser-Meyer-Olkin (KMO) (Kaiser, 1974), y el α de Cronbach (Cronbach, 1951), por ítem y global. ...
Article
Full-text available
El presente trabajo evalúa la percepción de la calidad del servicio técnico en sistemas de distribución eléctrica, centrándose en clientes residenciales de zonas urbanas y suburbanas. Utilizando un modelo de ecuaciones estructurales (CB-SEM) con análisis multi-grupo, se evalúa la existencia de diferencias significativas en las percepciones de ambos grupos. Se estudian dos constructos independientes: ‘Frecuencia y Tiempo de Fallas’ y "Atención a Reclamos ante interrupciones no programadas del servicio", en relación con el constructo dependiente "Calidad de Servicio Técnico". La investigación contrasta hipótesis de moderación que suponen mayor sensibilidad en clientes urbanos, justificando prácticas empresariales que priorizan su atención. Los resultados, sin embargo, rechazan ambas hipótesis, mostrando que no hay diferencias estadísticamente significativas entre los dos grupos. Este hallazgo cuestiona ciertas prácticas de algunas empresas distribuidoras, remarcando la necesidad de políticas regulatorias más equitativas sobre la calidad del servicio técnico que deben recibir los clientes. El estudio se basa en datos de una encuesta realizada en Bariloche, Argentina, durante 2023.
... Los componentes principales (pca) analizan si es posible representar de forma adecuada la información de n observaciones con p variables con un menor número de variables, las cuales son obtenidas como combinaciones lineales de las originales [16]; esto debe determinar el porcentaje de varianza, que se explica de todas las variables por parte de los componentes principales [17]. ...
Article
Full-text available
El presente trabajo aborda un estudio comparativo entre dos periodos: el primero abarca los dos años anteriores al inicio de la pandemia de covid-19 (2018 y 2019) y el segundo corresponde a los años durante la pandemia (2020 y 2021), en la ciudad de Bogotá, Colombia. Para esto se caracteriza el sistema y, mediante técnicas de agrupamiento y análisis geoespacial, se comparan ambos periodos, permitiendo identificar los cambios en el comportamiento de los incidentes y en la atención brindada, teniendo en cuenta el tipo de vehículo y la prioridad asignada. El análisis espacial identificó que las zonas suroccidental y sur fueron las más afectadas, además, que hay una diferencia en el comportamiento entre el periodo diurno y nocturno. En general, la época de pandemia resultó en mayores tiempos de respuesta, en especial ante incidentes de salud mental, y las zonas mencionadasaumentaron su afectación, debido al crecimiento de los incidentes.
... El ACM fue una técnica desarrollada por Jean Paul Benzécri, la cual prescinde de distribuciones de probabilidad y de la inferencia estadística, tomando como base métodos geométricos (Peña, 2002). Se utiliza esta técnica puesto que todas las variables son nominales, además que los datos presentan un esquema de tablas multidimensionales; de este modo se pueden establecer las relaciones de dependencia e independencia de un conjunto de variables. ...
Article
En Ecuador actualmente existe un alto nivel de desempleo, pues, según el INEC, en 2023 el 3,4% de la Población Económicamente Activa está en esa condición, afectando principalmente a jóvenes y a mujeres; esto ha ocasionado que muchas personas, en su afán por trabajar, sean presas de la informalidad. Considerando este contexto, es necesario volcar la mirada hacia el sector popular y solidario en su aporte a la generación de empleo digno porque su filosofía es erradicar la pobreza, bajo los principios de: solidaridad, cooperación, autogestión y equilibrio salarial. Con estos antecedentes, el objetivo central de esta investigación es identificar los mecanismos que promueven un empleo digno en la economía popular y solidaria en la zona 6 del Ecuador. Para la investigación, se aplicó el método mixto; en lo cualitativo se recurrió a una revisión bibliográfica, en lo cuantitativo se aplicó una encuesta a 118 organizaciones de la EPS. De los resultados encontrados de las 118 empresas encuestadas, el 90,67% cumplen con el pago del salariobásicos, el 74,57% brindan oportunidades de trabajo tanto a hombres y mujeres y, el 64,4% ofrecen todos los beneficios de ley; en tanto que el 64,49 de las organizaciones no cumplen con los derechos y principios fundamentales. Palabras clave: economía popular y solidaria, empleo digno, sector financiero, sector real AbstractIn Ecuador there is currently a high level of unemployment, since according to the INEC in 2023, 3.4% of the Economically Active Population will be in this condition, mainly affecting young people and women; this has caused many people in their desire to work to fall prey to informality. Considering this context, it is necessary to look towards the popular and supportive sector in its contribution to the generation of decent employment, because its philosophy is to eradicate poverty, under the principles of: solidarity, cooperation, self-management and salary balance. With this background, the central objective of this research is to identify the mechanisms that promote decent employment in the popular and solidarity economy in zone 6 of Ecuador. For the research, the mixed method was applied; Qualitatively, a bibliographic review was used; quantitatively, a survey was applied to 188 EPS organizations. The results of this study revealed that the mechanisms that promote decent employment in the EPS, such as fair wages, job security, fundamental principles and rights of the worker, and job opportunities for men and women; They have a relevant impact on the generation of decent employment, therefore, it is concluded that the EPS organizations in zone 6 of Ecuador are those that promote decent employment for their workers. Keywords: popular and solidarity economy, decent employment, financial sector, real sector
... This method optimally represents observations in a smaller-dimensional space from a general p-dimensional space. Additionally, PCA transforms the original, generally correlated variables into new, uncorrelated variables, facilitating data interpretation [32,33]. ...
Article
Full-text available
Industry 4.0 represents a crucial technological revolution for the modernization and competitiveness of companies, offering tools that enhance the efficiency, productivity, and sustainability of industrial processes. Adopting these technologies is essential, especially in crucial sectors such as mining, where their implementation can radically transform operations. This study investigates the adoption of Industry 4.0 technologies among mining and non-mining companies in Chile, using data from the Survey of Access and Use of Information and Communication Technology in Companies. A Principal Component Analysis (PCA) identified the main variables influencing technological adoption. The results indicate that mining companies are significantly more advanced in integrating technologies such as ERP, SCM, and Big Data, which optimize their operational processes and strengthen their competitiveness. In contrast, non-mining companies show a more dispersed adoption, which could limit their capacity for innovation. These findings underscore the importance of developing differentiated public policies that promote technological adoption in SMEs and less advanced sectors, also encouraging the development of internal capacities and collaboration between businesses and government to accelerate digital transformation.
... En esta se contrastaron las categorías de contenido (prosocialidad, dinero) y de estilo ('nosotros' e ICD) identificadas en los mensajes de texto publicados en la red social digital Twitter por 18 alcaldes de ciudades capitales de Colombia, durante la campaña electoral y el inicio del periodo de gobierno. En la segunda etapa se implementó un diseño descriptivo multivariado (Peña, 2002), en el cual se realizó un análisis de correspondencia teniendo en cuenta el contenido de las cuentas oficiales de los alcaldes analizados y las variables categóricas de orientación política (izquierda-derecha) y contexto (campaña electoral-inicio del mandato). ...
Article
The use of language reflects different sociocognitive processes which are crucial in political psychology. In political communication in elections and governance, the manipulation of language to mobilize actions may be imperceptible by citizens, especially in the vast volumes of news posted on digital platforms like Twitter (now X). For this reason, we set out to analyse the differences in the linguistic style and content of the messages of 18 mayors of large cities in Colombia during the electoral campaign and the start of the period of governance through a two-stage design. We found that the politicians’ language during the electoral campaign had a persuasive function focused on promoting inclusive identities and generating empathy using prosocial topics. In contrast, the linguistic style during the term of office was more formal and complex, highlighting the legitimacy of the acts of governance. Differences were also found in the candidates on the left and right related to how they discuss economic issues during the electoral campaign. These findings show the need to take a multidisciplinary approach to address the effects of language and technology on the understanding and explanation of the psycho-political processes involved in elections and governance.
... Populations with more than five individuals from each island were included in statistical analyses. Cluster analysis with Euclidean distances and average clustering was used to visualize whether populations are structured, these groups are supported according to an approximately unbiased P value, that represents the support to these groups (Efron et al. 1996;Peña 2002). Cluster analysis was performed using the package PVCLUST of R (Suzuki and Shimodaira 2006). ...
Article
Full-text available
Despite the significance of the Galapagos archipelago, the richness of diverse groups such as braconid wasps remains poorly studied. Seven species of chelonine Braconidae are recorded for the Galapagos islands for the first time: Chelonus buscki Viereck, 1912, Chelonus carinatus Provancher, 1881, Chelonus johni Marsh, 1979, Chelonus refluus (Papp, 2010), Chelonus sulcifera (Papp, 2016), Chelonus topali (Papp, 1999), and Chelonus turgoclarus (Papp, 2010). No endemic species were identified for the islands. We also explore island population differences with respect to island area, age, and distance between islands. The populations of C. buscki and C. carinatus were statistically differentiated between islands. Morphological differences were associated with island area only for C. buscki while no relationship was found between differentiation and age or geographic distance between islands for any species. These results could be a consequence of recent colonization events.
... With the most relevant variables of the PCA, multivariate statistical analyses were carried out (cluster analysis with complete distance chaining and Euclidean distances) to determine the groups in the systems (Peña, 2002), considering each group resulting from the analysis as a variation factor. Finally, to determine and contrast the variables of the technological and socioeconomic factors that affect the profitability of each group, a Spearman correlation, an analysis of variance and Tukey comparison of means (P<0.05) were performed using the statistical software STATISTICA v7. ...
Article
Full-text available
The state of Campeche, Mexico, occupies first place in the production of Cucurbita argyrosperma Huber, with the municipality of Champotón contributing 7% of state production. Chihua squash production systems were characterized based on their technological and socioeconomic level by applying a semi-structured questionnaire to those responsible for the Chihua squash production systems. The data were analyzed using principal components, clusters, and comparison of means with the Tukey test (P≤0.05). Three groups of producers were identified: G1, G2, and G3, grouping 28, 100, and 8 people, respectively. G1 has intermediate land availability, intermediate salaried labor, producer organizations, seed processing, average purchase-sale contract, medium use of technologies, higher income per unit of area, and represents 20.58% of producers; G2 has lower land availability, lower number of salaried labor, low organization of producers, seed processing, no purchase-sale agreement, low use of technologies, lower income per unit of area and utility, and concentrates 73.53% of producers; G3 has greater availability of land, greater number of salaried labor and producer organizations, does not process seeds, has greater purchase-sale agreement, high use of technologies, average income values, and represents 5.88% of the producers. The group with the highest technological index was not the one with the highest profitability, which was determined by producer organizations and the availability of land.
... 3 Los grupos se establecieron aplicando un análisis de conglomerados utilizando el método de clasificación de Ward y la distancia euclidiana (Peña, 2002 • El grupo 1 concentra las estaciones que en general registran en sus sectores un alto porcentaje de horas con valores de velocidad del viento inferiores a 1.5 m/s, que a su vez se relacionan con menores valores de velocidad media del viento (ver Figura 5). ...
Book
El campo del viento no es otra cosa que el patrón espacial del viento, es decir, la dirección y velocidad predominantes en una localidad o región en un momento dado. Los resultados que aquí se consignan corresponden al análisis, en diferentes escalas de tiempo, de los datos de velocidad y dirección del viento registrados en las estaciones de la red meteorológica del sector sucro-energético. En las estaciones de la red, el sensor está ubicado a 10 m de altura sobre la superficie, contrario a las estaciones de tipo agroclimático, en las que el sensor se ubica a 2 m de altura. La programación de quemas agrícolas controladas es la razón de ser de la ubicación de los sensores de viento en las estaciones de la agroindustria.
... Esta técnica, hace parte de los métodos de análisis multivariados, permite reconocer patrones en un conjunto de datos, con el fin de clasificarlos en grupos con características similares (Peña, 2002). Según Arroyo López y Borja Medina (2018), esta técnica puede utilizarse en investigaciones en los que necesiten definir taxonomías con las mismas características subyacentes, formulación de hipótesis que relaciones grupos de variables u observaciones y en análisis confirmatorios asociados a la agrupación teórica de observaciones. ...
Article
Full-text available
Worldwide, suicide is considered a health problem where adolescents are most at risk. This work developed a method to assess and predict an early diagnosis of suicidal ideation among school adolescents through multivariate techniques: cluster analysis and artificial neural networks. Variables related to suicidal thoughts, plans and manifestation were analyzed in (n=638) adolescents. Cluster analysis identified 73.2% of adolescents with low suicidal ideation, 18.5% with medium suicidal ideation and 8.3% with high suicidal ideation. A neural network was designed with a correct classification capacity of 95.5%. The proposed method can discriminate and diagnose suicidal ideation in school adolescents. These results seek to create and develop initiatives focused on early detection and intervention to implementing educational and public policies preventing suicide among adolescents.
... El ACP muestra la separación de los Tipos de productores ganaderos en función del conjunto de variables utilizadas, permite discriminar los grupos en función de la influencia de las variables incluidas, así como la relación entre ellas. Las CP1 y CP2 quedan definidas de la siguiente manera: El MANOVA, a través de los centroides medios, así como de la información disponible en conjunto, permite la comparación del tipo de productor, el sistema de producción y la interacción entre ambos factores, considerando todas las variables de manera simultánea (Peña, 2002). Puede observarse que hay diferencias altamente significativas (Tabla 2). ...
Article
Full-text available
Cattle production acquired special relevance in the northeast of Río Negro province over sheep farming. The change in the sanitary status to the south of the Colorado River in 2013, favored the progressive development of the activity. In addition, the activities from irrigated areas were diversified including forage and grain production. The purpose of this work is to understand the practices and strategies developed by cattle producers, based on the following research questions, What level of homogeneity and heterogeneity do the livestock producers of the region present? How did the changes occurred in the region affected management and production management practices? The quantitative-qualitative approach oriented to the actors, allowed identifying tree livestock social types, as well as the relationship with the production systems, revealing itself as an effective methodology for understanding their specificities. The testimonies collected in this investigation give an indication of the changes that occurred in a sector that was favored by the economic conditions provided by the barrier that boosted the value of the farm, generating a greater number of opportunities.
... PCA identifies patterns and correlations between variables, transforming the original ones into new uncorrelated ones called Principal Component (PC) [35]. The appropriate num-ber of PCs was determined by establishing a threshold that cumulatively explains between 80% and 90% of the variance in the data, as described in the study by [2]. ...
Article
Full-text available
Breast cancer poses a global health challenge, with high incidence and mortality rates. Early detection and precise diagnosis are crucial for patient prognosis. Machine learning (ML) models applied to mammary biopsy image data hold promise for achieving an efficient and accurate breast cancer diagnosis. In this study, we evaluated the performance of several ML algorithms, including Logistic Regression (LR), Random Forest (RF), Naive Bayes (NB) and Support Vector Machine (SVM). We establish evaluation contexts by implementing data standardization and reducing the correlation between variables. Firstly, we select the best-performing parameters for each algorithm by building and evaluating the individual models. Then, we implement a combined model using weighted voting, where the weights of each model are determined based on its performance on the test dataset. The final model is constructed by combining the LR, RF and SVM models. We find that SVM is the best-performance individual model, so it has the highest weight in the final model. The final integrated model achieves an accuracy of 98%, a precision of 97%, a recall of 99%, an F1-score of 98% and an AUC of 0.98. Our weighted voting model compares favourably with the other models analysed. This approach demonstrates its efficiency and transparency in handling structured medical data. It is a prototype that will be refined and expanded to encompass larger real-world datasets.
... FAM.LEX. Índice a partir de PCA (Principal Component Analysis [Peña, 2002]) combinando los siguientes rasgos del controlador nominal extraídos de la base de datos BuscaPalabras (Davis & Perea, 2005): (1) Familiaridad (FAM): índice subjetivo que indica cuán frecuentemente una palabra es oída, leída o producida diariamente; ...
Article
Full-text available
Se analiza la dinámica de tres regímenes ocultos de aprendizaje en la producción de concordancia nominal de número en un corpus de cuatro aprendientes italófonos de español LE, en un estudio de caso longitudinal. En el marco de la teoría de los sistemas complejos, se aplicó un modelo bayesiano de descubrimiento de tópicos y un modelo de Markov oculto. La dinámica tendía a permanecer en el régimen asociado al atractor «correcto» (o regresar eventualmente a este) con las concordancias: (1) con controlador concreto, familiar y animado; (2) aplicando estrategias facilitadoras de aprendizaje; (3) con TYPES más frecuentes; (4) con «e» epentética; (5) formadas por más de dos miembros. En cambio, tendía a alejarse del atractor «correcto» con aquellas: (1) a larga distancia; (2) con modificadores que no eran artículos definidos; especialmente en los niveles bajos de competencia (A, B1). La simulación se aproximó a los datos empíricos, pero subestimó las probabilidades de emisión.
... According to [35] Cluster Analysis corresponds to a technique used with the purpose of identifying "hierarchical structures in the partition of the group of observations and the reduction of variables in the dimension of a problem under study". On the other hand, [36] state that this type of analysis provides classifications that can be used to find a set of data similar to each other. ...
Article
Full-text available
El artículo presenta un análisis de los perfiles de gestión de las instituciones bancarias que reportan a la Superintendencia de Bancos, específicamente a la Superintendencia Financiera de Colombia, mediante un análisis de clúster utilizando el software Minitab y un Análisis Discriminante Multivariante (MDA) con el software SPSS. Se realizó una revisión de la literatura relacionada con el tema de estudio utilizando el software SPSS. La literatura relacionada con el objeto de estudio se revisó inicialmente a través de artículos publicados en bases de datos como Scopus, Wos, Redalyc y Google Scholar. El tipo de investigación cuantitativa se estableció mediante el análisis estadístico de la información, llevando a cabo un análisis estadístico de datos en panel para el periodo de 2016 a 2021, obteniendo como resultado 4 clústeres, lo que ratifica la validación de la función discriminante, es decir, que los grupos tienen diferentes matrices de varianza-covarianza. También se concluye que, a pesar de la recesión económica en 2020, los niveles relativos de los indicadores de posición financiera de los bancos analizados permanecieron estables.
... El ACP es una primera técnica que se emplea para determinar variables ocultas que puede generar inconsistencia en el conjunto de datos (20). ...
Article
Full-text available
El Centro de Energías Alternativas y Ambientes de la Facultad de Ciencias de la ESPOCH tiene como principal objetivo contribuir con conocimientos al desarrollo de la investigación, ciencia y tecnología, en el ámbito de las energías alternativas y ambiente; es importante identificar regiones con similar comportamiento en la variable meteorológica velocidad de viento; en la provincia de Chimborazo-Ecuador, mediante el análisis de componentes principales. El estudio se realizó empleando la librería Factoshiny de R y los datos corresponden a los obtenidos de las estaciones meteorológicas Alao, Atillo, Cumandá, Espoch, Matus, Multitud, Quimiag, Tunshi y Urbina; durante el año 2015 en los meses de enero a noviembre. El análisis de componentes principales permitió identificar dos tipos de comportamientos en la velocidad de viento: el primero lo determina la región norte de la provincia, con zonas ubicadas a una altura superior que los 1000 ms.n.m.; y el segundo corresponde a la región del sub-trópico, misma que posee mayor diversidad, con fauna y flora totalmente diferente a la primera.
... Una vez recogidos los datos, el método de análisis seleccionado para encontrar los factores clave en el desarrollo de las competencias informacionales es el análisis factorial. Esta técnica se basa en el análisis de componentes principales, el cual tiene la finalidad de reducir la dimensionalidad de un conjunto de variables observadas (Peña, 2002). La estrategia de reducción de dimensiones, facilita la generación de modelos explicativos a través de factores, en donde se elimina la redundancia entre variables originales a la vez que se conserva gran parte de la información (Steegman et al., 2016). ...
Article
Full-text available
Este artículo presenta los resultados obtenidos en la investigación acerca del desarrollo de la competencia informacional en los estudiantes de primer año de la Facultad de Ingeniería de la Universidad de Santiago de Chile. La perspectiva desde la que abordamos el estudio de la competencia informacional de los estudiantes parte de la idea de que esta competencia forma parte esencial de la competencia profesional de los futuros ingenieros(as). Mostramos los resultados del comportamiento de la Competencia Informacional Auto-percibida (CIA) y Competencia Informacional Observada (CIO) en las cuatro sub-competencias de la competencia informacional. Se aplicaron para ello técnicas de análisis factorial para la reducción de dimensiones, con el propósito de eliminar la redundancia entre las variables originales; con dicha reducción se identificaron cinco componentes claves. También, se detectaron sub-interrelaciones entre las sub-competencias de la competencia informacional que pueden generar sinergias locales al interior de la competencia. Se destaca que de las cuatro sub-competencias, la búsqueda de información es la que presenta mayores dificultades en la autopercepción como en la competencia observada; mientras que la competencia observada de comunicación de información fue la mejor evaluada. No se encontraron diferencias estadísticamente significativas entre las variables demográficas y los niveles de desarrollo de la competencia informacional.
... Se parte de una matriz de dimensiones IxJ, que representa las frecuencias absolutas observadas de dos variables cualitativas en n elementos. La primea variable se representa por filas, y toma I valores posibles, y la segunda se representa por columnas y toma J valores posibles (20). Para la aplicación de dicha técnica en el trabajo de investigación se utilizó el software libre R mediante el paquete FactoMineR dedicado al análisis exploratorio de datos multivariados (20,21), se utilizó la función CA donde se aplica el análisis de correspondencia simple, se visualizó los resultados mediante varios biplot (fviz_ca_biplot). ...
Article
Full-text available
En este estudio se muestra los resultados obtenidos del diagnóstico socioeconómico de la parroquia Pungalá, realizado dentro del proyecto de Vinculación denominado “Desarrollo de servicios básicos relacionados con el ciclo del agua, la energía renovable y la salud pública de las comunidades rurales, mediante la implementación de baterías sanitarias autónomas y cocinas ecológicas en la parroquia de Pungalá”, con el fin de conocer la línea base de partida del proyecto. La recolección de información primaria se realizó mediante entrevistas aleatorias puerta a puerta a 292 jefes de hogar que habitan en las 26 comunidades de la parroquia, se aplicó un muestreo mixto con afijación proporcional de acuerdo a la densidad poblacional, la guía de entrevista tuvo alcance sobre: vivienda, propiedades, abastecimiento de agua, cultivo de terrenos, crianza de animales, gasto mensual familiar e información personal del hogar. Se realizó un análisis descriptico y de correspondencia al 95% de confiabilidad y un 5% de error en el cálculo del tamaño muestral. Se identificó que Pungalá está en el grupo socioeconómico D (bajo) según la encuesta de estratificación socioeconómica del INEC 2011.
... Tiene como objetivo reducir la dimensionalidad de los datos, esto es, explicar si dadas n observaciones de p variables (ítems del cuestionario) es posible representar adecuadamente esta información con un número menor o reducido de variables no observadas (latentes) llamadas factores que se obtienen de las correlaciones entre las variables observadas. Los factores se extraen como combinaciones lineales independientes de las variables originales (Peña, 2002). El contraste de adecuación muestral KMO y el test de esfericidad de Bartlett proporcionan información sobre la validez del modelo de análisis factorial (López Roldán y Fachelli, 2015). ...
Book
Full-text available
A día de hoy la ciencia se hace y circula a un ritmo vertiginoso, contribuyendo a generar ciertas dinámicas preocupantes en la relación entre ciencia y sociedad. Es una relación compleja por ser resultado de la interacción entre cuatro esferas que, a pesar de su mutua influencia, tienden a ser analizadas por separado: política, ciencia, comunicación y ciudadanía. A partir del modelo PICA sobre la imagen de la ciencia, el libro pone a prueba la hipótesis de que la dinámica de interacción entre estas esferas repercute en el modo en que los y las ciudadanas piensan sobre la ciencia. Esto genera estilos de pensar que se sitúan en un lugar del espacio definido por la actitud y la ideología hacia la ciencia. Por tanto, "Pensar la ciencia" identifica los estilos de pensar la ciencia en la sociedad española conformados a partir de estas dos dimensiones, su prevalencia y los factores que contribuyen a definirlos. Para ello se ha diseñado una herramienta de medida específica, el Cuestionario LAIC (Lente conformada por la Actitud y la Ideología hacia la Ciencia) cuyo proceso de desarrollo y validación se presenta también en el libro.
... Posteriormente se realizó un análisis de conglomerados, una técnica que permite agrupar elementos en grupos homogéneos en función de las similitudes entre ellos (Peña, 2002). Esto nos permitió determinar cinco grupos de problemas tipo. ...
Article
Full-text available
Introducción: El análisis de los problemas de matemáticas de las pruebas de acceso a Cuerpo de Profesores de Enseñanza Secundaria es un tema de gran interés para futuro profesorado. Este trabajo tiene el propósito de describir y clasificar dichos problemas. Método: Realizamos un análisis de contenido de los problemas de Cálculo Infinitesimal propuestos en España desde 2006 hasta 2018 y elaboramos un instrumento de recogida basado en el análisis de tareas matemáticas. Resultados: Los resultados muestran las características de cada una de las comunidades autónomas y la existencia de cinco tipos de problemas que se caracterizan por su aspecto fenomenológico. Conclusiones: Se establece un primer perfil modal de problema, de ámbito nacional, que es de cálculo diferencial y que demanda conocer y utilizar definiciones, utilizando funciones polinómicas, fracciones algebraicas o exponenciales en forma implícita y que está expresado de manera verbal-simbólico.
... Con esto se deduce que es la media de las variables , ya que y tienen media cero. Entonces es un vector de variables de tamaño ( 1) con distribución normal (Zamora et al., 2010;Peña, 2002). ...
Article
Full-text available
El consumo de un individuo depende de las características del producto, influencias externas y valores personales internos que impactan en la toma de decisiones con respecto a la compra de productos. El objetivo del estudio es analizar el consumo de los estudiantes de Facultad de Economía de la Universidad Veracruzana, durante un periodo escolar. Se definió una muestra de 107 estudiantes, se aplicó una encuesta para obtener información para que, posteriormente, se elaborara un Análisis Factorial, estudio de comunalidades y componentes, y descripción de tablas de contingencia. Se encontró que la decisión de consumo de los estudiantes universitarios está influenciada por hábitos de consumo externos, medios publicitarios y por la búsqueda de aprobación del entorno social. Los hábitos de consumo están representados por la compra de alimentos, ropa, productos de higiene personal y por el gasto en restaurante, bar, cafetería y antro. Factorial analysis of the behavior and consumption decisions of the students of the Faculty of Economics of the Universidad Veracruzana Abstract: An individual's consumption depends on the product's characteristics, external influences, and internal personal values that impact decision-making regarding the purchase of products. The study's objective is to analyze the consumption of the Faculty of Economics of the Universidad Veracruzana students during a school period. A sample of 107 students was defined, and a survey was applied to obtain information so that a Factorial Analysis, study of commonalities and components, and description of contingency tables were elaborated. We found that external consumption habits, advertising media, and the search for approval from the social environment influence the consumption decision of university students. Purchasing food, clothing, personal hygiene products, and spending in restaurants, bars, cafeterias, and clubs represent students' consumption habits.
... El análisis de conglomerados es un método de clasificación automática no supervisada, que tiene la finalidad de agrupar elementos homogéneos considerando las similitudes que existen. Este análisis busca solventar los siguientes problemas [15]: • Cada elemento debe pertenecer a un único grupo. ...
Article
Full-text available
El presente trabajo se enfoca en la optimización del seguimiento de máxima potencia (MPPT) en sistemas fotovoltaicos mediante el empleo de un enfoque basado en regresión lineal. El objetivo principal consiste en desarrollar un algoritmo de MPPT que utilice técnicas de regresión lineal para mejorar la precisión en la identificación y seguimiento del punto de máxima potencia. El algoritmo propuesto se desarrolla en el software MATLAB/Simulink, validándose a través de pruebas experimentales. Posteriormente, se amplía la aplicación del algoritmo a una red eléctrica modelada y simulada en el entorno de la herramienta HYPERSIM, este software permitirá abordar de manera más detallada y precisa la dinámica instantánea de las variables eléctricas y de control en sistemas complejos, mediante la variación de variables como temperatura e irradiación. La contribución innovadora de este trabajo no solo se circunscribe a la mejora de los algoritmos de MPPT, sino que también aborda de manera integral la integración de energías renovables en sistemas eléctricos. La eficacia del algoritmo basado en regresión lineal representa un avance crucial para maximizar la eficiencia y respuesta del control en sistemas fotovoltaicos. La optimización de la conversión de energía solar en electricidad utilizable no solo eleva la rentabilidad y sostenibilidad de estos sistemas, sino que también destaca el papel fundamental que desempeñan en la transición hacia un suministro eléctrico más sostenible.
... Using the MCA method, we obtain a two-dimensional graphical display of the information in the multiway contingency table (Rencher & Schimek, 2001). MCA is similar to principal components analysis (PCA), in that they share the objective of describing and interpreting the data, with the difference that PCA is based on the matrix of correlations between the variables and MCA is based on the matrix of similarities (or distances) between the individuals (Peña, 2002). The usual output from MCA includes the best two-dimensional representation of the data, along with the coordinates of the plotted points, and a measure (called the inertia) of the amount of information retained in each dimension (Johnson & Wichern, 2014). ...
Article
Full-text available
El deterioro del ambiente y en especial la crisis por la disponibilidad de agua, hallevado a que los países en vía de desarrollo avancen en la protección, evitandoel vertimiento de aguas residuales y en el seguimiento a la calidad. En la ciudadde Medellín, se propuso el uso de la conductividad eléctrica como un indicadorde calidad de agua en el río Aburrá-Medellín como una alternativa para explicary mantener informada a la comunidad acerca de cómo están las estacionesde monitoreo del río a través de colores y así continuar sensibilizando en laimportancia del cuidado del agua. Con el fin de estudiar las variaciones espacialesy temporales de la calidad del agua en el río a partir del indicador conductividadeléctrica, y considerando los datos categóricos que se obtienen con el indicador,se asignó un número de 1 a 5 (muy mala, mala, regular, aceptable y buena calidad,respectivamente). En este artículo utilizamos métodos estadísticos como latabulación cruzada para describir las relaciones entre las variables categóricasa través de conteos y análisis de correspondencia múltiple para representar lasasociaciones entre los factores que afectan la calidad del agua usando los mapas decorrespondencia. Se encontró que los caudales bajos corresponden a las condicionesde calidad más críticas, y aunque se observa un deterioro a medida que el río fluyeaguas abajo (entre las estaciones de monitoreo) la influencia de los niveles de agua esmayor. El análisis estadístico mostró una asociación relativamente alta del indicadorde calidad y los caudales, además, que la calidad del agua se deteriora en la tarde y enlos años finales de monitoreo en caudales bajos.
... Para este estudio se utiliza la técnica de análisis factorial con el método de extracción de componentes principales en virtud de la naturaleza y relación de las variables. Esta técnica ofrece la posibilidad de reducción de variables y, es utilizada para explicar con un número menor de factores la variable observada (Peña, 2002), a más de ser utilizada en investigaciones sociales, particularmente, en propuestas de índices de gobiernos locales (Peón y Pérez, 2015;García et al., 2017, Alarcón y Hernández, 2020. Cabe mencionar, que el estudio consiste en determinar el desempeño fiscal de gobiernos locales mediante el análisis factorial, realizado en el software estadístico SPSS versión 23. ...
Article
Full-text available
The expansion of fiscal imbalances affects the functioning of fiscal federalism and the financial sustainability of local governments. The objective of this article is to determine the level of financial sustainability of Mexican municipalities through the fiscal performance index. The quantitative method was obtained with the multivariate technique of factor analysis to build the fiscal performance index. The results show that the highest fiscal performance does not have north-south geographic relationships, which are observed in the lowest performances. The originality of the study lies in proposing an index to determine the levels of financial sustainability. The main findings show wide fiscal imbalances, with the southeast region performing the worst and the main limitation of the study is the lack of information on the quality of public services.
... Se hizo la prueba de esfericidad de Bartlett en cada una de las matrices, obteniendo un valor de Chi-cuadrado alto con un valor p menor a 0.05 (Parte A: X²=4321,866 / gl= 465 / Sig=0,000 -Parte B: X²=6010,447 / gl= 595 / Sig=0,000). Por esto fue posible rechazar la hipótesis que indicaba que la matriz idéntica era una matriz cuadrada que tenía solo número uno (1) en la diagonal y que todas las variables tenían la misma varianza y estaban incorrelacionadas (25). La medida de adecuación muestral global de KMO generó como resultado valores muy cercanos a 1 en cada una de las partes (Parte A=0,926 y Parte B=0.945), considerados como índices "maravillosos" según Kaiser (24). ...
Article
Full-text available
Objetivo. Evaluar las propiedades psicométricas de un instrumento diseñado para medir el entorno laboral para la práctica asistencial de enfermería. Método. Estudio metodológico de 4 fases: 1) elaboración y redacción de ítems, 2) validez facial y de contenido por expertos, 3) prueba piloto, 4) validez de constructo y confiabilidad. Resultados. ENLASA-Enfermería es un instrumento que consta de 59 ítems distribuidos en 2 partes. Parte A: dimensión de componentes estructurales organizacionales y parte B: dimensión de procesos organizacionales. Los resultados obtenidos permitieron clasificar cada una de las partes como satisfactorias en términos de validez facial y de contenido; con consistencia interna satisfactoria y con una estructura interna que permitió reconocer los elementos conceptuales de un entorno laboral saludable que respaldan su contenido. Conclusiones. ENLASA-Enfermería es un instrumento válido y confiable, prometedor para la investigación y la evaluación de los entornos laborales saludables de enfermeros clínicos en el ámbito hospitalario en Colombia.
... In the probabilistic mixture models [43,45], the data are generated by one of the mixture components. For instance, it is proven that a mixture of Gaussians can approximate any type of continuous distributions, in particular multimodal ones [46]. ...
Article
Full-text available
Topic modelling has become a highly popular technique for extracting knowledge from texts. It encompasses various method families, including Factorial methods, Probabilistic methods, and Natural Language Processing methods. This paper introduces a unified conceptual framework for Factorial and Probabilistic methods by identifying shared elements and representing them using a homogeneous notation. The paper presents 12 different methods within this framework, enabling easy comparative analysis to assess the flexibility and how realistic the assumptions of each approach are. This establishes the initial stage of a broader analysis aimed at relating all method families to this common framework, comprehensively understanding their strengths and weaknesses, and establishing general application guidelines. Also, an experimental setup reinforces the convenience of having harmonized notational schema. The paper concludes with a discussion on the presented methods and outlines future research directions.
... This is a nonhierarchical clustering technique that uses the Euclidean distance between items to establish groupings. Its objective is to minimise the distances among items in the same group and maximise distances among groups (Peña, 2002). As mentioned in Section 2 of this paper, many studies in the literature on land use and transport studies consider clustering to identify typologies of SCAs (Vale, 2015;Higgins and Kanaroglou, 2016;Lyu et al., 2016;Jeffrey et al., 2019), which supports the applicability of this method to our research case study. ...
Article
After decades of sprawl and car-dependent urban developments, especially on the peripheries of metropolitan areas, new policies are being oriented towards more efficient and sustainable mobility. In the process of change towards more sustainable mobility patterns in peripheral areas, commuter railways must play a predominant role because of their capacity and speed. The main aim of this paper is to analyse commuter rail stations’ catchment areas (SCAs) to identify typologies of these nodes in large metropolitan areas as a key step in proposing strategies for making mobility much more sustainable, both in the medium and proximity scales, by promoting soft mobility towards stations, a strategy that will facilitate commuters’ use of daily rail transport. The method proposed is based on a twofold clustering analysis. The first is to consider urban-planning variables to detect consolidated stations; the second is to use both public space and land-use variables to characterise the quality of the urban environment for walking/cycling. These methods are applied in the metropolitan area of Madrid and offer some key insights. The results show that different typologies are found – from consolidated, dense and mixed-use SCAs, with large residential developments, to low-density SCAs in sprawl areas or low consolidated mixed-use SCAs with large parking spaces, following the park-and-ride model, among others. This identification of SCAs’ typologies is key for policy makers to propose different strategies, which could be small projects oriented towards improving public spaces promoting soft mobility, or deeper changes that require a re-densification process in the stations’ surroundings, breaking with the rigid definition of transit-oriented developments and adapting the decisions taken to each context.
... Esta metodología es propia del Análisis Estadístico Multivariante (Peña, 2002), (Osborne y Banjovic, 2016), (Aldás y Uriel, 2017) y (Mooi et al., 2018). Lo primero que debe aclararse, siguiendo a Osborne y Banjovic (2016), es que no debe ser confundido el ACP con el Análisis Factorial Exploratorio (AFE). ...
Article
Full-text available
En el presente trabajo se propone la construcción de un índice de calidad del servicio técnico (CST) sustentado en la percepción de los usuarios residenciales en un sistema de distribución eléctrica. Para ello, es empleado un modelo de ecuaciones estructurales estimado mediante la técnica de mínimos cuadrados parciales (PLS-SEM). Confirmada la bondad de ajuste del mismo, tanto en el modelo de medida como en el estructural, se procede a la determinación de los puntajes factoriales que resultan para el constructo dependiente, referido como CST, permitiendo el cálculo de un indicador asociado a la percepción de la calidad en cuestión para cada usuario residencial que integra la muestra, considerada representativa. Estos resultados se comparan con los obtenidos construyendo índices a partir de la técnica de Análisis de Componentes Principales (ACP) sobre la misma muestra, planteando cuatro enfoques diferentes de composición, congruentes con la observación práctica en esta clase de sistemas. Los datos empleados corresponden a un sistema real de distribución perteneciente a la ciudad de Bariloche, Argentina, obtenidos de una encuesta realizada en el año 2021.
... Para mayores detalles sobre estas técnicas, se recomienda revisarPeña (2002), así comoUriel y Aldás (2005). ...
Thesis
Full-text available
La naturaleza multicausal y multidimensional de la Pobreza no es considerada por los métodos clásicos de medición. En este trabajo, se propuso un método alternativo para medir Pobreza en Venezuela utilizando el enfoque de los modelos de clases latentes. Al ser la Pobreza un fenómeno social, no puede ser medida directamente por lo que se utilizó una metodología que permitió la evaluación a través de sus indicadores. Así, a partir de una conceptualización del término “Pobreza”, se definieron diversas dimensiones de la misma a las que se les asignaron posibles variables indicadoras de la Encuesta de Hogares por Muestreo, correspondiente al primer semestre del año 2007. El estudio se llevó a cabo en dos etapas, haciendo uso del Análisis de Clases Latentes en ambas: en la primera, se seleccionaron indicadores válidos para cada dimensión y luego, en la segunda, los indicadores seleccionados se estudiaron en conjunto, generándose diversos modelos de clases para la variable latente Pobreza. Se obtuvo que la Pobreza en Venezuela, para el semestre/año considerado, puede ser explicada mediante un modelo de cuatro (4) clases latentes en el que 28,67% de los hogares se podían considerar, dadas sus características, como “Hogares No Pobres de Estratos Altos y Medios”; 28,59% como “Hogares No Pobres de Estratos Populares”; 30,34% como “Pobres No Extremos”; y, finalmente, 12,40% como “Pobres Extremos”. Se concluye que a pesar de que los porcentajes de Pobreza encontrados son similares a cifras oficiales y otras presentes en la literatura, este abordaje permitió tomar en cuenta la multidimensionalidad de la Pobreza y la contemplación conjunta de diversas medidas que hacen posible una clasificación más completa y real que aquellas obtenidas mediante los procedimientos más clásicos.
... Para aplicar esta técnica, se requiere que todos los datos sean numéricos y, aunque a priori no se establecen relaciones de dependencia entre las variables, se espera que estén correlacionadas entre sí. Peña (2002) indica que en el PCA se dispone de una muestra de tamaño n acerca de p variables x 1 ,x 2 ,…,x p , para luego obtener a partir de ellas un numero k ≤p de variables incorrelacionadas c 1 ,c 2 ,…,c k que sean combinaciones lineales de las variables iniciales y que expliquen la mayor parte de su variabilidad. Es decir, lo que buscan las componentes principales es resumir, mediante nuevas dimensiones multivariables, qué es lo más importante de los datos analizados. ...
Article
Full-text available
Este artículo analiza la paz como dimensión del desarrollo sostenible, para lo cual estudia mediante técnicas multivariantes las relaciones entre ocho indicadores de los Objetivos de Desarrollo Sostenible, según datos reportados por 145 países con corte al año 2021. Se describen las diferencias y similitudes entre países, según su pertenencia al norte o al sur global, así como por continentes, para observar la pertinencia de conformar un clúster de naciones. Se concluye que hay una gran heterogeneidad entre países y regiones, y el índice de percepción de la corrupción es uno de los indicadores que genera mayor diferenciación. También se delimitan seis clústeres de países por situaciones similares, que permiten resumir los retos que enfrentan los países para fomentar la paz, la justicia y la constitución de instituciones gubernamentales sólidas.
Article
Full-text available
This paper aims to propose guidelines for an optimal relationship between a PPP unit and different entities that participate in a PPP process, according to the size of the country and considering the phases of the PPP process. We evaluate the different governance models of this type of alliances in the region. To this end, we analyze the role played in the PPP project cycle by the main public actors (PPP units, Ministries of Finance, Contracting Ministries and the Development Bank). We also seek to quantitatively analyze how the governance of PPPs influences the quality and quantity of projects through the incentives it creates for different actors. After diagnosing and elaborating the guidelines based on the analysis of incentives in institutional frameworks of selected countries, we tested the results considering the INFRASCOPE. This publication contains a ranking of LATAM countries concerning their willingness to carry out PPPs and for this purpose uses variables such as Regulations and Institutions, Project Preparation and Sustainability, Financing, Risk Management and Contract Monitoring, and Performance Evaluation and Impact. This exercise involves using principal component analysis to assess the robustness of the survey. To facilitate the analysis and interpretation, we standardized the scores of the factors assigned to each indicator along the scale from 0 to 100. The result of the exercise indicates that Brazil and Chile are the countries with the best governance conditions for PPPs. Peru, Costa Rica, Colombia, El Salvador and Mexico also have desirable levels of governance.
Article
Full-text available
El documento analiza la satisfacción de los usuarios con los servicios públicos básicos en México, como agua potable, drenaje, alumbrado público, parques, recolección de basura, seguridad pública y mantenimiento de calles y carreteras, basándose en los resultados de la Encuesta Nacional de Calidad e Impacto Gubernamental (ENCIG) realizada en 2021. El objetivo es evaluar la percepción de la población sobre estos servicios para mejorar su calidad y eficacia. Se destaca la importancia de contar con un método estandarizado para medir la satisfacción y la desigualdad en la prestación de estos servicios entre municipios. Para el estudio realizó un análisis descriptivo en donde se describieron los hallazgos sobre la satisfacción de la población de manera general respecto a los servicios públicos, tomando en cuenta todos los estados, haciendo uso de histogramas, gráficos de barras y una tabla comparativa con el número de usuarios satisfechos en cada servicio, así como el índice de satisfacción para cada servicio. El análisis revela que una buena experiencia en el servicio público puede fortalecer la confianza de los ciudadanos en el gobierno.
Article
Full-text available
El objetivo fue evaluar, la toma de decisiones financieras de una comunidad estudiantil del Estado de Guanajuato. El método es cuantitativo, descriptivo y transversal. Los resultados derivaron en contribuciones significativas desde la perspectiva teórica, comparativa, empírica, y práctica. En conclusión, se identificó cómo la comunidad estudiantil virtual toma sus decisiones financieras proveyendo un escenario cuantificado para gestionar acciones estratégicas educativas.
Article
Методологія, розроблена в цьому дослідженні, пропонує використання кластерного аналізу та штучних нейронних мереж. Вона дозволяє визначити фактори, на які слід зосередити зусилля, ресурси та посилити контроль, що дасть можливість покращення конкурентних умов і результатів зовнішньоекономічної діяльності підприємствам. Мета дослідження - визначення експортного потенціалу підприємства в процесі формування стратегії зовнішньоекономічної діяльності. Для визначення ключових факторів експортного потенціалу було проведено огляд літератури. Проаналізовано експортний потенціал підприємства в процесі формування стратегії зовнішньоекономічної діяльності, що спрямований на оцінку та класифікацію підприємств на основі пропозиції ключових факторів експортного потенціалу. Також оцінено застосування кластерного аналізу для визначення та характеристики конкурентних профілів за допомогою штучних нейронних мереж для класифікації експортного потенціалу. Результати дозволили згрупувати підприємства в чотири конкурентні профілі, які пов’язують їхні характеристики експортного потенціалу. Штучні нейронні мережі продемонстрували здатність 86,8 відсотків розрізняти та класифікувати підприємства відповідно до їхнього конкурентного профілю в процесі здійснення зовнішньоекономічної діяльності. В дослідженні застосовано 16 ключових факторів, інтегрованих у фінансові аспекти, внутрішні процеси, клієнтів, навчання та розширення ринків. Достовірність результатів підтверджується індексом валідності 0,93 відсотка і коефіцієнтом надійності Кронбаха Альфа 0,95 відсотка. За результатами встановлено, що представлена методологія здатна виміряти конкурентоспроможні експортні умови підприємства, за допомогою яких можна визначити пріоритети для покращення зовнішньоекономічної діяльності підприємства.
Chapter
A positioning analysis was performed to 8 different brands of automotive lubricants in Colombia. For the analysis, information was collected on the perception that the interviewees (managers of automotive lubricant sales points) had about 13 characteristics of the brands along with their perception about what they considered to be an ideal brand. From the information, graphic tools known as perceptual maps were produced, allowing us to identify the best perceived attributes of the brands, their similarities and differences with the ideal brand and the brands that compete with each other. Features such as warranty, product availability, discounts, and a focus on heavy-duty products are associated with an ideal brand, while attributes related to product quality and performance are associated with traditional brands in the market.
Article
Full-text available
about/policies/terms.jsp JSTOR is a not-for-profit service that helps scholars, researchers, and students discover, use, and build upon a wide range of content in a trusted digital archive. We use information technology and tools to increase productivity and facilitate new forms of scholarship. For more information about JSTOR, please contact support@jstor.org. American Statistical Association is collaborating with JSTOR to digitize, preserve and extend access to Journal of the American Statistical Association. We consider the problem of detecting features, such as minefields or seismic faults, in spatial point processes when there is substantial clutter. We use model-based clustering based on a mixture model for the process, in which features are assumed to generate points according to highly linear multivariate normal densities, and the clutter arises according to a spatial Poisson process. Nonlinear features are represented by several densities, giving a piecewise linear representation. Hierarchical model-based clustering provides a first estimate of the features, and this is then refined using the EM algorithm. The number of features is estimated from an approximation to its posterior distribution. The method gives good results for the minefield and seismic fault problems. Software to implement it is available on the World Wide Web.
Article
Full-text available
This paper presents a distribution-free multivariate Kolmogorov-Smirnov goodness-of-fit test. The test uses a statistic which is built using Rosenblatt's transformation and an algorithm is developed to compute it in the bivariate case. An approximate test, that can be easily computed in any dimension, is also presented. The power of these multivariate tests is studied in a simulation study.
Article
Full-text available
Let x1,,xn\mathbf{x}_1,\cdots, \mathbf{x}_n be a sample from an m-variate distribution which is spherically symmetric up to an affine transformation. This paper deals with the robust estimation of the location vector t\mathbf{t} and scatter matrix V\mathbf{V} by means of "M-estimators," defined as solutions of the system: iu1(di)(xit)=0\sum_i u_1(d_i)(\mathbf{x}_i - \mathbf{t}) = \mathbf{0} and n1iu2(di2)(xit)(xit)=Vn^{-1}\sum_i u_2(d_i^2)(\mathbf{x}_i - \mathbf{t})(\mathbf{x}_i - \mathbf{t})' = \mathbf{V}, where di2=(xit)V1(xit)d_i^2 = (\mathbf{x}_i - \mathbf{t})'\mathbf{V}^{-1}(\mathbf{x}_i - \mathbf{t}). Existence and uniqueness of solutions of this system are proved under general assumptions about the functions u1u_1 and u2u_2. Then the estimators are shown to be consistent and asymptotically normal. The breakdown bound and the influence function are calculated, showing some weaknesses of the estimates for high dimensionality. An algorithm for the numerical calculation of the estimators is described. Finally, numerical values of asymptotic variances, and Monte Carlo small-sample results are exhibited.
Article
Full-text available
This paper discusses the convergence of the Gibbs sampling algorithm when it is applied to the problem of outlier detection in regression models. Given any vector of initial conditions, theoretically, the algorithm converges to the true posterior distribution. However, the speed of convergence may slow down in a high dimensional parameter space where the parameters are highly correlated. We show that the effect of the leverage in regression models makes very difficult the convergence of the Gibbs sampling algorithm in sets of data with strong masking. The problem is illustrated in several examples.
Article
Full-text available
Fisher's linear discriminant analysis is a valuable tool for multigroup classi cation. With a large number of predictors, one can nd a reduced number of discriminant coordinate functions that are optimal " for separating the groups. With two such functions one can produce a classi cation map that partitions the reduced space into regions that are identi ed with group membership, and the decision boundaries are linear. This paper is about richer nonlinear classi cation schemes. Linear discriminant analysis is equivalent to multi-response linear regression using optimal scorings to represent the groups. We obtain nonparametric versions of discriminant analysis by replacing linear regression by any nonparametric regression method. In this way, any multi-response regression technique (such as MARS or neural networks) can be post-processed to improve their classi cation performence.
Article
In econometric models each dependent variable is usually a linear function of a small number of dependent and independent variables which are selected on economic considerations. Here uncorrelated linear combinations of all independent variables are used for explaining every dependent variable. The linear combinations are selected by maximizing the sum of their squared correlation coefficients with the dependent variables.Two numerical examples are given by data from "An econometric model of the United Kingdom" by Klein et al. (1961). One is based on the data after subtracting the average value of each quarter from respective series. In the second example the values of the variables are residuals from a simple Box-Jenkins model of each series.
Article
A new projection pursuit algorithm for exploring multivariate data is presented that has both statistical and computational advantages over previous methods. A number of practical issues concerning its application are addressed. A connection to multivariate density estimation is established, and its properties are investigated through simulation studies and application to real data. The goal of exploratory projection pursuit is to use the data to find low- (one-, two-, or three-) dimensional projections that provide the most revealing views of the full-dimensional data. With these views the human gift for pattern recognition can be applied to help discover effects that may not have been anticipated in advance. Since linear effects are directly captured by the covariance structure of the variable pairs (which are straightforward to estimate) the emphasis here is on the discovery of nonlinear effects such as clustering or other general nonlinear associations among the variables. Although arbitrary nonlinear effects are impossible to parameterize in full generality, they are easily recognized when presented in a low-dimensional visual representation of the data density. Projection pursuit assigns a numerical index to every projection that is a functional of the projected data density. The intent of this index is to capture the degree of nonlinear structuring present in the projected distribution. The pursuit consists of maximizing this index with respect to the parameters defining the projection. Since it is unlikely that there is only one interesting view of a multivariate data set, this procedure is iterated to find further revealing projections. After each maximizing projection has been found, a transformation is applied to the data that removes the structure present in the solution projection while preserving the multivariate structure that is not captured by it. The projection pursuit algorithm is then applied to these transformed data to find additional views that may yield further insight. This projection pursuit algorithm has potential advantages over other dimensionality reduction methods that are commonly used for data exploration. It focuses directly on the “interestingness” of a projection rather than indirectly through the interpoint distances. This allows it to be unaffected by the scale and (linear) correlational structure of the data, helping it to overcome the “curse of dimensionality” that tends to plague methods based on multidimensional scaling, parametric mapping, cluster analysis, and principal components.
Article
This paper deals with methods of “cluster analysis”. In particular we attack the problem of exploring the structure of multivariate data in search of “clusters”.The approach taken is to use a computer procedure to obtain the “best” partition of n objects into g groups. A number of mathematical criteria for “best” are discussed and related to statistical theory. A procedure for optimizing the criteria is outlined. Some of the criteria are compared with respect to their behavior on actual data. Results of data analysis are presented and discussed.
Article
The Stahel-Donoho estimators (t,V) of multivariate location and scatter are defined as a weighted mean and a weighted covariance matrix with weights of the form w(r), where w is a weight function and r is a measure of “outlyingness,” obtained by considering all univariate projections of the data. It has a high breakdown point for all dimensions and order n consistency. The asymptotic bias of V for point mass contamination for suitable weight functions is compared with that of P. J. Rousseeuw’s [Math. Stat. Appl., Proc. 4th Pannonian Symp. Math. Stat., Bad Tatzmannsdorf/Austria 1983, Vol. B., 283-297 (1985; Zbl 0609.62054)] minimum volume ellipsoid estimator. A simulation shows that for a suitable w, t and V exhibit high efficiency for both normal and Cauchy distributions and are better than their competitors for normal data with point-mass contamination. The performances of the estimators for detecting outliers are compared for both a real and a synthetic data set.
Article
This article describes a procedure for the detection of multivariate outliers based on the analysis of certain angular properties of the observations. The method is simple, exploratory in nature, and particularly well suited for the detection of concentrated contamination patterns, in which the outliers appear to form a cluster, separated from the sample. It is shown that it presents good properties for the identification of contaminations on high-dimensional sample spaces and for high contamination levels, including some cases in which methods based on robust estimators (the minimum covariance determinant and minimum volume ellipsoid estimators, the Stahel–Donoho estimator, or other recent proposals) may fail. The use of the procedure is illustrated through several examples.
Article
The problem of estimating the regression coefficient matrix having known (reduced) rank for the multivariate linear model when both sets of variates are jointly stochastic is discussed. We show that this problem is related to the problem of deciding how many principal components or pairs of canonical variates to use in any practical situation. Under the assumption of joint normality of the two sets of variates, we give the asymptotic (large-sample) distributions of the various estimated reduced-rank regression coefficient matrices that are of interest. Approximate confidence bounds on the elements of these matrices are then suggested using either the appropriate asymptotic expressions or the jackknife technique.
Article
The Iowa State Statistical Laboratory was established in 1933, with George W. Snedecor as director. The forces leading to this early creation of a formal unit are described, including the roles played by Henry A. Wallace and R. A. Fisher. Preceding this account, the state of statistics in 1933 is outlined, with special emphasis on U.S. universities. The lives and contributions of several leading personalities are sketched.
Article
Five extensions of the classical two-set theory of canonical correlation analysis to three or more sets are considered. For each one, a model of the general principal component type is constructed to aid in motivating, comparing and understanding the methods. Procedures are developed for finding the canonical variables associated with the different approaches. Some practical considerations and an example are also included.
Article
The grand tour and projection pursuit are two methods for exploring multivariate data. We show how to combine them into a dynamic graphical tool for exploratory data analysis, called a projection pursuit guided tour. This tool assists in clustering data when clusters are oddly shaped and in finding general low-dimensional structure in high dimensional, and in particular, sparse data. An example shows that the method, which is projection-based, can be quite powerful in situations which may cause methods based on kernel-smoothing grief. The projection pursuit guided tour is also useful for comparing and developing projection pursuit indices and illustrating some types of asymptotic results. 1 Introduction In this paper we show that two graphical methods for exploring high (say p) dimensional data, the grand tour (Asimov, 1985; Buja and Asimov, 1986), a dynamic tool, and projection pursuit (Kruskal, 1969; Friedman and Tukey, 1974; Huber, 1985), a static tool, naturally complement each o...
Article
This article discusses various aspects of projection pursuit into three dimensions. The aim of projection pursuit is to find interesting linear combinations of variables in a multivariate data set. The precise definition of "interesting" is given later but clusters and other forms of non-linear structure are interesting. One- and twodimensional projection pursuit have been dealt with extensively in the literature and some excellent software implementations are available. The benefit of projection into three-dimensions is that more complex structures can be identified than with lower-dimensional projections. Projection pursuit into three dimensions is particularly attractive for two further perceptual reasons. Firstly, colours naturally correspond to 3-vectors, for example through the RGB representation. Secondly, point clouds and other objects in three dimensions can be investigated on computer screens. For example through spinning 3D plots, which are immediately comprehensible because of our 3D intuition. These reasons are important when applying 3D projection pursuit to multispectral images (colour) and multivariate data sets (intuition). Section 2 briefly describes projection pursuit and includes details on projection indices and the process of sphering. Section 3 explains that we have chosen to extend Jones and Sibson's (1987) well-known moments index into three dimensions because of its computational efficiency. The formulae for the moments index were analytically computed by the computer algebra package REDUCE (see Section 3.3). Section 3 also addresses the differentiation and optimization of the moments index, examines how outliers can be treated to provide better projection solutions and discusses how optimal projections can be rotated to give solutions that a...