ArticlePDF Available

R.A. Fisher: el inicio del análisis multivariante

Authors:
100cias@uned, Revista de la Facultad de Ciencias.
(2000), 3, 51-55
R. A. FISHER: EL INICIO DEL ANALISIS MULTIVARIANTE
Miguel A. G´omez Villegas
Dpto. de Estad´ıstica e I. O.
Fac. de C. Matem´aticas
Universidad Complutense
1 Algunos aspectos biogr´aficos de R. A. Fisher
Sir Ronald Aylmer Fisher (1890-1962) puede ser considerado sin duda el creador del
an´alisis multivariante, interesa recordar la cita de L. J. Savage, que dec´ıa que era
mas f´acil se˜nalar las partes de la Estad´ıstica a las que no hab´ıa contribuido, que
referirse a las que si lo hab´ıa hecho.
Fisher nace en East Finchley (Londres). Era el mas joven de ocho hermanos; tuvo
otro gemelo que no sobrevivi´o; acudi´o a la escuela en Stanmore y posteriormente
estudi´o en Harrow. En su juventud tuvo prohibido leer con luz el´ectrica y se le
recomend´o no fijar la vista demasiado, se ha especulado sobre si sus problemas de
visi´on ayudaron a desarrollar su capacidad para lograr resultados sin necesidad de
realizar todos los pasos y reforzar su intuici´on geom´etrica. Gracias a una beca,
estudi´o en el Casius College en Cambridge, donde se gradu´o entre 1909 y 1912; en
1913 es lector de f´ısica matem´atica, dedic´andose al estudio de biometr´ıa y gen´etica.
Entre 1913 y 1915 trabaja en una compa˜n´ıa de inversiones, pero pronto descubre
que no es ´esta su vocaci´on.
En 1916 escribe un art´ıculo en el que demuestra que las teor´ıas de Mendel no se
ven rechazadas por los datos; este art´ıculo fu´e referenciado por Karl Pearson como
estad´ıstico y por Punnet como genetista, al no ser aceptada su publicaci´on en la
versi´on que Fisher deseaba, va a dar lugar a una de las muchas pol´emicas que Fisher
mantuvo a lo largo de su vida y que le llev´o a afirmar que su art´ıculo hab´ıa sido
referenciado por un estad´ıstico que no sab´ıa gen´etica y por un genetista que no sab´ıa
estad´ıstica, lo que le cre´o una fuerte enemistad con Karl Pearson.
En 1917 se cas´o con Ruth E. Guinnes, con la que tuvo dos hijos y seis hijas.
Fisher era una persona muy partidaria de su familia pero manten´ıa la teor´ıa de que
a partir de una determinada edad, los hijos deb´ıan vivir fuera de la unidad familiar,
teor´ıa que procur´o mantener.
1
En 1919 se une a la estaci´on experimental de Rothamsted, este fu´e su particular
esfuerzo a la contribuci´on de Inglaterra en la primera guerra mundial, ya que aunque
quiso alistarse, por su mala vista, no fu´e admitido. En esta estaci´on experimental,
desarroll´o dos de sus principales contribuciones a la ciencia estad´ıstica: el an´alisis
de la varianza , alrededor del a˜no 1991 y los principios del dise˜no de experimentos,
entre 1923 y 1924.
En 1929 es elegido miembro de la Royal Society por sus contribuciones a la
estad´ıstica, por cierto que opinaba que era un error que la citada sociedad estuviera
integrada por un alto porcentaje de personas por encima de 50 a˜nos. Al a˜no si-
guiente, publica su libro The Genetical Theory of Natural Selection, donde apoya
la teor´ıa de Darwin de la evoluci´on de las especies y modifica la inmutabilidad del
concepto de dominancia.
Acepta, a la retirada de Karl Pearson, la c´atedra de Eugenesia en el Univer-
sity College de Londres, quedando Egon Pearson, el hijo de Karl Pearson, como
catedr´atico de Estad´ıstica. Durante este tiempo se dedica a la investigaci´on en
gen´etica, Fisher ha sido de los pocos cient´ıficos que han destacado en dos campos
distintos del conocimiento.
En 1938 viaja a la India invitado por Mahalanobis y en 1943, a Estados Unidos,
como profesor visitante en la Universidad de Carolina del Norte. La etapa entre 1938
y 1962 es en la que se dedica a desarrollar sus trabajos en el campo de la inferencia
estad´ıstica. Durante el bienio 1953-1954 es presidente de la Royal Statistical Society
y dedica sus intervenciones a glosar las contribuciones de los primeros estad´ısticos.
En 1956, con 66 a˜nos de edad, publica el libro Statistical Methods and Scientific
Inference, que da la impresi´on de ser un manual para principiantes m´as que un libro
de texto, pero en eso radic´o su ´exito. A lo largo del libro, anima a trabajar con
ejemplos, discute problemas pr´acticos y t´erminos te´oricos, todo a partir de ejemplos
num´ericos. En ´el se separa de los matem´aticos diciendo que en estad´ıstica hay que
hacer razonamiento inductivo, en lugar de razonamiento deductivo, para lo cual es
necesaria una gran formaci´on matem´atica, para aplicarla a obtener conclusiones de
los datos con que se trabaja.
Se retira en 1957 y se marcha a Australia donde trabaja como investigador en el
CSIRO (Commonwealth Scientific and Industrial Research Organitation). En 1962
muere de cancer de boca en Adelaida (Australia), a la edad de 72 a˜nos.
Un amplio estudio biogr´afico sobre Fisher puede verse en el libro de J. B. Box
(1978).
2 Contribuciones a la Inferencia Estad´ıstica
Fisher public´o 140 art´ıculos sobre gen´etica, 129 sobre estad´ıstica y 16 sobre otros
temas. Si uno tuviera que quedarse con las contribuciones que mas impacto han
producido, ´estas posiblemente ser´ıan: la calibraci´on del nivel de significaci´on, la
diferencia entre muestra y poblaci´on, el m´etodo de la m´axima verosimilitud para la
2
construcci´on de estimadores, el an´alisis de la varianza y el dise˜no de experimentos.
A continuaci´on se van a desarrollar brevemente cada uno de estos aspectos.
2.1 La calibraci´on del nivel de significaci´on
En su libro titulado Statistical Methods and Scientific Inference, publicado por vez
primera en 1956 (su ´ultima edici´on es de 1973), Fisher valora la evidencia sumin-
istrada por el p-valor del siguiente modo:
si el p-valor [0,0.01], existe evidencia decisiva contra H0.
si el p-valor (0.01,0.05], existe evidencia fuerte contra H0.
si el p-valor (0.05,0.1], existe evidencia sustancial contra H0.
si el p-valor (0.1,1], existe evidencia a favor de H0.
Sin duda esta asignaci´on de valores, junto con el peso de su autoridad, han
contribuido a la gran difusi´on de los tests de hip´otesis mediante esta aproximaci´on.
2.2 La diferencia entre muestra y poblaci´on
Tambi´en se debe a Fisher la distinci´on n´ıtida entre muestra y poblaci´on, hasta
entonces no quedaba muy claro el entorno en el que se estaba trabajando. Se pod´ıa
estar manejando una colecci´on de observaciones y encontrar caracter´ısticas de la
misma o bi´en se trataban esas caracter´ısticas como los par´ametros desconocidos de
una poblaci´on.
2.3 El m´etodo de construcci´on de estimadores de la m´axima
verosimilitud
Es claramente el m´etodo m´as importante y con mejores propiedades de obtenci´on de
estimadores que se conoce. Ha de tenerse en cuenta que hasta entonces el m´etodo
as empleado era el de los momentos, ampliamente utilizado por Karl Pearson para
aproximar su c´elebre familia de curvas.
Es conocido, que dada la muestra (x1, . . . , xn), el m´etodo de la m´axima verosimil-
itud para estimar el valor θ, consiste en utilizar el valor de b
θtal que
maxθf(x1, . . . , xn|θ) = f(x1, . . . , xn|ˆ
θ)
o equivalentemente, si se da regularidad suficiente, el valor que sea soluci´on del
sistema
3
∂θilnf (x1, . . . , xn|θ) = 0
i= 1, . . . , k )
La idea de considerar el modelo como funci´on de θen lugar de como funci´on de
la muestra es una genialidad, aunque perfectamente razonable si uno est´a interesado
en la estimaci´on del par´ametro; y precisamente el que b
θcumpla que las derivadas
parciales se anulen en ´el, dota al estimador de m´axima verosimilitud de buenas
propiedades.
2.4 El an´alisis de la varianza
El an´alisis de la varianza fu´e desarrollado en la estaci´on experimental de Rohamsted
alrededor de 1921. Siguiendo el m´etodo recomendado por Fisher se puede introducir
a trav´es de un ejemplo: Conociendo que el trabajador que usa una m´aquina influye
en el rendimiento de ´esta, se trata de controlar estad´ısticamente la influencia de la
aquina y del trabajador en el rendimiento. Para ello supuestas Iaquinas y J
operarios y considerando la tabla de rendimientos en la forma
1 2 . . . J
1y11 y12 . . . y1J
2y21 y22 . . . y2J
.
.
..
.
..
.
..
.
.
IyI1yI2. . . yIJ
se postula el modelo:
yij =µ+αi+βj+uij , i = 1, . . . , I j = 1, . . . , J
donde
µes el efecto global,
αies el efecto m´aquina,
βjes el efecto debido al operario,
uij es el efecto aleatorio.
Fisher recomienda que la asignaci´on de operario a m´aquina sea aleatoria. Lo que
se pretende contrastar es la hip´otesis nula H0:αi= 0 i, βj= 0 j. As´ı se
construye la conocida Tabla ADEVA (del An´alisis de la Varianza)
4
Fuente Suma de cuadrados S.c. medios Esperanza
e. m´aquina JΣ(yi·y··)2=JPb
α2
iJΣb
α2
i/(I1) σ2+JΣα2
i
I1
e. operario IΣ(y·jy··)2=IPb
β2
jIΣb
β2
j/(J1) σ2+IΣβ2
j
J1
e. no explicado ΣΣ(yij b
µb
αib
βj)2ΣΣ(yij bµbαib
βj)2
(I1)(J1) σ2
De manera que el efecto m´aquina nulo se contrasta mediante la hip´otesis nula
H01 :αi= 0 i= 1, . . . , I , por lo que la regi´on cr´ıtica del test viene dada mediante
RC ={JΣb
α2
i/(I1)
ΣΣ(yij bµbαib
βj)2
(I1)(J1)
fI1,(I1)(J1);α}
An´alogamente, el efecto operario nulo, se contrasta mediante la hip´otesis nula
H02 :βj= 0 j= 1, . . . , J , por lo que la regi´on cr´ıtica del test viene dada mediante
RC ={IΣb
β2
j/(J1)
ΣΣ(yij bµbαib
βj)2
(I1)(J1)
fJ1,(I1)(J1);α}
2.5 El dise˜no de experimentos
Fisher fu´e el creador del dise˜no de experimentos. La importancia de esta aportaci´on
la pone de manifiesto el hecho de que su libro sobre este tema, conoci´o nueve edi-
ciones entre 1935 y 1966. olo se recoger´a aqu´ı su cita:
. . . Un examen cuidadoso del proceso de recogida de datos, o dise˜no experimen-
tal, puede incrementar la precisi´on de los resultados, diez o doce veces. Consul-
tar a un estad´ıstico depu´es de que se haya concluido un experimento es, muy a
menudo, pedirle que realice un examen postmortem. Quiz´as le pueda decir de
qu´e muri´o el experimento.”
Fisher (1935)
3 Contribuciones al An´alisis Multivariante
En esta secci´on se realiza un comentario, breve y no t´ecnico, de todos los art´ıculos
de Fisher que tratan sobre el An´alisis Multivariante; ser´an citados ´unicamente por
el a˜no y se corresponden con los que est´an en la bibliograf´ıa al final del art´ıculo.
(1915)- En ´el se obtiene la distribuci´on en el muestreo del coeficiente de correlaci´on
lineal, es decir de
r=P(xix)(yiy)
qP(xix)2P(yiy)2,
5
cuando la poblaci´on tiene distribuci´on normal.
Est´a inspirado en un trabajo de Student en el que ´este prueba que si la poblaci´on
X²N(µ, σ) entonces la media muestral y la cuasi varianza son variables aleatorias
independientes, y adem´as X²N(µ, σ
n)y(n1) s2
σ2²χ2
n1.
El art´ıculo fu´e publicado con retraso por Karl Pearson y fu´e la causa de la
enemistad entre ambos y el motivo por el cual Fisher no volvi´o a publicar en la
revista Biometrika, liderada por Karl Pearson.
(1921)- Este art´ıculo fu´e publicado en la revista italiana Metron y en ´el estima
el coeficiente de correlaci´on poblacional, cuando ´esta tiene una distribuci´on normal
bivariante cuyas medias son iguales y la matriz de covarianzas es
Σ = Ãσ2
xσxy
σxy σ2
x!.
Introduce como estimador el valor del coeficiente de correlaci´on muestral
r=Pn
i=1(xiˆµ)(yiˆµ)
.5 [Pn
i=1(xiˆµ)2+Pn
i=1(yiˆµ)2]
donde b
µes el estimador de m´axima verosimilitud para el par´ametro µ, dado por
ˆµ= 0.5(x+y).
Tambi´en obtiene en este art´ıculo la distribuci´on en el muestreo del coeficiente
de correlaci´on muestral, sin emplear la distribuci´on de Snedecor, as´ı c´omo la dis-
tribuci´on fiducial del coeficiente de correlaci´on poblacional.
(1922)- En este trabajo vuelve a obtener la distribuci´on de la F de Snedecor, al
tratar de encontrar la distribuci´on de estad´ısticos asociados a la regresi´on lineal.
Demuestra que el cociente entre el coeficiente de regresi´on estimado y su error
est´andar estimado tiene distribuci´on de Student.
(1924)- Contiene la distribuci´on en el muestreo del coeficiente de correlaci´on parcial
rxy·zcuando se quita la dependencia lineal de una tercera variable y obtiene que la
distribuci´on coincide con la del coeficiente de correlaci´on lineal rxy pero con un grado
de libertad menos.
(1925)- Pone de manifiesto la importancia de las distribuciones χ2,tyFen los
contextos del an´alisis de la varianza, para poblaciones normales.
En este art´ıculo incluye el argumento de que si una variable n dimensional
X ²N (0, σIn) una transformaci´on ortogonal hace que la nueva variable
Y ²N(0, σIn)
6
y si adem´as las primeras kvariables aleatorias de Y1, . . . , Ynse construyen conve-
nientemente y se escogen las restantes Yk+1, . . . , Ynhasta completar las n, entonces
omo n
X
i=1
X2
i
k
X
i=1
Y2
i=
n
X
i=k+1
Y2
i,
se sigue que Pn
i=k+1 Y2
itiene una distribuci´on σ2χ2
nke independiente de Pk
i=1 Y2
i.
Es decir, generaliza el razonamiento que hab´ıa utilizado para demostrar que en una
poblaci´on normal la media muestral es independiente de la cuasi varianza muestral.
(1928)- Obtiene la distribuci´on del coeficiente de correlaci´on m´ultiple muestral,
cuando las variables xeyno son independientes. Adem´as introduce la distribuci´on
de la variable χ2no centrada.
(1936)- Este art´ıculo est´a publicado en los Anales de Eugenesia, la revista que hab´ıa
fundado Karl Pearson y que Fisher dirig´ıa, desde su nombramiento c´omo profesor
de Eugenesia en el University College de Londres.
En ´el introduce el an´alisis discriminante como el mecanismo que dadas dos
muestras x(1) = (x(1)
1, . . . , x(1)
n) y x(2) = (x(2)
1, . . . , x(2)
n) obtiene la combinaci´on lineal
de la diferencia b(x(1) x(2)) que maximice la expresi´on (x(1) x(2))2/V [X] con lo
que construye la siguiente regla de decisi´on cuando se obtiene la nueva observaci´on
x:
si b0x > 0.5(x(1) +x(2)) =xpertenece a la primera poblaci´on
si b0x < 0.5(x(1) +x(2)) =xpertenece a la segunda poblaci´on
(1938)- Incluye las contribuciones de otros autores relacionadas con el an´alisis dis-
criminante y, en particular, incluye aspectos tratados por Mood, el coautor de un
celebrado libro cl´asico sobre inferencia, por Wilks, el principal causante del alto
nivel alcanzado por los Annals of Statistics y por Hsu, el estad´ıstico que aproxim´o
el n´umero de grados de libertad de la distribuci´on de la χ2en el problema de Berhens-
Fisher.
(1940)- Trata problemas de tests de hip´otesis relacionados con el an´alisis discrimi-
nante, estudia las tablas de contingencia y anticipa el an´alisis de correspondencias.
(1962)- En este art´ıculo, que apareci´o el mismo a˜no de su muerte, aborda la dis-
tribuci´on de distintos coeficientes de correlaci´on tratados de forma conjunta.
Desear´ıa terminar este estudio con lo que G.E.P. Box dec´ıa de Fisher:
7
¿Era un estad´ıstico aplicado? ¿era un estad´ıstico matem´atico? ¿era un
analista de datos? ¿era un dise˜nador de experimentos? Seguramente, ´el
era todas estas cosas y mucho m´as que la suma de ´estas. El constituye el
ejemplo que nosotros deber´ıamos seguir.
Box(1978)
8
AGRADECIMIENTOS
Este trabajo se ha subvencionado, en parte, con la ayuda de la Direcci´on General de
Investigaci´on Cient´ıfica y T´ecnica (DGICYT) correspondiente al proyecto n´umero
PB98–0797.
REFERENCIAS
Anderson, T. W. (1996) R. A. Fisher and multivariate analysis. Statist. Science,
11,1, 20–34.
Bennett, J. H. (1990) Statistical Method, Experimental Design and Scientific Infer-
ence. Oxford. Oxford University Press.
Bennett, J. H. (1990) Statistical Inference and Analysis. Selected Correspondence
of R. A. Fisher. Oxford. Clarendon Press.
Box, J. F. (1978) R. A. Fisher, The Life of a Scientist. New York. Wiley.
Fisher, R. A. (1915) Frequency distribution of the values of the correlation coefficient
in samples from an indefinitely large population. Biometrika.,10, 507-521.
Fisher, R. A. (1921) On the ”probable error” of a coefficient of correlation deduced
from a small sample. Metron, 1, 3-32.
Fisher, R. A. (1922) The goodness of fit of regression formulae and the distribution
of regression coefficients. J. Roy. Stat. Soc.,85, 597-612.
Fisher, R. A. (1925, 1970) Statistical Methods for Research Workers. Edimburgo.
Oliver and Boyd. (Hay edici´on en espa˜nol).
Fisher, R. A. (1924) The distribution of the partial correlation coefficient. Metron,
3, 329-332.
Fisher, R. A. (1936) The use of multiple measurements in taxonomic problems.
Annals of Eugenics,8, 376–386.
Fisher, R. A. (1925) Application of Student’s distribution. Metron, 5, 90-104.
Fisher, R. A. (1928) The general sampling distribution of the multiple correlation
coefficient. Proc. Roy. Soc. London. Ser.A ,121, 654-673.
Fisher, R. A. (1935,...,1966) The Design of Experiments. Edimburgo. Oliver and
Boyd. (Hay edici´on en espa˜nol).
Fisher, R. A. (1940) The precision of discriminant functions. Annals of Eugenics,
10, 422–429.
Fisher, R. A. (1956, 1959) Statistical Methods and Scientific Inference. Edimburgo.
Oliver and Boyd. (1973) New York. Hafner.
Fisher, R. A. (1962) The simultaneous distribution of correlation coefficients. Sankhya,
Ser. A,24, 1–8.
9
Fisher, R. A. (1990) Statistical Methods, Experimental Design and Scientific In-
ference. Edited by Bennett, J. M. with a foreword by Yates, F. Oxford. Oxford
University Press.
Gir´on, F. J. y G´omez Villegas, M. A. (1998). R. A. Fisher: su contribuci´on a la
Ciencia Estad´ıstica. En Historia de la Matem´atica en el siglo XX. Ed. Real Acad.
Cien. Exac. Fis. Nat., pp. 43–61.
10
... Sus trabajos en este campo le llevan a ocupar la cátedra de Eugenesia en la Universidad de Londres una vez se retira Pearson (Gómez Villegas 2000). ...
Thesis
Full-text available
Human beings have always shown an interest in knowing how life was like for the populations that lived before us. For this, a valuable source of information is the study of diseases in the past, known as paleopathology. This science gives us insight into the lifestyle of individuals, as well as their physical well-being. Since the beginning of these types of studies, paleopathology has grown to become a science in itself, which continues to evolve and adapt. Starting with a historical review of the path that this science has had since its early years, three works are presented that show the great source of knowledge that bone remains represent, through the application of different analytical techniques, and how, analyzed appropriately, the behavior and lifestyle of ancient populations can be inferred. In the first publication, through a multidisciplinary approach in which different analysis methodologies are applied, it is possible to make a diagnosis of vitamin D deficiency in a female individual dated from medieval period from San Andrés de Arroyo (Palencia), identifying at least two different episodes of deficiency. The study is completed with a differential diagnosis where other possible causes of the observed pathological characteristics are discussed. The second article introduces the use of generalized linear mixed models to study the distribution of pathologies in bone remains. In this case, degenerative joint disease was studied in the medieval and modern population of San Nicolás de Bari (Burgos). This pathology, characterized by the progressive deterioration of the articular cartilage, is easily recognizable macroscopically in dry bones, and is highly related to the mechanical stress supported by the joint, which is the reason why its study allows to make inferences about the quality of life of individuals. The third article delves into both the statistical analysis methodologies and the lifestyle of the population of San Nicolás de Bari, through the study of entheseal changes (changes that occur at the points of origin and insertion of ligaments and tendons). First, a meta-analysis was carried out to review the knowledge about the relationship between entheseal changes and sex, available from previous research. With this information, a prior distribution was built and used to model the data obtained in our study in a multivariate generalized linear mixed model, carried out in a Bayesian environment, with which the different types of entheseal changes observed can be analyzed simultaneously. The combined information from the study of degenerative joint disease and entheseal changes reveals a very active population, where manual jobs that require high physical effort are common. These conclusions are based on the use of robust statistical models that allow better control of other cofounders that play a role in the distribution of these pathologies, considering individual variability within the population.