In the last decade, calibration estimation has developed into an important field of research in survey sampling. Calibration is now an important methodological instrument in the production of statistics. Several national statistical agencies have developed software designed to compute calibrated weights based on auxiliary information available in population registers and other sources.
This paper reviews some recent progress and offers some new perspectives. Calibration estimation can be used to advantage in a range of different survey conditions. This paper examines several situations, including estimation for domains in one-phase sampling, estimation for two-phase sampling, and estimation for two-stage sampling with integrated weighting. Typical of those situations is complex auxiliary information, a term that we use for information made up of several components. An example occurs when a two-stage sample survey has information both for units and for clusters of units, or when estimation for domains relies on information from different parts of the population.
Complex auxiliary information opens up more than one way of computing the final calibrated weights to be used in estimation. They may be computed in a single step or in two or more successive steps. Depending on the approach, the resulting estimates do differ to some degree. All significant parts of the total information should be reflected in the final weights. The effectiveness of the complex information is mirrored by the variance of the resulting calibration estimator. Its exact variance is not presentable in simple form. Close approximation is possible via the corresponding linearized statistic. We define and use automated linearization as a shortcut in finding the linearized statistic. Its variance is easy to state, to interpret and to estimate. The variance components are expressed in terms of residuals, similar to those of standard regression theory. Visual inspection of the residuals reveals how the different components of the complex auxiliary information interact and work together toward reducing the variance.
Depuis une dizaine d'années, l'estimation par le calage occupe un rôole important dans la théorie et la pratique des enquêetes par sondage. Cet article survole quelques développements importants en ce domaine et en présente quelques aspects nouveaux. L'estimation par le calage est avantageuse dans différents contextes. C'en est ainsi pour les trois types de sondage abordés dans cet article: l'estimation pour des sous-populations (domaines) pour unéchantillonnage en une seule phase, l'estimation pour l'échantillonnage en deux phases et l'estimation pour l'échantillonnage à deux degrés avec une pondération intégrée.
Dans le cadre de ces exemples, l'information auxiliaire est typiquement d'une certaine complexité, en ce sens qu'elle peut comporter plusieurs composantes. Cette structure polyvalente se refl ète dans le calcul des poids de calage. Par exemple, pour un sondage prévoyant un échantillonnage à deux degrés, on peut disposer et d'information auprès des unités primaires et d'information auprès des unités secondaires. Ainsi, lors du calage, il convient de profiter, simultanément et de façon efficace, des deux types d'information.
L'information auxiliaire complexe permettra, dans nos exemples, plus d'une faç on d'effectuer le calage. On peut calculer les poids par un calage direct, sur l'ensemble de l'information, ou bien, le calage peut se faire en deuxétapes, dont la première se sert d'une partie de l'information pour arriverà des poids préliminaires qu'on utilise ensuite dans un calcul de poids finaux. Pour connaïitre l'efficacité des différents estimateurs par calage, une évaluation de leurs variances respectives s'impose.
A cause de la nature non-linéaire d'un estimateur par calage, sa variance ne possède pas une forme simple et explicite. On procède à une linéarisation de l'estimateur. Normalement, c'est une procédure fastidieuse, comportant un développement en série de Taylor avec une évaluation d'un nombre de dérivées partielles. Pour les fins de cet article, il faut trouver la forme linéarisée d'un bon nombre de différents estimateurs par calage. Pour cette raison, nous suivons une procédure simplifiée, la “linéarisation automatisée”, qui amène rapidement au résultat appropriée.
Suite à la linéarisation d'un estimateur par calage, il est facile d'obtenir une proche approximationà la variance. Dans plusieurs de nos exemples, la variance de l'estimateur par calage se présente comme une somme de deux composantes, chacune donnée en fonction de certains résidus de régression ou de régression généralisée. Nous montrons comment une inspection visuelle de ces résidus fournit des clefs importantes pour identifier et interpréter les sources de la variabilité.