BookPDF Available

Abstract

Projetada para iniciantes e entusiastas que desejam mergulhar no universo da modelagem econômica, esta apostila oferece uma abordagem abrangente e prática para a utilização do gretl, um poderoso software estatı́stico de código aberto. Através de uma narrativa didática e exemplos elucidativos, os leitores serão guiados desde os conceitos básicos até a aplicação avançada do gretl. Aprenda a manipular dados, realizar análises de regressão, testar hipóteses e interpretar resultados, tudo isso utilizando uma ferramenta eficiente e amigável. Os capı́tulos apresentam exercı́cios práticos que ajudam a consolidar o conhecimento adquirido, permitindo que os leitores desenvolvam habilidades prontamente aplicáveis em suas pesquisas, estudos acadêmicos ou projetos profissionais. Seja você um estudante de economia, pesquisador em ciências sociais ou profissional que busca aprimorar suas habilidades estatı́sticas, “Uma introdução ao uso do gretl” é o guia essencial para desbravar o vasto terreno da análise econômica com confiança e destreza. Transforme dados em insights valiosos e leve sua compreensão estatı́stica para o próximo nı́vel com esta apostila abrangente e acessı́vel.
Uma introdu¸ao ao uso do gretl
Alexandre Loures
Rodrigo Nobre Fernandez
Universidade Federal de Pelotas
22 de outubro de 2023
Dados Internacionais de Cataloga¸ao na Publica¸ao (CIP)
(Cˆamara Brasileira do Livro, SP, Brasil)
Loures, Alexandre
Uma introdu¸ao ao uso do gretl [livro eletrˆonico] / Alexandre Loures,
Rodrigo Nobre Fernandez. 1. ed. Pelotas, RS: Ed. dos autores, 2023.
PDF
Bibliografia.
ISBN 978-65-00-82283-0
1. Econometria 2. Estat´ıstica 3. Estat´ıstica etodos 4. Linguagem
de programa¸ao (Computadores) 5. Software I. Fernandez, Rodrigo Nobre.
II. T´ıtulo.
23–176338 CDD–330.015195
´
Indice para cat´alogo sistem´atico:
1. Econometria 330.015195
Aline Graziele Benitez Bibliotec´aria CRB-1/3129
3
Pref´acio
A motiva¸ao para a elabora¸ao deste material se deu na dificuldade apresentada por
muitos alunos do Curso de Ciˆencias Econˆomicas da UFPel no desenvolvimento de
trabalhos aplicados nas disciplinas relacionadas a elabora¸ao do Trabalho de Conclus˜ao
de Curso. Mesmo que possa parecer surpreendente, alguns acadˆemicos ainda ao
sabem como utilizar planilhas eletrˆonicas, um tema que ´e fundamental para an´alise
e manipula¸ao de dados.
Dessa forma, o gretl foi o software escolhido para podermos introduzir nossos
alunos `a Econometria Aplicada. Esta ferramenta, ´e bastante amig´avel, ao sendo
necess´ario o conhecimento pr´evio em programa¸ao. Adicionalmente, o software
possibilita o uso de diversas ecnicas estat´ısticas e econom´etricas, o que possibilita
a realiza¸ao de uma gama de an´alises.
Descubra o fascinante mundo da econometria e an´alise estat´ıstica com a apostila
“Uma introdu¸ao ao uso do gretl”. Projetada para iniciantes e entusiastas que
desejam mergulhar no universo da modelagem econˆomica, esta apostila oferece uma
abordagem abrangente e pr´atica para a utiliza¸ao do gretl, um poderoso software
estat´ıstico de odigo aberto.
Atrav´es de uma narrativa did´atica e exemplos elucidativos, os leitores ser˜ao guiados
desde os conceitos asicos at´e a aplica¸ao avan¸cada do gretl. Aprenda a manipular
dados, realizar an´alises de regress˜ao, testar hip´oteses e interpretar resultados, tudo isso
utilizando uma ferramenta eficiente e amig´avel.
Os cap´ıtulos apresentam exerc´ıcios pr´aticos que ajudam a consolidar o conhecimento
adquirido, permitindo que os leitores desenvolvam habilidades prontamente aplic´aveis
em suas pesquisas, estudos acadˆemicos ou projetos profissionais.
Seja vocˆe um estudante de economia, pesquisador em ciˆencias sociais ou profissional
que busca aprimorar suas habilidades estat´ısticas, “Uma introdu¸ao ao uso do gretl
´e o guia essencial para desbravar o vasto terreno da an´alise econˆomica com confian¸ca
e destreza. Transforme dados em insights valiosos e leve sua compreens˜ao estat´ıstica
para o pr´oximo n´ıvel com esta apostila abrangente e acess´ıvel.
Devemos agradecer ao professor Lee Adkins que publicou a quinta edi¸ao do texto
Using Gretl for Principles of Econometrics em 2018. Em muitas partes, nosso
material ´e uma tradu¸ao para a l´ıngua portuguesa deste manual. No entanto, fizemos
algumas adapta¸oes e utilizamos principalmente o ambiente gr´afico do gretl (GUI)
porque a nossa abordagem ao est´a relacionada ao uso de programa¸ao.
Por fim, esperamos que esse livro possa servir como um instrumento para um
primeiro contato com a Econometria. Recomendamos que, ap´os alguma familiaridade
com o software e com as t´ecnicas estat´ısticas e econom´etricas, o leitor se aventure no
uso do Re do Python que ao linguagens usualmente mais solicitadas no mercado de
trabalho.
Rodrigo Nobre Fernandez e Alexandre Loures
5
Sum´ario
1 Regress˜ao linear simples 9
1.1 Representando graficamente os dados ................... 12
1.2 Estimando o modelo de gastos com alimenta¸ao ............. 13
1.3 Elasticidade ................................. 16
1.4 Predi¸ao ................................... 17
1.4.1 Estimando a variˆancia ....................... 17
2 Estima¸ao de intervalo e teste de hip´oteses 19
2.1 Teste de hip´oteses .............................. 22
3 Previs˜ao, qualidade do ajuste e problemas de especifica¸ao 25
3.1 Previs˜ao no modelo de gastos com alimenta¸ao .............. 25
3.2 Qualidade do ajuste ............................. 26
3.3 Escolhendo a forma funcional ....................... 29
3.3.1 Especifica¸ao linear-log ....................... 30
3.3.2 Teste para a especifica¸ao gr´afico dos res´ıduos ........ 35
3.3.3 Teste de normalidade ........................ 37
4 Modelo de regress˜ao ultipla 43
4.1 Regress˜ao linear ............................... 44
4.2 Qualidade do ajuste ............................. 45
4.3 Intervalos de confian¸ca ........................... 46
4.4 Polinˆomios .................................. 46
4.5 Efeitos marginais .............................. 47
4.6 Efeitos de intera¸ao ............................. 48
5 Inferˆencia adicional no modelo de regress˜ao ultipla 51
5.1 Teste F................................... 51
5.1.1 Teste de restri¸oes de exclus˜ao ................... 51
5.1.2 Significˆancia da regress˜ao ...................... 57
5.1.3 Rela¸ao entre o teste te o teste F................. 58
5.2 Modelos restrito e irrestrito ........................ 59
5.3 Especifica¸ao do modelo .......................... 63
5.4 Sele¸ao do modelo ............................. 67
5.4.1 R2ajustado ............................. 68
5.4.2 Crit´erio de informa¸ao ....................... 68
5.4.3 teste RESET ............................ 68
5.4.4 Colinearidade ............................ 71
Loures e Fernandez 6
5.4.5 M´ınimos quadrados ao-linear ................... 81
6 Usando vari´aveis indicadoras 87
6.1 Vari´aveis indicadoras ............................ 87
6.2 Criando vari´aveis indicadoras ....................... 89
6.2.1 Estimando uma regress˜ao ..................... 90
6.3 Aplicando vari´aveis indicadoras ...................... 91
6.3.1 Intera¸oes .............................. 92
6.3.2 Indicadores regionais ........................ 94
6.3.3 Testando a equivalˆencia entre duas regi˜oes ............ 95
6.3.4 Modelos log-lineares com vari´aveis indicadores .......... 100
6.4 Modelo de probabilidade linear ...................... 101
6.5 Efeito do tratamento ............................ 102
6.5.1 Usando um modelo de probabilidade linear para verificar a
atribui¸ao aleat´oria ......................... 104
6.6 Diferen¸cas em diferen¸cas .......................... 105
7 Heterocedasticidade 109
7.1 Exemplo despesa com alimenta¸ao ..................... 109
7.2 Estimativa robusto de covariˆancia ..................... 111
7.3 Detec¸ao de heterocedasticidade usando gr´aficos dos res´ıduos ...... 113
7.4 ınimos quadrados ponderados ...................... 117
7.5 Detectando heterocedasticidade usando testes de hip´otese ........ 121
7.5.1 Testes do multiplicador de Lagrange ............... 121
7.5.2 O teste de White .......................... 123
7.6 Erros padr˜ao consistentes com heterocedasticidade ............ 123
8 eries estacion´arias 127
8.1 Gr´aficos das eries temporais ........................ 127
8.2 Tendˆencias determin´ısticas ......................... 129
8.3 Regress˜ao esp´uria .............................. 132
8.4 Testes de estacionariedade ......................... 134
8.4.1 Outros testes para ao estacionariedade ............. 137
8.5 Integra¸ao e cointegra¸ao .......................... 139
8.6 Corre¸ao de erro .............................. 140
9 Vetor de Corre¸ao de Erro e Vetor Autorregressivo 145
9.1 Modelos VAR e VEC ............................ 145
9.1.1 Gr´aficos de eries temporais .................... 146
9.1.2 Teste de cointegra¸ao ........................ 147
9.1.3 VECM: PIB australiano e americano ............... 148
9.1.4 Usando o comando vecm ...................... 149
9.2 Vetor autoregressivo ............................ 151
9.2.1 Fun¸oes de impulso resposta e decomposi¸ao de variˆancia . . . . 153
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 7
10 Dados em Painel 157
10.1 Um modelo asico ............................. 157
10.2 Efeitos Fixos ................................ 158
10.3 Primeira diferen¸ca ............................. 159
10.4 Painel Agrupado .............................. 160
10.5 Efeitos Aleat´orios .............................. 161
10.6 Testes de diagn´ostico de painel ....................... 162
10.6.1 Breusch-Pagan ........................... 162
10.6.2 Hausman .............................. 163
10.7 Exemplo ................................... 163
11 Modelos com vari´avel dependente qualitativa ou categ´orica 167
11.1 Modelo de probabilidade linear ...................... 167
11.2 Probit .................................... 170
11.2.1 Efeitos marginais e efeitos marginais edios ........... 172
11.3 Logit ..................................... 176
11.3.1 Teste de Raz˜ao de Verossimilhan¸ca ................ 179
11.4 Regressores end´ogenos ........................... 180
11.5 Logit Multinomial .............................. 184
11.6 Probit Ordenado .............................. 185
11.7 Tobit ..................................... 186
11.8 Heckit .................................... 188
12 Modelos de equa¸oes simultˆaneas 191
12.1 Exemplo do modelo de equa¸oes simultˆaneas para trufa ......... 191
12.2 As equa¸oes na forma reduzida ...................... 191
12.3 As equa¸oes estruturais ........................... 192
13 Modelos de contagem 197
13.1 Teste de superdispers˜ao ........................... 198
13.2 Binomial Negativa ............................. 200
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 8
Universidade Federal de Pelotas - UFPel
9
Cap´ıtulo 1
Regress˜ao linear simples
O modelo de regress˜ao linear simples, que ´e estimado usando o princ´ıpio dos m´ınimos
quadrados, ser´a apresentado atrav´es de um modelo simples de gastos com alimentos.
Mais precisamente, ser´a calculada uma elasticidade uma vez que se trata de um
modelo simples, previs˜oes ser˜ao feitas, os dados ser˜ao apresentados graficamente
e algumas outras estat´ısticas calculadas usando resultados de m´ınimos quadrados
ordin´arios.
O modelo de regress˜ao simples ´e dado por:
food expi=β1+β2incomei+eii= 1,2, . . . , n (1.1)
em que food expicaracteriza-se como sendo a vari´avel dependente, incomeipor sua
vez representa a vari´avel independente, ei´e denominado o termo de erro e β1eβ2ao
os parˆametros a serem estimados.
Para iniciar o modelo simples de gastos com alimentos deve-se carregar os dados
contendo as informa¸oes sobre despesas com alimentos e receitas (renda familiar) no
gretl.1
1O arquivo de dados food.gdt est´a dispon´ıvel em: http://www.learneconometrics.com/gretl/
poe5/POE5Data.zip
Loures e Fernandez 10
Figura 1.1: Janela principal do gretl.
Os dados com gastos dos alimentos ao carregados atrav´es do comando
Arquivo>Abrir dados>Arquivo do usu´ario,2na barra de menu, e escolhendo
o conjunto de dados de alimentos food.gdt dispon´ıvel no arquivo POE5Data. A
primeira observa¸ao que se faz ´e que, a coluna Descri¸ao cont´em algumas informa¸oes
sobre as vari´aveis que est˜ao na mem´oria do programa. Importante destacar que nem
sempre essas informa¸oes est˜ao dispon´ıveis, entretanto, ´e poss´ıvel rotular manualmente
uma vari´avel. Por exemplo, a Figura 1.2 mostra que se deve destacar (i.e., sombreado
de azul claro) a vari´avel para qual se ir´a acrescentar o otulo e, ent˜ao, clica-se com o
bot˜ao direito do mouse para abrir um menu que ir´a conter algumas op¸oes, entre essas
est´a Editar caracter´ısticas. Selecione essa op¸ao para que se possa abrir uma janela,
Figura 1.3, em que ser´a poss´ıvel escrever uma descri¸ao para a vari´avel selecionada
no presente caso food exp.
2Ou simplesmente clique duas vezes sobre o ´ıcone da base de dados.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 11
Figura 1.2: Destacando a vari´avel de interesse.
Note que nessa janela que se abre ser´a poss´ıvel alterar o nome da vari´avel, rotular
a vari´avel bem como adicionar um nome que ser´a apresentado nos gr´aficos. Para
exemplificar, na op¸ao Nome a apresentar (mostrado nos gr´aficos) coloca-se
Despesas alimenta¸ao/semana para a vari´avel food exp eRenda semanal ($ 100)
para a vari´avel income. Essas manipula¸oes nas vari´aveis da base de dados se justificam
para tornarem as sa´ıdas mais acil de entender.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 12
Figura 1.3: Caixa de di´alogo de edi¸ao de vari´avel.
1.1 Representando graficamente os dados
Para gerar um gr´afico de dispers˜ao entre as vari´aveis food exp eincome, na barra
de menu, deve-se seguir o seguinte comando Ver>Gr´afico das vari´aveis>X-Y em
dispers˜ao. Essa sequˆencia de passos abrir´a a janela mostra na Figura 1.4. Outra forma
seria usar o quarto ´ıcone da direita para a esquerda, , na barra de ferramentas do
gretl, parte inferior da janela principal. Note que os otulos aplicados na Figura 1.4
aparecem nos eixos do gr´afico, Figura 1.5.
Figura 1.4: Caixa de di´alogo para o gr´afico de dispers˜ao.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 13
AFigura 1.5 mostra os gastos semanais com alimenta¸ao no eixo yenquanto no
eixo xtem-se a renda semanal. Por padr˜ao, o gretl tamb´em tra¸ca a linha de regress˜ao
ajustada. Agora torna-se mais acil compreender a utilidade em se rotular as vari´aveis
por meio da caixa de di´alogo da Figura 1.3. A sa´ıda do gr´afico mostra ambos os eixos
xeyrotulados de uma forma intuitiva bem como o t´ıtulo do gr´afico.
Figura 1.5: Gr´afico de dispers˜ao dos dados de gastos com alimentos.
1.2 Estimando o modelo de gastos com alimenta¸ao
Nesta se¸ao, ser´a demonstrado como usar o gretl para estimar os parˆametros da
equa¸ao de gastos com alimenta¸ao:
food expi=β1+β2incomei+eii= 1,2, . . . n (1.2)
Na barra de menus, selecione Modelo>M´ınimos Quadrados Ordin´arios no
menu suspenso, Figura 1.6, para abrir a caixa de di´alogo mostrada na Figura 1.7.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 14
Figura 1.6: Caixa de di´alogo para os ınimos quadrados ordin´arios.
Figura 1.7: Caixa de di´alogo para especifica¸ao do modelo.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 15
Nessa caixa de di´alogo, Figura 1.7, deve-se informar ao gretl qual vari´avel usar como
vari´avel dependente e qual ser´a a vari´avel independente. Observe que, por padr˜ao, o
gretl assume que se deseja estimar um intercepto (β1) e, assim, inclui uma constante
como vari´avel independente colocando a vari´avel const na lista de regressores por
padr˜ao. Por outro lado, para colocar x, no presente caso income, como uma vari´avel
independente, destaque-a com o cursor (i.e., sombreado azul claro), Figura 1.7, e
clique no bot˜ao de seta verde, , para adicion´a-la. Para adicionar a vari´avel
dependente destaque-a (i.e., sombreado azul claro) com o cursor e clique no bot˜ao de
seta azul, e, por sua vez, para retirar um regressor da lista basta destac´a-lo
(i.e., sombreado azul claro) e clicar no bot˜ao de seta vermelha, , para exclu´ı-lo.
Uma vez especificado o modelo clique no bot˜ao OK da caixa de di´alogo da Figura 1.7.
Isso reportar´a a janela mostrada na Figura 1.8.
Figura 1.8: Resultados da regress˜ao.
Destaca-se que, uma vez estimado o modelo, pode-se realizar opera¸oes
subsequentes (gr´aficos, testes, an´alises, etc.) sobre o modelo. Uma forma mais elegante
para apresentar os resultados, especialmente em modelos muito pequenos como a
regress˜ao linear simples, ´e usar a forma de equa¸ao. Neste formato, os resultados
para o modelo de gastos com alimenta¸ao podem ser apresentados como:
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 16
\
food exp = 83,4160
(43,4102)
+ 10,2096
(2,09326)
income
n= 40 ¯
R2= 0,3688 F= (1,38) = 23,789 ˆσ= 89,517
(erros padr˜ao entre parˆenteses)
1.3 Elasticidade
A elasticidade ´e um conceito importante em economia e caracteriza-se como sendo o
percentual de varia¸ao em uma determinada vari´avel, dada uma varia¸ao percentual
em outra vari´avel. Pode ser relacionada com sensibilidade ou rea¸ao da vari´avel em
quest˜ao em rela¸ao a outras vari´aveis.
ϵ=mudan¸ca percentual em y
mudan¸ca percentual em x=y
x.(1.3)
Em termos do modelo de gastos com alimenta¸ao, est´a interessado na elasticidade
dos gastos edios com alimentos em rela¸ao `as mudan¸cas da renda:
ϵ= (y)/ E (y)
x / x =β2
x
E(y),(1.4)
em que E(y) e xao usualmente substitu´ıdos por suas edias amostrais e β2por
sua estimativa. Note que a edia para food exp e renda (x) pode ser obtidas atrav´es
do comando Ver>Estat´ısticas descritivas. Na caixa de di´alogo que abrir, Figura
1.9 use o cursor para destacar (i.e., sombreado azul claro) ambas as vari´aveis e, em
seguida, clique no bot˜ao de seta verde, , e clique no bot˜ao OK.
Figura 1.9: Caixa de di´alogo para estat´ısticas descritivas.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 17
Isso ir´a produzir a sa´ıda mostrada na Figura 1.10. Assim, a Equa¸ao 1.4 pode
ser calculada manualmente. Ent˜ao, usando o parˆametro da regress˜ao e as estat´ısticas
descritivas tem-se que: ˆ
β2×(income / E (f ood exp)) = 10,2096 ×(19,605 /283,54) =
0,705855. Assim, como o valor para a elasticidade ficou abaixo de 1, os gastos com
alimenta¸ao ao inel´astico a varia¸oes na renda. Mais precisamente, a varia¸ao nos
gasto com alimenta¸ao ´e proporcionalmente menor que a varia¸ao na renda.
Figura 1.10: Estat´ısticas descritivas.
1.4 Predi¸ao
Uma vez de posse dos resultados da estima¸ao, pode-se fazer previs˜oes sobre os gastos
com alimenta¸ao para uma dada renda xqualquer. Por exemplo, suponha que se
queira saber qual o gasto com alimenta¸ao para uma fam´ılia cuja renda edia semanal
familiar ´e de $ 2.000. Como a renda ´e medida em $ 100, ent˜ao, $ 2.000
$ 100 = 20. Logo,
\
food expi= 83,42 + 10,21 incomei= 83,42 + (10,21 ×20) = 287,61 (1.5)
Ou seja, uma fam´ılia cuja renda edia semanal ´e de $ 2.000 ter´a um gasto semanal
com alimenta¸ao de $ 287,61.
1.4.1 Estimando a variˆancia
Uma vez que o modelo ´e estimado empregando M´ınimos Quadrados Ordin´arios,
as variˆancias e covariˆancia estimadas podem ser obtidas selecionando o comando
An´alise>Matriz de covariˆancias dos coeficientes,Figura 1.11.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 18
Figura 1.11: Obtendo a matriz das variˆancias e covariˆancia.
Na Figura 1.12 apresenta as variˆancias estimadas do estimador de M´ınimos
Quadrados Ordin´arios para o intercepto (β1) e para a inclina¸ao (β2) que ao,
respectivamente, 1.884,44 e 4,38175. Note que os erros padr˜ao, na Figura 1.8, ao
simplesmente as ra´ızes quadradas desses valores. Por sua vez, a covariˆancia estimada
entre o intercepto e a inclina¸ao ´e 85,9032.
Figura 1.12: Matriz de variˆancia-covariˆancia.
Universidade Federal de Pelotas - UFPel
19
Cap´ıtulo 2
Estima¸ao de intervalo e teste de
hip´oteses
Discutiremos como gerar intervalos de confian¸ca e testar hip´oteses usando gretl. O
software inclui arios utilit´arios ´uteis que o ajudar˜ao a obter valores cr´ıticos e valores
pde arias distribui¸oes de probabilidade importantes. Uma maneira de fazer isso
´e observar a estimativa do parˆametro dos ınimos Quadrados Ordin´arios (MQO)
juntamente com uma medida de sua precis˜ao, ou seja, seu erro padr˜ao estimado.
O intervalo de confian¸ca serve a um prop´osito semelhante, embora seja muito
mais simples de interpretar porque fornece limites superiores e inferiores entre os
quais o parˆametro desconhecido ficar´a com uma determinada frequˆencia em amostras
repetidas.
No gretl, vocˆe pode obter intervalos de confian¸ca por meio de uma caixa de di´alogo
ou construindo-os manualmente usando resultados de regress˜ao salvos. Vocˆe pode
procurar o valor cr´ıtico apropriado em uma tabela ou usar a fun¸ao cr´ıtica do gretl.
Considere a equa¸ao de um intervalo de confian¸ca:
P[bktcse (bk)βkbk+tcse (bk)] = 1 α(2.1)
Lembre-se de que bk´e o estimador de MQO de βke que se (bk) ´e seu erro padr˜ao
estimado. A constante tc´e o valor cr´ıtico de α / 2 da distribui¸ao teα´e a probabilidade
total desejada associada `a ´area de “rejei¸ao” (a ´area fora do intervalo de confian¸ca).
Vocˆe precisar´a saber o valor cr´ıtico tc, que pode ser obtido de uma tabela estat´ıstica,
da caixa de di´alogo Ferramentas>Tabelas estat´ısticas contidas no programa.
Primeiro, tente usar a caixa de di´alogo mostrada na Figura 2.1. Escolha a guia para
a distribui¸ao te diga ao gretl quanto peso colocar na cauda direita da distribui¸ao
de probabilidade e quantos graus de liberdade sua estat´ıstica ttem, no nosso caso, 38.
Depois de fazer isso, clique em OK. Vocˆe obter´a o resultado mostrado na Figura 2.2.
Ele mostra que para o t38 com α / 2 probabilidade de cauda direita de 0.025 e α= 0.05,
o valor cr´ıtico ´e 2.02439.
Loures e Fernandez 20
Figura 2.1: Obten¸ao dos valores cr´ıticos Ferramentas>Tabelas estat´ısticas.
Figura 2.2: O valor cr´ıtico obtido na caixa de di´alogo Ferramentas>Tabelas estat´ısticas.
Exemplo: com arquivo food.gdt
Este exemplo ´e baseado no modelo de gastos com alimentos:
food expi=β1+β2income +eii= 1, . . . , n (2.2)
O objetivo ´e estimar um intervalo de confian¸ca de 95% para a inclina¸ao, β2.
Estime o modelo usando os m´ınimos quadrados da maneira usual. Clique em
Modelo>M´ınimos quadrados ordin´arios no menu principal, preencha as vari´aveis
dependentes e independentes na caixa de di´alogo do MQO e clique em OK.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 21
Figura 2.3: Configura¸ao usual do modelo de MQO.
Agora escolha An´alise>Intervalos de confian¸ca para coeficientes no menu
suspenso da janela de modelos para gerar o resultado mostrado na Figura 2.3. O
´ıcone αem caixa pode ser usado para alterar o tamanho do intervalo de confian¸ca,
que:
Figura 2.4: O intervalo de confian¸ca de 95% para o coeficiente de renda no exemplo de
gasto com alimenta¸ao usando o di´alogo.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 22
2.1 Teste de hip´oteses
Testes de hip´oteses permitem comparar o que supomos ser verdade com o que
observamos por meio de dados. Suponha que eu acredite que o gasto autˆonomo semanal
com comida ao seja inferior a $ 40, eu extraio uma amostra, calculo uma estat´ıstica
que mede o gasto com comida e ent˜ao comparo minha estimativa com minha conjectura
usando um teste de hip´oteses. A hip´otese nula ´e que β2= 0 contra a alternativa de
que ´e positivo (ou seja, β2>0). A estat´ıstica de teste ´e:
t=(β20)
se(β2)t38 (2.3)
se β2= 0 (a hip´otese nula ´e verdadeira). Selecione α= 0.05 o que torna o valor
cr´ıtico para a alternativa unilateral (β2>0) igual a 1,686. A regra de decis˜ao ´e rejeitar
H0em favor da alternativa se o valor calculado da estat´ıstica testiver dentro da regi˜ao
de rejei¸ao do teste; isto ´e, se for maior que 1,686. A informa¸ao necess´aria para
calcular test´a contida nos resultados de estimativa de m´ınimos quadrados produzidos
por gretl:
Figura 2.5: Resultados do modelo de MQO
Os alculos:
t=(β20)
se(β2)= (10.21 0) /2.09 = 4.889 (2.4)
Como esse valor est´a dentro da regi˜ao de rejei¸ao, a evidˆencias suficientes no n´ıvel
de significˆancia de 5% para nos convencer de que a hip´otese nula est´a incorreta; a
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 23
hip´otese nula ´e rejeitada neste ıvel de significˆancia. gretl ´e usado para obter o valor
ppara este teste usando o menu superior Ferramentas (Figura 2.5). Nesta caixa de
di´alogo, vocˆe insere os graus de liberdade desejados para sua distribui¸ao t38, o valor
de:
Figura 2.6: Ferramentaas>Localizador de p-valor
Substituindo na Equa¸ao 2.4 β2(10.21), seu valor sob a hip´otese nula - algo que
gretl se refere como “m´edia” (0) e o erro padr˜ao estimado da impress˜ao (2,09). Isso
produz as informa¸oes da Figura 2.6:
Figura 2.7: Ferramentas>Localizador de p-valor
Assim, a ´area de uma vari´avel aleat´oria t38 `a direita de 4,88, ou seja, o valor p
do teste, ´e quase zero. Como o valor de pest´a bem abaixo de α= 0.05, a hip´otese ´e
rejeitada.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 24
Universidade Federal de Pelotas - UFPel
25
Cap´ıtulo 3
Previs˜ao, qualidade do ajuste e
problemas de especifica¸ao
Neste cap´ıtulo ser˜ao apresentadas diversas extens˜oes do modelo de regress˜ao linear
simples. Primeiramente, predi¸oes condicionais ser˜ao geradas usando os resultados
armazenados na mem´oria do gretl ap´os estimar um modelo. Logo ap´os se discute
um teste estat´ıstico comumente utilizado para checar a qualidade do ajuste do modelo
fornecida pela regress˜ao. Mais precisamente, este teste estat´ıstico determinar´a qu˜ao
bem os dados da amostra se ajustam a uma distribui¸ao de uma popula¸ao com
distribui¸ao normal. Simplificando, este teste levanta a hip´otese se uma amostra ´e
distorcida ou representa os dados que se esperaria encontrar na popula¸ao real.
Destaca-se que a escolha de uma forma funcional adequada para uma regress˜ao
linear ´e de suma importˆancia. Sendo assim, este cap´ıtulo apresentar´a algumas formas
funcionais para uma regress˜ao linear, entre as seguintes especifica¸oes poss´ıveis:
1. Polinomiais;
2. Logar´ıtmicas;
3. linear-log vari´avel dependente em n´ıvel e vari´avel(is) independente(s) em log;
4. log-linear vari´avel dependente em log e vari´avel(is) independente(s) em n´ıvel ;
5. log-log vari´avel dependente em log e vari´avel(is) independente(s) tamb´em em
log.
3.1 Previs˜ao no modelo de gastos com alimenta¸ao
A gera¸ao de valores previstos para os valores de gastos com alimenta¸ao para uma
fam´ılia com um dado n´ıvel de renda ´e muito simples no gretl. Isto a foi demonstrado
na Se¸ao 1.4 em que, para uma fam´ılia que possui uma renda semanal igual a income0=
$ 2000, foi previsto que essa fam´ılia gaste aproximadamente $ 287,61 com alimenta¸ao
por semana (lembre-se que a renda ´e medida em US$ 100 no conjunto de dados).
Por outro lado, para obter o intervalo de confian¸ca de 95% ´e um pouco mais dif´ıcil
uma vez que ao existem comandos no gretl para realizarem esse alculo. No entanto,
essa estat´ıstica pode ser obtida manualmente atrav´es da seguinte ormula:
Loures e Fernandez 26
dvar (f) = ˆσ2+ˆσ2
T+ (income0income)2×dvar(β2) (3.1)
Na Figura 1.8 nota-se que o erro padr˜ao da regress˜ao ´e igual a 89,517, logo, tem-se
que ˆσ2= (89,517)2= 8013,29. Por sua vez, da Figura 1.12 tem-se que dvar(β2) =
4,3818. a o comando para obter o valor edio da renda foi apresentado na Se¸ao 1.3,
Figura 1.10, sendo o valor igual a 19,605. O valor cr´ıtico de t38 5% ´e de 2,0244, Figura
2.2. Assim, o alculo do intervalo de confian¸ca ser´a:
dvar (f) = 8013,2941 + 8013,2941
40 + (20 19,605)2×4,3818 = 8214,31 (3.2)
Ent˜ao, o intervalo de confian¸ca para os valores previstos ´e dado por:
\
food exp0=±txse (f) = 287,6069 ±2,0244p8214,31 = [104,132; 471,086] (3.3)
Isso implica que o intervalo de confian¸ca de 95% centrado em 287,609 ´e
(104,132; 471,086).
3.2 Qualidade do ajuste
O coeficiente de determina¸ao ´e utilizado na teoria da regress˜ao linear e expressa
qu˜ao bem a equa¸ao de regress˜ao se ajusta aos dados, i.e., qualidade do ajuste. Mais
precisamente, qual a propor¸ao da varia¸ao na vari´avel dependente que ´e explicada pela
varia¸ao da(s) vari´avel(is) independente(s). R2´e a raz˜ao entre a varia¸ao explicada e
a varia¸ao total; assim, ele ´e interpretado como a frao da varia¸ao amostral em y
que ´e explicada por x.´
E muito pouco prov´avel que se tenha uma correla¸ao perfeita
(R2= 1) na pr´atica, uma vez que existem muitos fatores que determinam as rela¸oes
entre vari´aveis na vida real.
A forma mais simples de se obter o R2´e diretamente da sa´ıda da regress˜ao no
gretl. Isso ´e mostrado na figura Figura 3.1 atrav´es da estat´ıstica R-quadrado igual a
0,385002, sombreado com azul claro na janela gretl modelo 1.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 27
Figura 3.1: Coeficiente de determina¸ao.
Manualmente o coeficiente de determina¸ao pode ser calculado usando a tabela
ANOVA obtida ap´os uma regress˜ao usando o comando Analysis>ANOVA no menu
suspenso da janela do modelo conforme a Figura 3.2. Na tabela ANOVA apresenta na
Figura 3.3 ao encontrados os valores para Soma dos Quadrados dos Res´ıduos (SQR),
Soma dos Quadrados Explicados (SQE) e Soma Total de Quadrados (STQ) bem como
ogretl faz o alculo para o coeficiente de determina¸ao, R2. Ent˜ao, o R2´e calculado
da seguinte forma:
R2=SQE
STQ = 1 SQR
STQ =190627
495132 = 0,385002 (3.4)
em que, conforme a Figura 3.3, SQE = 190627, SQT = 495132 e SQR = 304505.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 28
Figura 3.2: Tabela ANOVA.
Figura 3.3: Sa´ıda da tabela ANOVA.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 29
3.3 Escolhendo a forma funcional
ao a raz˜ao para considerar que gasto com alimenta¸ao e renda apresentem uma
rela¸ao linear. Na verdade, ´e bem prov´avel que essas duas vari´aveis apresentem uma
rela¸ao ao linear, pois um assalariado de baixa renda gastar´a todo Real (R$) adicional
em comida enquanto um assalariado de alta renda gastar´a bem menos de cada Real
(R$) adicional que recebe.
Entretanto, como se sabe, as ao linearidades podem ser contornadas com a
transforma¸ao da vari´avel dependente (y) ou independente (x) ou de ambas. Outro
exemplo ´e rela¸ao entre insumos e produto que ´e regida no curto prazo pela lei dos
rendimentos decrescentes, sugerindo que uma curva convexa ´e mais apropriada. Mas
como a dito, uma simples transforma¸ao das vari´aveis (y,xou ambas) produz um
modelo linear nos parˆametros (mas ao necessariamente nas vari´aveis).
Importante destacar que a forma funcional escolhida deve ser consistente com a
forma como os dados ao realmente gerados. A escolha de uma forma funcional
que, quando devidamente parametrizado, ao consegue gerar seus dados, seu modelo
est´a mal especificado, ou seja, especificado incorretamente. O modelo, na melhor das
hip´oteses, pode ao ser ´util e, na pior das hip´oteses, ser totalmente enganoso.
A transforma¸ao de vari´aveis no gretl ´e bastante simples e ´e realizada na janela
principal atrav´es do menu suspenso do comando Acrescentar,Figura 3.4. Esse menu
suspenso fornece acesso a arias transforma¸oes. Uma vez escolhida um tipo de
transforma¸ao, a vari´avel transformada ser´a adicionada automaticamente ao conjunto
de dados, bem como sua descri¸ao.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 30
Figura 3.4: Menu para transforma¸ao de vari´aveis.
A pen´ultima op¸ao, Definir nova vari´avel..., (sombreada de azul claro)
permite realizar transforma¸oes mais complicadas tais como: raiz quadrada, seno,
cosseno, valor absoluto, exponencial, m´ınimo, aximo, etc..
3.3.1 Especifica¸ao linear-log
A especifica¸ao linear-log do modelo de gastos com alimenta¸ao usa o logaritmo
neperiano (natural) da renda como vari´avel independente:
food exp =β1+β2ln (income) + e(3.5)
Assim, para adicionar o logaritmo da vari´avel income ao conjunto de dados
executa-se o comando Acrescentar>Logaritmos das vari´aveis selecionadas.
Por´em, note que antes de executar tal comando a vari´avel para qual se deseja o
logaritmo deve estar destacada (sombreada de azul claro) na janela principal do gretl,
conforme Figura 3.5. Ap´os executar esse comando a janela principal do gretl passar´a
a mostrar a nova vari´avel criada (lincome), Figura 3.6.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 31
Figura 3.5: Selecionando a vari´avel a ser transformada.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 32
Figura 3.6: Janela principal com a nova vari´avel.
Estimando o modelo produz
\
food exp =97,1864
(84,2374)
+ 132,166
(28,8046)
l income
n= 40 ¯
R2= 0,3396 F(1,38) = 21,053 ˆσ= 91,567
(erros padr˜ao entre parˆenteses)
A seguir tem-se o gr´afico de dispers˜ao, Figura 3.7, da rela¸ao entre gastos com
alimenta¸ao e renda. Uma vez que se estimou um modelo usando logaritmo neperiano
(natural) da renda espera-se que uma rela¸ao positiva, i.e., ao linear. Para gerar esse
gr´afico primeiramente estime a regress˜ao para que seja aberta a janela de modelos. A
seguir, execute o seguinte comando Salvar>Valores ajustados,Figura 3.8. Nomeie
a vari´avel valor ajustado como yhat2 e clique em Ok.
Agora volte `a janela principal e destaque (sombreado azul claro) as trˆes vari´aveis
(food exp, yhat2 e income) e, ent˜ao, use o comando Ver>Gr´aficos das vari´aveis>
X-Yem dispers˜ao. Isso abrir´a uma janela igual a da Figura 3.9. Escolha como
Vari´avel do eixo X income e como Vari´aveis do eixo Yas vari´aveis f ood exp e
yhat2.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 33
Figura 3.7: Menu suspenso para salvar os Valores ajustados.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 34
Figura 3.8: Menu para definir as vari´aveis.
Figura 3.9: Gr´afico de dispers˜ao.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 35
3.3.2 Teste para m´a especifica¸ao gr´afico dos res´ıduos
A tomada de decis˜oes com base nos resultados de uma regress˜ao pode levar a
erios problemas se a forma funcional estiver mal especificada. Por isso, ap´os uma
estima¸ao deve-se realizar alguns testes estat´ısticos para confirmar a robustez dos
resultados. Um dos primeiros teste a ser realizado ´e o diagn´ostico de problemas
de especifica¸ao. Destaca-se que existem diversos testes para identificar uma a
especifica¸ao, entretanto, os pesquisadores geralmente come¸cam examinando o gr´afico
dos res´ıduos da regress˜ao em busca de evidˆencias de qualquer erro de especifica¸ao.
Gr´aficos da distribui¸ao dos res´ıduos de uma regress˜ao semelhantes ao apresentado
na Figura 3.10 garantem que as suposi¸oes do modelo de regress˜ao linear normal cl´assico
se mantˆem e, assim, garantindo que os m´ınimos quadrados sejam a variˆancia m´ınima
ao viesada.
Figura 3.10: Res´ıduos distribu´ıdos aleatoriamente.
Modelo linear-log
AFigura 3.11 refere-se ao gr´afico dos res´ıduos de ınimos quadrados do modelo de
regress˜ao linear-log dos gastos com alimenta¸ao. Note que esses ao parecem ser
estritamente aleat´orios, mas, pelo contr´ario, parecem ser heteroced´asticos. Significando
que para alguns n´ıveis de renda o gasto com alimenta¸ao varia mais do que para outros
n´ıveis nota-se que rendas mais altas a varia¸ao ´e maior.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 36
Figura 3.11: Distribui¸ao dos res´ıduos do modelo linear-log.
Em fun¸ao disso, os ınimos quadrados podem at´e ser imparciais nesse caso, por´em,
ao ´e eficiente. Assim, a validade dos testes de hip´oteses e intervalos ´e afetada e alguns
cuidados devem ser tomados para garantir que sejam feitas inferˆencias estat´ısticas
adequadas.
Modelo log-linear
Agora, o modelo dos gastos com alimenta¸ao ´e estimado adotando a estrutura
log-linear. Mais uma vez, os res´ıduos ao apresentam uma distribui¸ao aleat´orio,
mas, pelo contr´ario, continuam sendo heteroced´asticos. Por´em, quando comparados
ao modelo linear-log pode-se dizer que ao levemente heteroced´astico, Figura 3.12.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 37
Figura 3.12: Distribui¸ao dos res´ıduos do modelo log-linear.
3.3.3 Teste de normalidade
O teste de normalidade Jarque-Bera JB ´e calculado usando a assimetria e a curtose
dos res´ıduos de m´ınimos quadrados. Primeiramente, ´e necess´ario estimar o modelo
usando M´ınimos Quadrados Ordin´arios e salvar os res´ıduos no conjunto de dados.
Assim, para o modelo de gastos com alimenta¸ao, ap´os a estima¸ao salva-se os res´ıduos
aplicando o comando Salvar>Res´ıduos,Figura 3.13.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 38
Figura 3.13: Salvando os res´ıduos.
Importante mencionar que o gretl reporta o excesso de curtose em vez da curtose
e, assim, o alculo ´e dado por:
JB =T
6assimetria2+(excesso de curtose)2
4(3.6)
Vari´aveis aleatoriamente normalmente distribu´ıdas ao possuem nem assimetria
nem curtose e, portanto, a estat´ıstica J B ´e igual a zero. Entretanto, essa estat´ıstica
fica maior quanto maior a assimetria e quanto maior o grau de excesso de curtose
exibido pelos dados. Agora, uma vez salvado os res´ıduos no conjunto de dados, usa-se
a janela de comandos para realizar o alculo da estat´ıstica Jarque-Bera. Para acessar
a janela de comandos, clique no terceiro ´ıcone da esquerda, , na parte inferior da
janela principal do gretl. Na janela que abrir, nomeada de console, digite o comando
normtest uhat1 --jbera,Figura 3.14.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 39
Figura 3.14: Sa´ıda do teste Jarque-Bera.
Outros testes para a normalidade dos res´ıduos podem ser obtidos digitando na
janela console do gretl o seguinte comando: normtest uhat1 --all. Um dos
testes reportados ´e o teste de Doornik-Hansen DH que ´e computacionalmente
mais complexo que o teste de Jarque-Bera. Ademais, para plotar um gr´afico asico
da distribui¸ao dos res´ıduos pode-se executar o comando Testes>Normalidade dos
res´ıduos na janela da regress˜ao do modelo, Figura 3.15. Uma vantagem de se usar o
normtest ´e que se pode testar a normalidade para qualquer vari´avel, ao apenas dos
res´ıduos.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 40
Figura 3.15: Teste DH de normalidade dos res´ıduos.
Um histograma dos res´ıduos ´e gerado com uma densidade normal sobreposta `a
distribui¸ao dos res´ıduos, Figura 3.16.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 41
Figura 3.16: Histograma da distribui¸ao dos res´ıduos.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 42
Universidade Federal de Pelotas - UFPel
43
Cap´ıtulo 4
Modelo de regress˜ao ultipla
O modelo de regress˜ao ultipla ´e uma extens˜ao do modelo de regress˜ao simples. A
principal diferen¸ca ´e que o modelo linear de regress˜ao ultipla cont´em mais do que uma
vari´avel explicativa. Essa condi¸ao muda ligeiramente a interpreta¸ao dos coeficientes
e imp˜oe uma condi¸ao especial aos dados. A forma geral do modelo ´e mostrada na
Equa¸ao 4.1 abaixo:
yi=β1+β2xi2+· ·· +βkxik +eii= 1,2, . . . , n (4.1)
em que yi´e vari´avel dependente, xij ´e a ith observa¸ao da jth vari´avel independente,
j= 2,3, . . . , k;ei´e o erro aleat´orio e β1, β2, . . . , βkao os parˆametros que se deseja
estimar. Assim, como o modelo de regress˜ao linear simples, cada erro ei|xij tem
um valor zero para cada valor das j’s vari´aveis independentes. Cada vari´avel possui a
mesma vari´avel σ2e ao correlacionados com qualquer um dos outros termos de erros.
Para estimar cada um dos βs, nenhuma das vari´aveis independentes pode ser
exatamente uma combina¸ao linear das demais vari´aveis independentes. Essa condi¸ao
serve como um requisito para que a vari´avel independente assuma pelo menos dois
valores diferentes na amostra. As suposi¸oes sobre o termo de erro podem ser resumidas
como: ei|xi2, xi3, . . . , xik i.i.d (0, σ2). Lembre-se que a express˜ao i.i.d significa
que os erros ao estatisticamente independentes uns dos outros (e, portanto, ao ao
correlacionados) e cada um dos res´ıduos tem a mesma distribui¸ao de probabilidade.
Os parˆametros β1, β2, . . . , βkao considerados como inclina¸oes e cada inclina¸ao
mede o efeito de a mudan¸ca de uma unidade de xij na edia do valor de yi, mantendo
todas as outras vari´aveis na equa¸ao constantes. A interpreta¸ao condicional do
coeficiente ´e importante para lembrar quando se utiliza a regress˜ao linear m´ultipla.
O primeiro exemplo usado ´e o modelo de vendas do Big Andy’s Burger Barn. O
modelo inclui duas vari´aveis explicativas e uma constante:
salesi=β1+β2pricei+β3adverti+eii= 1,2,··· , n (4.2)
em que salesiao as vendas mensais em uma dada cidade sendo medida em $1.000
incrementos, pricei´e o pre¸co do hamb´urguer medido em olares e advertiao os gastos
em propaganda tamb´em medidas em milhares de olares.
Loures e Fernandez 44
4.1 Regress˜ao linear
Para estimar-se a regress˜ao linear ultipla, deve-se clicar em Modelo>M´ınimos
Quadrados Ordin´arios. Tamem a um atalho na barra de ferramentas que abre o
modelo a ser especificado. Lembre que a barra de ferramentas est´a localizada na parte
inferior da janela principal do gretl. a encontra-se um bot˜ao rotulado como ˆ
β:
Clicando no bot˜ao ˆ
βpode-se especificar o modelo, obtendo os seguintes resultados.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 45
4.2 Qualidade do ajuste
Uma importante estat´ıstica inclu´ıda na sa´ıda do modelo 1 ´e a Soma dos Quadrados
dos Res´ıduos (SQR) a qual o gretl se refere como Soma dos quadrados res´ıduo.
Nesse modelo o SQR = 1718,943. Para obter a variˆancia estimada, ˆσ2, dividi-se a
SQR pelos graus de liberdade dispon´ıveis para obter:
ˆσ2=SQR
nk=1718,94
75 3= 23,873 (4.3)
em que ncorresponde ao umero de observoes e k´e o grau de liberdade.
A raiz quadrada desse umero ´e 4,88612 que ´e referida pelo gretl como E.P da
regress~ao (Erro Padr˜ao da Regress˜ao). Se o economista emp´ırico deseja computar
suas pr´oprias vers˜oes dessas estat´ısticas usando a soma dos quadrados do modelo,
poder´a utilizar o menu gerado pela pr´opria janela do modelo An´alise>ANOVA. Para
computar o R2mostrado na sa´ıda padr˜ao do gretl deve-se lembrar que:
ˆσy=rSTQ
n1(4.4)
em que STQ ´e a Soma Total dos Quadrados e no umero de observa¸oes.
A esteat´ıtica ˆσy´e mostrada pelo grelt como D.P da var. dependente que ´e
6,48854. Com um pouco de ´algebra tem-se que:
STQ = (n1)ˆσy= 74 ×6,48854 = 3115,785 (4.5)
em que STQ ´e a Soma Total dos Quadrados e no umero de observa¸oes. Ent˜ao:
R2= 1 SQE
STQ = 1 1718,94
3115,485 = 0,448 (4.6)
em que SQE ´e a Soma dos Quadrados Explicados e STQ a Soma Total dos Quadrados.
Dessa forma, as estat´ısticas de qualidade de ajuste impressas na sa´ıda da regress˜ao
gretl ou na tabela ANOVA ao perfeitamente aceit´aveis.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 46
Ogretl tamb´em reporta o R2ajustado na sa´ıda padr˜ao da regress˜ao. O R2
ajustado imp˜oe uma pequena penaliza¸ao para o R2padr˜ao quando uma nova vari´avel
´e inserida no modelo. Adicionando uma nova vari´avel qualquer a correla¸ao com y
sempre reduz a SQE e aumenta o tamanho do R2. Por sua vez, o R2ajustado pode
se tornar menor `a medida que novas vari´aveis ao adicionadas. A ormula ´e:
¯
R2= 1 SQE (nk)
SQT (n1) = 1 (4.7)
Ogretl refere-se a essa medida como R-quadrado ajustado. Para o exemplo do Big
Andy’s Burger Barn o R2ajustado ´e igual a 0,4329.
4.3 Intervalos de confian¸ca
Os intervalos de confian¸ca pode ser obtidos usando o menu An´alise>Intervalos de
confian¸ca para os coeficientes.
Clicando em αpode-se selecionar o ıvel de confian¸ca desejado.
4.4 Polinˆomios
Uma forma de permitir um relacionamento ao linear entre a vari´avel dependente e a
independente ´e introduzir polinˆomios ao modelo de regress˜ao. No exemplo espera-se
que o efeito marginal de um olar adicional investido em propaganda reduza ao
aumentar os gastos em propaganda.
salesi=β1+β2pricei+β3adverti+β4advert2
i+eii= 1,2, . . . , n (4.8)
Para poder estimar os parˆametros desse modelo, deve-se criar uma nova vari´avel
advert2
ie adicion´a-la ao modelo de m´ınimos quadrados. Para isso basta clicar no menu
Acrescentar>Definir nova vari´avel.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 47
A cria¸ao dessa vari´avel advert2 ´e um exemplo simples do que pode ser chamado de
vari´avel de intera¸ao. A forma mais simples de pensar sobre uma vari´avel de intera¸ao ´e
que a magnitude de seu efeito sobre a vari´avel dependente depende de outra vari´avel, ou
seja, as duas vari´aveis interagem para determinar o valor edio da vari´avel dependente.
Neste exemplo, o efeito da publicidade nas vendas edias depende do n´ıvel da pr´opria
publicidade.
4.5 Efeitos marginais
Quando as vari´aveis interagem o efeito marginal de uma vari´avel na edia de outra
deve ser computado baseando-se em alculo. Ao tomar a derivada parcial das vendas
edias em rela¸ao ao n´ıvel de propaganda obt´em-se o efeito marginal edio das vendas
sobre o aumento de uma unidade na propaganda:
E (sales)
advert =β3+ 2 β4(4.9)
A magnitude do efeito marginal depende dos parˆametros bem como do n´ıvel de
propaganda. Veja os resultados das estimativas para poder calcular o efeito marginal:
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 48
O efeito marginal de um acrescimento de $ 1.000 olares em propaganda pode ser
calculado da seguinte forma:
β3+ 2 β4= 12,15 + 2 ×(2,76) ×1=6,63
4.6 Efeitos de intera¸ao
Nesse exemplo fez-se a intera¸ao entre a vari´avel experiˆencia e a vari´avel sal´ario. Para
isso, utiliza-se o arquivo cps5 small.gdt. A ideia ´e que o n´ıvel de experiˆencia afeta o
retorno de um ano a mais de escolaridade (ou, outro ano de educa¸ao afeta o retorno
de um ano a mais de experiˆencia). O modelo a ser estimado se torna:
wage =β1+β2educ +β3exper +β4educ ×exper +e(4.10)
O efeito marginal depende dos n´ıveis de educa¸ao e da experiˆencia. Eles ao medidos
pelos trabalhadores que possuem entre 8 e 16 anos de escolaridade e para aqueles
trabalhadores que possuem 20 anos de experiˆencia:
E (wage |educ, exper)
exper =β1+β4educ (4.11)
E (wage |educ, exper)
educ =β1+β4exper (4.12)
Abaixo seguem as estimativas do modelo:
Os efeitos marginais da experiˆencia ao os seguintes:
Quando a experiˆencia ´e 0 = 2,65
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 49
Quando a experiˆencia ´e 20 = 2,65 (0,00275) ×20
=2,6
Os efeitos marginais da educa¸ao:
Quando a educa¸ao ´e 8 = 0,24 (0,00275) ×8
=2,18
Quando a educa¸ao ´e 16 = 0,24 (0,00275) ×8
=0,196
Quando a educa¸ao ´e 20 = 0,24 (0,00275) ×20
=0,185
Pode-se expandir esse exemplo utilizando um termo quadr´atico:
ln (wage) = β1+β2educ +β3exper +β4educ ×exper +β5exper2+e(4.13)
Os efeitos marginais ao:
E (ln (wage)|educ, exper)
exper =β1+β4educ + 2β5exper (4.14)
E (ln (wage)|educ, exper)
educ =β1+β4exper (4.15)
As estimativas do modelo podem ser vistas na figura abaixo:
Efeitos marginais da experiˆencia no sal´ario de 8 anos de educa¸ao e 20 anos de
experiˆencia:
0,05 + (0,00127 ×8) + (2 × 0.0005 ×20) = 0,0198 = 1,98%
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 50
Efeitos marginais da educa¸ao no sal´ario de 8 anos de educa¸ao e 20 anos de
experiˆencia:
0,136 + (0,00127 ×20) = 0,116 = 11,6%
Universidade Federal de Pelotas - UFPel
51
Cap´ıtulo 5
Inferˆencia adicional no modelo de
regress˜ao m´ultipla
Neste cap´ıtulo aprofunda-se a an´alise dos modelos de regress˜ao linear ultipla
apresentando novas estat´ısticas auxiliares para checar a qualidade do ajuste do modelo.
Primeiramente testa-se a hip´oteses conjuntas sobre os parˆametros em um modelo e,
a seguir, aprende-se a como impor restri¸oes lineares aos parˆametros. Ademais, a
especifica¸ao do modelo ser´a determinada usando regras de sele¸ao do modelo, previs˜ao
fora da amostra e um teste formal funcional. A colinearidade e a detec¸ao de outliers
observa¸oes influentes ao discutidas e os ınimos quadrados ao lineares ao
apresentados.
5.1 Teste F
A estat´ıstica tassociada a qualquer coeficiente de MQO pode ser usada para testar se
o parˆametro desconhecido correspondente na popula¸ao ´e igual a qualquer constante
dada, geralmente, mas nem sempre, zero βk= 0. Observe que essa hip´otese envolve
uma ´unica restri¸ao. No entanto, frequentemente, deseja-se testar hip´oteses m´ultiplas
sobre os parˆametros subjacentes β0, β1, . . . , βk. Logo, inicia-se com o procedimento
principal de testar se um conjunto de vari´aveis independentes ao tem efeito parcial
sobre uma vari´avel dependente.
5.1.1 Teste de restri¸oes de exclus˜ao
Sabe-se como testar se uma vari´avel determinada ao tem efeito parcial sobre a vari´avel
dependente: use a estat´ıstica t. Agora, o que se quer ´e testar se um grupo de vari´aveis
ao tem efeito sobre a vari´avel dependente. Mais precisamente, a hip´otese nula ´e que
um conjunto de vari´aveis ao tem efeito sobre y, a que outro conjunto de vari´aveis foi
controlado.
Como uma ilustra¸ao do porquˆe testar a significˆancia de um grupo ´e ´util, considere
o seguinte modelo do Big Andy’s Burger Ban (conjunto de dados andy.gdt):
sales =β1+β2price +β3advert +β4advert2+e(5.1)
Suponha que se deseja testar a hip´otese de que a propaganda (advert) ao tem
efeito sobre as vendas edias (sales) contra a hip´otese alternativa de que tem. Assim,
Loures e Fernandez 52
tem-se que:
(H0:β3=β4= 0
H1:β3= 0 ou β4= 0 (5.2)
O modelo sob H0´e restrito em compara¸ao com o modelo sob H1, pois nele β3= 0
eβ4= 0. Ou seja, a hip´otese nula constitui duas restri¸oes de exclus˜ao: se H0
´e verdadeiro, enao, advert eadvert2ao em efeito sobre sales ap´os price ter sido
controlado e, portanto, deveriam ser exclu´ıdos do modelo. Esse ´e um exemplo de
conjunto de restri¸oes ultiplas porque ao colocadas mais de uma restri¸ao sobre
os parˆametros do Modelo 5.1; posteriormente, ser˜ao vistos mais exemplos gerais de
restri¸oes m´ultiplas. Um teste de restri¸oes m´ultiplas ´e chamado teste de hip´oteses
ultiplas ou o teste de hip´oteses conjuntas.
A estat´ıstica Fusada para testar H0contra H1estima cada modelo por m´ınimos
quadrados e compara sua respectiva soma de erros quadrados usando a estat´ıstica:
F=(SQRrSQRir )/ J
SQRir /(nk)FJ, nkse H0´e verdadeiro (5.3)
em que SQRr´e a Soma dos Quadrados dos Res´ıduos do modelo restrito enquanto
SQRir caracteriza-se como sendo a Soma dos Quadrados dos Res´ıduos do modelo
irrestrito. Por sua vez, Jindica o umero de hip´oteses sendo testadas, no presente
exemplo duas (β3= 0 e β4= 0). a o denominador ´e dividido pelo umero total de
graus de liberdade na regress˜ao irrestrita, nk, em que n´e o tamanho da amostra e
k´e o umero de parˆametros na regress˜ao irrestrita.
A seguir ao apresentados os passos para calcular a estat´ıstica Fno gretl usando
oModelo 5.1. Assim, inicialmente cria-se a vari´avel advert2conforme a Figura 5.1.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 53
Figura 5.1: Caixa de di´alogo para adicionar uma nova vari´avel.
Uma vez criada essa vari´avel a janela principal do gretl ter´a a seguinte aparˆencia
(Figura 5.2):
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 54
Figura 5.2: Janela principal do gretl.
Ap´os definir a especifica¸ao a ser estimada, conforme a Figura 5.3, ser´a aberta a
janela com os resultados da estima¸ao, Figura 5.4. Uma vez que o teste que se deseja
executar envolve a imposi¸ao de restri¸oes zero nos coeficientes de advert (publicidade)
eadvert2(publicidade ao quadrado), ent˜ao, pode-se usar a op¸ao Omitir vari´aveis.
Sendo assim, na janela da Figura 5.4 execute o seguinte comando Testes>Omitir
Vari´aveis. Isso abrir´a a janela da Figura 5.5. Nessa janela, selecione as vari´aveis
a serem testadas, no presente caso advert eadvert2e marque a op¸ao Estimar
modelo reduzido, destacado com uma seta vermelha. Feito isso, clique em Ok e ser´a
apresentada a janela da Figura 5.6.
Com base no p-valor reportado nos resultados do teste F,Figura 5.6, rejeita-se a
hip´otese nula (H0) de que os parˆametros β3eβ4, respectivamente das vari´aveis advert
eadvert2, ao iguais a zero e, portanto, o modelo Big Andy’s Burger Ban deve ser
estimado incluindo essas duas vari´aveis independentes regressores.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 55
Figura 5.3: Definindo a especifica¸ao do modelo.
Figura 5.4: Resultados do modelo Big Andy’s Burger Ban.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 56
Figura 5.5: Definindo as vari´aveis a serem testadas.
Figura 5.6: Resultado para o teste F.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 57
5.1.2 Significˆancia da regress˜ao
A estat´ıstica F teste-F ´e usada para determinar se as vari´aveis em um modelo em
algum efeito sobre o valor m´edio da vari´avel dependente y. Nesse caso, a hip´otese nula,
H0, ´e a proposi¸ao de que yao depende de nenhuma das vari´aveis independentes
enquanto a hip´otese alternativa, H1, ´e que ydepende das vari´aveis independentes.
Essa hip´otese nula ´e, de certa maneira, muito pessimista. Note que que a hip´otese
nula trata-se de um conjunto de k1 restri¸oes lineares. Algebricamente, tem-se que
(Equa¸ao 5.4):
(H0:β2=β3=β4=··· =βk= 0
H1:β2= 0 ou β3= 0 ou β4= 0 ou . . . ou βk= 0 (5.4)
O teste de significˆancia geral da regress˜ao ´e importante o suficiente para que todos
os softwares econom´etricos e estat´ısticos reportem-o na sa´ıda padr˜ao de cada regress˜ao
linear estimada. No gretl a estat´ıstica F(24,45932) e seu p-valor (5,60e-11), para o
modelo Big Andy’s Burger Ban, est˜ao destacados na Figura 5.7. Ou seja, ao reportados
na janela principal do modelo. Uma vez que o p-valor ´e menor que 0,01, ent˜ao,
rejeita-se a hip´otese nula de que o modelo ´e insignificante no n´ıvel de significˆancia de
um por cento (1%).
Figura 5.7: Estat´ıstica Fde significˆancia geral da regress˜ao.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 58
5.1.3 Rela¸ao entre o teste te o teste F
Viu-se na Se¸ao 5.1.2 como a estat´ıstica Fpode ser usada para testar se um grupo
de vari´aveis deve ou ao ser inclu´ıdo em um modelo. Entretanto, pode-se questionar
o que aconteceria se aplicasse a estat´ıstica Fao caso de testar a significˆancia de uma
´unica vari´avel independente? Ou seja, pode-se usar o a estat´ıstica Fpara testar uma
´unica vari´avel explicativa? Por exemplo, suponha que se descreva a hip´otese nula como
H0:βk= 0 para testar a ´unica restri¸ao de exclus˜ao, usando a estat´ıstica F, de que
xkpode ser exclu´ıdo do modelo. Entretanto, sabe-se que a estat´ıstica tde βkpode ser
usada para testar essa hip´otese.
Ent˜ao, surge a uvida: existem duas formas para testar hip´oteses sobre um ´unico
coeficiente? A resposta ´e ao. Embora as duas abordagens levem exatamente ao
mesmo resultado,1desde que a hip´otese alternativa seja bilateral, a estat´ıstica t´e mais
flex´ıvel para testar uma ´unica hip´otese, uma vez que essa pode ser usada para testar
alternativas unilaterais. Usando o comando Omitir da Subsec¸ao 5.1.1 para o modelo
Big Andy’s Burger Ban, Equa¸ao 5.1, obt´em-se a Figura 5.8. Lembre-se de deixar a
caixa Estimar modelo reduzido marcada.
Figura 5.8: Definindo a vari´avel a ser testada.
Ao clicar em Ok, na caixa de di´alogo da Figura 5.8, abrir´a a janela da Figura 5.9.
Note que a estat´ıstica F(1,71) ´e igual a 53,3549 com um p-valor de 3,23648e-010,
que ´e muito menor do que 0,01, logo, o coeficiente ´e significante a um n´ıvel de 1% de
significˆancia. Agora note que o quadrado da estat´ıstica tpara a vari´avel price,Figura
1A estat´ıstica Fpara testar a exclus˜ao de uma ´unica vari´avel ´e igual ao quadrado da estat´ıstica t
correspondente.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 59
5.7, resultar´a, aproximadamente, no mesmo valor: (7,304)2= 53,348416. Ademais,
os p-valores tamb´em ser˜ao iguais: para a estat´ıstica F; 3,23648e-010, (Figura 5.9)
enquanto para a estat´ıstica t; 3,24e-010 (Figura 5.7).
Destaca que o que se espera da estat´ıstica F´e que essa revele se qualquer
combina¸ao de um conjunto de coeficientes (β1, β2, . . . , βk) seja diferente de zero. Mas,
entretanto, essa estat´ıstica nunca ser´a o melhor teste para determinar se um ´unico
coeficiente ´e diferente de zero. Na verdade, a estat´ıstica tse apresenta como o teste
mais adequado para testar uma ´unica hip´otese. Ademais, dado que as estat´ısticas
ttamb´em ao mais aceis de serem obtidas do que as estat´ısticas F, uma vez que,
por padr˜ao, em todos os softwares econom´etricos e estat´ısticos, essas ao reportadas
juntamente com as demais estat´ısticas nas sa´ıdas da estima¸ao, ao a raz˜ao para usar
uma estat´ıstica Fpara testar hip´oteses sobre um ´unico parˆametro.
Figura 5.9: Resultado para o teste F.
5.2 Modelos restrito e irrestrito
Nesta se¸ao, um modelo restrito2log-log de demanda por cerveja ser´a estimado. Os
dados est˜ao dispon´ıveis no arquivo beer.gdt cujas vari´aveis est˜ao armazenadas em
n´ıvel. O modelo ´e dado por:
ln (q) = β1+β2ln (pb) + β3ln (pl) + β4ln (pr) + β5ln (i) + e(5.5)
Assim, uma vez que as vari´aveis encontram-se na forma de n´ıvel, a primeira
2Importante destacar que essa abordagem ´e de suma importˆancia para as fun¸oes Cobb-Douglas
uma vez que o somat´orio dos parˆametros devem ser igual a um, i.e., α+β= 1. Portanto, modelos
empregando fun¸oes Cobb-Douglas caracterizam-se como sendo um modelo restrito.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 60
coisa a se fazer ´e transformar cada uma das vari´aveis para logaritmo natural ou
logaritmo neperiano. Para isso, bastar usar o comando Acrescentar>Logaritmos
das vari´aveis selecionadas,Figura 5.10. Logo ap´os a cria¸ao dos logaritmos
neperiano das vari´aveis selecionadas a janela principal do gretl ter´a a aparˆencia da
Figura 5.11.
Figura 5.10: Obtendo o logaritmo das vari´aveis de interesse.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 61
Figura 5.11: Janela principal com os logaritmos neperiano das vari´aveis selecionadas.
Agora se est´a interessado em estimar um modelo mas com a restri¸ao de que o
somat´orio dos parˆametros β2, β3, β4eβ5seja igual a zero, ou seja, β2+β3+β4+
β5= 0. Nesse caso, inicialmente estima um modelo irrestrito usando o comando
Modelo>M´ınimos Quadrados Ordin´arios,Figura 1.12. Posteriormente, usa-se o
comando Testes>Restri¸oes lineares para informar ao gretl que a estima¸ao tem
como restri¸ao que o somat´orio dos parˆametros β25deve ser igual a zero, ou seja,
estima-se um modelo restrito Figura 5.13.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 62
Figura 5.12: Resultados do modelo irrestrito de demanda por cerveja.
As restri¸oes para o modelo restrito devem ser informadas manualmente com a
seguinte rela¸ao: β2= b [l pb], β3= b [l pl], β4= b [l pr] e β5= b [l i]. Os resultados
para o modelo restrito ao apresentados na Figura 5.14. Note que o somat´orio dos
coeficientes β25totaliza zero (1,29939 + 0,186816 + 0,166742 + 0,945829 = 0).
Figura 5.13: Restri¸oes para o modelo restrito de demanda por cerveja.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 63
Figura 5.14: Resultados para o modelo restrito de demanda por cerveja.
5.3 Especifica¸ao do modelo
Diversas quest˜oes relacionadas `a especifica¸ao de um modelo ser˜ao abordadas nesta
se¸ao. Inicialmente ser´a considerado o problema de vi´es de vari´avel omitida. Isso
ocorre quando se omite vari´aveis independentes relevantes para o modelo. Uma vari´avel
independente ´e dita relevante quando essa afeta a m´edia da vari´avel dependente. Mais
precisamente, quando se omite uma vari´avel relevante que est´a correlacionada com
qualquer um dos outros regressores, o estimador de M´ınimos Quadrados sofre de vi´es
de vari´avel omitida.
Por outro lado, incluir vari´aveis irrelevantes ao modelo tamb´em gera problema para
a estima¸ao. Ou seja, incluir regressores que ao afetam y(a vari´avel dependente) ou,
se afetam, ao correlacionados com os demais regressores. A inclus˜ao de vari´aveis
independentes irrelevantes no modelo torna os M´ınimos Quadrados menos precisos do
que seriam isso aumenta os erros-padr˜ao, reduz o poder dos testes de hip´oteses do
modelo bem com aumenta o tamanho dos intervalos de confian¸ca do modelo.
Nesta se¸ao, os exemplos ir˜ao usar o conjunto de dados edu inc.gdt. O primeiro
modelo ´e dado por:
l faminci=β1+β2hei+β3wei+ei(5.6)
em que l faminc ´e o logaritmo neperiano da renda familiar, he ao os anos de
escolaridade do marido e we ao os anos de escolaridade da esposa. ao estimadas
diversas varia¸oes desse modelo que incluem o n´umero de crian¸cas menores de 6 anos
no domic´ılio (kl6) e duas vari´aveis irrelevantes x5ex6.
Os dados ao carregados no gretl, o logaritmo neperiano da renda familiar ´e
obtido e, ent˜ao, estima-se a Equa¸ao 5.6, considerada a equa¸ao baseline”. Ser˜ao
estimados duas especifica¸oes, i) uma especifica¸ao completa, ou seja, incluindo tanto
a escolaridade do marido quanto a escolaridade da esposa e; ii) uma especifica¸ao em
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 64
que a escolaridade da esposa ´e omitida. Uma vez estimada as duas especifica¸oes
coloca-se os resultados das duas estima¸oes em uma ´unica janela (Figura 5.15).
Figura 5.15: Tabela de modelos.
Para conseguir a tabela da Figura 5.15 estima o modelo irrestrito, denominado
modelo 1. Na janela dos resultados do modelo execute o comando Arquivo>Salvar
para sess˜ao como ´ıcone (Figura 5.16. Isso abrir´a a janela gretl: visualiza¸c~ao
de ´ıcones,Figura 5.17, que conter´a um ´ıcone denominado Modelo 1. Siga os mesmos
passos para o modelo restrito e, assim, na janela gretl: visualiza¸c~ao de ´ıcones
existir˜ao dois ´ıcones Modelo 1 e Modelo 2. Ent˜ao, para obter a Figura 5.15 arraste
o ´ıcone Modelo 1 para o ´ıcone Tabela de modelos bem como arraste o ´ıcone Modelo
2 para o ´ıcone Tabela de modelos. Observa¸ao, arraste um ´ıcone por vez. Feito isso,
basta dar um duplo clique no ´ıcone Tabela de modelos para que a tabela da Figura
5.15 abra.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 65
Figura 5.16: Salvar para sess˜ao como ´ıcone.
Figura 5.17: Visualiza¸ao de ´ıcones.
A seguir apresenta-se a tabela comparativa para a estima¸ao das 5 diferentes
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 66
especifica¸oes, Figura 5.18.
Figura 5.18: Tabela de modelos.
Note que, do Modelo 1 para o Modelo 2, houve a exclus˜ao de uma vari´avel
relevante da especifica¸ao, a vari´avel we. Assim, o R2ajustado ficou menor (passou de
0,1673 para 0,1470). Ou seja, o poder de explica¸ao do modelo ficou menor ao se excluir
uma vari´avel independente relevante para o modelo. Por outro lado, comparando o
Modelo 1 com o Modelo 3 percebe-se que a inclus˜ao de uma vari´avel independente
relevante para o modelo eleva o poder de explica¸ao. Pois o R2ajustado passou de
0,1673 para 0,1849.
Ao contr´ario, a inclus˜ao de vari´aveis independentes irrelevantes para o modelo ir˜ao,
como supracitado, aumentar os erros-padr˜ao, reduzir o poder dos testes de hip´oteses do
modelo, aumentar o tamanho dos intervalos de confian¸ca do modelo bem como reduzir o
poder de explica¸ao do modelo. Comparando o Modelo 3 com o Modelo 4 percebe-se
que a inclus˜ao dos regressores xtra x5 e xtra x6 ao afetam a vari´avel dependente, mas
aumenta os erros-padr˜ao. Por outro lado, o comparativo entre o Modelo 3 e Modelo
5 nota-se que a exclus˜ao do regressor we e a inclus˜ao dos regressores xtra x5 e xtra x6
torna esses dois regressores significativos, entretanto, como ao irrelevantes para o
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 67
modelo, provocam o aumento dos erros-padr˜ao das demais vari´aveis do modelo.
5.4 Sele¸ao do modelo
Um desafio para todo estudo emp´ırico ´e a escolha de um modelo apropriado. A omiss˜ao
de vari´aveis relevantes que est˜ao correlacionadas com as demais vari´aveis faz com que
os M´ınimos Quadrados sejam tendenciosos e inconsistentes.3A inclus˜ao de vari´aveis
irrelevantes reduz a precis˜ao dos M´ınimos Quadrados. Assim, do ponto de vista
puramente ecnico, ´e importante estimar um modelo que contenha todas as vari´aveis
relevantes necess´arias e nenhuma irrelevante. Al´em disso, ´e de suma importˆancia a
ado¸ao de uma forma funcional (uma especifica¸ao) adequada. Entretanto, destaca-se
que ao existe nenhum conjunto de regras mecˆenicas que se possa seguir para garantir
que o modelo seja especificado corretamente, mas a algumas coisas que se pode fazer
para aumentar as chances de ter um modelo adequado para usar nas tomadas de
decis˜oes.
A seguir em-se algumas regras de ouro que podem auxiliar estudos emp´ıricos:
1. Use a literatura pregressa bem como a teoria econˆomica para selecionar uma
forma funcional. Por exemplo, se estiver estimando uma fun¸ao de produ¸ao de
curto prazo, a teoria econˆomica sugere que os retornos de produ¸ao diminuem.
Portanto, deve-se escolher uma forma funcional que permita retornos de produ¸ao
decrescente e, nesse caso, adota-se uma forma funcional do tipo log-log;
2. Se os parˆametros estimados tiverem sinais opostos ou magnitudes ao razo´aveis
ao esperado pela literatura pregressa, ´e prudente reavaliar a forma funcional ou
se uma ou mais vari´aveis relevantes foram omitidas;
3. Pode-se realizar testes de hip´oteses conjuntas para detectar a inclus˜ao de
conjuntos de vari´aveis irrelevantes. O teste ao ´e infal´ıvel, pois sempre a a
probabilidade positiva de que o erro do tipo 1 ou do tipo 2 esteja sendo cometido;
4. Pode-se usar as regras de sele¸ao de modelo para encontrar conjuntos de
regressores que ao “´otimos” em termos de um trade-off estimado de vi´es/precis˜ao
e;
5. Pode-se usar um teste RESET para detectar poss´ıvel especifica¸ao incorreta da
forma funcional.
Nesta se¸ao, ser˜ao apresentado alguns comandos do gretl para ajudar com as duas
´ultimas regras de ouro: sele¸ao de modelo e teste RESET. Ademais, considera-se trˆes
regras para sele¸ao de modelo: ¯
R2, AIC e SC. Por´em, destaca-se que ao se est´a
recomendando a aplica¸ao dessas trˆes regras, pois a muitos problemas estat´ısticos
causados pelo uso da amostra para estimar, especificar e testar hip´oteses em um modelo,
mas as vezes se em poucas op¸oes.
3Dada a hip´otese de que uisegue a distribui¸ao normal, os estimadores de M´ınimos Quadrados
Ordin´arios em, entre outras, a seguinte propriedade: ao consistentes; `a medida que o tamanho da
amostra aumenta indefinidamente, os estimadores convergem para os verdadeiros valores da popula¸ao.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 68
5.4.1 R2ajustado
O coeficiente de determina¸ao R2usual ´e “ajustado” ¯
R2 para impor uma penalidade
quando uma vari´avel independente ´e adicionada ao modelo. Adicionar uma vari´avel
independente com qualquer correla¸ao com a vari´avel dependente ysempre reduz a
Soma dos Quadrados Explicados (SQE) e aumenta o valor do R2usual. Por sua vez,
com a vers˜ao “ajustada”, i.e., ¯
R2, a melhoria no ajuste pode ser penalizada e pode ser
menor `a medida que vari´aveis independentes ao adicionadas ao modelo. A ormula ´e:
¯
R2= 1 SQE /(nk)
STQ /(n1) (5.7)
em que SQE ´e a Soma dos Quadrados Explicados, STQ ´e a Soma Total dos Quadrados,
ncaracteriza-se como sendo o umero de observa¸oes e kcorresponde ao grau de
liberdade.
Destaca-se que uma desvantagem em usar o ¯
R2R2ajustado ou R2barra como
regra de sele¸ao de modelo ´e que a penalidade imposta por essa regra a cada regressor
adicionado ´e muito pequena em edia. Assim, esse crit´erio de sele¸ao de modelo tende
a levar a modelos que contˆem vari´aveis independentes irrelevantes.
5.4.2 Crit´erio de informa¸ao
Por padr˜ao, o gretl calcula o Crit´erio de Informa¸ao Akaike (AIC) e o Crit´erio de
Schwarz (SC), esse ´ultimo ´e tamb´em conhecido como Bayesian Information Criterion
(BIC), e os inclui na sa´ıda da regress˜ao padr˜ao. Os valores que o gretl reporta
ao baseados na maximiza¸ao de uma fun¸ao de verossimilhan¸ca logar´ıtmica (erros
normais). Esses dois crit´erios ao utilizados como regras para a sele¸ao de modelo. As
ormulas desses crit´erios ao:
AIC = ln (SQE / n)+2k / n (5.8)
SC = BIC = ln (SQE / n) + kln (n)/ n (5.9)
em que SQE corresponde a Soma dos Quadrados Explicados, ncaracteriza-se como
sendo o umero de observa¸oes e, por sua vez, krepresenta o grau de liberdade.
Para proceder a sele¸ao de modelo deve-se calcular AIC ou SC para cada modelo
em considera¸ao e escolher o modelo que minimiza o crit´erio desejado. Lembre-se que
os modelos devem ser estimados utilizando-se o mesmo umero de observa¸oes, i.e., n.
Assim, uma vez que o tamanho da amostra deve ser mantido constante ao usar regras
de sele¸ao de modelo, percebe-se que os dois crit´erios (AIC ou BIC) levar˜ao exatamente
a mesma escolha do modelo.
5.4.3 teste RESET
Oteste RESET ´e utilizado para checar se a forma funcional empregada ´e adequada. A
hip´otese nula (H0) ´e que a forma funcional ´e adequada enquanto a hip´otese alternativa
(H1ou Ha) implica que a forma funcional ao ´e adequada. O teste RESET envolve
calcular algumas regress˜oes e calcular uma estat´ıstica F.
Considere o seguinte modelo:
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 69
yi=β1+β2xi2+β3xi3+ei(5.10)
E as seguintes hip´oteses:
H0:E[y|xi2, xi3] = β1+β2xi2+β3xi3
H1: ao H0
Se H0for rejeitado implica que a forma funcional empregada ao ´e suportada pelos
dados. Para proceder este teste, primeiramente estime a Equa¸ao 5.10 usando M´ınimos
Quadrados Ordin´arios (MQO) e salve os valores previstos, ˆyi. Ent˜ao, eleve os valores
previstos ˆyiao quadrado e ao cubo e os adicionem ao modelo:
yi=β1+β2xi2+β3xi3+γ1ˆy2
i+ei
yi=β1+β2xi2+β3xi3+γ1ˆy2
i+γ2ˆy3
i+ei
As hip´otese nulas a testar contra a hip´otese alternativa (H1: ao H0) ao:
H0:γ1= 0
H0:γ1=γ2= 0
Para realizar o teste RESET use o comando Testes>RESET de Ramsey
na janela com os resultados da regress˜ao ap´os a estima¸ao do modelo por M´ınimos
Quadrados Ordin´arios (MQO), conforme a Figura 5.19.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 70
Figura 5.19: Teste RESET de Ramsey.
Ao clicar em RESET de Ramsey abrir´a uma janela igual a da Figura 5.20.
Observe que nessa janela est˜ao dispon´ıveis as seguintes op¸oes: i) quadrados e cubos;
ii) apenas quadrados; iii) apenas cubos e; iv) todas as variantes. Inicialmente
realiza-se um teste apenas quadrados e, a seguir, um teste para quadrados e cubos.
Figura 5.20: Janela para o teste de especifica¸ao RESET.
Os resultados do teste RESET para a Equa¸ao 5.6 ao os seguintes (Figuras 5.21 e
5.22):
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 71
Figura 5.21: Teste RESET apenas quadrados.
Figura 5.22: Teste RESET quadrados e cubos.
Pelas Figuras 5.21 e5.22 nota-se que a adequa¸ao da forma funcional ao ´e rejeitada
ao n´ıvel de significˆancia de 5% para ambos os testes. Uma vez que os p-valores foram,
respectivamente, 0,337 e 0,149.
5.4.4 Colinearidade
As estat´ısticas descritivas de um conjunto de dados podem fornecer informa¸oes ´uteis
sobre os dados, servindo a arios prop´ositos. Por exemplo, se houver algum problema
com o conjunto de dados, as estat´ısticas descritivas podem fornecer alguma indica¸ao.
O tamanho da amostra ´e o esperado? A edia, o m´ınimo e o aximo ao razo´aveis?
Caso contr´ario, precisa-se fazer algum trabalho investigativo. Al´em disso, ao observar
as estat´ısticas descritivas se tem uma ideia de como as vari´aveis foram dimensionadas.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 72
Isso ´e de suma importˆancia quando se trata de extrair sentido econˆomico dos resultados.
A magnitude dos coeficientes faz sentido? Por meio das estat´ısticas descritivas tamb´em
´e poss´ıvel identificar vari´aveis discretas, que requerem algum cuidado na interpreta¸ao.
O comando Ver>Estat´ısticas descritivas incluem as seguintes estat´ısticas:
1. edia;
2. Mediana;
3. ınimo (Min);
4. aximo (Max);
5. Desvio padr˜ao (D.P.);
6. Coeficiente de varia¸ao (CV);
7. Assimetria e;
8. Excesso de curtose.
O comando Ver>Matriz de correla¸ao calcula a correla¸ao simples entre as
vari´aveis. Isso pode ser ´util para obter uma compreens˜ao inicial se as vari´aveis ao
altamente colineares ou ao. Embora outras medidas sejam mais ´uteis, nunca ´e demais
olhar para as correla¸oes. Qualquer um desses dois comandos podem ser usado com
uma lista de vari´aveis selecionadas para limitar a quantidade de vari´aveis resumidas ou
correlacionadas. Por exemplo, usando a base de dados rice5.gdt, na Figura 5.23 foram
selecionadas previamente apenas as vari´aveis firm,area,fert,labor,prod eyear,
sombreadas de azul claro, para a obten¸ao das estat´ısticas descritivas e correla¸ao.
Figura 5.23: Janela principal com as vari´aveis de interesse selecionadas.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 73
Considere o exemplo de produ¸ao de arroz (dados contidos no arquivo rice5.gdt).
Esse ´e um modelo log-log de produ¸ao (toneladas de arroz) que depende da ´area
cultivada (hectares), ao de obra (pessoa-dia) e fertilizante (quilogramas).
ln (prod) = β1+β2ln (area) + β3ln (labor) + β4ln (f ert) + e(5.11)
AFigura 5.24 apresenta as principais estat´ısticas descritivas (m´edia, mediana,
desvio padr˜ao (D.P.), M´ınimo e aximo) para as vari´aveis em n´ıvel, ou seja, antes
da transforma¸ao logar´ıtmica:
Figura 5.24: Tabela de estat´ısticas descritivas.
Por sua vez, a matriz de correla¸ao para o mesmo conjunto de vari´aveis (menos
a vari´avel firm) est´a demonstrada na Figura 5.25. Nota-se por essa matriz que as
vari´aveis na amostra ao altamente correlacionadas. Por exemplo, a correla¸ao entre
area elabor ´e de 0,9093. Quanto maior a ´area da fazenda maior o emprego de ao
de obra. Nenhuma surpresa!
Figura 5.25: Matriz de correla¸ao para as vari´aveis em n´ıvel.
Tomar o logaritmo das vari´aveis ao provocar´a grandes mudan¸cas nas correla¸oes.
As correla¸oes entre os logaritmos das vari´aveis ao apresentados na Figura 5.26. A
correla¸ao entre ln (area) e ln (labor) na verdade aumenta ligeiramente de 0,9093 para
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 74
0,9320.
Figura 5.26: Matriz de correla¸ao para o logaritmo das vari´aveis.
O modelo de produ¸ao de arroz, Equa¸ao 5.11, ´e estimado para o ano de 1994 e os
resultados ao apresentados na Figura 5.27. Para estimar o modelo apenas para o ano
de 1994 utiliza-se os seguintes comando no console do gretl.
smpl (year == 1994) −−restrict
m 1994 <ols l prod const l area l labor l fert
omit l area l labor −−testonly
Figura 5.27: Resultados do modelo de produ¸ao de arroz.
Nota-se da Figura 5.27 que al´em da constante a ´unica vari´avel significativa foi
l fert, ao ıvel de 5%. A estat´ıstica F´e de 92,90939 com p-valor de 4,53e-18, bem
abaixo de 1%. O coeficiente de determina¸ao R2´e de 0,874501, que parece bastante
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 75
grande. A significˆancia conjunta de β2eβ3´e testada usando o comando omit,Figura
5.28. Os coeficientes ao conjuntamente diferentes de zero uma vez que o p-valor para
este teste foi 0,00214705. Assim, pode-se rejeitar a hip´otese nula de β2=β3= 0 ao
n´ıvel de significˆancia de 1%, pois 0,00214705 <0,01.
Figura 5.28: Significˆancia conjunta de β2eβ3.
Finalmente, a colinearidade ´e examinada usando a fun¸ao vif ap´os a regress˜ao.
vif significa Variance Inflation Factor (Fator de Infla¸ao de Variˆancia) e ´e usado como
um diagn´ostico de colinearidade por muitos softwares, incluindo o gretl. A fun¸ao
vif est´a relacionada com a recomenda¸ao de Hill et al. (2018) p.(91) que sugere
usar o coeficiente de determina¸ao R2de regress˜oes auxiliares para determinar at´e que
ponto cada vari´avel independente pode ser explicada como fun¸oes lineares das outras
vari´aveis independentes. A fun¸ao vif regride xjcontra todas as outras vari´aveis
independentes e compara o R2
jda regress˜ao auxiliar com 10. Se R2
jexceder 10 haver´a
evidˆencia de um problema de colinearidade.
Ovifjrelata as mesmas informa¸oes, mas de uma forma menos direta. O vif
associado ao j-´esimo regressor ´e calculado da seguinte forma:
vifj=1
1R2
j
(5.12)
que ´e uma fun¸ao apenas de R2
jda j-´esima regress˜ao auxiliar. Ademais, observe que
quando R2
j>0,9, o vifj>10. Portanto, a regra pr´atica para as duas regras ´e, na
verdade, a mesma. Um vifjmaior que 10 ´e equivalente a um R2
jmaior que 0,9 da
regress˜ao auxiliar. Para realizar o teste de colinearidade, estime o modelo e, na janela
do modelo, use o comando An´alise>Colinearidade,Figura 5.29, e os resultados
aparecer˜ao na sa´ıda do gretl.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 76
Figura 5.29: Janela do modelo de regress˜ao.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 77
Figura 5.30: Resultados para o teste de colinearidade.
Mais uma vez, a sa´ıda do gretl ´e bastante informativa, fornece o limite para alta
colinearidade (vifj>10) e a rela¸ao entre vifjeR2
j. Pela Figura 5.30 nota-se que
esses dados ao altamente colineares com o fator de infla¸ao de variˆancia vif para
a vari´avel independente l labor acima do limite.
Para obter as estimativas dos intervalos de confian¸ca para cada uma das inclina¸oes,
ou seja, para cada um dos coeficientes, use o comando An´alise>Intervalos de
confian¸ca para os coeficientes, na janela do modelo (Figura 5.31). Isso abrir´a
a janela da Figura 5.32.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 78
Figura 5.31: Janela do modelo de regress˜ao.
Figura 5.32: Intervalos de confian¸ca para os coeficientes.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 79
Uma sugest˜ao para contornar o problema da colinearidade ´e impor restri¸oes aos
parˆametros do modelo. Por exemplo, suponha que se saiba que os retornos da produ¸ao
de arroz sejam constantes. Isso implica ent˜ao, a seguinte restri¸ao sobre os parˆametros
do modelo: β2+β3+β4= 1. Ou seja, o somat´orio de β24´e igual a unidade (1), Figura
5.33. Para estimar um modelo restrito veja a Se¸ao 5.2. Note da Figura 5.33 que o
somat´orio dos coeficientes de β24= 1, pois 0,226228 + 0,483419 + 0,290253 = 1.
Figura 5.33: Estimativas do modelo restrito.
A restri¸ao como hip´otese nula (H0) ao ´e rejeita ao n´ıvel de 5%, uma vez que
reportou um p-valor igual a 0,313062. Ademais, no modelo restrito a vari´avel
independente l labor passou a ser significativa.
Por fim, repete-se a estimativa do modelo de produ¸ao de arroz usando a amostra
completa, ou seja, usando os dados para os anos de 1993 e 1994. Al´em disso, calcula-se
o fator de infla¸ao de variˆancia vif bem como os intervalos de confian¸ca de 95% para
esse novo modelo. Os resultados para esta nova regress˜ao ao apresentados na Figura
5.34.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 80
Figura 5.34: Resultados para o modelo de produ¸ao de arroz full.
Por sua vez, a Figura 5.35 apresenta os novos intervalos de confian¸ca a 95% para os
coeficientes. Enquanto a sa´ıda para o teste de colinearidade ´e apresentado na Figura
5.36. Destaca-se que o vif da vari´avel l labor caiu de 17,734 para 10,051, ou seja, ´e
melhor do que o modelo para o ano de 1994. Todavia, ainda sinaliza um problema de
colinearidade uma vez que ´e maior do que 10.
Figura 5.35: Intervalos de confian¸ca para o modelo de produ¸ao de arroz full.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 81
Figura 5.36: Teste de colinearidade do modelo de produ¸ao de arroz full.
5.4.5 M´ınimos quadrados ao-linear
A ao linearidade nos parˆametros bem como um termo de erro aditivo implica que o
modelo ao pode ser estimado por ınimos Quadrados Ordin´arios mas, na realidade,
esses dois problemas sinalizam para estimativas de M´ınimos Quadrados ao-Linear. A
seguir, estima-se um modelo usando o estimador de M´ınimos Quadrados ao-Linear.
yt=β xt1+β2xt2+et(5.13)
Uma vez que o parˆametro ´e elevado ao quadrado (β2) e o termo de erro ´e aditivo,
este modelo ´e um candidato para estima¸ao ao-linear de ınimos quadrados, pois o
m´ınimo da fun¸ao da soma dos erros quadrados ao pode ser resolvido analiticamente
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 82
para βem termos dos dados. Assim, uma solu¸ao num´erica para as equa¸oes normais
de m´ınimos quadrados deve ser encontrada.
Destaca-se que os M´ınimos Quadrados ao-Linear, bem como outros estimadores
ao-linear, usam etodos num´ericos, em vez de etodos anal´ıticos, para minimizar
a fun¸ao objetivo da soma dos erros quadrados. Assim, os M´ınimos Quadrados
ao-Lineares requerem mais poder computacional do que a estimativa linear,
entretanto, atualmente isso ao ´e uma grande restri¸ao devido ao avan¸co
computacional.
No gretl, para estimar um modelo de M´ınimos Quadrados ao-Linear o usu´ario
deve especificar a fun¸ao de regress˜ao. Essa conter´a vari´aveis nomeadas no conjunto
de dados e um conjunto de parˆametros nomeados pelo usu´ario. Esses parˆametros
devem ser declarados e informado seus valores (os palpites do usu´ario quanto ao valor
que os parˆametros devam assumir). Opcionalmente, pode-se fornecer as derivadas
anal´ıticas da fun¸ao de regress˜ao em rela¸ao a cada um dos parˆametros que determinam
a dire¸ao da pr´oxima etapa. Por´em, se essas derivadas ao forem fornecidas, deve-se
fornecer uma lista dos parˆametros a serem estimados (separados por espa¸co ou v´ırgula)
e precedidos da palavra-chave params. a a tolerˆancia, o crit´erio para o encerramento
do procedimento de estimativa iterativa, pode ser ajustada usando o comando set.
AEqua¸ao 5.13 ser´a estimada usando o conjunto de dados nlls.gdt. Com essa base
carregada no gretl, use o comando Modelo>M´ınimos Quadrados ao-Linear
(NLS),Figura 5.37. Isso abrir´a uma janela igual a da Figura 5.38 onde ser´a passada
a estrutura do modelo a ser estimado. Ou seja:
1. A primeira linha fornece o valor inicial (o palpite do usu´ario) do parˆametro b
como 1;
2. A segunda linha define a estrutura do modelo a ser estimado e;
3. A terceira linha fornece a lista dos parˆametros, que no presente caso ´e apenas
um, b.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 83
Figura 5.37: M´ınimos Quadrados ao-Linear (NLS).
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 84
Figura 5.38: Definindo a estrutura do modelo.
Uma vez que foram repassada todas as informa¸oes necess´arias clica-se no bot˜ao OK
da Figura 5.38 que abrir´a a janela com a sa´ıda do modelo de regress˜ao, Figura 5.39.
Figura 5.39: Resultado dos M´ınimos Quadrados ao-Linear (NLS).
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 85
Nota-se da Figura 5.39 que a estimativa para β´e de 1,6121 enquanto o erro-padr˜ao
estimado ´e de aproximadamente 0,131. Ademais, importante destacar que o R2
centrado ´e negativo. Contudo, isso ao deve gerar nenhuma surpresa uma vez que
em modelos ao-linear essa estat´ıstica ao ´e limita entre 0 e 1.
Para uma melhor compreens˜ao, a seguir estima-se mais um exemplo de um modelo
ao-linear simples, por´em, esse novo modelo possui trˆes parˆametros. Na verdade,
estima-se uma curva de crescimento log´ıstico usando dados sobre a parcela de produ¸ao
total de co bruto dos EUA que ´e produzida por fornos el´etrico a arco dispon´ıvel no
conjunto de dados steel.gdt. O modelo ´e dado por:
yt=α
1 + exp (βδ t)+et(5.14)
A estrutura¸ao para esse modelo de produ¸ao total de co bruto ´e apresentado
na Figura 5.40 enquanto a sa´ıda para o estimador de M´ınimos Quadrados ao-Linear
encontra-se na Figura 5.41.
Figura 5.40: Estrutura do modelo de produ¸ao de co.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 86
Figura 5.41: Sa´ıda do modelo de produ¸ao de co.
Universidade Federal de Pelotas - UFPel
87
Cap´ıtulo 6
Usando vari´aveis indicadoras
Neste cap´ıtulo, explora-se o uso de vari´aveis indicadoras na an´alise de regress˜ao. A
discuss˜ao incluir´a como cri´a-las, estimar modelos usando-as e como interpretar os
resultados desses modelos. Tamb´em se discuti arias aplica¸oes, as quais incluem o
uso de indicadores para criar intera¸oes, indicadores regionais e realizar testes Chow
de equivalˆencia de regress˜ao em diferentes categorias. Por fim, a utiliza¸ao dessas
vari´aveis na estimativas de modelos de probabilidade linear e na avalia¸ao dos efeitos
do tratamento e nos estimadores de diferen¸cas em diferen¸cas.
6.1 Vari´aveis indicadoras
Vari´aveis indicadoras permitem construir modelos em que algum ou todos os
parˆametros desse modelo podem mudar para um subconjunto da amostra. Uma
vari´avel indicador indica se uma determinada condi¸ao ´e satisfeita. Se isso ´e verdade a
vari´avel ´e igual a 1 e se ao ´e igual a 0. Pode-se referir a elas como vari´aveis dummies
e o gretl usa esse termo para a cria¸ao de vari´aveis indicadoras.
O exemplo usado nesta se¸ao ´e novamente baseado nos dados imobili´arios
utown.gdt. Primeiro deve-se abrir o conjunto de dados e examin´a-los. Pode-se
selecionar todas as vari´aveis e ent˜ao clicar com o bot˜ao direito do mouse na op¸ao
Mostrar Valores:
Loures e Fernandez 88
No caso atual, seis observa¸oes ao suficientes para ver que price esqft ao
cont´ınuos, que a idade ´e discreta e que utown,pool efplace provavelmente ao vari´aveis
indicadoras. As estat´ısticas descritivas simples para toda a amostra ao uma ideia do
alcance e variabilidade de price,sqft eidade. As edias informam sobre as propor¸oes
de residˆencias pr´oximas `a Universidade e que possuem piscinas ou lareiras. Para isso
selecione todas as vari´aveis clique com o bot˜ao direito e selecione a op¸ao Estat´ısticas
Descritivas>Mostrar Estat´ısticas Principais.
Pode-se ver que metade das casas da amostra est´a perto da Universidade
(519 /1000). Tamb´em ´e bastante claro que os pre¸cos ao medidos em unidades de
$ 1.000 e metros quadrados em unidades de 100. A casa mais antiga tem 60 anos e a
algumas novas na amostra (idade = 0). M´ınimos e aximos de 0 e 1, respectivamente,
geralmente significam que se tem vari´aveis indicadoras na amostra. Isso confirma o
que se conclui observando as primeiras observoes da amostra.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 89
6.2 Criando vari´aveis indicadoras
´
E acil criar vari´aveis indicadoras utilizando o gretl. Suponha que se deseja criar uma
vari´avel dummy para indicar que uma casa ´e grande. Grande nesse caso significa ser
maior do que 250 es quadrados (1 e quadrado equivale a 0,093 metros quadrados).
Para isso precisa-se ir no menu Acrescentar>Definir nova vari´avel:
A vari´avel ld assumir´a o valor 1 para todos os valores de sqft maiores que 25 e ser´a
zero caso contr´ario. Pode-se tamb´em usar um operador condicional para criar vari´aveis
indicadoras:
A erie seria chamada de large e se a express˜ao entre parˆenteses for verdadeira (ou
seja, a casa tiver mais de 2.500 es quadrados), ent˜ao assume o valor que segue o ponto
de interroga¸ao (?), que ´e 1. Se a afirma¸ao ao for verdadeira , ´e atribu´ıdo o valor
que segue os dois pontos (ou seja, 0). O operador de atribui¸ao condicional, tamb´em
pode ser usado com ogica composta. No pr´oximo exemplo, uma erie chamada pre¸co
edio recebe o valor 1 se o pre¸co estiver entre 215 e 275:
Nesse caso, a vari´avel midprice receber´a o valor 1 se as duas condi¸oes entre
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 90
parˆenteses forem verdadeiras. Finalmente, os indicadores podem interagir com outros
indicadores ou vari´aveis cont´ınuas usando listas. Suponha que foram criada duas listas.
A primeira cont´em um indicador, utown, que ´e 0 se a casa ao estiver localizada
no bairro Cidade Universit´aria. A segunda lista cont´em indicadores cont´ınuos e
indicadores (sqf t,age epool). Para isso deve-se ir no menu Dados>Criar ou editar
lista:
Para criar uma intera¸ao entre a lista utown ehouse, deve-se acrescentar uma nova
vari´avel e usar o seguinte comando:
Ap´os executar esse comando, perceber´a que o gretl criar´a vari´aveis com o final 0 e
outra com o final 1. Por exemplo, age utown 0 repete os valores de age quanto utown
´e igual a zero. a age utown 1 ´e o produto age ×utown, ou seja, repete os valores de
age quando utown ´e igual a 1.
6.2.1 Estimando uma regress˜ao
A seguinte regress˜ao ser´a efetuada usando como plataforma o mesmo conjunto de dados.
O modelo a ser estimado ´e o seguinte:
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 91
price =β1+β2sqft +β3age +δ1utown +δ2pool +δ3f place +γ(sqft ×utown) + ε
A sa´ıda dessa regress˜ao ´e a seguinte:
O coeficiente na vari´avel indicadora de inclina¸ao sqft ×utown ´e significativamente
diferente de zero no n´ıvel de 5%. Isso significa que o tamanho de uma casa perto da
universidade tem um impacto diferente no pre¸co edio da casa. Com base no modelo
estimado, pode-se tirar as seguintes conclus˜oes:
O prˆemio de localiza¸ao para lotes pr´oximos `a universidade ´e de $ 27.453;
A mudan¸ca no pre¸co esperado por metro quadrado adicional ´e de US$ 89,12
(10 ×(β2+γ)) perto da universidade e US$ 76,12 (10 ×β2) em outros lugares;
Casas depreciam $ 190,10/ano (1000 ×β3);
Uma piscina vale $4.377,30 (1000 ×δ2) e;
Uma lareira vale $1.649,20 (1000 ×δ3).
6.3 Aplicando vari´aveis indicadoras
Nessa se¸ao ser˜ao dados exemplos sobre a estima¸ao e a interpreta¸ao de regress˜oes
que incluem vari´aveis indicadoras.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 92
6.3.1 Intera¸oes
Considere a simples equa¸ao de sal´ario:
wage =β1+β2educ +δ1black +δ2female +γ(f emale ×black) + ε
Em que black efemale ao vari´aveis indicadoras. Tomando o valor esperado do
ln (wage) tem-se os seguintes casos considerados na regress˜ao:
E[wage |educ] =
β1+β2educ Homens Brancos
β1+δ1+β2educ Homens Negros
β1+δ2+β2educ Mulheres Brancas
β1+δ1+δ2+γ+β2educ Mulheres Negras
O grupo de referˆencia ´e aquele em que todas as vari´aveis indicadoras ao zero, ou
seja, homens brancos. O parˆametro δ1mede o efeito de ser negro, em rela¸ao ao grupo
de referˆencia; δ2mede o efeito de ser mulher em rela¸ao ao grupo de referˆencia, e γ
mede o efeito de possuir as duas caracter´ısticas ser mulher e ser negra. O modelo ´e
estimado usando o arquivo cps5 small.gdt como segue:
Mantendo os anos de escolaridade constantes, os homens negros ganham
US$ 2,07/hora a menos que os homens brancos. Para a mesma escolaridade, as
mulheres brancas ganham US$ 4,22 a menos e as negras ganham US$ 0,53 a mais.
No entanto, o coeficiente no termo de intera¸ao ao ´e significativo ao n´ıvel de 5%.
Pode-se testar a significˆancia conjunta de δ1=δ2=γ= 0. Para isso, na tela anterior
clique em Testes>Omitir Vari´aveis:
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 93
Ap´os clicar em ok a seguinte sa´ıda ser´a mostrada:
A estat´ıstica de teste ´e 10,82 e o valor p-valor da distribui¸ao F(3,1195) est´a
bem abaixo de 5%, na verdade ´e praticamente zero. Dessa forma, pode-se rejeitar a
hip´otese nula que os trˆes coeficientes ao iguais a zero.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 94
6.3.2 Indicadores regionais
Nesse exemplo, um conjunto de vari´aveis indicadoras regionais ser˜ao adicionadas ao
modelo. a quatro regi˜oes mutuamente exclusivas a serem consideradas. O grupo de
referˆencia deve ser escolhido, nesse caso ser´a a regi˜ao nordeste. O modelo se torna:
wage =β1+β2educ +δ1black +δ2female +γ(f emale ×black)+
θ1south +θ2midwest +θ3west +ε
Note que o grupo de referˆencia ´e composto por homens brancos que residem na
regi˜ao nordeste. Todas as vari´aveis regionais ao vari´aveis dummy (indicadoras).
Tomando o valor esperado do ln (wage) tem-se os seguintes casos:
E[wage |educ] =
β1+β2educ nordeste
β1+θ1+β2educ sul
β1+θ2+β2educ centro oeste
β1+θ3+β2educ oeste
As estimativas para o modelo completo ao as seguintes:
Espera-se que os trabalhadores do sul ganhem US$ 1,65 a menos por hora do que os
do nordeste mantendo outras vari´aveis constantes. No entanto, nenhum dos indicadores
regionais ´e individualmente significativo a 5%. Os resultados do teste conjunto ao:
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 95
A estat´ıstica de teste tem uma distribui¸ao F(3,1192) e ´e igual a 1,79. O
p-valor ´e superior a 5% e, assim, conclui-se que os indicadores ao ao conjuntamente
significativos. Dessa forma, ao foi poss´ıvel concluir que os trabalhadores com mesma
escolaridade, ra¸ca e enero recebem sal´arios por hora diferentes entre entre as regi˜oes
analisadas.
6.3.3 Testando a equivalˆencia entre duas regi˜oes
Pode-se levantar o seguinte questionamento: os sal´arios recebidos no sul ao diferentes
para as demais regi˜oes do pa´ıs? a arias formas de verificar isso no gretl.
Pode-se utilizar a intera¸ao enter vari´aveis indicadoras ou estimar diferentes modelos
com subamostras. Ainda, pode-se realizar o teste de Chow que permite testar a
equivalˆencia de regress˜oes de subamostras com base em uma vari´avel indicadora. Para
ilustrar isso, considere o seguinte modelo de sal´arios:
wage =β1+β2educ +δ1black +δ2female +γ(f emale ×black) + ε
Se os sal´arios ao determinados de forma diferente na regi˜ao sul, ent˜ao as inclina¸oes
e os interceptos devem ser diferentes. Primeiro cria-se uma lista chamada xvars:
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 96
Depois faz a intera¸ao dessa lista com a vari´avel south. Para isso pode acrescentar
uma nova vari´avel e digitar o comando abaixo ou utilizar o pr´oprio console do gretl:
Posteriormente deve-se estimar uma regress˜ao utilizando essas vari´aveis de
intera¸ao:
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 97
Ao interagir cada uma das vari´aveis, incluindo a constante, com o indicador,
estimamos essencialmente duas regress˜oes separadas em um ´unico modelo. Observe
que os erros padr˜ao ao calculados com base na suposi¸ao de que as duas subamostras
em a mesma variˆancia geral, σ2. Agora deve-se estimar duas equa¸oes separadamente,
uma para amostra restrita aos sal´arios recebidos pelos trabalhadores que residem na
regi˜ao sul e uma mostra para os trabalhadores das outras regi˜oes. Para isso, deve-se
clicar no menu Amostra>Restringir baseado em crit´erios:
A seguir estima-se o modelo para a amostra restrita a regi˜ao sul:
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 98
Para as outras regi˜oes, deve-se clicar no menu Amostra>Restaurar intervalo
completo. Depois, repeti-se o procedimento anterior restringindo o intervalo para
south == 0 e reestima-se o modelo:
As estimativas dos coeficientes coincidem com aquelas obtidas por meio dos
indicadores. Como esperado, os erros padr˜ao ao diferentes.
Um teste de Chow ´e usado para verificar a presen¸ca de quebras estruturais ou
altera¸oes em uma regress˜ao. Em outras palavras, esse procedimento testa se uma
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 99
subamostra possu´ı um intercepto e uma inclina¸ao diferentes de outra. Ele pode
ser usado para detectar quebras estruturais em modelos de eries temporais ou para
determinar se, no exemplo em quest˜ao, os sal´arios do sul ao determinados de forma
diferente dos do resto do pa´ıs. Para realizar o teste estime o modelo por M´ınimos
Quadrados e clique no menu Teste>Teste de Chow.
Ap´os isso tem-se a seguinte sa´ıda:
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 100
Observe que p-valor associado ao teste ´e 0,625, fornecendo evidˆencias insuficientes
para convencer de que os sal´arios ao estruturalmente diferentes no sul.
6.3.4 Modelos log-lineares com vari´aveis indicadores
Nesse exemplo, uma vari´avel indicadora ´e inclu´ıda num modelo log linear. Para tanto,
basea-se no modelo do exemplo anterior:
ln (wage) = β1+β2educ +δ1female +ε
A estima¸ao do modelo por m´ınimos quadrados permite computar a diferen¸ca
percentual entre os sal´arios entre homens e mulheres. Com um pouco de ´algebra
pode-se verificar que essa diferen¸ca percentual ´e:
100 e
b
δ1%
Para isso suponha que female = 0:
ln (wage) = β1+β2educ +ε
Subtraia as duas equa¸oes:
ln (wagef) = β1+β2educ +δ1+ε
ln (wagesf ) = β1+β2educ +ε
O que resulta em:
ln wagef
wagesf =δ1
Subtraindo 1 dos dois lados, aplicando o exponencial e multiplicando por 100:
wage = 100 ×exp(δ11)
Assim pode-se estimar o modelo:
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 101
O coeficiente de escolaridade sugere que um ano adicional de escolaridade aumenta
o sal´ario edio em 10,24%, mantendo o sexo constante. O diferencial salarial estimado
entre homens e mulheres de escolaridade semelhante ´e de 17,78%. Usando a equa¸ao
para computar a diferen¸ca percentual obtem-se o valor de -16.29. Esse n´umero sugere
que as mulheres ganham cerca de 16,29% menos do que os homens que em n´ıveis de
educa¸ao semelhantes.
6.4 Modelo de probabilidade linear
O modelo de probabilidade linear ´e uma regress˜ao que a vari´avel dependente ´e uma
indicadora. Esse modelo pode ser estimado por m´ınimos quadrados. Suponha que:
yi=1 se a alternativa ´e escolhida
0 se a alternativa ao ´e escolhida
Adicionalmente, suponha que P r (yi= 1) = πi. Para uma vari´avel discreta:
E[yi]=1×P r (yi= 1) + 0 ×P r (yi= 0) = πi
Dessa forma, a edia de uma vari´avel aleat´oria bin´aria pode ser interpretada como
uma probabilidade, isto ´e, a probabilidade que y= 1.
Quando a regress˜ao: E[yi|xi2, xi3, . . . , xiK ] ´e linear ent˜ao:
E[yi] = β1+β2xi2+β3xi3+· ·· +βkxiK
A variˆancia de uma vari´avel bin´aria ´e:
var [yi] = πi(1 πi)
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 102
O que significa que ser´a diferente para cada indiv´ıduo. Substituindo a probabilidade
ao observada E(yi), com a vari´avel indicadora observar isso requer adicionar um termo
de erro ao modelo que pode ser estimado via m´ınimos quadrados ordin´arios.
No exemplo a seguir, utiliza-se o arquivo coke.gdt, que cont´em 1.140 observa¸oes
de indiv´ıduos que compraram Coca-Cola ou Pepsi. A vari´avel dependente assume o
valor 1 se a pessoa comprar Coca-Cola e 0 se Pepsi. Estes dependem da rela¸ao dos
prices,pratio, e duas vari´aveis indicadoras, disp coke edisp pepsi. Estas vari´aveis
indicam se a loja que vende as bebidas tinha folders promocionais de Coca-Cola ou
Pepsi no momento da compra. As estimativas ao mostradas a seguir:
O modelo foi estimado usando um estimador de matriz de variˆancia-covariˆancia que
´e consistente quando os termos de erro do modelo possuem variˆancias que dependem
da observa¸ao. Esse ´e o caso aqui.
6.5 Efeito do tratamento
Com o prop´osito de entender o impacto dos efeitos do tratamento, considere um simples
modelo de regress˜ao no qual a vari´avel explicativa ´e uma dummy, indicando quando um
indiv´ıduo em particular est´a no grupo de tratamento ou de controle. Seja ya vari´avel
de resultado, que mede a caracter´ıstica que deve ser afetada pelo tratamento. Defina
a vari´avel indicadora dcomo:
di=1 se ´e tratado
0 se ao ´e tratado
O efeito do tratamento na vari´avel de resultado pode ser modelado como:
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 103
yi=β1+β2di+eipara i= 1,2, . . . , N
sendo eia cole¸ao de outros fatores que afetam a vari´avel de resultado. As fun¸oes de
tratamento para os grupos de tratamento e de controle ao:
E(yi) = β1+β2se o indiv´ıduo ´e tratado
β1se ao ´e tratado
O efeito do tratamento que se deseja medir ´e β2. O estimador de m´ınimos quadrados
de β2´e:
b2=XN
i=1(di¯
d)(yi¯y)
XN
i=1(di¯
d)2
= ¯y1¯y0
em que ¯y1´e a edia das observa¸oes de ypara o grupo de tratamento e ¯y0´e a
edia amostral para as observa¸oes do grupo ao tratamento. Nessa abordagem de
tratamento/controle o estimado b2´e chamado de estimador de diferen¸ca por causa da
diferen¸ca entre as edias amostrais dos grupos de controle e de tratamento.
Para exemplificar esse modelo, utiliza-se o arquivo star.gdt. Primeiramente,
deseja-se descartar as observa¸oes para as salas de aula que possuem professor
auxiliares. Para isso deve-se restringir a amostra da seguinte forma:
Al´em disso, pode ser que a atribui¸ao de grupos de tratamento esteja relacionada
a uma ou mais das caracter´ısticas observ´aveis (tamanho da escola ou experiˆencia do
professor). Uma maneira de controlar esses efeitos omitidos ´e usar a estimativa de
efeitos fixos. Aborda-se esse ponto com mais detalhes posteriormente. Os efeitos fixos
de escola, nada mais ao do que vari´aveis dummy que identificam cada escola. Para isso,
clique com o bot˜ao direito do mouse na vari´avel schid e selecione a op¸ao Transformar
em dummy. Em seguida escolha a primeira op¸ao, Codificar todos os valores e
aperte no bot˜ao Ok. Posteriormente estime um modelo de m´ınimos quadrados, com a
seguinte configura¸ao. ao esque¸ca de retirar a primeira dummy criada para identificar
a escola, pois ela ser´a utilizada como grupo de referˆencia.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 104
Com essa estimativa verifica-se o impacto do efeito de uma turma pequena (small)
no escore total do aluno (totalscore). Na regress˜ao utiliza-se como controle a
experiˆencia do professor e tamb´em adiciona-se os efeitos fixos de escola. Observe que
esses efeitos fixos ao significativos. Em edia, pode-se dizer que os escores de leitura
e de matem´atica dos alunos que estudam em turmas pequenas ao 16.06 pontos mais
altos do que aqueles que estudam em turmas “grandes”.
6.5.1 Usando um modelo de probabilidade linear para
verificar a atribui¸ao aleat´oria
No modelo estimado para medir o efeito do tratamento das turmas pequenas, foi
omitido muitas vari´aveis do modelo. Esse procedimento ´e seguro fazˆe-lo considerando
que essas vari´aveis ao estejam correlacionadas com regressores. Caso fossem
correlacionadas, isso seria uma evidˆencia que as atribui¸oes ao grupo de controle
ao sistem´aticas. Para verificar esse fato, pode-se usar uma regress˜ao. Como small
´e uma vari´avel dummy, usa-se uma regress˜ao de probabilidade linear. As vari´aveis
independentes ao boy,white asian,tchexper ef reelunch.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 105
Pode-se observar que a estat´ıstica Fao ´e significativa a 10%. Nenhuma das raz˜oes
t-individuais ´e significativa. Esses resultados sugerem que a atribui¸ao das crian¸cas
em turmas pequenas ou grandes ´e totalmente aleat´orio, algo como jogar uma moeda.
Dessa forma, pode-se considerar seguro omitir essas vari´aveis explicativas do modelo
de regress˜ao.
6.6 Diferen¸cas em diferen¸cas
Se deseja saber como uma mudan¸ca na pol´ıtica afeta os resultados, nada supera um
experimento aleat´orio controlado. Infelizmente, eles ao raros em economia porque ao
muito caros ou moralmente inaceit´aveis. Ningu´em quer determinar qual ´e o retorno
`a escolaridade atribuindo aleatoriamente pessoas a um determinado n´umero de anos
de escolaridade. Essa escolha deve ser individual e ao de um formulador de pol´ıticas
ublicas. Mas, a avalia¸ao de pol´ıticas p´ublicas ao ´e imposs´ıvel quando experimentos
controlados randomizados ao poss´ıveis.
A vida oferece situa¸oes que acontecem a diferentes grupos de indiv´ıduos em
diferentes pontos no tempo. Esses eventos ao ao realmente aleat´orios, mas, do
ponto de vista estat´ıstico, o tratamento pode parecer atribu´ıdo aleatoriamente. ´
E
disso que tratam os chamados experimentos naturais. Vocˆe tem dois grupos de pessoas
semelhantes. Por qualquer motivo, um grupo ´e tratado com a pol´ıtica e o outro ao.
Diferen¸cas comparativas ao atribu´ıdas `a pol´ıtica.
No exemplo, ser´a visto os efeitos de uma mudan¸ca no sal´ario m´ınimo. Isso ´e poss´ıvel
porque o sal´ario m´ınimo foi aumentado em um estado e ao em outro. A semelhan¸ca
dos estados ´e importante porque o estado ao tratado ser´a usado como grupo de
compara¸ao. Os dados ao de Card e Krueger e est˜ao no arquivo njmin3.gdt.
Como se quer ter uma ideia do que aconteceu em NJ e PA antes e depois do aumento
do sal´ario m´ınimo em NJ, pode-se restringir a amostra para antes do aumento e verificar
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 106
as estat´ısticas descritivas. Restaure a amostra completa e, em seguida, restrinja-a ap´os
a pol´ıtica d= 1. Repita as estat´ısticas de resumo para fte. Os resultados ao ir˜ao
indicar muita diferen¸ca.
O coeficiente de dn j ´e o estimador de diferen¸cas em diferen¸cas da mudan¸ca no
emprego devido a uma mudan¸ca no sal´ario m´ınimo. ao ´e significativamente diferente
de zero neste caso e, sendo assim, pode-se concluir que o aumento do sal´ario ınimo
em Nova Jersey ao afetou negativamente o emprego.
Na an´alise anterior ao foi explorado uma caracter´ıstica importante dos dados de
Card e Krueger. Os mesmos restaurantes foram observados antes e depois em ambos
os estados em 384 das 410 observa¸oes. Parece razo´avel limitar a compara¸ao antes
e depois `as mesmas unidades. Isso requer a adi¸ao de um efeito fixo individual ao
modelo e a elimina¸ao de observoes que ao tenham antes ou depois com as quais
comparar. Al´em disso, ser´a preciso limitar a amostra `as observa¸oes ´unicas (no original,
cada uma ´e duplicada). Para isso clique na vari´avel demp e selecione a op¸ao no
menu Amostra>Descartar oberva¸oes com valores ausentes. Depois selecione
a vari´avel dclique no menu Amostra>Restringir baseado em crit´erios.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 107
Feito isso estime o seguinte modelo:
O coeficiente de nj ao ´e significativamente menor que zero ao n´ıvel de 5% e,
portanto, conclui-se que o aumento do sal´ario m´ınimo ao reduziu o emprego.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 108
Universidade Federal de Pelotas - UFPel
109
Cap´ıtulo 7
Heterocedasticidade
Uma hip´otese importante do modelo cl´assico de regress˜ao linear ´e que os termos de
erro eique aparecem na fun¸ao de regress˜ao populacional ao homoced´asticos, ou seja,
todos em a mesma variˆancia. Contudo, em uma regress˜ao qualquer, ao a a garantia
de que o termo estoc´astico do modelo, o termo de erro ei, tenha a mesma variabilidade.
Ou seja, algumas observa¸oes podem ter uma variˆancia maior ou menor do que outras.
Essa condi¸ao ´e conhecida como heterocedasticidade. A seguir tem-se um modelo de
regress˜ao linear geral:
yi=β1+β2xi2+· ·· +βkxi k +eii= 1,2, . . . , N (7.1)
em que yicaracteriza-se como sendo a vari´avel dependente; xi j corresponde `a iesima
observa¸ao sobre a jesima vari´avel independente (com j= 2,3, . . . , k); eirepresenta
o termo de erro e β1, β2, . . . , βkao os parˆametros a serem estimados. Note que
neste modelo de regress˜ao ultipla (Equa¸ao 7.1) a variˆancia de eiagora depende
de i, ou seja, da observa¸ao a que pertence. Indexar a variˆancia com o subscrito i
´e apenas uma forma de indicar que as observa¸oes podem ter diferentes quantidades
de variabilidade associadas a elas. As suposi¸oes de erro podem ser resumidas como
ei|xi2, xi3, . . . , xi k idd N (0, σ2).
O intercepto e as inclina¸oes (β1, β2, . . . , βk) ao consistentemente estimados por
m´ınimos quadrados mesmo se os dados forem heteroced´asticos. Infelizmente, os
estimadores usuais dos erros padr˜ao dos m´ınimos quadrados e os testes baseados
neles ao inconsistentes e inv´alidos. Neste cap´ıtulo, arias maneiras de detectar a
heterocedasticidade ao consideradas bem como ao exploradas formas estatisticamente
alidas de estimar os parˆametros da Equa¸ao 7.1 e testar hip´oteses sobre os β’s quando
os dados ao heteroced´aticos.
7.1 Exemplo despesa com alimenta¸ao
O modelo de de regress˜ao linear simples de gastos com alimenta¸ao ´e estimado usando
m´ınimos quadrados. O modelo ´e:
food expi=β1+β2incomei+eii= 1,2, . . . , n (7.2)
em que food expicaracteriza-se como sendo gastos com alimenta¸ao e incomei´e
a renda do iesimo indiv´ıduo. Quando os erros do modelo ao heteroced´asticos
Loures e Fernandez 110
o estimador de m´ınimos quadrados dos coeficientes ao consistentes.1Significando
que as estimativas pontuais de m´ınimos quadrados do intercepto bem como da(s)
inclina¸ao(˜oes) ao ´uteis. No entanto, quando os erros ao heteroced´asticos, os erros
padr˜ao de m´ınimos quadrados usuais ao inconsistentes e, portanto, ao devem ser
usados para formar intervalos de confian¸ca ou testar hip´oteses.
Para usar estimativas de m´ınimos quadrados com dados heteroced´asticos deve-se,
no m´ınimo, usar um estimador consistente de seus erros padr˜ao para construir testes e
intervalos de confian¸ca alidos. Um alculo simples foi proposto por White. Os erros
padr˜ao calculados usando a ecnica de White ao referidos como robustos, mas ´e preciso
tomar cuidado ao usar esse termo. Pois os erros padr˜ao ao robustos `a presen¸ca de
heterocedasticidade nos erros do modelo, mas ao necessariamente a outras formas de
especifica¸ao incorreta do modelo.
Figura 7.1: Regress˜ao dos gastos com alimenta¸ao.
Abra o conjunto de dados food.gdt no gretl e estime o modelo usando m´ınimos
quadrados. Se os dados forem heteroced´astico isso produzir´a as estimativas usuais dos
parˆametros, contudo, os erros padr˜ao ao ao confi´aveis para construir intervalo de
1Dada a hip´otese de que eisegue a distribui¸ao normal, os estimadores de m´ınimos quadrados ao
consistentes, ou seja, `a medida que o tamanho da amostra aumenta indefinidamente, os estimadores
convergem para os verdadeiros valores da popula¸ao.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 111
confian¸ca, realizar testes de hip´oteses e outros procedimentos. Uma inspe¸ao visual do
gr´afico de regress˜ao do modelo pode sinalizar se os dados ao heteroced´asticos. No caso
do modelo de gastos com alimenta¸ao se os dados forem heteroced´astico em rela¸ao
`a renda, haver´a mais varia¸ao em torno da linha de regress˜ao para alguns n´ıveis de
renda. Observando o gr´afico da Figura 7.1 parece que esse ´e o caso para o modelo de
gastos com alimenta¸ao, pois a uma varia¸ao significativamente maior nos dados para
rendas altas do que para rendas baixas.
7.2 Estimativa robusto de covariˆancia
Para obter os erros padr˜ao robustos `a heterocedasticidade execute o comando
Modelo>M´ınimos Quadrados Ordin´arios, para abrir a caixa de di´alogo
especificar modelo, nessa caixa de di´alogo marque a op¸ao Erros padr~ao
robustos, conforme Figura 7.2. Note que a um bot˜ao `a direita chamado HC1.
Clicando nesse bot˜ao ´e aberta uma caixa de di´alogo na qual uma, das duas op¸oes,
podem ser selecionadas: i) Selecione a partir das op¸c~oes do HCCME Regular e ii)
Agrupar por. Marcando a primeira op¸ao, abrir´a uma caixa de di´alogo de preferˆencias,
Figura 7.3. Note que nessa caixa de di´alogo foi selecionado a aba HCCME, na op¸ao Para
dados de corte optou-se por HC3 e marcou a caixa Usar por padr~ao a matriz de
covari^ancia robusta.
Figura 7.2: Caixa para erros padr˜ao robustos `a heterocedasticidade.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 112
Figura 7.3: Defina o etodo para calcular erros padr˜ao robustos.
Os resultados do modelo de gastos com alimenta¸ao aparecem na Figura
7.4. Objetivando uma an´alise do intervalo de confian¸ca, execute o comando
An´alise>Intervalos de confian¸ca para os coeficientes na janela principal do
modelo, Figura 7.4. Uma vez que esse modelo foi estimado utilizando a op¸ao de
erros robustos, os erros do modelo ser˜ao baseados na variante dos erros padr˜ao de
White uma vez que foi escolhido a op¸ao HC3, como se pode observar na Figura 7.3. O
resultado para o intervalo de confian¸ca ´e apresentado na Figura 7.5.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 113
Figura 7.4: Sa´ıda do modelo de gastos com alimenta¸ao.
Figura 7.5: Intervalo de confian¸ca para os coeficientes.
7.3 Detec¸ao de heterocedasticidade usando
gr´aficos dos res´ıduos
Na Se¸ao 7.1 utilizou-se o gr´afico da regress˜ao (Figura 7.1) para se ter uma ideia inicial
se os dados ao heteroced´asticos. Agora, por´em, utiliza-se os gr´aficos dos res´ıduos
para tentar identificar se a heterocedasticidades nos dados. Entretanto, chama-se a
aten¸ao para o fato de que se deve ter cuidado ao gerar os gr´aficos dos res´ıduos bem
como ao interpret´a-los. Pois, por sua pr´opria natureza, os gr´aficos dos res´ıduos o
permitem que se an´alise as rela¸oes de uma ´unica vari´avel por vez. Mas, todavia, se a
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 114
heterocedasticidade envolver mais de uma vari´avel, os gr´aficos dos res´ıduos podem ao
ser muito reveladores.
AFigura 7.6 caracteriza-se como sendo o gr´afico dos M´ınimos Quadrados em rela¸ao
`a renda. Analisando visualmente o gr´afico da Figura 7.6 parece que para maiores n´ıveis
de renda a uma varia¸ao muito maior nos res´ıduos. Esse gr´afico pode ser gerado
executando o comando Gr´aficos>Gr´afico dos res´ıduos>Comparado com income
a partir da janela do modelo, Figura 7.7. Importante destacar que a aparˆencia desse
gr´afico foi alterada clicando com o bot˜ao direito do mouse sobre o gr´afico e escolhendo
a op¸ao Editar.
Figura 7.6: Gr´afico dos res´ıduos dos M´ınimos Quadrados.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 115
Figura 7.7: Caixa de di´alogo para o gr´afico dos res´ıduos.
Outro etodo gr´afico que mostra a rela¸ao entre a magnitude dos res´ıduos e a
vari´avel independente ´e mostrado na Figura 7.8. O primeiro passo para gerar esse
gr´afico ´e salvar o valor absoluto dos res´ıduos dos ınimos Quadrados em uma nova
vari´avel denominada abs e, representada na Figura 7.8 por |e|. A seguir, plota-se
essa vari´avel (|e|) contra a renda como um gr´afico de dispers˜ao e como um gr´afico
de dispers˜ao suavizado e ponderado localmente, estimado pelo processo chamado
loess.loess ´e considerado um suavizador desej´avel pois tende a seguir os dados.
Diferentemente dos m´etodos de suaviza¸ao polinomial que ao globais e, assim, o que
acontece na extrema direita de um gr´afico de dispers˜ao pode afetar os valores ajustados
na extrema esquerda. O gr´afico da Figura 7.8 foi criado executando os comandos da
figura Figura 7.9. a para a abrir a janela de console para executar os comandos clique
no terceiro ´ıcone da esquerda para direita na janela principal do gretl,Figura 7.10.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 116
Figura 7.8: Gr´afico do valor absoluto dos res´ıduos com fit loess.
Figura 7.9: Console do gretl com as linhas de comando do gr´afico com fit loess.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 117
Figura 7.10: Janela principal do gretl.
7.4 M´ınimos quadrados ponderados
Modelos em que os dados ao heteroced´asticos as observa¸oes com uma variˆancia alta
ao possuem muita informa¸ao sobre a linha de regress˜ao quanto as observa¸oes com
baixa variˆancia. Nesse caso, uma forma de contornar o problema da heterocedasticidade
´e a ado¸ao do estimador de M´ınimos Quadrados Ponderados (MQP). Isso ´e poss´ıvel
uma vez que o MQP ir´a reponderar os dados para que todas as observoes contenham
o mesmo n´ıvel de informa¸ao, ou seja, mesma variˆancia, sobre a localiza¸ao da linha de
regress˜ao. Na pr´atica, as observoes que contˆem mais (menos) ru´ıdo recebem menos
(mais) peso. Reponderar os dados dessa maneira ´e conhecido como M´ınimos Quadrados
Ponderados (MQP).
Suponha que os erros variem proporcionalmente com xide acordo com:
var (ei) = σ2xi(7.3)
Os erros ser˜ao heteroced´asticos pois cada erro ter´a uma variˆancia diferente,
cujo valor depende de xi. Entretanto, como descrito acima o M´ınimos Quadrados
Ponderados (MQP) reponder´a cada uma das observa¸oes no modelo de modo que cada
observa¸ao transformada tenha a mesma variˆancia que as outras. Algebricamente,
1
xi
var (ei) = σ2(7.4)
Ent˜ao, multiplique a Equa¸ao 7.1 por 1
xipara completar a transforma¸ao. Assim,
o modelo resultante, o modelo transformado, ´e homoced´astico e tanto os M´ınimos
Quadrados quanto os erros padr˜ao dos M´ınimos Quadrados ao estatisticamente alidos
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 118
e eficientes. Para estimar um modelo de MQP, com a base de dados food.gdt
carregada no gretl clique com o bot˜ao direito do mouse em qualquer ´area da janela
principal do gretl. Isso abrir´a uma janela cuja ´ultima op¸ao ´e Definir nova
vari´avel.... Clicando nessa op¸ao abrir´a uma janela igual a da Figura 7.11. Nessa
janela digite genr peso = 1 / income para criar a vari´avel peso 1/ income que ser´a
usada para reponderar o modelo e, assim, contornar o problema da heterocedasticidade.
Uma vez criada a vari´avel peso execute o comando Modelo>Outros modelos
lineares>M´ınimos Quadrados Ponderados. Isso abrir´a a caixa de di´alogo para a
especifica¸ao do modelo, Figura 7.12.
Figura 7.11: Caixa de di´alogo para criar uma nova vari´avel.
Figura 7.12: Caixa de di´alogo de especifica¸ao do modelo.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 119
Uma vez que a caixa de di´alogo para especifica¸ao do modelo for aberta (Figura
7.12) defina como Vari´avel dependete food exp, como Vari´avel peso weight e como
Regressores const eincome e clique no bot˜ao OK. A sa´ıda do modelo de gastos com
alimenta¸ao utilizando o estimador de M´ınimos Quadrados Ponderados ´e apresentada
na Figura 7.13.
Figura 7.13: Sa´ıda do modelo de gasto com alimenta¸ao.
Para checar a performance do estimador de M´ınimos Quadrados Ponderados a
Figura 7.14 plota os res´ıduos para a estima¸ao empregando MQP, ehat wls, bem
como os res´ıduos para a estima¸ao utilizando o estimador de MQO, ehat. Visualmente
os res´ıduos dos MQP, ehat wls parecem ser homoced´asticos quando comparados aos
res´ıduos do estimador de MQO, ehat. O script para a gera¸ao do gr´afico da Figura
7.14 ´e apresentado na Figura 7.15, ao esque¸ca de digitar cada uma das linhas do script
por vez.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 120
Figura 7.14: Res´ıduos MQP vs res´ıduos MQO.
Figura 7.15: Linhas de comando do gr´afico dos Res´ıduos MQP vs Res´ıduos MQO.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 121
7.5 Detectando heterocedasticidade usando testes
de hip´otese
7.5.1 Testes do multiplicador de Lagrange
Existem muitos testes de hip´otese nula para a homocedasticidade, dois deles ao
baseados nos multiplicadores de Lagrange. Esses ao testes particularmente
simples de fazer e ´uteis. O primeiro ´e algumas vezes denominado de teste de
Breusch-Pagan (BP). Por sua vez, o segundo ´e conhecido como teste de White e
´e creditado a White. As hip´oteses nula (H0) e alternativa (H1) para o teste de
Breusch-Pagan ao:
H0:σ2
i=σ2
H1:σ2
i=h(α1+α2zi2+· ·· +αszis)(7.5)
A hip´otese nula, H0, ´e que os dados ao homoced´asticos enquanto a hip´otese
alternativa, H1ou HA, ´e de que os dados ao heteroced´asticos de uma forma
que dependa das vari´aveis zis, s = 2,3, . . . , S. Essas vari´aveis ao ex´ogenas e
correlacionadas com as vari´aveis do modelo. Destaca-se que a fun¸ao h(.) ´e uma
fun¸ao linear das vari´aveis z. No caso do modelo de gastos com alimenta¸ao, Equa¸ao
1.1, para realizar o teste de Breusch-Pagan de heterocedasticidade deve-se executar
o comando Testes>Heterocedasticidade>Breusch-Pagan na janela da regress˜ao
do modelo, conforme Figura 7.16.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 122
Figura 7.16: Teste de Breusch-Pagan.
Nota-se pela Figura 7.17 que o teste de Breusch-Pagan rejeita a hip´otese nula,
H0, de homocedasticidade, p-valor inferior `a 1%
Figura 7.17: Resultado do teste de Breusch-Pagan.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 123
7.5.2 O teste de White
Destaca-se que o teste de White caracteriza-se como sendo uma pequena varia¸ao do
teste de Breusch-Pagan em que as hip´oteses nula, H0, e alternativa, H1ou HA, ao
dados por:
H0:σ2
i=σ2para todo i
H1:σ2
i=σ2
jpara pelo menos 1 i=j(7.6)
Esta ´e uma alternativa composta que captura todas as possibilidades exceto
aquela coberta pelo nulo. Se o pesquisador ao sabe nada sobre a natureza da
heterocedasticidade em seus dados, este ´e um bom teste para se come¸car. O
teste ´e muito semelhante ao teste de Breusch-Pagan. Por´em, no teste de White
as vari´aveis relacionadas `a heterocedasticidade (zis, s = 2,3, . . . , S) incluem cada
regressor ao redundante, seu quadrado e todos os produtos cruzados entre os
regressores. No caso do modelo de gastos com alimenta¸ao a apenas o intercepto
e um regressor cont´ınuo (a renda). Portanto, a constante ao quadrado e o produto
cruzado entre a constante e a renda ao redundantes. Dessa forma, existe apenas um
vari´avel para adicionar ao modelo, renda ao quadrado. Note que, assim como no teste
de Breusch-Pagan, a hip´otese nula de homocedasticidade dos dados foi rejeitada, mas,
agora, ao n´ıvel de 5%, Figura 7.18.
Figura 7.18: Resultado do teste de White.
7.6 Erros padr˜ao consistentes com
heterocedasticidade
Lembre-se que na Se¸ao 7.2 foi demonstrado que o estimador de M´ınimos Quadrados
Ordin´arios MQO pode ser usado para estimar o modelo linear mesmo quando os
erros ao heteroced´asticos, e isso, destaca-se, com bom resultado. Pois o problema
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 124
com o uso de MQO em um modelo heteroced´astico ´e que o estimador usual de
precis˜ao (matriz de variˆancia-covariˆancia estimada) ao ´e consistente. Assim, a forma
mais simples de contornar esse problema ´e usar MQO para estimar o intercepto e
as inclina¸oes (regressores) e usar um estimador de covariˆancia de MQO que seja
consistente, sejam os erros heteroced´asticos ou ao. Esse ´e o chamado estimador
robusto de heterocedasticidade de covariˆancia que o gretl usa, Figura 7.2.
A seguir, o modelo de gastos com alimenta¸ao ´e usado para estimar o modelo
usando MQO padr˜ao (Ou seja, sem considerar erros padr˜ao robustos) bem como trˆes
conjuntos robustos de erros padr˜ao HC1, HC2 e HC3. Observe, Figura 7.19, que
as estimativas dos coeficientes ao as mesmas nas quatro colunas (83,42), contudo, os
erros padr˜ao estimados ao diferentes. O erro padr˜ao robusto para a inclina¸ao ´e menor
do que o habitual, quando o modelo ´e estimado sem marcar a caixa Erros padr~ao
robustos. Chama-se ainda a aten¸ao para o fato de que arios comandos se comportam
de maneira diferente quando ao usados ap´os o uso de um modelo que emprega Erros
padr~ao robustos. O uso dessa op¸ao for¸ca os testes de Wald subsequentes com
base nas estimativas de MQO a usar o HCCME para computa¸ao. Isso ir´a garantir que os
resultados de omitir ou restringir ser˜ao estatisticamente alidos sob heterocedasticidade
quando a regress˜ao for estimada utilizando a op¸ao Erros padr~ao robustos,Figura
7.20. Para mais detalhe sobre como selecionar qual estimador de covariˆancia empregar
(HC1, HC2, entre outros) veja a Se¸ao 7.2.
Figura 7.19: Erros padr˜ao robustos vs ao-robustos.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 125
Figura 7.20: Op¸ao para erros padr˜ao robustos `a heterocedasticidade.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 126
Universidade Federal de Pelotas - UFPel
127
Cap´ıtulo 8
eries estacion´arias
O objetivo principal deste cap´ıtulo ´e explorar as propriedades de eries temporais dos
dados usando gretl. Um dos pontos asicos em econometria ´e que as propriedades dos
estimadores e sua utilidade para estimativas pontuais e testes de hip´oteses dependem
de como os dados se comportam. Por exemplo, em um modelo de regress˜ao linear em
que os erros ao correlacionados com os regressores, os ınimos quadrados ao ser˜ao
consistentes e, consequentemente, ao devem ser usados para estimativas ou testes
subsequentes.
Na maioria das regress˜oes de eries temporais, os dados devem ser estacion´arios
para que os estimadores tenham propriedades desej´aveis. Isso requer que as edias,
variˆancias e covariˆancias das eries de dados sejam independentes do per´ıodo de tempo
em que ao observadas. Por exemplo, a edia e a variˆancia da distribui¸ao de
probabilidade que gerou o PIB no terceiro trimestre de 1973 ao pode ser diferente
daquela que gerou o PIB do 4o
¯trimestre de 2006. Observa¸oes sobre eries temporais
estacion´arias podem ser correlacionadas entre si, mas a natureza dessa correla¸ao ao
pode mudar ao longo do tempo. O PIB est´a crescendo ao longo do tempo (n˜ao
significa estacion´ario) e pode ter se tornado menos vol´atil (n˜ao a varia¸ao estacion´aria).
Mudan¸cas na tecnologia da informa¸ao e nas institui¸oes podem ter encurtado a
persistˆencia dos choques na economia (n˜ao a covariˆancia estacion´aria).
As eries temporais ao estacion´arias devem ser usadas com cuidado na an´alise de
regress˜ao. etodos para lidar efetivamente com esse problema forneceram um rico
campo de pesquisa para econometristas nos ´ultimos anos.
8.1 Gr´aficos das eries temporais
A primeira coisa a fazer ao trabalhar com eries temporais ´e observ´a-las graficamente.
Um gr´afico de erie temporal revelar´a poss´ıveis problemas com seus dados e sugerir´a
maneiras de proceder estatisticamente. Os gr´aficos de eries temporais ao simples de
serem gerados. Abra o arquivo de dados gdp5.gdt e crie as primeiras diferen¸cas de
GDP . A plotagem da erie pode ser feita de arias maneiras. Por exemplo, pode-se
clicar no menu Ver>Gr´afico das vari´aveis>eries Temporais. Alternativamente,
pode-se clicar com o bot˜ao direito do mouse sobre a erie e escolher a op¸ao Gr´afico
de erie Temporal.
Antes de se fazer o gr´afico, toma-se a primeira diferen¸ca da erie do PIB (GDP).
Clique no menu Acrescentar>Primeiras diferen¸cas das vari´aveis selecionadas.
Loures e Fernandez 128
Tamb´em ´e poss´ıvel obter o mesmo resultado clicando com o bot˜ao direito do mouse
sobre a vari´avel desejada e selecionar Acrescentar diferen¸ca. Selecione as duas
vari´aveis e as coloque em um ´unico gr´afico:
Autocorrela¸oes de amostra podem revelar uma potencial ao estacionaridade em
uma erie. eries ao estacion´arias tendem a ter grandes autocorrela¸oes em defasagens
longas. Isso ´e evidente para a erie do PIB, conforme mostrado abaixo. As grandes
autocorrela¸oes para o PIB persistem al´em de 24 defasagens, um sinal claro de que a
erie ao ´e estacion´aria. Apenas as duas primeiras autocorrela¸oes ao significativas
para a erie de mudan¸cas.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 129
Para produzir o gr´afico acima ´e necess´ario clicar no menu
Vari´avel>Correlograma.
8.2 Tendˆencias determin´ısticas
Vari´aveis ao estacion´arias que parecem vagar para cima e para baixo por um tempo
ao chamadas de tendˆencias estoasticas. Por outro lado, algumas tendˆencias ao
persistentes e ao ditas ser determinista. Uma erie temporal pode possuir ambos os
tipos de tendˆencia. Uma tendˆencia determin´ıstica simples para uma erie ytpode ser
modelada:
yt=c1+c2t+ut
em que t´e o ´ındice temporal. Uma tendˆencia quadr´atica poderia ser:
yt=c1+c2t+c2t2+ut
Adicionalmente, uma tendˆencia em mudan¸ca percentual pode ser modelada como:
ln(yt) = c1+c2t+ut
Em cada caso, o efeito temporal ´e parametrizado e pode ser estimado.
A seguir, ser´a visto um exemplo em que se modela a produ¸ao de trigo em Toodyay
Shire na Austr´alia . A produ¸ao de trigo depende das chuvas e da produtividade, que
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 130
tende a melhorar com o tempo. Assim, ´e razo´avel que o rendimento possa apresentar
uma tendˆencia determin´ıstica. A precipita¸ao tamb´em pode mudar ao longo do tempo,
possivelmente devido as mudan¸cas no clima global. Ap´os carregar os dados, que
est˜ao em toody5.gdt, adicione o logaritmo natural da produtividade e o quadrado
da precipita¸ao ao conjunto de dados. Pode-se adicionar uma tendˆencia linear clicando
no menu Acrescentar>Tendˆencia Temporal . A seguir, estima-se um modelo que
inclu´ı essa tendˆencia e o quadrado da vari´avel rain:
Pode-se observar que a tendˆencia ´e estatisticamente significativa. Pode-se remover
a tendˆencia das eries e rodar um novo modelo sem a tendˆencia temporal. Para isso,
precisa-se estimar um modelo de M´ınimos Quadrados Ordin´arios para cada vari´avel
contra a tendˆencia e a constante e salvar os res´ıduos. Ap´os estimar o modelo para l y,
clique em Salvar>Res´ıduos.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 131
Escolha um nome para a nova vari´avel, como por exemplo e ly. Posteriormente
repita esse procedimento para todas as vari´aveis usadas no modelo original e, por fim,
estime o seguinte modelo sem constante:
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 132
8.3 Regress˜ao esp´uria
´
E poss´ıvel estimar uma regress˜ao e encontrar uma rela¸ao estatisticamente significativa
mesmo que ao exista nenhuma. Na an´alise de eries temporais, isso ´e realmente uma
ocorrˆencia comum quando os dados ao ao estacion´arios. Este exemplo usa duas eries
de dados, rw1 erw2, que foram geradas como caminhos aleat´orios (random walk)
independentes:
rw1:yt=yt1+v1t
rw2:xt=xt1+v2t
Os erros ao desvios aleat´orios normais padr˜ao independentes gerados usando um
gerador de umeros pseudoaleat´orios. Como se pode ver, xteytao ao relacionados.
Para explorar a rela¸ao emp´ırica entre essas eries ao relacionadas, carregue os dados
spurious.gdt. Em seguida defina os dados como eries temporais. Para isso clique no
Menu Dados>Estrutura do Conjunto de Dados>eries Temporais. Como as
eries ao fict´ıcias, escolha a periodicidade Outro.
Depois plota-se os dados usando um gr´afico de erie temporal. Para colocar
ambas as eries no mesmo gr´afico de erie temporal, selecione Ver>Gr´afico de
vari´aveis>erie temporal. Coloque ambas as eries na caixa do lado direito e clique
em OK.
Depois estima-se um modelo de ınimos Quadrados Ordin´arios. O coeficiente em
rw2 ´e positivo (0,842) e significativo (t= 40.84 >1.96). No entanto, estas vari´aveis
ao est˜ao relacionadas umas com as outras! A rela¸ao observada ´e puramente esp´uria.
A causa do resultado esp´urio ´e a ao estacionariedade das duas eries. ´
E por isso que
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 133
se deve verificar a estacionaridade de seus dados sempre que usar s´eries temporais em
uma regress˜ao.
Finalmente, os res´ıduos da regress˜ao esp´uria ao testados para autocorrela¸ao
de 1a
¯ordem usando o teste LM. No modelo estimado clique no menu
Testes>Autocorrela¸ao e escolha a ordem 1 para o teste, como segue:
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 134
A estat´ıstica do teste LM ´e 682,95 e seu valor-p est´a bem abaixo do limite de
5%. As conclus˜oes baseadas em evidˆencias visuais ao confirmadas estatisticamente,
ou seja, os erros ao autocorrelacionados.
8.4 Testes de estacionariedade
Oteste Dickey-Fuller (aumentado) pode ser usado para testar a estacionariedade
dos dados. O teste ´e baseado no seguinte modelo de regress˜ao. A vers˜ao aumentada do
teste Dickey-Fuller adiciona arias diferen¸cas defasadas ao modelo. Para o modelo
com uma tendˆencia constante e sem determin´ıstica, isso seria:
yt=α+γ yt1+
m
X
s=1
asyts+vt
Para realizar o teste, algumas decis˜oes devem ser tomadas em rela¸ao `a erie
temporal. As decis˜oes geralmente ao tomadas com base na inspe¸ao visual dos gr´aficos
das eries temporais. Os gr´aficos ao usados para identificar quaisquer tendˆencias
determin´ısticas na erie. Se a tendˆencia da erie for quadr´atica, a vers˜ao diferenciada
da erie ter´a uma tendˆencia linear.
Deve-se determinar o umero de termos defasados a serem inclu´ıdos nas regress˜oes
ADF. a arias formas de fazer isso. Em princ´ıpio, os res´ıduos da regress˜ao ADF
devem ser isentos de qualquer autocorrela¸ao. Inclua apenas os lags suficientes de
ytspara garantir que os res´ıduos ao sejam correlacionados. O n´umero de termos
defasados tamb´em pode ser determinado examinando a fun¸ao de autocorrela¸ao (ACF)
dos res´ıduos ou a significˆancia dos coeficientes de defasagem estimados.
A hip´otese nula do teste ADF ´e que a erie temporal possui raiz unit´aria e ao ´e
estacion´aria. Se essa hip´otese for rejeitada, concluir´a que a erie ´e estacion´aria. ao
rejeitar a hip´otese nula significa que a erie em ıvel ao ´e estacion´aria. Importante
destacar uma caracter´ıstica sobre os resultados do teste ADF,gretl expressa o modelo
de maneira ligeiramente diferente, como segue:
(1 L)yt=β0+ (α1) yt1+α1yt1+et
O coeficiente β0est´a inclu´ıdo porque a erie pode ter uma tendˆencia, (α1) = γ
´e o coeficiente de interesse na regress˜ao de Dickey-Fuller eα1´e o parˆametro para
o termo que “aumenta” a regress˜ao de Dickey-Fuller. Ele ´e inclu´ıdo para eliminar
a autocorrela¸ao nos erros do modelo, et, e mais defasagens podem ser inclu´ıdas, se
necess´ario, para realizar isso. A nota¸ao no lado esquerdo da equa¸ao (1 L)ytfaz
uso do operador de lag,L. O operador lag realiza a agica Lyt=yt1. Assim,
(1 L)yt=ytLyt=ytyt1= yt.
No exemplo a seguir, ao consideradas a taxa dos fundos federais (ffr) e a taxa
dos t´ıtulos de 3 anos (br). O arquivo a ser usado ´e o usdata5.gdt. Para realizar
os testes Dickey-Fuller, primeiro decida se deve usar uma tendˆencia constante e/ou
determin´ıstica. Deve-se selecionar uma das eries, por exemplo ffr e clicar no menu
Vari´avel>Testes de Ra´ız Unit´aria>Teste de Dickey-Fuller Aumentado. As
op¸oes mostradas na figura abaixo ao as padr˜oes que o gretl a para o teste ADF:
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 135
Ap´os rodar o teste os seguintes resultados ao mostrados:
Os resultados do teste ao bastante informativos. Para os modelos com constante e
constante e tendˆencia, ao se pode rejeitar a hip´otese nula de raiz unit´aria. Em outras
palavras a erie dos t´ıtulos federais americanos ao ´e estacion´aria em n´ıvel. Agora ser´a
utilizado apenas uma defasagem. Os resultados do teste ao os seguintes:
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 136
Os resultados do teste podem ser reproduzidos rodando um MQO tendo como
vari´avel dependente a primeira diferen¸ca ffr contra ffr defasada e a primeira diferen¸ca
da vari´avel defasada. Use o bot˜ao Acrescentar para criar as defasagens e tomar a
primeira diferen¸ca. Veja que a estat´ıstica t da vari´avel ffr 1 ´e igual a do tau ct(1)
do modelo com constante e tendˆencia.
Assim ao se pode rejeitar a hip´otese nula de ra´ız unit´aria. Em outras palavras, a
erie ffr ao ´e estacion´aria em n´ıvel. Agora veja o gr´afico dessa erie quando se toma
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 137
a primeira diferen¸ca.
A erie ´e estacion´aria. Fa¸ca o teste ADF para conferir.
8.4.1 Outros testes para ao estacionariedade
a outros testes para ao estacionariedade no gretl. O primeiro ´e o teste DF-GLS.
Esse procedimento performa o teste t modificado de Dickey-Fuller (conhecido como
teste DF-GLS) proposto por Elliott et al. (1996). Essencialmente, o teste ´e um
teste de Dickey-Fuller aumentado, exceto que a erie temporal ´e transformada
por meio de uma regress˜ao de M´ınimos Quadrados Generalizados (GLS) antes de
estimar o modelo. Elliott et al. (1996) mostraram que esse teste tem poder
significativamente maior do que as vers˜oes anteriores do teste Dickey-Fuller
aumentado. Consequentemente, ao ´e incomum que este teste rejeite a hip´otese nula
da ao estacionariedade quando o teste de Dickey-Fuller aumentado usual ao o
faz.
Para executar o teste ADF-GLS deve-se selecionar a vari´avel desejada (ffr) e clicar
no menu Vari´avel>Teste de raiz unit´aria>Teste ADF-GLS. Para tanto selecione
as seguintes op¸oes:
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 138
Ao clicar em OK, tem-se os seguintes resultados:
A estat´ıstica do teste ´e -1,7735 e tem um p-valor de 0,0723, que est´a na zona de
rejei¸ao a 10% . Ao n´ıvel de significˆancia de 10%, a erie ´e estacion´aria. O gretl
tamb´em pode realizar o teste KPSS proposto por Kwiatkowski et al. (1992). A
hip´otese nula desse teste ´e que a vari´avel em quest˜ao ´e estacion´aria. Para execut´a-lo o
caminho ´e o mesmo, basta selecionar a vari´avel e clicar no menu Vari´avel>Teste de
raiz unit´aria>Teste KPSS. A seguir, tem-se o resultado do teste:
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 139
Op-valor ´e menor que 0.01, ent˜ao pode-se rejeitar a hip´otese nula que a s´erie ´e
estacion´aria.
8.5 Integra¸ao e cointegra¸ao
Duas eries temporais ao estacion´arias ao cointegradas se tendem a se mover juntas
ao longo do tempo. Por exemplo, estabelece que os n´ıveis da taxa de fundos federais e
do t´ıtulo de 3 anos ao ao estacion´arias.
Na linguagem opaca usada na literatura de eries temporais, diz-se que cada erie
´e integrada de ordem 1 ou I (1). Se as duas eries ao estacion´arias se movem juntas
ao longo do tempo, diz que ao cointegradas. A teoria econˆomica sugeriria que eles
deveriam ser vinculados por meio de arbitragem, mas isso ao ´e garantido. Nesse
contexto, o teste de cointegra¸ao equivale a um teste da substituibilidade desses ativos.
O teste asico ´e muito simples. Deve-se regredir uma vari´avel I (1) contra outra
usando m´ınimos quadrados. Se as eries forem cointegradas, os res´ıduos dessa regress˜ao
ser˜ao estacion´arios. Isso ´e verificado usando o teste de Dickey-Fuller aumentado,
com um novo conjunto de valores cr´ıticos que levam em conta que a s´erie de res´ıduos
utilizada no teste ´e estimada a partir de dados. Engle e Granger usaram simula¸oes
para determinar os valores cr´ıticos corretos para o teste, o teste recebe o nome dos dois
pesquisadores.
A hip´otese nula ´e que os res´ıduos ao ao estacion´arios, o que implica que
as eries ao ao cointegradas. Para obtˆe-lo, use Modelo>erie temporal
Multivariadas>Teste de cointegra¸ao (Engle-Granger) na janela principal do
gretl. Na caixa de di´alogo, indique quantas defasagens devem ser inclu´ıdas nas
regress˜oes Dickey-Fuller iniciais em cada uma das vari´aveis, quais vari´aveis se
deseja incluir na rela¸ao de cointegra¸ao e se uma constante, tendˆencia ou tendˆencia
quadr´atica ´e necess´aria nas regress˜oes.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 140
Pode-se rejeitar a hip´otese nula que os res´ıduos possuem raiz unit´aria, ou seja, ao
ao estacion´arios. Em outra palavras, as s´eries ao cointegradas.
8.6 Corre¸ao de erro
A cointegra¸ao ´e uma rela¸ao entre duas vari´aveis ao estacion´arias, I (1). Essas
vari´aveis compartilham uma tendˆencia comum e tendem a se mover juntas no longo
prazo. Nesta se¸ao, examina-se uma rela¸ao dinˆamica de curto prazo entre vari´aveis I
(0) que incorpora uma rela¸ao de cointegra¸ao conhecida como modelo de corre¸ao de
erros.
Inicia-se com um modelo ARDL (1, 1):
yt=δ+θ1yt1+δ0xt+δ1xt1+vt
ap´os alguma manipula¸ao:
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 141
yt=(1 θ1) (yt1β1β2xt1) + δ0xt+vt
O termo no segundo conjunto de parˆenteses ´e uma rela¸ao de cointegra¸ao em
que os n´ıveis de yexest˜ao linearmente relacionados. Seja α= (1 θ1) e os
parˆametros da equa¸ao podem ser estimados por m´ınimos quadrados ao lineares. ´
E
uma quest˜ao meramente emp´ırica a op¸ao de adicionar ou ao as defasagens de xte
ytcomo regressores. Novamente, devemos incluir defasagens suficientes para remover
a autocorrela¸ao dos res´ıduos.
O modelo de corre¸ao de erro a ser estimado ´e:
brt=α(brt1β1β2ffrt1) + γ1brt1+γ2brt2
+δ0ffrt+δ1ffrt1+δ2ffrt2+δ3ffrt3+δ4ffrt4+et
Os m´ınimos quadrados ao lineares requerem valores iniciais. A regress˜ao
cointegrante ´e usada para inicializar β1eβ2. Os res´ıduos ao obtidos e defasados
para serem inclu´ıdos em uma regress˜ao linear para inicializar os outros parˆametros. O
parˆametro de corre¸ao de erros ´e inicializado em zero.
Deve-se estimar uma regress˜ao de br contra ffr e uma constante. Depois
armazena-se os res´ıduos. Estima-se outra regress˜ao usando br em primeira diferen¸ca
(d br) contra os res´ıduos defasados, as defasagens de 1 at´e 2 e a primeira diferen¸ca de
ffr at´e a sua quarta defasagem. Ap´os rodar o modelo salve os valores dos coeficientes
como vari´aveis:
g1 = $coeff(d br 1)
g2 = $coeff(d br 2)
d0 = $coeff(d ffr)
d1 = $coeff(d ffr 1)
d2 = $coeff(d ffr 2)
d3 = $coeff(d ffr 3)
d4 = $coeff(d ffr 4)
Em seguida rode uma regress˜ao de br contra constante e ffr e salve os coeficientes
da constante e de ffr
b1 = $coeff(const)
b2 = $coeff(ffr)
a=0
Uma vez que os valores declarados ao obtidos, um bloco nls ´e constru´ıdo
para estimar o modelo acima. Para estimar esse modelo, clique no menu
Modelo>M´ınimos Quadrados ao-Linear (NLS). Insira o seguinte odigo:
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 142
A estimativa pode ser vista na seguinte tela:
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 143
Estes correspondem aos resultados anteriores. As estimativas dos parˆametros de
cointegra¸ao ao muito pr´oximas das obtidas por uma regress˜ao simples de br sobre
ffr e uma constante. Finalmente, os parˆametros de cointegra¸ao estimados b1 eb2 ao
usados para calcular os res´ıduos e estes ao testados quanto `a estacionaridade (tamb´em
conhecido como Engle-Granger). Deve-se utilizar um teste ADF e a estat´ıstica de
teste deve ser comparada com o valor cr´ıtico adequado. Para isso, clica-se no menu
Salvar>Definir nova vari´avel.
theta1 = 1-$coeff(a)
ehat = br-$coeff(b1)-$coeff(b2)*ffr
Depois executa-se um teste ADF:
A raz˜ao tdo res´ıduo defasado ´e -5.52. Observe que o relacionamento de cointegra¸ao
cont´em um intercepto. A conclus˜ao ´e que a taxa de t´ıtulos e a taxa de fundos federais
ao cointegradas.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 144
Universidade Federal de Pelotas - UFPel
145
Cap´ıtulo 9
Vetor de Corre¸ao de Erro e Vetor
Autorregressivo
O modelo de vetor autorregressivo ´e uma estrutura geral usada para descrever a
interrela¸ao dinˆamica entre vari´aveis estacion´arias. Portanto, o primeiro passo na
an´alise deve ser determinar se os dados ao estacion´arios em n´ıvel. Caso contr´ario, tome
as primeiras diferen¸cas de seus dados e tente novamente. Normalmente, se os n´ıveis
(ou n´ıveis em logaritmo) de sua s´erie temporal ao forem estacion´arios, as primeiras
diferen¸cas ser˜ao. Se as eries temporais ao forem estacion´arias, a estrutura VAR
precisa ser modificada para permitir uma estimativa consistente das rela¸oes entre as
eries. O modelo vetorial de corre¸ao de erro (VECM) ´e apenas um caso especial do
VAR para vari´aveis que ao estacion´arias em suas diferen¸cas (ou seja, I(1)). O VECM
tamb´em pode levar em conta quaisquer rela¸oes de cointegra¸ao entre as vari´aveis.
9.1 Modelos VAR e VEC
Considere duas eries temporais com as vari´aveis ytext. Generalizando a discuss˜ao
sobre o relacionamento dinˆamico dessas duas eries interrelacionadas em um sistema
de equa¸oes:
yt=β10 +β11 yt1+β12 xt1+vy
t
xt=β20 +β21 xt1+β22 yt1+vx
t
As equa¸oes descrevem um sistema em que cada vari´avel ´e uma fun¸ao de sua
pr´opria defasagem e da defasagem da outra vari´avel no sistema. Juntas, as equa¸oes
constituem um sistema conhecido como vetor autorregressivo (VAR). Neste exemplo,
como o lag aximo ´e de ordem um, temos um VAR(1).
Se yexao estacion´arios, o sistema pode ser estimado usando m´ınimos quadrados
ordin´arios aplicados a cada equa¸ao. Se yexao ao estacion´arios em seus n´ıveis, mas
estacion´arios em diferen¸cas (ou seja, I(1)), ent˜ao pegue as diferen¸cas e estime:
yt= β11 yt1+β12 xt1+vy
t
xt=β21 xt1+β22 yt1+vx
t
Se yexao I(1) e cointegrados, ent˜ao o sistema de equa¸oes pode ser modificado
para permitir a rela¸ao de cointegra¸ao entre as vari´aveis. A rela¸ao leva a um modelo
conhecido como modelo de corre¸ao de erro vetorial (VEC). Ser˜ao utilizados dados
Loures e Fernandez 146
macroeconˆomicos sobre o PIB real para uma economia grande e pequena; usa ´e o PIB
real trimestral para os Estados Unidos e aus ´e a erie correspondente para a Austr´alia.
Os dados podem ser obtidos no arquivo gdp.gdt e a foram dimensionados para que
ambas as economias tenham PIB real de 100 no ano 2000, ou seja, ano base igual 2000.
Utiliza-se um modelo VEC porque as eries temporais ao ao estacion´arias em
n´ıvel, mas ao em suas primeiras diferen¸cas e as vari´aveis ao cointegradas.
9.1.1 Gr´aficos de eries temporais
As impress˜oes iniciais devem ser obtidas observando os gr´aficos das duas eries. Os
gr´aficos de dados ao obtidos da maneira usual ap´os a importa¸ao do conjunto de
dados. Os dados sobre o PIB dos EUA e da Austr´alia ao encontrados no arquivo
gdp.gdt e foram coletados de 1970 : 1 2000 : 4. Toma-se a primeira diferen¸ca das
vari´aveis e plota-se um gr´afico de ultiplas eries temporais:
A partir dos gr´aficos de eries temporais, parece que as eries em n´ıvel possuem uma
tendˆencia de crescimento ao longo do tempo. As primeiras diferen¸cas possuem uma
pequena tendˆencia ascendente. Isso significa que as vari´aveis em primeira diferen¸ca
podem ser estacion´arias. Pode-se verificar se isso ´e verdade realizando um teste ADF.
Deve-se levar em conta, quantas defasagens devem ser utilizadas no teste ADF. a
arias maneiras de selecionar lags e o gretl automatiza algumas delas. O conceito
asico ´e incluir lags suficientes nas regress˜oes do teste ADF para tornar os res´ıduos de
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 147
ru´ıdo branco.
A primeira estrat´egia ´e incluir defasagens suficientes para que a ´ultima delas seja
estatisticamente significativa. O gretl automatiza esse processo quando se utiliza a
op¸ao do teste ADF:testar para baixo a partir da ordem axima de defasagem . Inicie
as regress˜oes do ADF com um n´umero bastante generoso de defasagens e o gretl reduz
automaticamente esse umero at´e que a propor¸ao t na defasagem restante mais longo
seja significativa no n´ıvel de 10%.
Os p-valores da estat´ıstica ao muito altos para a eries indicando que ambas ao
ao estacion´arias em n´ıvel. Se esse teste for repetido com as primeiras diferen¸cas das
duas eries pode-se ver que elas ao estacion´arias.
A outra estrat´egia ´e testar os res´ıduos das regress˜oes do Teste de Dickey-Fuller
Aumentado para autocorrela¸ao. Comece com um modelo pequeno e teste os res´ıduos
da regress˜ao para autocorrela¸ao usando um teste LM (ou LMF). Se os res´ıduos forem
autocorrelacionados, adicione outra diferen¸ca defasada da erie `a regress˜ao ADF e
teste os res´ıduos novamente. Uma vez que a estat´ıstica LM ´e insignificante, termine a
testagem. ´
E necess´ario come¸car com um n´umero bastante razo´avel de defasagens no
modelo ou os testes ao possuir˜ao propriedades desej´aveis.
9.1.2 Teste de cointegra¸ao
Dado que as duas eries ao estacion´arias em suas diferen¸cas (ou seja, ambas ao I(1)),
o pr´oximo passo ´e testar se elas ao cointegradas. Para fazer isso, use os m´ınimos
quadrados para estimar a regress˜ao a seguir.
aust=β usat+et
Obtenha os res´ıduos, ˆete ent˜ao estime o seguinte modelo:
ˆet=γˆet1+ut
Para isso estime a regress˜ao de aus contra usa e salve os res´ıduos. A seguir, tome
a primeira diferen¸ca dos res´ıduos e fa¸ca a regress˜ao da primeira diferen¸ca dos res´ıduos
contra os res´ıduos defasados (sem a inclus˜ao da constante).
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 148
Veja que os res´ıduos defasados ao significativos a 1%, o que permite rejeitar a
hip´otese nula de ao cointegra¸ao.
9.1.3 VECM: PIB australiano e americano
Possui-se duas eries que ao estacion´arias em primeira diferen¸ca. Consequentemente,
um modelo de corre¸ao de erros da dinˆamica de curto prazo pode ser estimado usando
m´ınimos quadrados. Um modelo simples de corre¸ao de erros ´e:
aust=β11 +β12 ˆet1+v1t
aust=β21 +β22 ˆet1+v2t
e as estimativas ao dadas por:
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 149
O coeficiente negativo significativo em ˆet1indica que o PIB australiano responde
a um desequil´ıbrio tempor´ario entre os EUA e a Austr´alia. Os EUA ao parecem
responder a um desequil´ıbrio entre as duas economias. A raz˜ao tem ˆet1´e
insignificante. Esses resultados apoiam a ideia de que as condi¸oes econˆomicas na
Austr´alia dependem daquelas nos EUA mais do que as condi¸oes nos EUA dependem
da Austr´alia. Em um modelo simples de com´ercio de duas economias, os EUA ao uma
grande economia fechada e a Austr´alia ´e uma pequena economia aberta.
9.1.4 Usando o comando vecm
O exemplo do PIB da Austr´alia/EUA foi realizado manualmente em uma erie de
etapas para familiariz´a-lo com a estrutura do modelo VEC. Na maioria das aplica¸oes,
o economista emp´ırico provavelmente usar´a outros etodos para estimar o VECM.
Eles fornecem informa¸oes adicionais ´uteis e geralmente mais eficientes.
Depois de algumas experimenta¸oes acaba-se usando um modelo de terceira ordem
com apenas 1 vetor cointegrante. Como existem apenas 2 eries, o umero aximo e
´unico de vetores cointegrantes ´e 1. O padr˜ao, “caso 3”, que ´e uma constante irrestrita,
´e usado para modelar os componentes determin´ısticos do modelo. Escolher o caso
correto ´e outra parte da arte de fazer um estudo VECM. Assim, cabe ao economista
emp´ırico aprofundar os estudos nesta quest˜ao para resolver esse problema complicado.
Para estimar o modelo VECM clique em Modelo>eries Temporais
Multivariadas>VECM.´
E poss´ıvel adicionar vari´aveis end´ogenas ao VAR, vari´aveis
ex´ogenas (que devem ser I(0)), escolher defasagens, umero de vetores cointegrantes e
um modelo que inclu´ı uma tendˆencia determin´ıstica. A janela oferece acesso imediato
a testes, gr´aficos e ferramentas adicionais para an´alise. Al´em disso, a tamb´em um
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 150
recurso pr´atico que permite uma apida reespecificar˜ao do modelo. Na barra de menu
da janela do modelo, escolha Editar>Revisar especifica¸ao para abrir a caixa de
di´alogo VECM novamente para alterar as configura¸oes.
A seguir est˜ao as estimativas da equa¸ao de cointegra¸ao. Os vetores de ajuste
ao, na verdade, os coeficientes dos res´ıduos defasados da rela¸ao de cointegra¸ao.
Geralmente, estes devem ter sinais opostos em dois modelos de vari´aveis, caso contr´ario
os ajustes aos choques podem ao ser equilibrados. Finalmente, algumas estat´ısticas
de sele¸ao de modelo (n˜ao mostradas aqui) aparecem na parte inferior que podem ser
´uteis para determinar a ordem do VECM.
O coeficiente de corre¸ao de erro ´e negativo e diferente de zero para os EUA. A
autocorrela¸ao nos res´ıduos ao ´e evidente. Para a Austr´alia, o termo de corre¸ao de
erro ao ´e significativamente diferente de zero e ao a autocorrela¸ao remanescente.
Uma maneira de avaliar se foram feitas as escolhas de modelagem adequadas ´e examinar
arias estat´ısticas na sa´ıda para verificar a significˆancia dos atrasos, bem como as
magnitudes e os sinais dos coeficientes. Verifique se defasagens desnecess´arias foram
inclu´ıdas no modelo (raz˜oes t insignificantes nas defasagens mais longas), verifique o
valor da estat´ıstica de Durbin-Watson (deve ser pr´oximo de 2) e verifique os sinais e a
significˆancia dos termos de corre¸ao de erros . Neste caso, os sinais ao os esperados, e
apenas a economia australiana se ajusta significativamente aos choques no curto prazo.
Mais uma coisa vale a pena conferir. Plote os termos de corre¸ao de erro.
Este gr´afico mostra que a maior parte do desequil´ıbrio ´e negativo. A Austr´alia
est´a constantemente tentando alcan¸car os EUA. Note que o coeficiente na equa¸ao
de cointegra¸ao ´e -1,025. A estimativa simples dos m´ınimos quadrados foi -0,985.
Suspeitando que esse parˆametro deva ser igual a -1 (essas economias de mercado ao
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 151
aproximadamente compar´aveis), teste isso usando uma instru¸ao restrita.
9.2 Vetor autoregressivo
O modelo de vetor autoregressivo (VAR) ´e, na verdade, um pouco mais simples do que
estimar o modelo VEC. ´
E utilizado quando ao a cointegra¸ao entre as vari´aveis e ´e
estimado a partir de eries temporais estacion´arias.
Ser˜ao utilizados os dados macroeconˆomicos de RPDI e RPCE para os Estados
Unidos. Os dados ao encontrados no conjunto de dados fred.gdt e a foram
transformados em seus logaritmos naturais. Na base de dados, y´e o logaritmo da renda
dispon´ıvel real e c´e o logaritmo das despesas reais de consumo. O primeiro passo ´e
determinar se as vari´aveis ao estacion´arias. Se ao forem, deve-se transform´a-las em
eries temporais estacion´arias e verificar se a cointegra¸ao. Os dados precisam ser
analisados da mesma forma que a erie do PIB no exemplo do VECM. Examine os
gr´aficos para determinar poss´ıveis tendˆencias e use os testes ADF para determinar em
quais formas os dados ao estacion´arios. Esses dados ao ao estacion´arios em n´ıveis,
mas estacion´arios em diferen¸cas. Em seguida, estime o vetor de cointegra¸ao e teste
a estacionaridade de seus res´ıduos. Se os res´ıduos forem estacion´arios, as eries ao
cointegradas e, ent˜ao, estima-se um VECM. Caso contr´ario, um tratamento VAR ´e
suficiente.
Para selecionar o umero de defagens a serem inclu´ıdas no VAR, clique no menu
Modelo>eries Temporais Multivariadas>Sele¸ao de defasagnes do VAR.
Escolha um umero suficientemente grande de defasagem para a testagem.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 152
Pode-se observar que conforme os valores dos testes BIC eHQC deve-se escolher
o modelo com apenas 1 defasagem. No entanto, deve-se verificar se a alguma
correla¸ao serial nos res´ıduos. Para isso, ap´os estimarmos o modelo VAR clicar no
menu Modelo>eries Temporais Multivariadas>Autoregress˜ao Vetorial com
apenas 1 defagem e uma matriz de vari^ancia-covari^ancia HAC, deve-se realizar um
teste de autocorrela¸c~ao de Ljung-Box. Observe que a autocorrela¸ao some ap´os
inserirmos 4 defasagens. Em outras palavras, os p-valores ao superiores a 0.10 o que
permite ao rejeitar a hip´otese nula de ao autocorrela¸ao.
Dessa forma, deve-se estimar um modelo VAR com 4 defasagens:
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 153
9.2.1 Fun¸oes de impulso resposta e decomposi¸ao de
variˆancia
As fun¸oes de impulso resposta mostram os efeitos dos choques na trajet´oria de ajuste
das vari´aveis. As decomposi¸oes da variˆancia do erro de previs˜ao medem a contribui¸ao
de cada tipo de choque para a variˆancia do erro de previs˜ao. Ambos os alculos ao
´uteis para avaliar como os choques nas vari´aveis econˆomicas reverberam em um sistema.
Fun¸oes de impulso resposta e decomposi¸oes de variˆancia de erro de previs˜ao podem
ser produzidas ap´os a estima¸ao dos modelos VAR e VECM. Os resultados podem ser
apresentados em uma tabela ou gr´afico.
Para gerar os gr´aficos das fun¸oes de impulso resposta, ap´os estimar o modelo VAR,
deve-se clicar no menu Gr´afico>Impulso Resposta. Nesse menu, pode-se escolher
se quer observar os efeitos dos choques em um ´unico gr´afico ou se deseja acompanhar
o efeito exclusivo em alguma das vari´aveis do modelo. Abaixo apresenta-se um gr´afico
com os ultiplos choques:
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 154
O per´ıodo escolhido para acompanhar os choques foi de 12 trimestres. Um exemplo
de interpreta¸ao ´e que o efeito de um choque na varia¸ao da renda pessoal dispon´ıvel
faz com que a varia¸ao dos gastos em consumo aumente muito pouco nos 2 primeiros
trimestres. Ap´os isso, essa varia¸ao ser´a negativa at´e se aproximar de zero no sexto
at´e o oitavo trimestre.
No menu an´alise, pode-se ver os valores para as fun¸oes de impulso resposta, bem
como, para a decomposi¸ao de variˆancia do erro de previs˜ao.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 155
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 156
Universidade Federal de Pelotas - UFPel
157
Cap´ıtulo 10
Dados em Painel
Um painel de dados consiste em um grupo de unidades transversais (pessoas, empresas,
estados ou pa´ıses) que ao observadas ao longo do tempo. Denota-se o n´umero de
unidades transversais por ne o umero de per´ıodos de tempo que ao observados como
T. Para usar os procedimentos predefinidos para estimar modelos usando dados de
painel em gretl, deve-se ter certeza de que os dados foram estruturados corretamente
no programa.
As caixas de di´alogo para atribuir a estrutura do conjunto de dados do painel
usando vari´aveis de ´ındice. Para usar este etodo, os dados devem incluir vari´aveis que
identifiquem cada indiv´ıduo e per´ıodo de tempo. O gretl fornece acesso acil a arios
conjuntos de dados de painel ´uteis por meio de seu servidor de banco de dados. Inclu´ı
a Penn World Table e os dados de Barro e Lee (1996) sobre desempenho educacional
internacional. Esses dados podem ser instalados usando o menu Arquivo>Base de
Dados>No servidor de base de dados.
10.1 Um modelo asico
A express˜ao mais geral dos modelos de regress˜ao linear que possuem dimens˜oes de
tempo e unidade ´e vista na equa¸ao abaixo.
yit =β1it +β2it x2it +β3it x3it +eit (10.1)
sendo i= 1, . . . , n et= 1, . . . , T . Se tiver um conjunto completo de observoes
de tempo para cada indiv´ıduo, haver´a nT observa¸oes totais na amostra. Neste
caso, diz que o painel est´a equilibrado. ao ´e incomum ter algumas observoes de
tempo perdido para um ou mais indiv´ıduos. Quando isso acontece, o umero total de
observa¸oes ´e menor que nT e o painel fica desbalanceado.
O maior problema com a Equa¸ao 10.1 ´e que mesmo que o painel esteja balanceado,
o modelo cont´em 3 vezes mais parˆametros do que observa¸oes (nT )! Para poder
estimar o modelo, algumas suposi¸oes devem ser feitas a fim de reduzir o umero
de parˆametros. Uma das suposi¸oes mais comuns ´e que as inclina¸oes ao constantes
para cada indiv´ıduo e para cada per´ıodo de tempo; al´em disso, as intercepta¸oes variam
apenas por indiv´ıduo. Este modelo ´e mostrado na Equa¸ao 10.2.
yit =β1i+β2x2it +β3x3it +eit (10.2)
Loures e Fernandez 158
Essa especifica¸ao inclu´ı n+ 2 parˆametros, inclu´ı vari´aveis dummy que permitem
separar cada intercepto para cada indiv´ıduo. Tal modelo implica que ao a mudan¸cas
substantivas na fun¸ao de regress˜ao em curtos per´ıodos de tempo. Obviamente, quanto
maior a dimens˜ao do tempo, maior a probabilidade de essa suposi¸ao ser falsa.
10.2 Efeitos Fixos
Na Equa¸ao 10.2 os parˆametros que variam por indiv´ıduo ao chamados de efeitos fixos
individuais e o modelo ´e referido como efeitos fixos unidirecionais. O modelo ´e adequado
quando os indiv´ıduos da amostra diferem uns dos outros de uma forma que ao varia
ao longo do tempo. ´
E uma maneira ´util de evitar diferen¸cas ao observadas entre
os indiv´ıduos da amostra que, de outra forma, teriam de ser omitidas. Lembre-se de
que a omiss˜ao de vari´aveis relevantes pode fazer com que os m´ınimos quadrados sejam
tendenciosos e inconsistentes; um modelo de efeitos fixos unidirecional, que requer o
uso de dados de painel, pode ser muito ´util para mitigar o vi´es associado a efeitos ao
observ´aveis invariantes no tempo.
Para pain´eis mais longos em que a fun¸ao de regress˜ao est´a mudando ao longo do
tempo, vari´aveis fict´ıcias de tempo T1 podem ser adicionadas ao modelo. O modelo
torna-se:
yit =β1i+β1t+β2x2it +β3x3it +eit (10.3)
em que β1iou β1tdevem ser omitidos para evitar colinearidade perfeita. Este modelo
cont´em n+ (T1) + 2 parˆametros que geralmente ´e menor que as nT observa¸oes na
amostra. A Equa¸ao 10.3 ´e chamada de modelo de efeitos fixos bidirecionais porque
cont´em parˆametros que ser˜ao estimados para cada indiv´ıduo e cada per´ıodo de tempo.
Ainda ´e poss´ıvel reescrever a Equa¸ao 10.3 da seguinte forma:
yit =β2x2it +β3x3it +ci+eit (10.4)
sendo cio efeito fixo individual que est´a potencialmente correlacionado com os
regressores x. Pode-se escrever Equa¸ao 10.4 tomando a edia para cada unidade
i:
¯yi=β2¯x2i+β3¯x3i+ ¯ci+ ¯ei(10.5)
Subtraindo (10.4) de (10.5) tem-se que:
(yit ¯yi) = β2(x2it ¯x2i) + β3(x3it ¯x3i)+(ci¯ci)+(eit ¯ei)
y
it =β2x
2it +β3x
3it +e
it (10.6)
Os termos com asterisco se referem aos termos entre parˆenteses que ao diferenciados
pela edia. Observe que cie todos os demais termos que ao constantes no tempo
ser˜ao eliminados com esta transforma¸ao. Esse estimador ´e conhecido Within e pode
ser estimado por MQO.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 159
10.3 Primeira diferen¸ca
Antes de apresentar o modelo de primeira diferen¸cas importa-se o conjunto de dados
nls panel.csv que inclui um subconjunto do National Longitudinal Survey, conduzido
pelo Departamento de Trabalho dos EUA. A base de dados inclui observa¸oes sobre
mulheres, em 1968, com idades compreendidas entre os 14 e os 24 anos. Em seguida,
acompanha-as ao longo do tempo, registando arios aspectos das suas vidas anualmente
at´e 1973 e semestralmente depois. A amostra ´e composta por 716 mulheres observadas
em 5 anos (1982,1983,1985,1987 e 1988). O painel ´e equilibrado e a um total de
3.580 observa¸oes.
O primeiro passo trata-se da importa¸ao desse conjunto de dados. Para tanto,
clica-se no menu Arquivo>Abri dados>Arquivos do usu´ario. ao esque¸ca de
selecionar a op¸ao para leitura de arquivos CSV ou para a leitura de qualquer tipo de
arquivo. Essa op¸ao fica no menu localizado acima do bot˜ao Abrir. Ao abrir os dados
ogretl perguntar´a se deseja interpretar a primeira apenas como uma coluna, vocˆe deve
marcar que N~ao. Posteriormente, o software lhe oferecer´a algumas op¸oes para que se
possa definir a base de dados no formato de dados em painel. Quando perguntado sobre
a estrutura de dados, selecione a op¸ao dados em painel>usar vari´aveis ´ındice.
Selecione o id como vari´avel de unidade ou de grupo e o ano (year) como vari´avel de
´ındice de tempo. A dimens˜ao temporal do painel ´e anual tendo come¸cado em 1982.
Para utilizar o estimador de primeiras diferen¸cas ao necess´arios pelo menos dois
per´ıodos de tempo, e se deve diferenciar as vari´aveis no tempo e estimar o modelo
por MQO. As vari´aveis invariantes no tempo e a intercepta¸ao saem do modelo ap´os a
diferencia¸ao. Por exemplo, se desejar estimar o seguinte modelo:
ln (wageit ) = β1i+β2educit +β3exper3it +eit (10.7)
Tomando a primeira diferen¸ca, note que o termo educ desaparece da equa¸ao:
ln (wageit ) = β3experit + eit (10.8)
Para estimar esse modelo, clique no menu Modelo>M´ınimos Quadrados
Ordin´arios e selecione as vari´aveis em primeira diferen¸ca.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 160
Embora o modelo seja simples, ´e poss´ıvel observar que a varia¸ao da experiˆencia
influencia positivamente a varia¸ao no sal´ario.
Por fim, qual estimador utilizar: efeitos fixos ou primeira diferen¸ca? O estimador
de primeira diferen¸ca pode ser usado se T > 2. Se T= 2 ambos estimadores ao
idˆenticos. Para T > 2, o estimador de efeitos fixos ´e mais eficiente se os pressupostos
cl´assicos ao satisfeitos. O etodo de primeira diferen¸ca pode ser melhor caso os
res´ıduos apresentem correla¸ao serial e se T´e muito grande e o umero de unidades
Nao ´e ao grande. Nesse caso, o painel apresenta caracter´ısticas de eries temporais
e alguns problemas de dependˆencia podem surgir, assim provavelmente o estimador
de primeiras diferen¸cas ´e mais apropriado. Caso contr´ario, ´e melhor realizar as duas
estimativas e checar a robustez.
10.4 Painel Agrupado
Para estimar o modelo da Equa¸ao 10.7 deve-se fazer o mesmo procedimento com as
vari´aveis em n´ıvel, sem estarem em primeira diferen¸ca. Para isso deve-se estimar a
seguinte equa¸ao:
ln (wageit ) = β1+β2educit +β3exper3it +γt+eit (10.9)
Note que foram inclu´ıdo efeitos fixos temporais (γt), isto ´e, dummies de ano. Em
seguida realiza-se a estima¸ao desse modelo por MQO.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 161
Veja que a educa¸ao e a experiˆencia possuem um efeito positivo sobre o sal´ario.
Observe que as dummies temporais ao ao significativas.
10.5 Efeitos Aleat´orios
O estimador de efeitos aleat´orios trata as diferen¸cas individuais como sendo atribu´ıdas
aleatoriamente aos indiv´ıduos. Ao inv´es de estim´a-los como parˆametros como realizado
no modelo de efeitos fixos, aqui eles ao incorporados ao erro do modelo, que em um
painel ter´a uma estrutura espec´ıfica. O termo β1ina Equa¸ao 10.3 ´e modelado:
β1i=¯
β1+ut(10.10)
em que uiao as diferen¸cas individuais aleat´orias que ao as mesmas em cada per´ıodo
de tempo.
yit =¯
β1+β2x2it +β3x3it + (eit +ui)
=¯
β1+β2x2it +β3x3it +vit
(10.11)
o termo combinado de erro ´e chamado de erro de composi¸ao:
vit =eit +ui
A propriedade chave ´e que novo termos de erro ´e homoced´astico e serialmente
correlacionado:
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 162
σ2
v=var (vit ) = var (eit +ui) = σ2
u+σ2
e
Para o indiv´ıduo ia covariˆancia entre os erros ´e:
cov (vit, vis )=0
para t=s. Al´em disso, a covariˆancia entre quaisquer dois indiv´ıduos ´e zero. Uma das
principais vantagens do modelo de efeitos aleat´orios ´e que os parˆametros dos regressores
invariantes no tempo podem ser estimados. As estimativas dos parˆametros ao
realmente obtidas atrav´es de M´ınimos Quadrados Generalizados Fact´ıvel (MQGEF).
A transforma¸ao que ´e usada nas vari´aveis do modelo ´e algumas vezes chamada de
quase-degrada¸ao. ´
E baseado no alculo de:
θ= 1 σe
pT σ2
u+σ2
e
Com θ[0,1] . Lembre-se do estimador Within de efeitos fixos. Deve-se fazer a
diferencia¸ao da edia de cada unidade imultiplicada pelo parˆametro θ, como segue:
(yit θ¯yi) = ( ¯
β1θ¯
β1) + β2(x2it θ¯x2it ) + β3(x3it θ¯x3it )+(vit θ¯vit )
y
it =β1+β2x
2it +β3x
3it +v
it
As vari´aveis em asterisco referem-se aos termos em parˆenteses e a constante ´e
definida como β1= ( ¯
β1θ¯
β1).
10.6 Testes de diagn´ostico de painel
a alguns testes de especifica¸ao chave que devem ser feitos antes de confiar
nos efeitos fixos, aleat´orios ou nos estimadores de m´ınimos quadrados agrupados.
Para consistˆencia, todos exigem que a heterogeneidade ao observada ao esteja
correlacionada com os regressores do modelo. Isso ´e testado usando uma vers˜ao de
um teste de Hausman. O outro teste ´e para a presen¸ca de efeitos aleat´orios, esse
teste ´e um teste LM que `as vezes ´e referido como Breusch-Pagan.
10.6.1 Breusch-Pagan
Oteste de Breusch-Pagan ´e baseado numa estat´ıstica teste de um multiplicador
de Lagrange e ´e calculado da seguinte forma:
LM =snT
2 (T1) (Pn
i=1 (Pn
i=1 ˆeit)2
Pn
i=1 PT
i=1 ˆe2
it 1)
Com a hip´otese nula H0:σ2
u= 0 contra a alternativa que H1:σ2
u0. Sob
a hip´otese nula LM N(0,1) e a melhor ideia ´e realizar um teste unicaudal.
Infelizmente o gretl e outros softwares relatam o LM2e usam uma distribui¸ao χ2(1)
que faz com que a hip´otese alternativa seja H1:σ2
u= 0.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 163
A boa not´ıcia ´e que pelo menos gretl calcula LM2por padr˜ao sempre que se
estima um modelo de efeitos aleat´orios. A rejei¸ao da hip´otese nula significa que o
indiv´ıduo (e neste modelo, aleat´orio) as diferen¸cas possuem variˆancia. Se o economista
emp´ırico ao conseguir rejeitar a hip´otese nula, provavelmente desejar´a usar ınimos
Quadrados Agrupados. Se os efeitos individuais aleat´orios estiverem correlacionados
com regressores, ent˜ao o estimador de efeitos aleat´orios ao ser´a consistente. Um teste
estat´ıstico desta proposi¸ao deve ser feito sempre que este estimador for utilizado, a
fim de reduzir a chance de erro de especifica¸ao do modelo.
10.6.2 Hausman
Oteste de Hausman prova a consistˆencia do estimador de efeitos aleat´orios. A
hip´otese nula ´e que essas estimativas ao consistentes, ou seja, exige que a hip´otese
de ortogonalidade dos res´ıduos seja satisfeita. O teste ´e baseado numa medida, H, que
´e uma “distˆancia” entre os estimadores de efeitos fixos e efeitos aleat´orios. Essa medida
´e constru´ıda de modo que sob o nulo segue a distribui¸ao χ2com graus de liberdade
iguais ao umero de regressores, J, que variam no tempo. Se o valor de Hfor grande,
isso sugere que o estimador de efeitos aleat´orios ao ´e consistente e o modelo de efeitos
fixos ´e prefer´ıvel.
Para calcular o teste, os seguintes procedimentos devem ser realizados:
1. Considere o modelo de efeitos aleat´orios como o “modelo restrito”, e salve a soma
dos quadrados dos res´ıduos como (SQRr);
2. Estime via MQO um modelo irrestrito em que a vari´avel dependente ´e y
(diferenciada da edia) e os regressores incluem X(diferenciado na edia) (como
no modelo RE) e as variantes diminu´ıdas de todas as vari´aveis variantes no tempo
(ou seja, os regressores de efeitos fixos);
3. Registre a soma dos res´ıduos quadrados deste modelo como SQRue;
4. Calcule H=n(SSRrSSRu)/SSRu, em que n´e o n´umero total de observa¸oes
usadas. Nesta variante, Hao pode ser negativo, uma vez que adicionar
regressores adicionais ao modelo efeitos aleat´orios ao pode aumentar o SQR.
10.7 Exemplo
Com base no arquivo nls panel.gdt estima-se o seguinte modelo:
ln (wageit ) = β1+β2educit +β3experit +β4exper2
it +β5tenureit+
+β6tenure2
it +γ1south +γ2union +γ3black +eit
(10.12)
Para isso clique no menu Modelo>M´ınimos Quadrados Ordin´arios. Esse ´e o
modelo de painel agrupado:
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 164
Ap´os a estimativa deve-se clicar no menu Teste>Especifica¸ao de Painel. Ao
fazer isso o gretl nos mostrar´a a seguinte sa´ıda:
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 165
Veja que o gretl a faz os dois testes de especifica¸ao que foram discutidos
anteriormente. De acordo com o teste LM o modelo de efeitos aleat´orios ´e adequado
em rela¸ao ao MQO. Conforme o teste de Hausman, verifica-se que o modelo de
Efeitos Fixo ´e adequado em rela¸ao ao modelo de Efeitos Aleat´orios. Dessa forma,
deve-se realizar a estima¸ao do modelo de efeitos fixos. Para isso, clique no menu
Modelo>Painel>Efeitos Fixos ou Aleat´orios. Escolha o modelo de efeitos fixos
e marque as op¸oes para inclus˜ao de dummies temporais e erros padr˜oes robustos.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 166
Como as vari´aveis educ eblack possuem pouca ou nenhuma vari¸ao temporal
elas ao removidas do modelo. Note que a inclus˜ao das dummies temporais ao foi
importante para estima¸ao do modelo.
Universidade Federal de Pelotas - UFPel
167
Cap´ıtulo 11
Modelos com vari´avel dependente
qualitativa ou categ´orica
a muitos eventos na economia que ao podem ser quantificados de forma significativa.
Como vocˆe vota em uma elei¸ao, se vocˆe vai para a os-gradua¸ao, se vocˆe possui o
trabalho assalariado ou qual faculdade vocˆe escolhe ao a uma forma natural de ser
quantificado. Cada um deles expressa uma qualidade ou condi¸ao que vocˆe possui.
Modelos de como essas decis˜oes ao determinadas por vari´aveis que ao chamados de
escolha qualitativa ou modelos de vari´aveis qualitativas.
As escolhas podem ser entre duas (bin´arias) ou mais (multinomiais) alternativas.
Escolhas multinomiais podem ser feitas a partir de uma hierarquia (ordenadas) ou ao.
Por exemplo, uma escolha de uma escala de satisfa¸ao ´e ordenada e a escolha de ir a
e, de carro ou de ˆonibus para o trabalho ao. Uma vari´avel dependente limitada
´e cont´ınua, mas sua faixa de valores ´e restrita de alguma forma. Alguns dos valores
da vari´avel dependente ao ao observados ou, se todos forem observados, alguns ao
restritos ao mesmo valor se o valor real exceder (ou cair abaixo) algum limite. Vers˜oes
simples de ambos os tipos de modelo ao consideradas abaixo.
Inicia-se com decis˜oes bin´arias e depois passa-se para modelos de escolha
multinomial. Modelos para dados de contagem ao estimados e regress˜oes censuradas
e truncadas ao consideradas.
11.1 Modelo de probabilidade linear
Em um modelo de escolha bin´aria, a decis˜ao de modelar tem apenas dois resultados
poss´ıveis. Um n´umero artificial ´e atribu´ıdo a cada resultado antes que an´alises
emp´ıricas adicionais possam ser feitas. Em um modelo de escolha bin´aria, ´e
convencional atribuir “1” `a vari´avel se ela possuir uma qualidade espec´ıfica ou se existir
uma condi¸ao e “0” caso contr´ario. Assim, a vari´avel dependente ´e:
yi=1 se o indiv´ıduo ipossui a caracter´ıstica
0 caso contr´ario
O modelo de probabilidade linear, modela a probabilidade de que yi= 1 como
uma fun¸ao linear das vari´aveis independentes. Neste exemplo, ´e tomada uma decis˜ao
bin´aria sobre dirigir de autom´ovel ou usar o transporte ublico.
Loures e Fernandez 168
autoi=1 se o indiv´ıduo iescolhe o carro
0 se o transporte ublico ´e escolhido
Isso ´e estimado em fun¸ao do diferencial de tempo de deslocamento entre as duas
alternativas. Isso ´e dtime =(bustime autotime)/10. Em um modelo de probabilidade
linear, isso se torna:
autoi=β1+β2dtimei+ei
Utiliza-se os dados da base transport.gdt. Esta base de dados pode ser baixada
diretamente do servidor. Clique no menu Arquivo>Arquivo de exemplos e observe
que a um pequeno computador (ver no servidor), selecione a op¸ao POE 4th:
Ademais, tamb´em pode-se fazer o download de arias outras bases como as dos
manuais de econometria de Wooldridge e Gujarati. Primeiramente obt´em-se as
estat´ısticas descritivas (Ver>Estat´ısticas Descritivas) dos dados:
A edia da vari´avel auto representa a propor¸ao de indiv´ıduos que escolhem o
transporte por autom´ovel. Note que esse valor ´e o que corresponde ao umero 1 da
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 169
vari´avel de escolha bin´aria. Em outras palavras, 47,62% dos indiv´ıduos da amostra
preferem esse tipo de transporte.
O modelo ´e estimado por m´ınimos quadrados usando erros padr˜oes robustos, pois
uma vari´avel dependente bin´aria ´e heteroced´astica. Posteriormente calcula-se uma nova
erie que assume o valor e a probabilidade prevista estiver acima de 50%. Tamb´em
calcula-se a previs˜ao incorreta, quando o modelo prevˆe que o indiv´ıduo escolher´a o
autom´ovel, mas ele de fato pega o ˆonibus. A edia desta erie mede a frequˆencia
relativa de previs˜oes incorretas.
O coeficiente em dtime ´e positivo (significativamente a 5%), o que indica que quanto
maior o diferencial de tempo, maior a probabilidade de uma pessoa fazer uma viagem
de autom´ovel. Ap´os estimar o modelo clica-se no menu Salvar>valores ajustados.
Ent˜ao salva-se os valores previstos como y hat. Em seguida cria-se as seguintes vari´aveis
usando o Menu da janela principal Acrescentar>Definir nova vari´avel:
series y pred = y hat>0.5
series incorrect = abs(auto-y pred)
Em seguida clique no menu Ferramentas>Console do gretl e digite o seguinte
comando: summary incorrect --by = auto --simple. Esse comando mostra as
principais estat´ısticas descritivas separadas por “auto”:
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 170
A partir deles pode-se determinar que apenas 1 de 11 passageiros de ˆonibus
(1/11 = 0,091) e 1 de 10 passageiros de autom´oveis (1/10 = 0,10) foram previstos
incorretamente. O umero total de previs˜oes corretas ´e igual a 19/21 = 90%. Esse
umero pode ser calculado, definindo uma nova vari´avel, da seguinte forma: scalar
correct = $nobs - sum (abs (auto - y pred). Lembre que 21 ´e o n´umero de
observa¸oes da nossa amostra.
11.2 Probit
O modelo estat´ıstico Probit expressa a probabilidade ptal que yi= 1 como uma fun¸ao
das vari´aveis independentes:
P[(yi|xi2, xi3)=1]=Φ(β1+β2xi2+β3xi3)
sendo Φ a fun¸ao de distribui¸ao cumulativa normal (cdf ). O argumento dentro de
Φ ´e linear nos parˆametros e chamado de fun¸ao de ´ındice. Φ mapeia os valores da
fun¸ao de ´ındice no intervalo fechado [0,1]. Estima-se este modelo usando uma fun¸ao
de axima verossimilhan¸ca a dispon´ıvel no gretl. Utiliza-se a mesma base de dados
a qual foi usada para estimar o MPL (Modelo de Probabilidade Linear). A vantagem
dos Probit e do Logit em rela¸ao a esse modelo ´e que todos os valores previstos estar˜ao
dentro do intervalo probabil´ıstico entre zero e um. A seguir ser´a estimada a seguinte
equa¸ao:
P[autoi= 1] = Φ (β1+β2dtimei)
Para isso seleciona-se o seguinte menu Modelo>Vari´avel dependente
limitada>Probit>Bin´ario. Escolha a seguinte configura¸ao (Veja Figura 11.1):
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 171
Figura 11.1: Especificar modelo.
A sa´ıda do modelo ser´a a seguinte Figura 11.2:
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 172
Figura 11.2: Sa´ıda do modelo Probit.
O diferencial de tempo aumenta em edia as chances do indiv´ıduo escolher o uso
do autom´ovel. Agora ser´a visto como interpretar mudan¸cas pontuais e na edia da
vari´avel independente e seus efeitos na vari´avel dependente.
11.2.1 Efeitos marginais e efeitos marginais edios
O efeito marginal de uma mudan¸ca em xij na probabilidade de escolha Pi´e:
∂Pi
∂xij
= Φ (β1+β2xi2+β3xi3)βj
em que Φ (·) ´e a densidade da distribui¸ao de probabilidade normal. Isso significa que os
efeitos marginais dependem de todos os parˆametros do modelo bem como os valores das
vari´aveis. Dado que a viagem por transporte ublico atualmente leva 20 (dtime = 2)
minutos a mais do que o autom´ovel, o efeito marginal estimado foi:
Pi
dtimei
= Φ ( ˆ
β1+ˆ
β2dtimei)ˆ
β2= Φ (0.0644 + 0.3×2) ×0.3 = 0.1037
Os efeitos marginais para vari´aveis indicadoras necessitam de uma abordagem
diferente. Para um regressor indicador, a probabilidade ´e calculada para cada um
de seus estados (0 e 1), mantendo os valores das outras vari´aveis constantes nos valores
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 173
selecionados. As demais vari´aveis podem ser avaliadas em suas edias amostrais ou
em pontos representativos.
Uma abordagem bastante popular ´e calcular os efeitos marginais edios. O efeito
marginal de uma mudan¸ca de xij em Pi´e:
\
AMEj=1
N
N
X
i= 1
Φ( ˆ
β1+ˆ
β2xi2+· ·· +ˆ
βNxiN )ˆ
βj
Tamb´em ´e comum avaliar os efeitos na m´edia de cada vari´avel independente. Isso
´e efeito do seguinte modo:
[
MEj=1
N
N
X
i= 1
Φ ( ˆ
β1+ˆ
β2¯x2+· ·· +ˆ
βN¯xN)ˆ
βj
Os efeitos de
[
MEjao calculados e rotulados no gretl como inclina¸ao. A
maior desvantagem em us´a-los ´e que os valores edios das vari´aveis podem ao
ser representativos. Isso ocorre com muita frequˆencia se uma ou mais das vari´aveis
independentes for um indicadora ou dummy. Por esse motivo, ´e indicado uso do AME,
a menos que haja casos espec´ıficos a serem considerados. Pode-se ter uma boa ideia
dos efeitos marginais (m´edios) observando as inclina¸oes estimadas de um modelo de
probabilidade linear. Para ver os efeitos marginais edios, deve-se selecionar a op¸ao
“mostrar a inclina¸ao na edia” quando for estimar o modelo Probit:
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 174
O efeito de uma mudan¸ca na edia da diferen¸ca de tempo afeta em 0,11 a
probabilidade do individuo optar pelo uso do autom´ovel. Para computar os efeitos
marginais individuais, edios ou na edia de todas as vari´aveis dependentes ´e
poss´ıvel usar a fun¸ao (pacote) lp-mfx. Para instalar este pacote, clique no menu
Arquivo>Pacotes de Fun¸oes>No Servidor.
Clique no disquete para instalar. Depois estime novamente o modelo probit. Na
tela de estima¸ao do modelo, clique no menu An´alise>Marginal effects Figura
11.3
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 175
Figura 11.3: Selecionando a op˜ao Marginal effects.
Ser˜ao obtido as seguintes sa´ıdas Figura 11.4:
Figura 11.4: Marginal effects.
Note que quando se seleciona mostrar “inclina¸ao” o gretl calcula o efeito marginal
“at means”, isto ´e, o
\
AMEjpara a varia¸ao de uma unidade da vari´avel avaliada. A
fun¸ao lp-mfx tamb´em pode ser utilizada para calcular os efeitos marginais do modelo
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 176
logit que ser´a apresentado na pr´oxima subse¸ao.
11.3 Logit
O modelo logit ´e muito similar ao probit. No entanto, a probabilidade de um
evento a ser descrito pelo evento por uma distribui¸ao normal ´e modelada utilizando
uma distribui¸ao log´ıstica. As distribui¸oes normal e log´ıstica possuem uma forma
(curvatura) bastante similares, portanto a estima¸ao desses modelos ao muito
pr´oximas. A probabilidade que o indiv´ıduo iescolha a alternativa ´e:
Pi= (F zi) = Λ (zi) = 1
1 + ezi
zi=
k
X
j= 1
xij βj
No logit, a probabilidade ´e modelada utilizando Λ (ziao inv´es de Φ (zi) como no
modelo probit. Para exemplificar o uso do modelo logit, ser´a utilizado a escolha pelo
consumo de refrigerante, sendo a vari´avel dependente igual a um se o consumidor
comprar Coca-Cola e zero caso contr´ario. Modela-se essa rela¸ao como uma fun¸ao da
raz˜ao entre o pre¸co da Coca-Cola (Coke, em inglˆes) e o pre¸co da Pepsi. O modelo ´e:
P r (C okei= 1) = ϕ(β1+β2pratio +β3disp coke +β4disp pepsi)
Para isso usa-se o arquivo coke.gdt. Para estimar esse modelo, clique no menu
Modelo>Vari´avel dependente limitada>Logit>Bin´ario:
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 177
A tabela dos valores previstos revela que com logit, dos (507 + 123) = 630
consumidores que escolheram Pepsi (Pepsi = 0). O modelo previu 507 deles
corretamente (80,48% correto para Pepsi). Para Coca-Cola o modelo previu 247/(263+
247) = 247/510 = 48,43%. A porcentagem total que foi prevista corretamente ´e
754/1140 = 66,1%. Para compar as estimativas do logit, com as do probit e do mpl
utiliza-se o script. Para isso clique no menu Arquivo>Arquivos de script>Novo
script>Script Gretl:
Para executar o script clique nas engrenagens, que est˜ao ao lado da impressora e
da tesoura. Cada modelo ficar´a dispon´ıvel na tela de ´ıcones. Deve-se arrastar o ´ıcone
de cada modelo para a Tabela de modelos e posteriormente clicar duas vezes nesse
´ıcone.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 178
O resultado ser´a o seguinte:
Figura 11.5: Tabela de modelos.
Os sinais e as raz~oes t ao aproximadamente iguais entre os estimadores. Nos
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 179
modelos logit e probit, os coeficientes e os sinais ao consistentes com a dire¸ao
dos efeitos marginais. As magnitudes dos coeficientes diferem apenas por causa das
diferen¸cas impl´ıcitas em como os coeficientes ao normalizados. Embora, ao seja ´obvio,
a uma rela¸ao aproximada entre os coeficientes de “inclina¸ao” dos trˆes conjuntos de
estimativas.
eγlogit
=4ˆ
βM P L
e
βprobit
=2.5ˆ
βM P L
eγlogit
=1.6ˆ
βprobit
Portanto, 4(0,4009) = 1,6036 ´e bastante pr´oximo da estimativa de 1,996 para
o coeficiente pratio na coluna logit. Mais importante ainda, existem semelhan¸cas
mais pr´oximas entre os efeitos marginais impl´ıcitos por logit e probit. Suas edias
(AME) ao muito pr´oximas do coeficiente correspondente no modelo de probabilidade
linear. Pode-se esperar que eles se tornem mais pr´oximos `a medida que o tamanho da
amostra aumenta. O primeiro conjunto de estat´ısticas computadas ´e o AME de cada
um dos modelos. Isso ´e acil para o MPL, pois os efeitos marginais ao os mesmos,
independentemente do valor de x. Para probit e logit requer o uso do etodo delta
para obter estimadores consistentes do erros padr˜ao.
11.3.1 Teste de Raz˜ao de Verossimilhan¸ca
Como os modelos probit e logit ao estimados pelo etodo da verossimilhan¸ca
axima, tamb´em pode realizar um teste de raz˜ao de verossimilhan¸ca. A raz˜ao de
verossimilhan¸ca ´e:
LR = 2 (lnLUlnLR)χ2(J)
Se a hip´otese nula for verdadeiro. O parˆametro Jao os graus de liberdade para o
χ2(J) e ´e igual ao n´umero de hip´oteses que se est´a testando em conjunto, neste caso ao
duas. Os parˆametros LUeLRao as log verossimilhan¸cas dos modelos irrestrito (U) e
restrito (R), respectivamente. O procedimento ´e estimar modelos restritos e irrestritos,
calcular a log-verossimilhan¸ca de cada um, compor a estat´ıstica LR e calcular seu
p-valor.
Para isso volta-se ao exemplo anterior e estima-se o seguinte modelo:
PcokeU=ϕ(β1+β2pratio +β3disp coke +β4disp pepsi)
Chamando esse modelo de irrestrito (U). Para o modelo restrito considera que
β3= 0.
PcokeR=ϕ(β1+β2pratio +β4disp pepsi)
Desta forma, estima-se um modelo Probit irrestrito e clica-se no menu Salvar>Log
da verossimilhan¸ca. Defina o nome da vari´avel como lr u. Depois clique no menu
Modificar modelo e estime um novo modelo sem a vari´avel disp coke. Novamente
clique em Salvar>Log da verossimilhan¸ca. Defina essa vari´avel como lr r. Em
seguida a no menu Acrescentar>Definir nova vari´avel. A ormula ´e a mesma
mostrada na equa¸ao ll =scalar2(lr u lr r). No menu Ferramentas, selecione o
console do gretl e digite os seguintes comandos:
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 180
Figura 11.6: Console do gretl.
Este ´e quase o mesmo resultado obtido usando o teste de Wald. Para estimadores
ao lineares, essas estat´ısticas normalmente produzir˜ao resultados (ligeiramente)
diferentes. Pode-se rejeitar a H0que β3= 0 a um n´ıvel de 5%. Alternativamente,
pode-se fazer um teste de restri¸oes lineares! Estima-se o modelo completo e clica-se
no menu Testes>Restri¸oes Lineares. Deve-se ainda inserir a op¸ao b3 = 0 e apertar
ok.
Note que os resultados ao muito pr´oximos!!!
11.4 Regressores end´ogenos
Com um regressor cont´ınuo e end´ogeno, a pelo menos duas abordagens que podem
ser adotadas para estimar os parˆametros do modelo de forma consistente. A primeira
´e usar m´ınimos quadrados lineares de dois est´agios. Esta ´e a contraparte do regressor
end´ogeno para o modelo de probabilidade linear. A outra abordagem ´e usar uma
vari´avel instrumental probit (ou logit). Este N ˜
AO ´e um estimador de dois est´agios no
mesmo sentido que o 2SLS linear. Requer alguns cuidados na pr´atica.
A seguir ser˜ao utilizados os dados contidos no arquivo mroz.gdt para estimar um
modelo de participa¸ao feminina na for¸ca de trabalho (LFP). A vari´avel LFP ´e bin´aria,
assumindo o valor 1 se uma mulher estiver na for¸ca de trabalho e 0 caso contr´ario. O
modelo de probabilidade linear estimado ´e:
LF P =β1+α1educ +β2exper +β3exper2+β4kidls6 + β5age +e
A escolaridade da mulher, educ, ´e considerada end´ogena. Para o modelo de ınimos
Quadrados em Dois Est´agios (MQO2E), precisa-se de um instrumento. Neste caso,
ser´a utilizado a educa¸ao da ae (mothereduc) como instrumento para educ. Para
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 181
isso clique no menu Modelos>Vari´aveis Instrumentais>M´ınimos Quadrados
em Dois Est´agios.
Isso ´e proporcionado pela educa¸ao da ae, mothereduc.
As estimativas do modelo MQO2E:
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 182
Embora o instrumento pare¸ca forte (F= 144,4), o teste de Hausman para a
exogeneidade da educa¸ao ao ´e rejeitado a 5%. Uma outra possibilidade ´e estimar uma
vers˜ao do modelo probit com vari´aveis instrumentais. Isso pode ser feito usando um
pacote chamado HIP. O pacote HIP foi escrito por Riccardo Lucchetti e Claudia Pigini
e apresenta uma cole¸ao de scripts para estimar modelos probit heteroced´asticos, que
podem incluir regressores end´ogenos.
Primeiramente cria-se uma lista de vari´aveis ex´ogenas e instrumentos. Para tanto,
clique no menu Dados>Criar ou editar lista. Crie uma lista chamada exog vars
com as vari´aveis const, exper, exper2, kidsl6 e age. Em seguida deve-se clicar no menu
Modelo>Vari´avel Limitada Dependente>Probit>IV/Heteroced´astico.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 183
As estimativas do modelo podem ser vistas Figura 11.7:
Figura 11.7: IV/Heteroskedastic
Os resultados do teste ao bastante semelhantes aos do MPL/IV. A educa¸ao ao
´e considerada end´ogena em 5%. A raz~ao t em educa¸ao foi de 2,35 na vers˜ao LPM e
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 184
´e de 2,4 na vers˜ao IV/probit. ´
E claro que calcular os efeitos marginais no IV/probit ´e
complicado pela ao linearidade do modelo.
11.5 Logit Multinomial
No modelo Logit Multinomial, a vari´avel dependente ´e categ´orica e codificada da
seguinte maneira. Um estudante concluindo o ensino edio escolhe entre trˆes
alternativas: ao frequentar a faculdade psechoice = 1, matricular-se em uma
faculdade de 2 anos psechoice = 2 ou matricular-se em uma faculdade de 4 anos
psechoice = 3. A vari´avel explicativa ao as notas, que ´e um ´ındice que varia de 1,0
(n´ıvel mais alto, nota A+) a 3,0 (n´ıvel mais baixa, nota F) e representa o desempenho
combinado em inglˆes, matem´atica e estudos sociais. Para este exemplo, as op¸oes ao
tratadas como ao ordenadas, a 1.000 observoes.
Para estimar o modelo de escolha da escola em fun¸ao das notas e uma constante,
abra o conjunto de dados nels small.gdt e clique no menu Modelo>Vari´avel
Dependente Limitada>Logit>Multinomial.
Os coeficientes aparecem agrupados. O primeiro grupo cont´em os coeficientes
que est˜ao associados a escolha de psechoice = 2 e o segundo grupo associa-se com
psechoice = 3. Isso implica que o gretl escolheu psechoice = 1 como grupo
de referˆencia. A probabilidade de escolher uma alternativa em um modelo logit
multinomial ´e:
pij =1
1 + PJ
j= 2 exp (β1j+β2jxi2+· ·· +βkj xik)para j= 1
pij =exp (β1j+β2jxi2+· ·· +βkj xik )
1 + PJ
j= 2 exp (β1j+β2jxi2+· ·· +βkj xik)para j= 1
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 185
A obten¸ao das probabilidades estimadas pelo modelo ´e bastante simples. Estime
o modelo Modelo>Vari´avel dependente limitada>Logit>Multinomial. Na
janela do modelo, selecione An´alise>Probabilidades de resultado para produzir
as probabilidades previstas para cada caso na amostra:
11.6 Probit Ordenado
A seguir apresenta-se um exemplo em que as probabilidades de ao frequentar a
faculdade, de frequentar por 2 anos e por 4 anos, ao modeladas como uma fun¸ao
das notas do aluno. Em princ´ıpio, espera-se que os estudantes com notas mais altas
no ensino edio, possuem maior chance de frequentar uma faculdade por 4 anos e
menos chances de pular o ensino superior. No conjunto de dados, as notas ao medidas
em uma escala de 1 a 13, sendo 1 a mais alta. Isso significa que se notas mais altas
aumentam a probabilidade de ir para uma faculdade de 4 anos, o coeficiente nas notas
ser´a negativo. As probabilidades ao modeladas usando a distribui¸ao normal neste
modelo onde os resultados representam n´ıveis crescentes de dificuldade. O modelo ´e:
y
i=β gradesi+ei
A vari´avel y
i´e uma vari´avel latente, ou seja, o seu valor ´e ao observado. Na
verdade, observa-se as escolhas categ´oricas de entrada na faculdade:
yi=
3
2
1
Faculdade por 4 anos
Faculdade por 2 anos
ao frequentou
Os dados utilizados ser˜ao os de nels small.gdt. Essa plataforma consiste em
conjunto de 1.000 observoes coletadas como parte do Estudo Longitudinal de
Educa¸ao Nacional de 1988. As notas vari´aveis medem a nota edia em matem´atica,
inglˆes e estudos sociais na escala de 13 pontos, sendo 1 a mais alta. Para estimar o
modelo a no menu Modelo>Vari´avel dependente limitada>Probit>Ordenado.
Escolha uma vari´avel dependente e um conjunto de regressores:
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 186
O coeficiente nas notas ´e negativo e significativo a 5%. Isso significa que, `a medida
que a vari´avel de notas aumenta (as notas pioram), o ´ındice fica menor e nas margens
2 anos os participantes da faculdade est˜ao sendo empurrados para nenhuma faculdade
e os participantes da faculdade de 4 anos est˜ao sendo empurrados para a op¸ao de
2 anos. Sabe-se que a probabilidade de estar na categoria mais baixa aumenta e de
estar na categoria mais alta diminui. O que quer que aconte¸ca no meio depende dos
efeitos l´ıquidos das pessoas sendo empurradas para fora da categoria 3 e puxadas para
a categoria 1.
11.7 Tobit
O modelo Tobit ´e uma regress˜ao linear em que algumas observa¸oes da vari´avel
dependente foram censuradas. Uma vari´avel censurada ´e aquela que uma vez que
atinge a um limite, esse valor limitador ´e registrado, ao importa o valor de fato. Por
exemplo, algum indiv´ıduo com ganhos acima de 1 milh˜ao de reais ou mais por ano
poderia ser registrado no limite superior que seria o de ganhos acima de 1 milh˜ao. Isso
significa que indiv´ıduos que ganham valores pr´oximos ao limite superior, por exemplo,
1 milh˜ao e 100 mil reais est˜ao no mesmo grupo daqueles indiv´ıduos que ganham 10
milh˜oes de reais. Para dados desse tipo, o modelo de ınimos quadrados pode ser
seriamente enviesado e enao ´e aconselh´avel usar um modelo de regress˜ao censurado
(tobit) para estimar os parˆametros da regress˜ao.
Considere o seguinte modelo de regress˜ao, tendo como vari´avel dependente o umero
de horas trabalhadas por uma amostra composta apenas por mulheres.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 187
hoursi=β1+β2educi+β3experi+β4agei+β5kidsl6i+ei
Pode-se estimar um modelo como uma regress˜ao censurada, uma vez que arias
mulheres na amostra trabalham zero horas, ou seja, ao trabalham. Ser´a utilizado
a base mroz.gdt. Posteriormente, clique no menu Modelo>Vari´avel dependente
limitada>Tobit.
Ao estimar a regress˜ao por Tobit observa-se um efeito positivo e significativo da
educa¸ao, nas horas trabalhadas. Em outras palavras, um maior n´ıvel de escolaridade
aumenta a chance da mulher trabalhar mais. Se estimar a equa¸ao acima por um
modelo de MQO, percebe-se que o efeito da educa¸ao ser´a subestimado, como segue:
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 188
11.8 Heckit
O vi´es de sele¸ao ocorre quando em alguma das observa¸oes ao se tem os dados
para a vari´avel dependente por alguma raz˜ao. Os problemas estat´ısticos ocorrem
quando a causa da limita¸ao da amostra est´a relacionada por alguma raz˜ao com a
vari´avel dependente. Ignorando a correla¸ao, o modelo pode ser estimado usando
M´ınimos Quadrados, Tobit ou ınimos Quadrados Censurados (regress˜ao censurada).
De qualquer forma, ao ´e poss´ıvel obter estimativas consistentes dos parˆametros de
regress˜ao quando a causa das observa¸oes faltantes est´a correlacionada com a vari´avel
dependente do modelo de regress˜ao.
Considere um modelo que consiste em duas equa¸oes. A primeira ser´a denominada
de equa¸ao de sele¸ao e pode ser definida como:
z
i=γ1+γ2wi+ui, i = 1, . . . , N
em que z
i´e uma vari´avel latente, γ1eγ2ao os parˆametros, wi´e uma vari´avel
explicativa e ui´e o dist´urbio aleat´orio. Uma vari´avel latente ´e ao observ´avel, mas,
por sua vez, uma vari´avel dicotˆomica pode ser observada:
zi=1
0
z
i>0
caso contr´ario
A segunda equa¸ao ´e chamada de equa¸ao de regress˜ao, e ´e o modelo de regress˜ao
linear de interesse.
yi=β1+β2xi+ei, i = 1, . . . , n ;N > n
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 189
em que yi´e uma vari´avel aleat´oria observ´avel, β1eβ2ao os parˆametros, xi´e uma
vari´avel ex´ogena e ei´e um erro aleat´orio. Assumi-se que os erros aleat´orios das duas
equa¸oes ao distribu´ıdos como:
ui
eiN0
0,1
ρ
ρ
σ2
e
O problema de sele¸ao surge quando yi´e observado somente quando zi= 1 e ρ= 0.
Nesse caso, os estimadores de m´ınimos quadrados de β´e viesado e inconsistente. Um
estimador consistente foi sugerido por Heckman (1979) e ´e comumente referenciado
como o estimador de dois passos de Heckman ou simplesmente Heckit. Isso ocorre
porque os erros ao normalmente distribu´ıdos e tamb´em os parˆametros ao estimados
por axima verossimilhan¸ca. O estimador Heckit est´a baseado na edia condicional
de yiquando essa vari´avel pode ser observada:
E[yi|zi>0] = β1+β2xi+βλλi
em que:
λi=ϕ(γ1+γ2wi)
Φ (γ1+γ2wi)
´e a raz˜ao inversa de Mill. ϕ(γ1+γ2wi) ´e uma fun¸ao de densidade de probabilidade
valorada ao ´ındice ie; Φ (γ1+γ2wi) ´e a fun¸ao de densidade cumulativa da distribui¸ao
normal avaliada a esse ´ındice. Adicionando um erro aleat´orio temos:
yi=β1+β2xi+βλλi+vi
Pode-se mostrar que a equa¸ao acima ´e heteroced´astica e se λifosse conhecido
(e ao estoastico), ent˜ao o modelo com a corre¸ao do vi´es de sele¸ao poderia ser
estimado por M´ınimos Quadrados Generalizados. Como alternativa, pode ser estimado
por m´ınimos quadrados ordin´arios, usando o estimador de covariˆancia consistente de
heterocedasticidade de White (HCCME) para teste de hip´otese e constru¸ao de intervalos
de confian¸ca. Infelizmente, λiao ´e conhecido e deve ser estimado usando a amostra.
A natureza estoc´astica de λitorna inapropriado o uso autom´atico de HCCME neste
contexto.
Os dois passos do estimador Heckit consistem em:
1. Estime a equa¸ao de sele¸ao para obter ˆγ1e ˆγ2. Use-os para estimar a raz~ao
inversa de Mill,ˆ
λi.
2. Adicione ˆ
λiao modelo de regress˜ao como na equa¸ao e estime-o usando m´ınimos
quadrados.
O procedimento Heckit leva em considera¸ao que a decis˜ao de trabalhar por
remunera¸ao pode estar correlacionada com o sal´ario que uma pessoa ganha. Ele
come¸ca modelando a decis˜ao de trabalhar e estimando a equa¸ao de sele¸ao resultante
usando um modelo probit. O modelo pode conter mais de uma vari´avel explicativa,
wi, e neste exemplo a quatro: a idade de uma mulher, seus anos de escolaridade, uma
vari´avel dummy para saber se ela tem filhos e a al´ıquota marginal de imposto que ela
pagaria sobre os ganhos se estivesse empregada.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 190
A base de dados mroz.gdt continuar´a sendo utilizada. O primeiro passo ´e criar
o logaritmo da vari´avel sal´ario (wage), selecionando-a e pressionando o bot˜ao direito
do mouse. A seguir cria-se uma vari´avel dummy kids para verificar se a a presen¸ca
de crian¸cas na residˆencia da fam´ılia. Para isso, utiliza o menu Acrescentar>Definir
nova vari´avel bem como a seguinte express˜ao: serieskids = (kidsl6 + kids618 >0).
Em seguinda, selecione Modelo>Vari´avel dependente limitada>Heckit na janela
principal do gretl. Insira l wage como a vari´avel dependente e a vari´avel indicadora
lf p como a vari´avel de sele¸ao. Em seguida, insira as vari´aveis independentes desejadas
para as equa¸oes de regress˜ao e sele¸oes.
Por fim, selecione o bot˜ao de estimativa em 2 etapas na parte inferior da caixa de
di´alogo e clique em OK. Ent˜ao, ser´a poss´ıvel notar que as estimativas dos coeficientes ao
idˆenticas `as produzidas manualmente acima. No entanto, os erros padr˜ao, que agora
ao estimados de forma consistente, mudaram. O gretl tamb´em produz as estimativas
da equa¸ao de sele¸ao, que aparecem diretamente abaixo daquelas da regress˜ao.
Universidade Federal de Pelotas - UFPel
191
Cap´ıtulo 12
Modelos de equa¸oes simultˆaneas
Este cap´ıtulo apresenta um modelo de oferta e demanda. Sendo assim, importante
destacar que esse modelo econom´etrico cont´em duas vari´aveis dependentes e duas
equa¸oes. Uma caracter´ıstica dos modelos de equa¸oes simultˆaneas ´e que os valores
de duas (ou mais) vari´aveis ao determinados conjuntamente. Isso significa que uma
mudan¸ca em uma das vari´aveis faz com que a outra vari´avel mude e vice-versa. A
estimativa de um modelo de equa¸oes simultˆaneas ´e demonstrada usando o exemplo
da trufa. Para isso utilizar´a a base truffles.gdt.
12.1 Exemplo do modelo de equa¸oes simultˆaneas
para trufa
Considere um modelo de oferta e de demanda para trufas:
qi=α1+α2pi+α3psi+α4dii+ed
i(12.1)
qi=β1+β2pi+β3pfi+es
i(12.2)
AEqua¸ao 12.1 ´e a demanda por trufas em que qrepresenta a quantidade
demandada em um determinado mercado, p´e o pre¸co de mercado da trufa, ps ´e o
pre¸co de um bem substituto e di´e a renda dispon´ıvel per capita do mercado local.
Por sua vez, a Equa¸ao 12.2 caracteriza-se como sendo a equa¸ao de oferta. Essa
equa¸ao cont´em a vari´avel pf que representa o pre¸co de um fator de produ¸ao. Cada
observa¸ao ´e indexada por meio do ´ındice i= 1,2, . . . , N. Como ser´a visto, pre¸cos e
quantidades em um mercado ao determinados conjuntamente, portanto, neste modelo
econom´etrico, peqao ambos end´ogenos ao sistema.
12.2 As equa¸oes na forma reduzida
Destaca-se que as equa¸oes na forma reduzida expressam cada vari´avel end´ogena como
fun¸ao linear de cada vari´avel ex´ogena em todo o sistema. Assim,
qi=π11 +π21 psi+π31 dii+π41 pfi+vi1(12.3)
Loures e Fernandez 192
pi=π12 +π22 psi+π32 dii+π42 pfi+vi2(12.4)
Uma vez que cada uma das covari´aveis (vari´aveis independentes) ´e ex´ogena em
rela¸ao a qep, as equa¸oes na forma reduzida (12.3) e (12.4) podem ser estimadas
usando m´ınimos quadrados.
Os resultados do grelt aparecem abaixo. Cada uma das vari´aveis ´e individualmente
diferente de zero a 5%. As estat´ısticas Fgerais ao 19,79 e 69,19; ambas, tamb´em,
significantes a 5%.
ˆq= 7,895
(3,243)
+ 0,6564 ps
(0,1425)
+ 2,167 di
(0,7005) 0,5070 pf
(0,1213)
n= 30 ¯
R2= 0,6625 F(3,26) = 19,973 ˆσ= 2,6801
(erros padr˜ao entre parˆenteses)
ˆp=32,51
(7,984)
+ 1,708
(0,3509)
ps + 7,602
(1,724)
di + 1,354
(0,2985)
pf
n= 30 ¯
R2= 0,8758 F(3,26) = 69,189 ˆσ= 6,5975
(erros padr˜ao entre parˆenteses)
12.3 As equa¸oes estruturais
As equa¸oes estruturais ao estimadas empregando o estimador de M´ınimos Quadrados
em Dois Est´agios (MQ2E). Os instrumentos utilizados na estima¸ao do MQ2E
consistem em todas as vari´aveis ex´ogenas, i.e., as mesmas empregadas para estimar
as equa¸oes na forma reduzida (12.3) e (12.4).
A seguir apresenta-se os comandos, a serem passados no console do gretl Figura
12.1, para abrir os dados da base truffles.gdt e estimar as equa¸oes estruturais
empregado o estimador MQ2E no gretl.
1. list z = const ps di pf
2. tsls q const p ps di; z
3. tsls q const p pf; z
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 193
Figura 12.1: Console do gretl.
Observe que a primeira linha do script cria uma lista chamada de z e que conem
todas as vari´aveis ex´ogenas. Essas vari´aveis ao usadas para calcular a regress˜ao de
primeiro est´agio, ou seja, a lista de instrumentos. Por sua vez, a linha 2 estima os
coeficientes da equa¸ao demanda por trufa empregando o estimador TSLS. Importante
salientar que o comando tsls do gretl solicita o estimador MQ2E e ´e seguido pela
especifica¸ao da equa¸ao estrutural que se deseja estimar no presente exemplo, a
vari´avel dependente qe as vari´aveis independentes const,p,ps edi. Note que o ponto
e v´ırgula separa o modelo que se deseja estimar da lista de instrumentos, agora contidos
na lista z. a a terceira linha segue o mesmo racioc´ınio da equa¸ao demanda, por´em,
agora para estimar os parˆametros da equa¸ao de oferta de trufa.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 194
Figura 12.2: Criando uma lista com todas as vari´aveis ex´ogenas.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 195
Figura 12.3: Estimando os coeficientes da equa¸ao demanda.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 196
Figura 12.4: Estimando os parˆametros da equa¸ao oferta.
AFigura 12.3 mostra os resultados reportados pela estimativa de M´ınimos
Quadrados em Dois Est´agios (MQ2E) da equa¸ao de demanda. O coeficiente do pre¸co
na equa¸ao de demanda ´e de 0,374 e ´e significativamente negativo a 5%. Lembre-se
de que as curvas de demanda ao negativamente inclinadas. Ademais, o teste de
Hausman reportou um valor de 132,484 com um p-valor pr´oximo de zero e, assim,
evidenciando que o pre¸co ao ´e uma vari´avel ex´ogeno. O teste de instrumentos fracos
excede 10 e, portanto, o conjunto de instrumentos ´e bastante forte.
Os resultados para a estima¸ao em dois est´agios da especifica¸ao da oferta ao
apresentados na Figura 12.4. Como esperado, o coeficiente do pre¸co ´e positivo.
O resultado do teste de Sargan,p-valor = 0,215625 >0,05, caracteriza que o
modelo ´e adequadamente superidentificado. Al´em disso, o teste de instrumento fraco
demonstra que os instrumentos utilizados na estima¸ao ao adequadamente fortes
(estat´ıstica-F (2,26) = 41,4873).
Universidade Federal de Pelotas - UFPel
197
Cap´ıtulo 13
Modelos de contagem
Quando a vari´avel dependente em um modelo de regress˜ao ´e uma “contagem” do
umero de ocorrˆencias de um evento, pode-se querer usar o modelo de regress˜ao de
Poisson. Nestes modelos, a vari´avel dependente ´e um umero inteiro ao negativo
(ou um umero natural), que representa o umero de ocorrˆencias de um determinado
evento. Quando se est´a trabalhando com dados de contagem, inicia-se a estima¸ao dos
parˆametros por meio de um modelo de regress˜ao Poisson, devido `a sua simplicidade.
Neste caso, a vari´avel dependente de um modelo de regress˜ao Poisson deve seguir uma
distribui¸ao Poisson com edia igual `a variˆancia. Nestes casos, trabalha-se com a
estima¸ao de um modelo de regress˜ao binomial negativo.
A probabilidade de um determinado umero de ocorrˆencias ´e modelada em fun¸ao
de vari´aveis independentes.
P(Y=y|x) = eλλy
y!
em que λ=β1+β2x´e a fun¸ao de regress˜ao.
A estima¸ao desse modelo, se a por axima verossimilhan¸ca. Como exemplo,
ser´a usado o n´umero de consultas edicas nos ´ultimos trˆes anos. Este umero
ser´a modelado em fun¸ao da idade da pessoa, sexo e se ela tem seguro ublico ou
privado. Os dados est˜ao em rwm88 small.gdt, que ao um subconjunto do German
Socioeconomic Panel Survey de 1988. Depois que os dados ao carregados, os modelos
para dados de contagem podem ser acessados por meio do sistema de menu usando
Modelo>Vari´avel dependente limitada>Contagem.
Loures e Fernandez 198
As vari´aveis age epublic ao estatisticamente diferentes de zero.
13.1 Teste de superdispers˜ao
Caso a variˆancia da vari´avel dependente seja consideravelmente maior do que a sua
edia, a estima¸ao de um modelo Poisson poder´a gerar parˆametros viesados, por conta
do problema conhecido por superdispers˜ao. ´
E sempre recomend´avel, portanto, que,
ap´os a estima¸ao de um modelo de regress˜ao Poisson, seja elaborado um teste para
verifica¸ao da existˆencia de superdispers˜ao e, caso sua presen¸ca seja detectada, ser´a
recomendada a estima¸ao de um modelo de regress˜ao binomial negativo. Seguindo o
exemplo anterior, pode-se gerar as estat´ısticas descritivas da vari´avel dependente:
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 199
Como observado, a edia ´e diferente da variˆancia. Cameron e Trivedi (1990)
prop˜oem um interessante procedimento para verifica¸ao da existˆencia de superdispers˜ao
em modelos de regress˜ao Poisson. Para tanto, ´e preciso que seja gerada uma vari´avel
Y, da seguinte maneira:
Y
i=[(Yiˆµi)2Yi]
ˆµi
Sendo Yio umero de ocorrˆencias para cada observa¸ao da amostra. O termo ˆµi´e
o res´ıduo da regress˜ao de Poisson. Ap´os criar Y
ideve-se estimar o seguinte modelo de
regress˜ao:
ˆ
Y
i=βˆµi
Ap´os a estima¸ao do modelo de regress˜ao se o parˆametro βfor estatisticamente
diferente de zero observa-se o fenˆomeno da superdispers˜ao. Para isso, ap´os rodar
a regress˜ao deve-se salvar os res´ıduos. Para isso clique no menu Salvar>Res´ıduos.
Guarde a vari´avel como uhat1. Posteriormente adiciona-se uma nova vari´avel, clicando
no menu Acrescentar>definir nova vari´avel. A ormula ´e a seguinte:
yi=(docvis uhat1)2docvis)
uhat1
Em seguida estima-se o seguinte modelo de regress˜ao por M´ınimos Quadrados
Ordin´arios:
Observe que o parˆametro β´e estatisticamente diferente de zero, logo a o fenˆomeno
da superdispers˜ao e as estimativas devem ser executadas por meio da distribui¸ao
binomial negativa.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 200
13.2 Binomial Negativa
Esta distribui¸ao ´e tamb´em conhecida por distribui¸ao Poisson-Gama por ser uma
combina¸ao de duas distribui¸oes que foi desenvolvida para levar em considera¸ao o
fenˆomeno da superdispers˜ao que ´e comumente observado em dados de contagem. Ainda
segundo os autores, leva este nome por aplicar o teorema binomial com um expoente
negativo. Se, por exemplo, a edia do umero de ocorrˆencias de uma distribui¸ao
Poisson possuir uma parcela aleat´oria, a express˜ao (14.5) passar´a ser escrita da seguinte
forma:
λi=e(α+β1x1i+···+β1xki+ϵi)
que pode ser escrita como:
λi=uivi
que possui uma distribui¸ao binomial negativa, em que o primeiro termo (ui) representa
o valor esperado de ocorrˆencias e possui uma distribui¸ao Poisson e o segundo termo
(vi) corresponde `a parcela aleat´oria do umero de ocorrˆencias da vari´avel dependente
e possui uma distribui¸ao Gama. Para determinada observao i(i= 1,2, . . . , n em
que n´e o tamanho da amostra), a fun¸ao da distribui¸ao de probabilidade da vari´avel
vi:
p(vi) = δψvψ1
ieviδ
Γ(ψ)
O parˆametro de forma ´e ψ > 0 e o parˆametro de taxa δ > 0. Pode-se combinar as
express˜oes de modo a gerar a fun¸ao da probabilidade de uma distribui¸ao binomial
negativa, o que nos permitir´a calcular a probabilidade de ocorrˆencia de uma contagem
m, dada determinada exposi¸ao.
p(Yi=m) = m+ψ1
ψ1 ψ
ui+ψψui
ui+ψm
, m = 0,1,2, . . .
que representa a fun¸ao de probabilidade da distribui¸ao binomial negativa para a
ocorrˆencia de uma contagem m, com as seguintes estat´ısticas:
edia: E(Y) = u
Variˆancia: V ar (Y) = u+α u2
sendo α=1
ψ.
O segundo termo da express˜ao de variˆancia da distribui¸ao binomial negativa
representa a superdispers˜ao. Se observar que α0, este fenˆomeno ao estar´a presente
nos dados. No entanto, quando ϕ´e estatisticamente maior do que zero, deve-se estimar
um modelo de regress˜ao binomial negativo.
Ogretl permite a estima¸ao de dois modelos de regress˜ao binomial negativo. O
modelo apresentado acima ´e conhecido como NB2 (negative binomial 2 regression
model). Uma vers˜ao alternativa, utiliza a seguinte express˜ao para a variˆancia:
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 201
V ar (Y) = u(1 + α)
e, ´e conhecido por modelo de regress˜ao NB1 (negative binomial 1 regression model).
Utiliza-se a mesma regress˜ao aplicada no modelo de Poisson, utilizando a distribui¸ao
NegBin2:
Universidade Federal de Pelotas - UFPel
ResearchGate has not been able to resolve any citations for this publication.
ResearchGate has not been able to resolve any references for this publication.