Content uploaded by Alexandre Loures
Author content
All content in this area was uploaded by Alexandre Loures on Oct 22, 2023
Content may be subject to copyright.
Uma introdu¸c˜ao ao uso do gretl
Alexandre Loures
Rodrigo Nobre Fernandez
Universidade Federal de Pelotas
22 de outubro de 2023
Dados Internacionais de Cataloga¸c˜ao na Publica¸c˜ao (CIP)
(Cˆamara Brasileira do Livro, SP, Brasil)
Loures, Alexandre
Uma introdu¸c˜ao ao uso do gretl [livro eletrˆonico] / Alexandre Loures,
Rodrigo Nobre Fernandez. – 1. ed. – Pelotas, RS: Ed. dos autores, 2023.
PDF
Bibliografia.
ISBN 978-65-00-82283-0
1. Econometria 2. Estat´ıstica 3. Estat´ıstica – M´etodos 4. Linguagem
de programa¸c˜ao (Computadores) 5. Software I. Fernandez, Rodrigo Nobre.
II. T´ıtulo.
23–176338 CDD–330.015195
´
Indice para cat´alogo sistem´atico:
1. Econometria 330.015195
Aline Graziele Benitez – Bibliotec´aria – CRB-1/3129
3
Pref´acio
A motiva¸c˜ao para a elabora¸c˜ao deste material se deu na dificuldade apresentada por
muitos alunos do Curso de Ciˆencias Econˆomicas da UFPel no desenvolvimento de
trabalhos aplicados nas disciplinas relacionadas a elabora¸c˜ao do Trabalho de Conclus˜ao
de Curso. Mesmo que possa parecer surpreendente, alguns acadˆemicos ainda n˜ao
sabem como utilizar planilhas eletrˆonicas, um tema que ´e fundamental para an´alise
e manipula¸c˜ao de dados.
Dessa forma, o gretl foi o software escolhido para podermos introduzir nossos
alunos `a Econometria Aplicada. Esta ferramenta, ´e bastante amig´avel, n˜ao sendo
necess´ario o conhecimento pr´evio em programa¸c˜ao. Adicionalmente, o software
possibilita o uso de diversas t´ecnicas estat´ısticas e econom´etricas, o que possibilita
a realiza¸c˜ao de uma gama de an´alises.
Descubra o fascinante mundo da econometria e an´alise estat´ıstica com a apostila
“Uma introdu¸c˜ao ao uso do gretl”. Projetada para iniciantes e entusiastas que
desejam mergulhar no universo da modelagem econˆomica, esta apostila oferece uma
abordagem abrangente e pr´atica para a utiliza¸c˜ao do gretl, um poderoso software
estat´ıstico de c´odigo aberto.
Atrav´es de uma narrativa did´atica e exemplos elucidativos, os leitores ser˜ao guiados
desde os conceitos b´asicos at´e a aplica¸c˜ao avan¸cada do gretl. Aprenda a manipular
dados, realizar an´alises de regress˜ao, testar hip´oteses e interpretar resultados, tudo isso
utilizando uma ferramenta eficiente e amig´avel.
Os cap´ıtulos apresentam exerc´ıcios pr´aticos que ajudam a consolidar o conhecimento
adquirido, permitindo que os leitores desenvolvam habilidades prontamente aplic´aveis
em suas pesquisas, estudos acadˆemicos ou projetos profissionais.
Seja vocˆe um estudante de economia, pesquisador em ciˆencias sociais ou profissional
que busca aprimorar suas habilidades estat´ısticas, “Uma introdu¸c˜ao ao uso do gretl”
´e o guia essencial para desbravar o vasto terreno da an´alise econˆomica com confian¸ca
e destreza. Transforme dados em insights valiosos e leve sua compreens˜ao estat´ıstica
para o pr´oximo n´ıvel com esta apostila abrangente e acess´ıvel.
Devemos agradecer ao professor Lee Adkins que publicou a quinta edi¸c˜ao do texto
“Using Gretl for Principles of Econometrics” em 2018. Em muitas partes, nosso
material ´e uma tradu¸c˜ao para a l´ıngua portuguesa deste manual. No entanto, fizemos
algumas adapta¸c˜oes e utilizamos principalmente o ambiente gr´afico do gretl (GUI)
porque a nossa abordagem n˜ao est´a relacionada ao uso de programa¸c˜ao.
Por fim, esperamos que esse livro possa servir como um instrumento para um
primeiro contato com a Econometria. Recomendamos que, ap´os alguma familiaridade
com o software e com as t´ecnicas estat´ısticas e econom´etricas, o leitor se aventure no
uso do Re do Python que s˜ao linguagens usualmente mais solicitadas no mercado de
trabalho.
Rodrigo Nobre Fernandez e Alexandre Loures
5
Sum´ario
1 Regress˜ao linear simples 9
1.1 Representando graficamente os dados ................... 12
1.2 Estimando o modelo de gastos com alimenta¸c˜ao ............. 13
1.3 Elasticidade ................................. 16
1.4 Predi¸c˜ao ................................... 17
1.4.1 Estimando a variˆancia ....................... 17
2 Estima¸c˜ao de intervalo e teste de hip´oteses 19
2.1 Teste de hip´oteses .............................. 22
3 Previs˜ao, qualidade do ajuste e problemas de especifica¸c˜ao 25
3.1 Previs˜ao no modelo de gastos com alimenta¸c˜ao .............. 25
3.2 Qualidade do ajuste ............................. 26
3.3 Escolhendo a forma funcional ....................... 29
3.3.1 Especifica¸c˜ao linear-log ....................... 30
3.3.2 Teste para m´a especifica¸c˜ao – gr´afico dos res´ıduos ........ 35
3.3.3 Teste de normalidade ........................ 37
4 Modelo de regress˜ao m´ultipla 43
4.1 Regress˜ao linear ............................... 44
4.2 Qualidade do ajuste ............................. 45
4.3 Intervalos de confian¸ca ........................... 46
4.4 Polinˆomios .................................. 46
4.5 Efeitos marginais .............................. 47
4.6 Efeitos de intera¸c˜ao ............................. 48
5 Inferˆencia adicional no modelo de regress˜ao m´ultipla 51
5.1 Teste F................................... 51
5.1.1 Teste de restri¸c˜oes de exclus˜ao ................... 51
5.1.2 Significˆancia da regress˜ao ...................... 57
5.1.3 Rela¸c˜ao entre o teste te o teste F................. 58
5.2 Modelos restrito e irrestrito ........................ 59
5.3 Especifica¸c˜ao do modelo .......................... 63
5.4 Sele¸c˜ao do modelo ............................. 67
5.4.1 R2ajustado ............................. 68
5.4.2 Crit´erio de informa¸c˜ao ....................... 68
5.4.3 teste RESET ............................ 68
5.4.4 Colinearidade ............................ 71
Loures e Fernandez 6
5.4.5 M´ınimos quadrados n˜ao-linear ................... 81
6 Usando vari´aveis indicadoras 87
6.1 Vari´aveis indicadoras ............................ 87
6.2 Criando vari´aveis indicadoras ....................... 89
6.2.1 Estimando uma regress˜ao ..................... 90
6.3 Aplicando vari´aveis indicadoras ...................... 91
6.3.1 Intera¸c˜oes .............................. 92
6.3.2 Indicadores regionais ........................ 94
6.3.3 Testando a equivalˆencia entre duas regi˜oes ............ 95
6.3.4 Modelos log-lineares com vari´aveis indicadores .......... 100
6.4 Modelo de probabilidade linear ...................... 101
6.5 Efeito do tratamento ............................ 102
6.5.1 Usando um modelo de probabilidade linear para verificar a
atribui¸c˜ao aleat´oria ......................... 104
6.6 Diferen¸cas em diferen¸cas .......................... 105
7 Heterocedasticidade 109
7.1 Exemplo despesa com alimenta¸c˜ao ..................... 109
7.2 Estimativa robusto de covariˆancia ..................... 111
7.3 Detec¸c˜ao de heterocedasticidade usando gr´aficos dos res´ıduos ...... 113
7.4 M´ınimos quadrados ponderados ...................... 117
7.5 Detectando heterocedasticidade usando testes de hip´otese ........ 121
7.5.1 Testes do multiplicador de Lagrange ............... 121
7.5.2 O teste de White .......................... 123
7.6 Erros padr˜ao consistentes com heterocedasticidade ............ 123
8 S´eries estacion´arias 127
8.1 Gr´aficos das s´eries temporais ........................ 127
8.2 Tendˆencias determin´ısticas ......................... 129
8.3 Regress˜ao esp´uria .............................. 132
8.4 Testes de estacionariedade ......................... 134
8.4.1 Outros testes para n˜ao estacionariedade ............. 137
8.5 Integra¸c˜ao e cointegra¸c˜ao .......................... 139
8.6 Corre¸c˜ao de erro .............................. 140
9 Vetor de Corre¸c˜ao de Erro e Vetor Autorregressivo 145
9.1 Modelos VAR e VEC ............................ 145
9.1.1 Gr´aficos de s´eries temporais .................... 146
9.1.2 Teste de cointegra¸c˜ao ........................ 147
9.1.3 VECM: PIB australiano e americano ............... 148
9.1.4 Usando o comando vecm ...................... 149
9.2 Vetor autoregressivo ............................ 151
9.2.1 Fun¸c˜oes de impulso resposta e decomposi¸c˜ao de variˆancia . . . . 153
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 7
10 Dados em Painel 157
10.1 Um modelo b´asico ............................. 157
10.2 Efeitos Fixos ................................ 158
10.3 Primeira diferen¸ca ............................. 159
10.4 Painel Agrupado .............................. 160
10.5 Efeitos Aleat´orios .............................. 161
10.6 Testes de diagn´ostico de painel ....................... 162
10.6.1 Breusch-Pagan ........................... 162
10.6.2 Hausman .............................. 163
10.7 Exemplo ................................... 163
11 Modelos com vari´avel dependente qualitativa ou categ´orica 167
11.1 Modelo de probabilidade linear ...................... 167
11.2 Probit .................................... 170
11.2.1 Efeitos marginais e efeitos marginais m´edios ........... 172
11.3 Logit ..................................... 176
11.3.1 Teste de Raz˜ao de Verossimilhan¸ca ................ 179
11.4 Regressores end´ogenos ........................... 180
11.5 Logit Multinomial .............................. 184
11.6 Probit Ordenado .............................. 185
11.7 Tobit ..................................... 186
11.8 Heckit .................................... 188
12 Modelos de equa¸c˜oes simultˆaneas 191
12.1 Exemplo do modelo de equa¸c˜oes simultˆaneas para trufa ......... 191
12.2 As equa¸c˜oes na forma reduzida ...................... 191
12.3 As equa¸c˜oes estruturais ........................... 192
13 Modelos de contagem 197
13.1 Teste de superdispers˜ao ........................... 198
13.2 Binomial Negativa ............................. 200
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 8
Universidade Federal de Pelotas - UFPel
9
Cap´ıtulo 1
Regress˜ao linear simples
O modelo de regress˜ao linear simples, que ´e estimado usando o princ´ıpio dos m´ınimos
quadrados, ser´a apresentado atrav´es de um modelo simples de gastos com alimentos.
Mais precisamente, ser´a calculada uma elasticidade – uma vez que se trata de um
modelo simples, previs˜oes ser˜ao feitas, os dados ser˜ao apresentados graficamente
e algumas outras estat´ısticas calculadas usando resultados de m´ınimos quadrados
ordin´arios.
O modelo de regress˜ao simples ´e dado por:
food expi=β1+β2incomei+eii= 1,2, . . . , n (1.1)
em que food expicaracteriza-se como sendo a vari´avel dependente, incomeipor sua
vez representa a vari´avel independente, ei´e denominado o termo de erro e β1eβ2s˜ao
os parˆametros a serem estimados.
Para iniciar o modelo simples de gastos com alimentos deve-se carregar os dados
contendo as informa¸c˜oes sobre despesas com alimentos e receitas (renda familiar) no
gretl.1
1O arquivo de dados food.gdt est´a dispon´ıvel em: http://www.learneconometrics.com/gretl/
poe5/POE5Data.zip
Loures e Fernandez 10
Figura 1.1: Janela principal do gretl.
Os dados com gastos dos alimentos s˜ao carregados atrav´es do comando
Arquivo>Abrir dados>Arquivo do usu´ario,2na barra de menu, e escolhendo
o conjunto de dados de alimentos – food.gdt – dispon´ıvel no arquivo POE5Data. A
primeira observa¸c˜ao que se faz ´e que, a coluna Descri¸c˜ao cont´em algumas informa¸c˜oes
sobre as vari´aveis que est˜ao na mem´oria do programa. Importante destacar que nem
sempre essas informa¸c˜oes est˜ao dispon´ıveis, entretanto, ´e poss´ıvel rotular manualmente
uma vari´avel. Por exemplo, a Figura 1.2 mostra que se deve destacar (i.e., sombreado
de azul claro) a vari´avel para qual se ir´a acrescentar o r´otulo e, ent˜ao, clica-se com o
bot˜ao direito do mouse para abrir um menu que ir´a conter algumas op¸c˜oes, entre essas
est´a Editar caracter´ısticas. Selecione essa op¸c˜ao para que se possa abrir uma janela,
Figura 1.3, em que ser´a poss´ıvel escrever uma descri¸c˜ao para a vari´avel selecionada –
no presente caso food exp.
2Ou simplesmente clique duas vezes sobre o ´ıcone da base de dados.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 11
Figura 1.2: Destacando a vari´avel de interesse.
Note que nessa janela que se abre ser´a poss´ıvel alterar o nome da vari´avel, rotular
a vari´avel bem como adicionar um nome que ser´a apresentado nos gr´aficos. Para
exemplificar, na op¸c˜ao Nome a apresentar (mostrado nos gr´aficos) coloca-se
Despesas alimenta¸c˜ao/semana para a vari´avel food exp eRenda semanal ($ 100)
para a vari´avel income. Essas manipula¸c˜oes nas vari´aveis da base de dados se justificam
para tornarem as sa´ıdas mais f´acil de entender.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 12
Figura 1.3: Caixa de di´alogo de edi¸c˜ao de vari´avel.
1.1 Representando graficamente os dados
Para gerar um gr´afico de dispers˜ao entre as vari´aveis food exp eincome, na barra
de menu, deve-se seguir o seguinte comando Ver>Gr´afico das vari´aveis>X-Y em
dispers˜ao. Essa sequˆencia de passos abrir´a a janela mostra na Figura 1.4. Outra forma
seria usar o quarto ´ıcone da direita para a esquerda, , na barra de ferramentas do
gretl, parte inferior da janela principal. Note que os r´otulos aplicados na Figura 1.4
aparecem nos eixos do gr´afico, Figura 1.5.
Figura 1.4: Caixa de di´alogo para o gr´afico de dispers˜ao.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 13
AFigura 1.5 mostra os gastos semanais com alimenta¸c˜ao no eixo yenquanto no
eixo xtem-se a renda semanal. Por padr˜ao, o gretl tamb´em tra¸ca a linha de regress˜ao
ajustada. Agora torna-se mais f´acil compreender a utilidade em se rotular as vari´aveis
por meio da caixa de di´alogo da Figura 1.3. A sa´ıda do gr´afico mostra ambos os eixos
xeyrotulados de uma forma intuitiva bem como o t´ıtulo do gr´afico.
Figura 1.5: Gr´afico de dispers˜ao dos dados de gastos com alimentos.
1.2 Estimando o modelo de gastos com alimenta¸c˜ao
Nesta se¸c˜ao, ser´a demonstrado como usar o gretl para estimar os parˆametros da
equa¸c˜ao de gastos com alimenta¸c˜ao:
food expi=β1+β2incomei+eii= 1,2, . . . n (1.2)
Na barra de menus, selecione Modelo>M´ınimos Quadrados Ordin´arios no
menu suspenso, Figura 1.6, para abrir a caixa de di´alogo mostrada na Figura 1.7.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 14
Figura 1.6: Caixa de di´alogo para os m´ınimos quadrados ordin´arios.
Figura 1.7: Caixa de di´alogo para especifica¸c˜ao do modelo.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 15
Nessa caixa de di´alogo, Figura 1.7, deve-se informar ao gretl qual vari´avel usar como
vari´avel dependente e qual ser´a a vari´avel independente. Observe que, por padr˜ao, o
gretl assume que se deseja estimar um intercepto (β1) e, assim, inclui uma constante
como vari´avel independente – colocando a vari´avel const na lista de regressores por
padr˜ao. Por outro lado, para colocar x, no presente caso income, como uma vari´avel
independente, destaque-a com o cursor (i.e., sombreado azul claro), Figura 1.7, e
clique no bot˜ao de seta verde, , para adicion´a-la. Para adicionar a vari´avel
dependente destaque-a (i.e., sombreado azul claro) com o cursor e clique no bot˜ao de
seta azul, e, por sua vez, para retirar um regressor da lista basta destac´a-lo
(i.e., sombreado azul claro) e clicar no bot˜ao de seta vermelha, , para exclu´ı-lo.
Uma vez especificado o modelo clique no bot˜ao OK da caixa de di´alogo da Figura 1.7.
Isso reportar´a a janela mostrada na Figura 1.8.
Figura 1.8: Resultados da regress˜ao.
Destaca-se que, uma vez estimado o modelo, pode-se realizar opera¸c˜oes
subsequentes (gr´aficos, testes, an´alises, etc.) sobre o modelo. Uma forma mais elegante
para apresentar os resultados, especialmente em modelos muito pequenos como a
regress˜ao linear simples, ´e usar a forma de equa¸c˜ao. Neste formato, os resultados
para o modelo de gastos com alimenta¸c˜ao podem ser apresentados como:
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 16
\
food exp = 83,4160
(43,4102)
+ 10,2096
(2,09326)
income
n= 40 ¯
R2= 0,3688 F= (1,38) = 23,789 ˆσ= 89,517
(erros padr˜ao entre parˆenteses)
1.3 Elasticidade
A elasticidade ´e um conceito importante em economia e caracteriza-se como sendo o
percentual de varia¸c˜ao em uma determinada vari´avel, dada uma varia¸c˜ao percentual
em outra vari´avel. Pode ser relacionada com sensibilidade ou rea¸c˜ao da vari´avel em
quest˜ao em rela¸c˜ao a outras vari´aveis.
ϵ=mudan¸ca percentual em y
mudan¸ca percentual em x=∆y
∆x.(1.3)
Em termos do modelo de gastos com alimenta¸c˜ao, est´a interessado na elasticidade
dos gastos m´edios com alimentos em rela¸c˜ao `as mudan¸cas da renda:
ϵ=∆ (y)/ E (y)
∆x / x =β2
x
E(y),(1.4)
em que E(y) e xs˜ao usualmente substitu´ıdos por suas m´edias amostrais e β2por
sua estimativa. Note que a m´edia para food exp e renda (x) pode ser obtidas atrav´es
do comando Ver>Estat´ısticas descritivas. Na caixa de di´alogo que abrir, Figura
1.9 use o cursor para destacar (i.e., sombreado azul claro) ambas as vari´aveis e, em
seguida, clique no bot˜ao de seta verde, , e clique no bot˜ao OK.
Figura 1.9: Caixa de di´alogo para estat´ısticas descritivas.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 17
Isso ir´a produzir a sa´ıda mostrada na Figura 1.10. Assim, a Equa¸c˜ao 1.4 pode
ser calculada manualmente. Ent˜ao, usando o parˆametro da regress˜ao e as estat´ısticas
descritivas tem-se que: ˆ
β2×(income / E (f ood exp)) = 10,2096 ×(19,605 /283,54) =
0,705855. Assim, como o valor para a elasticidade ficou abaixo de 1, os gastos com
alimenta¸c˜ao s˜ao inel´astico a varia¸c˜oes na renda. Mais precisamente, a varia¸c˜ao nos
gasto com alimenta¸c˜ao ´e proporcionalmente menor que a varia¸c˜ao na renda.
Figura 1.10: Estat´ısticas descritivas.
1.4 Predi¸c˜ao
Uma vez de posse dos resultados da estima¸c˜ao, pode-se fazer previs˜oes sobre os gastos
com alimenta¸c˜ao para uma dada renda xqualquer. Por exemplo, suponha que se
queira saber qual o gasto com alimenta¸c˜ao para uma fam´ılia cuja renda m´edia semanal
familiar ´e de $ 2.000. Como a renda ´e medida em $ 100, ent˜ao, $ 2.000
$ 100 = 20. Logo,
\
food expi= 83,42 + 10,21 incomei= 83,42 + (10,21 ×20) = 287,61 (1.5)
Ou seja, uma fam´ılia cuja renda m´edia semanal ´e de $ 2.000 ter´a um gasto semanal
com alimenta¸c˜ao de $ 287,61.
1.4.1 Estimando a variˆancia
Uma vez que o modelo ´e estimado empregando M´ınimos Quadrados Ordin´arios,
as variˆancias e covariˆancia estimadas podem ser obtidas selecionando o comando
An´alise>Matriz de covariˆancias dos coeficientes,Figura 1.11.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 18
Figura 1.11: Obtendo a matriz das variˆancias e covariˆancia.
Na Figura 1.12 apresenta as variˆancias estimadas do estimador de M´ınimos
Quadrados Ordin´arios para o intercepto (β1) e para a inclina¸c˜ao (β2) que s˜ao,
respectivamente, 1.884,44 e 4,38175. Note que os erros padr˜ao, na Figura 1.8, s˜ao
simplesmente as ra´ızes quadradas desses valores. Por sua vez, a covariˆancia estimada
entre o intercepto e a inclina¸c˜ao ´e −85,9032.
Figura 1.12: Matriz de variˆancia-covariˆancia.
Universidade Federal de Pelotas - UFPel
19
Cap´ıtulo 2
Estima¸c˜ao de intervalo e teste de
hip´oteses
Discutiremos como gerar intervalos de confian¸ca e testar hip´oteses usando gretl. O
software inclui v´arios utilit´arios ´uteis que o ajudar˜ao a obter valores cr´ıticos e valores
pde v´arias distribui¸c˜oes de probabilidade importantes. Uma maneira de fazer isso
´e observar a estimativa do parˆametro dos M´ınimos Quadrados Ordin´arios (MQO)
juntamente com uma medida de sua precis˜ao, ou seja, seu erro padr˜ao estimado.
O intervalo de confian¸ca serve a um prop´osito semelhante, embora seja muito
mais simples de interpretar porque fornece limites superiores e inferiores entre os
quais o parˆametro desconhecido ficar´a com uma determinada frequˆencia em amostras
repetidas.
No gretl, vocˆe pode obter intervalos de confian¸ca por meio de uma caixa de di´alogo
ou construindo-os manualmente usando resultados de regress˜ao salvos. Vocˆe pode
procurar o valor cr´ıtico apropriado em uma tabela ou usar a fun¸c˜ao cr´ıtica do gretl.
Considere a equa¸c˜ao de um intervalo de confian¸ca:
P[bk−tcse (bk)≤βk≤bk+tcse (bk)] = 1 −α(2.1)
Lembre-se de que bk´e o estimador de MQO de βke que se (bk) ´e seu erro padr˜ao
estimado. A constante tc´e o valor cr´ıtico de α / 2 da distribui¸c˜ao teα´e a probabilidade
total desejada associada `a ´area de “rejei¸c˜ao” (a ´area fora do intervalo de confian¸ca).
Vocˆe precisar´a saber o valor cr´ıtico tc, que pode ser obtido de uma tabela estat´ıstica,
da caixa de di´alogo Ferramentas>Tabelas estat´ısticas contidas no programa.
Primeiro, tente usar a caixa de di´alogo mostrada na Figura 2.1. Escolha a guia para
a distribui¸c˜ao te diga ao gretl quanto peso colocar na cauda direita da distribui¸c˜ao
de probabilidade e quantos graus de liberdade sua estat´ıstica ttem, no nosso caso, 38.
Depois de fazer isso, clique em OK. Vocˆe obter´a o resultado mostrado na Figura 2.2.
Ele mostra que para o t38 com α / 2 probabilidade de cauda direita de 0.025 e α= 0.05,
o valor cr´ıtico ´e 2.02439.
Loures e Fernandez 20
Figura 2.1: Obten¸c˜ao dos valores cr´ıticos Ferramentas>Tabelas estat´ısticas.
Figura 2.2: O valor cr´ıtico obtido na caixa de di´alogo Ferramentas>Tabelas estat´ısticas.
Exemplo: com arquivo food.gdt
Este exemplo ´e baseado no modelo de gastos com alimentos:
food expi=β1+β2income +eii= 1, . . . , n (2.2)
O objetivo ´e estimar um intervalo de confian¸ca de 95% para a inclina¸c˜ao, β2.
Estime o modelo usando os m´ınimos quadrados da maneira usual. Clique em
Modelo>M´ınimos quadrados ordin´arios no menu principal, preencha as vari´aveis
dependentes e independentes na caixa de di´alogo do MQO e clique em OK.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 21
Figura 2.3: Configura¸c˜ao usual do modelo de MQO.
Agora escolha An´alise>Intervalos de confian¸ca para coeficientes no menu
suspenso da janela de modelos para gerar o resultado mostrado na Figura 2.3. O
´ıcone αem caixa pode ser usado para alterar o tamanho do intervalo de confian¸ca,
que:
Figura 2.4: O intervalo de confian¸ca de 95% para o coeficiente de renda no exemplo de
gasto com alimenta¸c˜ao usando o di´alogo.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 22
2.1 Teste de hip´oteses
Testes de hip´oteses permitem comparar o que supomos ser verdade com o que
observamos por meio de dados. Suponha que eu acredite que o gasto autˆonomo semanal
com comida n˜ao seja inferior a $ 40, eu extraio uma amostra, calculo uma estat´ıstica
que mede o gasto com comida e ent˜ao comparo minha estimativa com minha conjectura
usando um teste de hip´oteses. A hip´otese nula ´e que β2= 0 contra a alternativa de
que ´e positivo (ou seja, β2>0). A estat´ıstica de teste ´e:
t=(β2−0)
se(β2)∼t38 (2.3)
se β2= 0 (a hip´otese nula ´e verdadeira). Selecione α= 0.05 o que torna o valor
cr´ıtico para a alternativa unilateral (β2>0) igual a 1,686. A regra de decis˜ao ´e rejeitar
H0em favor da alternativa se o valor calculado da estat´ıstica testiver dentro da regi˜ao
de rejei¸c˜ao do teste; isto ´e, se for maior que 1,686. A informa¸c˜ao necess´aria para
calcular test´a contida nos resultados de estimativa de m´ınimos quadrados produzidos
por gretl:
Figura 2.5: Resultados do modelo de MQO
Os c´alculos:
t=(β2−0)
se(β2)= (10.21 −0) /2.09 = 4.889 (2.4)
Como esse valor est´a dentro da regi˜ao de rejei¸c˜ao, h´a evidˆencias suficientes no n´ıvel
de significˆancia de 5% para nos convencer de que a hip´otese nula est´a incorreta; a
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 23
hip´otese nula ´e rejeitada neste n´ıvel de significˆancia. gretl ´e usado para obter o valor
ppara este teste usando o menu superior Ferramentas (Figura 2.5). Nesta caixa de
di´alogo, vocˆe insere os graus de liberdade desejados para sua distribui¸c˜ao t38, o valor
de:
Figura 2.6: Ferramentaas>Localizador de p-valor
Substituindo na Equa¸c˜ao 2.4 β2(10.21), seu valor sob a hip´otese nula - algo que
gretl se refere como “m´edia” (0) e o erro padr˜ao estimado da impress˜ao (2,09). Isso
produz as informa¸c˜oes da Figura 2.6:
Figura 2.7: Ferramentas>Localizador de p-valor
Assim, a ´area de uma vari´avel aleat´oria t38 `a direita de 4,88, ou seja, o valor p
do teste, ´e quase zero. Como o valor de pest´a bem abaixo de α= 0.05, a hip´otese ´e
rejeitada.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 24
Universidade Federal de Pelotas - UFPel
25
Cap´ıtulo 3
Previs˜ao, qualidade do ajuste e
problemas de especifica¸c˜ao
Neste cap´ıtulo ser˜ao apresentadas diversas extens˜oes do modelo de regress˜ao linear
simples. Primeiramente, predi¸c˜oes condicionais ser˜ao geradas usando os resultados
armazenados na mem´oria do gretl ap´os estimar um modelo. Logo ap´os se discute
um teste estat´ıstico comumente utilizado para checar a qualidade do ajuste do modelo
fornecida pela regress˜ao. Mais precisamente, este teste estat´ıstico determinar´a qu˜ao
bem os dados da amostra se ajustam a uma distribui¸c˜ao de uma popula¸c˜ao com
distribui¸c˜ao normal. Simplificando, este teste levanta a hip´otese se uma amostra ´e
distorcida ou representa os dados que se esperaria encontrar na popula¸c˜ao real.
Destaca-se que a escolha de uma forma funcional adequada para uma regress˜ao
linear ´e de suma importˆancia. Sendo assim, este cap´ıtulo apresentar´a algumas formas
funcionais para uma regress˜ao linear, entre as seguintes especifica¸c˜oes poss´ıveis:
1. Polinomiais;
2. Logar´ıtmicas;
3. linear-log – vari´avel dependente em n´ıvel e vari´avel(is) independente(s) em log;
4. log-linear – vari´avel dependente em log e vari´avel(is) independente(s) em n´ıvel ;
5. log-log – vari´avel dependente em log e vari´avel(is) independente(s) tamb´em em
log.
3.1 Previs˜ao no modelo de gastos com alimenta¸c˜ao
A gera¸c˜ao de valores previstos para os valores de gastos com alimenta¸c˜ao para uma
fam´ılia com um dado n´ıvel de renda ´e muito simples no gretl. Isto j´a foi demonstrado
na Se¸c˜ao 1.4 em que, para uma fam´ılia que possui uma renda semanal igual a income0=
$ 2000, foi previsto que essa fam´ılia gaste aproximadamente $ 287,61 com alimenta¸c˜ao
por semana (lembre-se que a renda ´e medida em US$ 100 no conjunto de dados).
Por outro lado, para obter o intervalo de confian¸ca de 95% ´e um pouco mais dif´ıcil
uma vez que n˜ao existem comandos no gretl para realizarem esse c´alculo. No entanto,
essa estat´ıstica pode ser obtida manualmente atrav´es da seguinte f´ormula:
Loures e Fernandez 26
dvar (f) = ˆσ2+ˆσ2
T+ (income0−income)2×dvar(β2) (3.1)
Na Figura 1.8 nota-se que o erro padr˜ao da regress˜ao ´e igual a 89,517, logo, tem-se
que ˆσ2= (89,517)2= 8013,29. Por sua vez, da Figura 1.12 tem-se que dvar(β2) =
4,3818. J´a o comando para obter o valor m´edio da renda foi apresentado na Se¸c˜ao 1.3,
Figura 1.10, sendo o valor igual a 19,605. O valor cr´ıtico de t38 5% ´e de 2,0244, Figura
2.2. Assim, o c´alculo do intervalo de confian¸ca ser´a:
dvar (f) = 8013,2941 + 8013,2941
40 + (20 −19,605)2×4,3818 = 8214,31 (3.2)
Ent˜ao, o intervalo de confian¸ca para os valores previstos ´e dado por:
\
food exp0=±txse (f) = 287,6069 ±2,0244p8214,31 = [104,132; 471,086] (3.3)
Isso implica que o intervalo de confian¸ca de 95% centrado em 287,609 ´e
(104,132; 471,086).
3.2 Qualidade do ajuste
O coeficiente de determina¸c˜ao ´e utilizado na teoria da regress˜ao linear e expressa
qu˜ao bem a equa¸c˜ao de regress˜ao se ajusta aos dados, i.e., qualidade do ajuste. Mais
precisamente, qual a propor¸c˜ao da varia¸c˜ao na vari´avel dependente que ´e explicada pela
varia¸c˜ao da(s) vari´avel(is) independente(s). R2´e a raz˜ao entre a varia¸c˜ao explicada e
a varia¸c˜ao total; assim, ele ´e interpretado como a fra¸c˜ao da varia¸c˜ao amostral em y
que ´e explicada por x.´
E muito pouco prov´avel que se tenha uma correla¸c˜ao perfeita
(R2= 1) na pr´atica, uma vez que existem muitos fatores que determinam as rela¸c˜oes
entre vari´aveis na vida real.
A forma mais simples de se obter o R2´e diretamente da sa´ıda da regress˜ao no
gretl. Isso ´e mostrado na figura Figura 3.1 atrav´es da estat´ıstica R-quadrado igual a
0,385002, sombreado com azul claro na janela gretl modelo 1.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 27
Figura 3.1: Coeficiente de determina¸c˜ao.
Manualmente o coeficiente de determina¸c˜ao pode ser calculado usando a tabela
ANOVA obtida ap´os uma regress˜ao usando o comando Analysis>ANOVA no menu
suspenso da janela do modelo conforme a Figura 3.2. Na tabela ANOVA apresenta na
Figura 3.3 s˜ao encontrados os valores para Soma dos Quadrados dos Res´ıduos (SQR),
Soma dos Quadrados Explicados (SQE) e Soma Total de Quadrados (STQ) bem como
ogretl faz o c´alculo para o coeficiente de determina¸c˜ao, R2. Ent˜ao, o R2´e calculado
da seguinte forma:
R2=SQE
STQ = 1 −SQR
STQ =190627
495132 = 0,385002 (3.4)
em que, conforme a Figura 3.3, SQE = 190627, SQT = 495132 e SQR = 304505.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 28
Figura 3.2: Tabela ANOVA.
Figura 3.3: Sa´ıda da tabela ANOVA.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 29
3.3 Escolhendo a forma funcional
N˜ao h´a raz˜ao para considerar que gasto com alimenta¸c˜ao e renda apresentem uma
rela¸c˜ao linear. Na verdade, ´e bem prov´avel que essas duas vari´aveis apresentem uma
rela¸c˜ao n˜ao linear, pois um assalariado de baixa renda gastar´a todo Real (R$) adicional
em comida enquanto um assalariado de alta renda gastar´a bem menos de cada Real
(R$) adicional que recebe.
Entretanto, como se sabe, as n˜ao linearidades podem ser contornadas com a
transforma¸c˜ao da vari´avel dependente (y) ou independente (x) ou de ambas. Outro
exemplo ´e rela¸c˜ao entre insumos e produto que ´e regida no curto prazo pela lei dos
rendimentos decrescentes, sugerindo que uma curva convexa ´e mais apropriada. Mas
como j´a dito, uma simples transforma¸c˜ao das vari´aveis (y,xou ambas) produz um
modelo linear nos parˆametros (mas n˜ao necessariamente nas vari´aveis).
Importante destacar que a forma funcional escolhida deve ser consistente com a
forma como os dados s˜ao realmente gerados. A escolha de uma forma funcional
que, quando devidamente parametrizado, n˜ao consegue gerar seus dados, seu modelo
est´a mal especificado, ou seja, especificado incorretamente. O modelo, na melhor das
hip´oteses, pode n˜ao ser ´util e, na pior das hip´oteses, ser totalmente enganoso.
A transforma¸c˜ao de vari´aveis no gretl ´e bastante simples e ´e realizada na janela
principal atrav´es do menu suspenso do comando Acrescentar,Figura 3.4. Esse menu
suspenso fornece acesso a v´arias transforma¸c˜oes. Uma vez escolhida um tipo de
transforma¸c˜ao, a vari´avel transformada ser´a adicionada automaticamente ao conjunto
de dados, bem como sua descri¸c˜ao.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 30
Figura 3.4: Menu para transforma¸c˜ao de vari´aveis.
A pen´ultima op¸c˜ao, Definir nova vari´avel..., (sombreada de azul claro)
permite realizar transforma¸c˜oes mais complicadas tais como: raiz quadrada, seno,
cosseno, valor absoluto, exponencial, m´ınimo, m´aximo, etc..
3.3.1 Especifica¸c˜ao linear-log
A especifica¸c˜ao linear-log do modelo de gastos com alimenta¸c˜ao usa o logaritmo
neperiano (natural) da renda como vari´avel independente:
food exp =β1+β2ln (income) + e(3.5)
Assim, para adicionar o logaritmo da vari´avel income ao conjunto de dados
executa-se o comando Acrescentar>Logaritmos das vari´aveis selecionadas.
Por´em, note que antes de executar tal comando a vari´avel para qual se deseja o
logaritmo deve estar destacada (sombreada de azul claro) na janela principal do gretl,
conforme Figura 3.5. Ap´os executar esse comando a janela principal do gretl passar´a
a mostrar a nova vari´avel criada (lincome), Figura 3.6.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 31
Figura 3.5: Selecionando a vari´avel a ser transformada.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 32
Figura 3.6: Janela principal com a nova vari´avel.
Estimando o modelo produz
\
food exp =−97,1864
(84,2374)
+ 132,166
(28,8046)
l income
n= 40 ¯
R2= 0,3396 F(1,38) = 21,053 ˆσ= 91,567
(erros padr˜ao entre parˆenteses)
A seguir tem-se o gr´afico de dispers˜ao, Figura 3.7, da rela¸c˜ao entre gastos com
alimenta¸c˜ao e renda. Uma vez que se estimou um modelo usando logaritmo neperiano
(natural) da renda espera-se que uma rela¸c˜ao positiva, i.e., n˜ao linear. Para gerar esse
gr´afico primeiramente estime a regress˜ao para que seja aberta a janela de modelos. A
seguir, execute o seguinte comando Salvar>Valores ajustados,Figura 3.8. Nomeie
a vari´avel valor ajustado como yhat2 e clique em Ok.
Agora volte `a janela principal e destaque (sombreado azul claro) as trˆes vari´aveis
(food exp, yhat2 e income) e, ent˜ao, use o comando Ver>Gr´aficos das vari´aveis>
X-Yem dispers˜ao. Isso abrir´a uma janela igual a da Figura 3.9. Escolha como
Vari´avel do eixo X income e como Vari´aveis do eixo Yas vari´aveis f ood exp e
yhat2.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 33
Figura 3.7: Menu suspenso para salvar os Valores ajustados.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 34
Figura 3.8: Menu para definir as vari´aveis.
Figura 3.9: Gr´afico de dispers˜ao.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 35
3.3.2 Teste para m´a especifica¸c˜ao – gr´afico dos res´ıduos
A tomada de decis˜oes com base nos resultados de uma regress˜ao pode levar a
s´erios problemas se a forma funcional estiver mal especificada. Por isso, ap´os uma
estima¸c˜ao deve-se realizar alguns testes estat´ısticos para confirmar a robustez dos
resultados. Um dos primeiros teste a ser realizado ´e o diagn´ostico de problemas
de especifica¸c˜ao. Destaca-se que existem diversos testes para identificar uma m´a
especifica¸c˜ao, entretanto, os pesquisadores geralmente come¸cam examinando o gr´afico
dos res´ıduos da regress˜ao em busca de evidˆencias de qualquer erro de especifica¸c˜ao.
Gr´aficos da distribui¸c˜ao dos res´ıduos de uma regress˜ao semelhantes ao apresentado
na Figura 3.10 garantem que as suposi¸c˜oes do modelo de regress˜ao linear normal cl´assico
se mantˆem e, assim, garantindo que os m´ınimos quadrados sejam a variˆancia m´ınima
n˜ao viesada.
Figura 3.10: Res´ıduos distribu´ıdos aleatoriamente.
Modelo linear-log
AFigura 3.11 refere-se ao gr´afico dos res´ıduos de m´ınimos quadrados do modelo de
regress˜ao linear-log dos gastos com alimenta¸c˜ao. Note que esses n˜ao parecem ser
estritamente aleat´orios, mas, pelo contr´ario, parecem ser heteroced´asticos. Significando
que para alguns n´ıveis de renda o gasto com alimenta¸c˜ao varia mais do que para outros
n´ıveis – nota-se que rendas mais altas a varia¸c˜ao ´e maior.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 36
Figura 3.11: Distribui¸c˜ao dos res´ıduos do modelo linear-log.
Em fun¸c˜ao disso, os m´ınimos quadrados podem at´e ser imparciais nesse caso, por´em,
n˜ao ´e eficiente. Assim, a validade dos testes de hip´oteses e intervalos ´e afetada e alguns
cuidados devem ser tomados para garantir que sejam feitas inferˆencias estat´ısticas
adequadas.
Modelo log-linear
Agora, o modelo dos gastos com alimenta¸c˜ao ´e estimado adotando a estrutura
log-linear. Mais uma vez, os res´ıduos n˜ao apresentam uma distribui¸c˜ao aleat´orio,
mas, pelo contr´ario, continuam sendo heteroced´asticos. Por´em, quando comparados
ao modelo linear-log pode-se dizer que s˜ao levemente heteroced´astico, Figura 3.12.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 37
Figura 3.12: Distribui¸c˜ao dos res´ıduos do modelo log-linear.
3.3.3 Teste de normalidade
O teste de normalidade Jarque-Bera – JB – ´e calculado usando a assimetria e a curtose
dos res´ıduos de m´ınimos quadrados. Primeiramente, ´e necess´ario estimar o modelo
usando M´ınimos Quadrados Ordin´arios e salvar os res´ıduos no conjunto de dados.
Assim, para o modelo de gastos com alimenta¸c˜ao, ap´os a estima¸c˜ao salva-se os res´ıduos
aplicando o comando Salvar>Res´ıduos,Figura 3.13.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 38
Figura 3.13: Salvando os res´ıduos.
Importante mencionar que o gretl reporta o excesso de curtose em vez da curtose
e, assim, o c´alculo ´e dado por:
JB =T
6assimetria2+(excesso de curtose)2
4(3.6)
Vari´aveis aleatoriamente normalmente distribu´ıdas n˜ao possuem nem assimetria
nem curtose e, portanto, a estat´ıstica J B ´e igual a zero. Entretanto, essa estat´ıstica
fica maior quanto maior a assimetria e quanto maior o grau de excesso de curtose
exibido pelos dados. Agora, uma vez salvado os res´ıduos no conjunto de dados, usa-se
a janela de comandos para realizar o c´alculo da estat´ıstica Jarque-Bera. Para acessar
a janela de comandos, clique no terceiro ´ıcone da esquerda, , na parte inferior da
janela principal do gretl. Na janela que abrir, nomeada de console, digite o comando
normtest uhat1 --jbera,Figura 3.14.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 39
Figura 3.14: Sa´ıda do teste Jarque-Bera.
Outros testes para a normalidade dos res´ıduos podem ser obtidos digitando na
janela console do gretl o seguinte comando: normtest uhat1 --all. Um dos
testes reportados ´e o teste de Doornik-Hansen – DH – que ´e computacionalmente
mais complexo que o teste de Jarque-Bera. Ademais, para plotar um gr´afico b´asico
da distribui¸c˜ao dos res´ıduos pode-se executar o comando Testes>Normalidade dos
res´ıduos na janela da regress˜ao do modelo, Figura 3.15. Uma vantagem de se usar o
normtest ´e que se pode testar a normalidade para qualquer vari´avel, n˜ao apenas dos
res´ıduos.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 41
Figura 3.16: Histograma da distribui¸c˜ao dos res´ıduos.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 42
Universidade Federal de Pelotas - UFPel
43
Cap´ıtulo 4
Modelo de regress˜ao m´ultipla
O modelo de regress˜ao m´ultipla ´e uma extens˜ao do modelo de regress˜ao simples. A
principal diferen¸ca ´e que o modelo linear de regress˜ao m´ultipla cont´em mais do que uma
vari´avel explicativa. Essa condi¸c˜ao muda ligeiramente a interpreta¸c˜ao dos coeficientes
e imp˜oe uma condi¸c˜ao especial aos dados. A forma geral do modelo ´e mostrada na
Equa¸c˜ao 4.1 abaixo:
yi=β1+β2xi2+· ·· +βkxik +eii= 1,2, . . . , n (4.1)
em que yi´e vari´avel dependente, xij ´e a ith observa¸c˜ao da jth vari´avel independente,
j= 2,3, . . . , k;ei´e o erro aleat´orio e β1, β2, . . . , βks˜ao os parˆametros que se deseja
estimar. Assim, como o modelo de regress˜ao linear simples, cada erro ei|xij tem
um valor zero para cada valor das j’s vari´aveis independentes. Cada vari´avel possui a
mesma vari´avel σ2e s˜ao correlacionados com qualquer um dos outros termos de erros.
Para estimar cada um dos βs, nenhuma das vari´aveis independentes pode ser
exatamente uma combina¸c˜ao linear das demais vari´aveis independentes. Essa condi¸c˜ao
serve como um requisito para que a vari´avel independente assuma pelo menos dois
valores diferentes na amostra. As suposi¸c˜oes sobre o termo de erro podem ser resumidas
como: ei|xi2, xi3, . . . , xik i.i.d (0, σ2). Lembre-se que a express˜ao i.i.d significa
que os erros s˜ao estatisticamente independentes uns dos outros (e, portanto, n˜ao s˜ao
correlacionados) e cada um dos res´ıduos tem a mesma distribui¸c˜ao de probabilidade.
Os parˆametros β1, β2, . . . , βks˜ao considerados como inclina¸c˜oes e cada inclina¸c˜ao
mede o efeito de a mudan¸ca de uma unidade de xij na m´edia do valor de yi, mantendo
todas as outras vari´aveis na equa¸c˜ao constantes. A interpreta¸c˜ao condicional do
coeficiente ´e importante para lembrar quando se utiliza a regress˜ao linear m´ultipla.
O primeiro exemplo usado ´e o modelo de vendas do Big Andy’s Burger Barn. O
modelo inclui duas vari´aveis explicativas e uma constante:
salesi=β1+β2pricei+β3adverti+eii= 1,2,··· , n (4.2)
em que salesis˜ao as vendas mensais em uma dada cidade sendo medida em $1.000
incrementos, pricei´e o pre¸co do hamb´urguer medido em d´olares e advertis˜ao os gastos
em propaganda tamb´em medidas em milhares de d´olares.
Loures e Fernandez 44
4.1 Regress˜ao linear
Para estimar-se a regress˜ao linear m´ultipla, deve-se clicar em Modelo>M´ınimos
Quadrados Ordin´arios. Tamb´em h´a um atalho na barra de ferramentas que abre o
modelo a ser especificado. Lembre que a barra de ferramentas est´a localizada na parte
inferior da janela principal do gretl. L´a encontra-se um bot˜ao rotulado como ˆ
β:
Clicando no bot˜ao ˆ
βpode-se especificar o modelo, obtendo os seguintes resultados.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 45
4.2 Qualidade do ajuste
Uma importante estat´ıstica inclu´ıda na sa´ıda do modelo 1 ´e a Soma dos Quadrados
dos Res´ıduos (SQR) a qual o gretl se refere como Soma dos quadrados res´ıduo.
Nesse modelo o SQR = 1718,943. Para obter a variˆancia estimada, ˆσ2, dividi-se a
SQR pelos graus de liberdade dispon´ıveis para obter:
ˆσ2=SQR
n−k=1718,94
75 −3= 23,873 (4.3)
em que ncorresponde ao n´umero de observa¸c˜oes e k´e o grau de liberdade.
A raiz quadrada desse n´umero ´e 4,88612 que ´e referida pelo gretl como E.P da
regress~ao (Erro Padr˜ao da Regress˜ao). Se o economista emp´ırico deseja computar
suas pr´oprias vers˜oes dessas estat´ısticas usando a soma dos quadrados do modelo,
poder´a utilizar o menu gerado pela pr´opria janela do modelo An´alise>ANOVA. Para
computar o R2mostrado na sa´ıda padr˜ao do gretl deve-se lembrar que:
ˆσy=rSTQ
n−1(4.4)
em que STQ ´e a Soma Total dos Quadrados e no n´umero de observa¸c˜oes.
A esteat´ıtica ˆσy´e mostrada pelo grelt como D.P da var. dependente que ´e
6,48854. Com um pouco de ´algebra tem-se que:
STQ = (n−1)ˆσy= 74 ×6,48854 = 3115,785 (4.5)
em que STQ ´e a Soma Total dos Quadrados e no n´umero de observa¸c˜oes. Ent˜ao:
R2= 1 −SQE
STQ = 1 −1718,94
3115,485 = 0,448 (4.6)
em que SQE ´e a Soma dos Quadrados Explicados e STQ a Soma Total dos Quadrados.
Dessa forma, as estat´ısticas de qualidade de ajuste impressas na sa´ıda da regress˜ao
gretl ou na tabela ANOVA s˜ao perfeitamente aceit´aveis.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 46
Ogretl tamb´em reporta o R2−ajustado na sa´ıda padr˜ao da regress˜ao. O R2−
ajustado imp˜oe uma pequena penaliza¸c˜ao para o R2padr˜ao quando uma nova vari´avel
´e inserida no modelo. Adicionando uma nova vari´avel qualquer a correla¸c˜ao com y
sempre reduz a SQE e aumenta o tamanho do R2. Por sua vez, o R2−ajustado pode
se tornar menor `a medida que novas vari´aveis s˜ao adicionadas. A f´ormula ´e:
¯
R2= 1 −SQE (n−k)
SQT (n−1) = 1 (4.7)
Ogretl refere-se a essa medida como R-quadrado ajustado. Para o exemplo do Big
Andy’s Burger Barn o R2−ajustado ´e igual a 0,4329.
4.3 Intervalos de confian¸ca
Os intervalos de confian¸ca pode ser obtidos usando o menu An´alise>Intervalos de
confian¸ca para os coeficientes.
Clicando em αpode-se selecionar o n´ıvel de confian¸ca desejado.
4.4 Polinˆomios
Uma forma de permitir um relacionamento n˜ao linear entre a vari´avel dependente e a
independente ´e introduzir polinˆomios ao modelo de regress˜ao. No exemplo espera-se
que o efeito marginal de um d´olar adicional investido em propaganda reduza ao
aumentar os gastos em propaganda.
salesi=β1+β2pricei+β3adverti+β4advert2
i+eii= 1,2, . . . , n (4.8)
Para poder estimar os parˆametros desse modelo, deve-se criar uma nova vari´avel
advert2
ie adicion´a-la ao modelo de m´ınimos quadrados. Para isso basta clicar no menu
Acrescentar>Definir nova vari´avel.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 47
A cria¸c˜ao dessa vari´avel advert2 ´e um exemplo simples do que pode ser chamado de
vari´avel de intera¸c˜ao. A forma mais simples de pensar sobre uma vari´avel de intera¸c˜ao ´e
que a magnitude de seu efeito sobre a vari´avel dependente depende de outra vari´avel, ou
seja, as duas vari´aveis interagem para determinar o valor m´edio da vari´avel dependente.
Neste exemplo, o efeito da publicidade nas vendas m´edias depende do n´ıvel da pr´opria
publicidade.
4.5 Efeitos marginais
Quando as vari´aveis interagem o efeito marginal de uma vari´avel na m´edia de outra
deve ser computado baseando-se em c´alculo. Ao tomar a derivada parcial das vendas
m´edias em rela¸c˜ao ao n´ıvel de propaganda obt´em-se o efeito marginal m´edio das vendas
sobre o aumento de uma unidade na propaganda:
∂ E (sales)
∂ advert =β3+ 2 β4(4.9)
A magnitude do efeito marginal depende dos parˆametros bem como do n´ıvel de
propaganda. Veja os resultados das estimativas para poder calcular o efeito marginal:
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 48
O efeito marginal de um acrescimento de $ 1.000 d´olares em propaganda pode ser
calculado da seguinte forma:
β3+ 2 β4= 12,15 + 2 ×(−2,76) ×1=6,63
4.6 Efeitos de intera¸c˜ao
Nesse exemplo fez-se a intera¸c˜ao entre a vari´avel experiˆencia e a vari´avel sal´ario. Para
isso, utiliza-se o arquivo cps5 small.gdt. A ideia ´e que o n´ıvel de experiˆencia afeta o
retorno de um ano a mais de escolaridade (ou, outro ano de educa¸c˜ao afeta o retorno
de um ano a mais de experiˆencia). O modelo a ser estimado se torna:
wage =β1+β2educ +β3exper +β4educ ×exper +e(4.10)
O efeito marginal depende dos n´ıveis de educa¸c˜ao e da experiˆencia. Eles s˜ao medidos
pelos trabalhadores que possuem entre 8 e 16 anos de escolaridade e para aqueles
trabalhadores que possuem 20 anos de experiˆencia:
∂ E (wage |educ, exper)
∂ exper =β1+β4educ (4.11)
∂ E (wage |educ, exper)
∂ educ =β1+β4exper (4.12)
Abaixo seguem as estimativas do modelo:
Os efeitos marginais da experiˆencia s˜ao os seguintes:
Quando a experiˆencia ´e 0 = 2,65
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 49
Quando a experiˆencia ´e 20 = 2,65 −(0,00275) ×20 ∼
=2,6
Os efeitos marginais da educa¸c˜ao:
Quando a educa¸c˜ao ´e 8 = 0,24 −(0,00275) ×8∼
=2,18
Quando a educa¸c˜ao ´e 16 = 0,24 −(0,00275) ×8∼
=0,196
Quando a educa¸c˜ao ´e 20 = 0,24 −(0,00275) ×20 ∼
=0,185
Pode-se expandir esse exemplo utilizando um termo quadr´atico:
ln (wage) = β1+β2educ +β3exper +β4educ ×exper +β5exper2+e(4.13)
Os efeitos marginais s˜ao:
∂ E (ln (wage)|educ, exper)
∂ exper =β1+β4educ + 2β5exper (4.14)
∂ E (ln (wage)|educ, exper)
∂ educ =β1+β4exper (4.15)
As estimativas do modelo podem ser vistas na figura abaixo:
Efeitos marginais da experiˆencia no sal´ario de 8 anos de educa¸c˜ao e 20 anos de
experiˆencia:
0,05 + (−0,00127 ×8) + (2 × −0.0005 ×20) = 0,0198 = 1,98%
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 50
Efeitos marginais da educa¸c˜ao no sal´ario de 8 anos de educa¸c˜ao e 20 anos de
experiˆencia:
0,136 + (−0,00127 ×20) = 0,116 = 11,6%
Universidade Federal de Pelotas - UFPel
51
Cap´ıtulo 5
Inferˆencia adicional no modelo de
regress˜ao m´ultipla
Neste cap´ıtulo aprofunda-se a an´alise dos modelos de regress˜ao linear m´ultipla
apresentando novas estat´ısticas auxiliares para checar a qualidade do ajuste do modelo.
Primeiramente testa-se a hip´oteses conjuntas sobre os parˆametros em um modelo e,
a seguir, aprende-se a como impor restri¸c˜oes lineares aos parˆametros. Ademais, a
especifica¸c˜ao do modelo ser´a determinada usando regras de sele¸c˜ao do modelo, previs˜ao
fora da amostra e um teste formal funcional. A colinearidade e a detec¸c˜ao de outliers
– observa¸c˜oes influentes – s˜ao discutidas e os m´ınimos quadrados n˜ao lineares s˜ao
apresentados.
5.1 Teste F
A estat´ıstica tassociada a qualquer coeficiente de MQO pode ser usada para testar se
o parˆametro desconhecido correspondente na popula¸c˜ao ´e igual a qualquer constante
dada, geralmente, mas nem sempre, zero – βk= 0. Observe que essa hip´otese envolve
uma ´unica restri¸c˜ao. No entanto, frequentemente, deseja-se testar hip´oteses m´ultiplas
sobre os parˆametros subjacentes β0, β1, . . . , βk. Logo, inicia-se com o procedimento
principal de testar se um conjunto de vari´aveis independentes n˜ao tem efeito parcial
sobre uma vari´avel dependente.
5.1.1 Teste de restri¸c˜oes de exclus˜ao
Sabe-se como testar se uma vari´avel determinada n˜ao tem efeito parcial sobre a vari´avel
dependente: use a estat´ıstica t. Agora, o que se quer ´e testar se um grupo de vari´aveis
n˜ao tem efeito sobre a vari´avel dependente. Mais precisamente, a hip´otese nula ´e que
um conjunto de vari´aveis n˜ao tem efeito sobre y, j´a que outro conjunto de vari´aveis foi
controlado.
Como uma ilustra¸c˜ao do porquˆe testar a significˆancia de um grupo ´e ´util, considere
o seguinte modelo do Big Andy’s Burger Ban (conjunto de dados andy.gdt):
sales =β1+β2price +β3advert +β4advert2+e(5.1)
Suponha que se deseja testar a hip´otese de que a propaganda (advert) n˜ao tem
efeito sobre as vendas m´edias (sales) contra a hip´otese alternativa de que tem. Assim,
Loures e Fernandez 52
tem-se que:
(H0:β3=β4= 0
H1:β3= 0 ou β4= 0 (5.2)
O modelo sob H0´e restrito em compara¸c˜ao com o modelo sob H1, pois nele β3= 0
eβ4= 0. Ou seja, a hip´otese nula constitui duas restri¸c˜oes de exclus˜ao: se H0
´e verdadeiro, ent˜ao, advert eadvert2n˜ao tˆem efeito sobre sales ap´os price ter sido
controlado e, portanto, deveriam ser exclu´ıdos do modelo. Esse ´e um exemplo de
conjunto de restri¸c˜oes m´ultiplas porque s˜ao colocadas mais de uma restri¸c˜ao sobre
os parˆametros do Modelo 5.1; posteriormente, ser˜ao vistos mais exemplos gerais de
restri¸c˜oes m´ultiplas. Um teste de restri¸c˜oes m´ultiplas ´e chamado teste de hip´oteses
m´ultiplas ou o teste de hip´oteses conjuntas.
A estat´ıstica Fusada para testar H0contra H1estima cada modelo por m´ınimos
quadrados e compara sua respectiva soma de erros quadrados usando a estat´ıstica:
F=(SQRr−SQRir )/ J
SQRir /(n−k)∼FJ, n−kse H0´e verdadeiro (5.3)
em que SQRr´e a Soma dos Quadrados dos Res´ıduos do modelo restrito enquanto
SQRir caracteriza-se como sendo a Soma dos Quadrados dos Res´ıduos do modelo
irrestrito. Por sua vez, Jindica o n´umero de hip´oteses sendo testadas, no presente
exemplo duas (β3= 0 e β4= 0). J´a o denominador ´e dividido pelo n´umero total de
graus de liberdade na regress˜ao irrestrita, n−k, em que n´e o tamanho da amostra e
k´e o n´umero de parˆametros na regress˜ao irrestrita.
A seguir s˜ao apresentados os passos para calcular a estat´ıstica Fno gretl usando
oModelo 5.1. Assim, inicialmente cria-se a vari´avel advert2conforme a Figura 5.1.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 54
Figura 5.2: Janela principal do gretl.
Ap´os definir a especifica¸c˜ao a ser estimada, conforme a Figura 5.3, ser´a aberta a
janela com os resultados da estima¸c˜ao, Figura 5.4. Uma vez que o teste que se deseja
executar envolve a imposi¸c˜ao de restri¸c˜oes zero nos coeficientes de advert (publicidade)
eadvert2(publicidade ao quadrado), ent˜ao, pode-se usar a op¸c˜ao Omitir vari´aveis.
Sendo assim, na janela da Figura 5.4 execute o seguinte comando Testes>Omitir
Vari´aveis. Isso abrir´a a janela da Figura 5.5. Nessa janela, selecione as vari´aveis
a serem testadas, no presente caso advert eadvert2e marque a op¸c˜ao Estimar
modelo reduzido, destacado com uma seta vermelha. Feito isso, clique em Ok e ser´a
apresentada a janela da Figura 5.6.
Com base no p-valor reportado nos resultados do teste F,Figura 5.6, rejeita-se a
hip´otese nula (H0) de que os parˆametros β3eβ4, respectivamente das vari´aveis advert
eadvert2, s˜ao iguais a zero e, portanto, o modelo Big Andy’s Burger Ban deve ser
estimado incluindo essas duas vari´aveis independentes – regressores.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 55
Figura 5.3: Definindo a especifica¸c˜ao do modelo.
Figura 5.4: Resultados do modelo Big Andy’s Burger Ban.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 56
Figura 5.5: Definindo as vari´aveis a serem testadas.
Figura 5.6: Resultado para o teste F.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 57
5.1.2 Significˆancia da regress˜ao
A estat´ıstica F– teste-F– ´e usada para determinar se as vari´aveis em um modelo tˆem
algum efeito sobre o valor m´edio da vari´avel dependente y. Nesse caso, a hip´otese nula,
H0, ´e a proposi¸c˜ao de que yn˜ao depende de nenhuma das vari´aveis independentes
enquanto a hip´otese alternativa, H1, ´e que ydepende das vari´aveis independentes.
Essa hip´otese nula ´e, de certa maneira, muito pessimista. Note que que a hip´otese
nula trata-se de um conjunto de k−1 restri¸c˜oes lineares. Algebricamente, tem-se que
(Equa¸c˜ao 5.4):
(H0:β2=β3=β4=··· =βk= 0
H1:β2= 0 ou β3= 0 ou β4= 0 ou . . . ou βk= 0 (5.4)
O teste de significˆancia geral da regress˜ao ´e importante o suficiente para que todos
os softwares econom´etricos e estat´ısticos reportem-o na sa´ıda padr˜ao de cada regress˜ao
linear estimada. No gretl a estat´ıstica F(24,45932) e seu p-valor (5,60e-11), para o
modelo Big Andy’s Burger Ban, est˜ao destacados na Figura 5.7. Ou seja, s˜ao reportados
na janela principal do modelo. Uma vez que o p-valor ´e menor que 0,01, ent˜ao,
rejeita-se a hip´otese nula de que o modelo ´e insignificante no n´ıvel de significˆancia de
um por cento (1%).
Figura 5.7: Estat´ıstica Fde significˆancia geral da regress˜ao.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 58
5.1.3 Rela¸c˜ao entre o teste te o teste F
Viu-se na Se¸c˜ao 5.1.2 como a estat´ıstica Fpode ser usada para testar se um grupo
de vari´aveis deve ou n˜ao ser inclu´ıdo em um modelo. Entretanto, pode-se questionar
o que aconteceria se aplicasse a estat´ıstica Fao caso de testar a significˆancia de uma
´unica vari´avel independente? Ou seja, pode-se usar o a estat´ıstica Fpara testar uma
´unica vari´avel explicativa? Por exemplo, suponha que se descreva a hip´otese nula como
H0:βk= 0 para testar a ´unica restri¸c˜ao de exclus˜ao, usando a estat´ıstica F, de que
xkpode ser exclu´ıdo do modelo. Entretanto, sabe-se que a estat´ıstica tde βkpode ser
usada para testar essa hip´otese.
Ent˜ao, surge a d´uvida: existem duas formas para testar hip´oteses sobre um ´unico
coeficiente? A resposta ´e n˜ao. Embora as duas abordagens levem exatamente ao
mesmo resultado,1desde que a hip´otese alternativa seja bilateral, a estat´ıstica t´e mais
flex´ıvel para testar uma ´unica hip´otese, uma vez que essa pode ser usada para testar
alternativas unilaterais. Usando o comando Omitir da Subsec¸c˜ao 5.1.1 para o modelo
Big Andy’s Burger Ban, Equa¸c˜ao 5.1, obt´em-se a Figura 5.8. Lembre-se de deixar a
caixa Estimar modelo reduzido marcada.
Figura 5.8: Definindo a vari´avel a ser testada.
Ao clicar em Ok, na caixa de di´alogo da Figura 5.8, abrir´a a janela da Figura 5.9.
Note que a estat´ıstica F(1,71) ´e igual a 53,3549 com um p-valor de 3,23648e-010,
que ´e muito menor do que 0,01, logo, o coeficiente ´e significante a um n´ıvel de 1% de
significˆancia. Agora note que o quadrado da estat´ıstica tpara a vari´avel price,Figura
1A estat´ıstica Fpara testar a exclus˜ao de uma ´unica vari´avel ´e igual ao quadrado da estat´ıstica t
correspondente.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 59
5.7, resultar´a, aproximadamente, no mesmo valor: (−7,304)2= 53,348416. Ademais,
os p-valores tamb´em ser˜ao iguais: para a estat´ıstica F; 3,23648e-010, (Figura 5.9)
enquanto para a estat´ıstica t; 3,24e-010 (Figura 5.7).
Destaca que o que se espera da estat´ıstica F´e que essa revele se qualquer
combina¸c˜ao de um conjunto de coeficientes (β1, β2, . . . , βk) seja diferente de zero. Mas,
entretanto, essa estat´ıstica nunca ser´a o melhor teste para determinar se um ´unico
coeficiente ´e diferente de zero. Na verdade, a estat´ıstica tse apresenta como o teste
mais adequado para testar uma ´unica hip´otese. Ademais, dado que as estat´ısticas
ttamb´em s˜ao mais f´aceis de serem obtidas do que as estat´ısticas F, uma vez que,
por padr˜ao, em todos os softwares econom´etricos e estat´ısticos, essas s˜ao reportadas
juntamente com as demais estat´ısticas nas sa´ıdas da estima¸c˜ao, n˜ao h´a raz˜ao para usar
uma estat´ıstica Fpara testar hip´oteses sobre um ´unico parˆametro.
Figura 5.9: Resultado para o teste F.
5.2 Modelos restrito e irrestrito
Nesta se¸c˜ao, um modelo restrito2log-log de demanda por cerveja ser´a estimado. Os
dados est˜ao dispon´ıveis no arquivo beer.gdt cujas vari´aveis est˜ao armazenadas em
n´ıvel. O modelo ´e dado por:
ln (q) = β1+β2ln (pb) + β3ln (pl) + β4ln (pr) + β5ln (i) + e(5.5)
Assim, uma vez que as vari´aveis encontram-se na forma de n´ıvel, a primeira
2Importante destacar que essa abordagem ´e de suma importˆancia para as fun¸c˜oes Cobb-Douglas
uma vez que o somat´orio dos parˆametros devem ser igual a um, i.e., α+β= 1. Portanto, modelos
empregando fun¸c˜oes Cobb-Douglas caracterizam-se como sendo um modelo restrito.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 60
coisa a se fazer ´e transformar cada uma das vari´aveis para logaritmo natural ou
logaritmo neperiano. Para isso, bastar usar o comando Acrescentar>Logaritmos
das vari´aveis selecionadas,Figura 5.10. Logo ap´os a cria¸c˜ao dos logaritmos
neperiano das vari´aveis selecionadas a janela principal do gretl ter´a a aparˆencia da
Figura 5.11.
Figura 5.10: Obtendo o logaritmo das vari´aveis de interesse.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 61
Figura 5.11: Janela principal com os logaritmos neperiano das vari´aveis selecionadas.
Agora se est´a interessado em estimar um modelo mas com a restri¸c˜ao de que o
somat´orio dos parˆametros β2, β3, β4eβ5seja igual a zero, ou seja, β2+β3+β4+
β5= 0. Nesse caso, inicialmente estima um modelo irrestrito usando o comando
Modelo>M´ınimos Quadrados Ordin´arios,Figura 1.12. Posteriormente, usa-se o
comando Testes>Restri¸c˜oes lineares para informar ao gretl que a estima¸c˜ao tem
como restri¸c˜ao que o somat´orio dos parˆametros β2−5deve ser igual a zero, ou seja,
estima-se um modelo restrito – Figura 5.13.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 62
Figura 5.12: Resultados do modelo irrestrito de demanda por cerveja.
As restri¸c˜oes para o modelo restrito devem ser informadas manualmente com a
seguinte rela¸c˜ao: β2= b [l pb], β3= b [l pl], β4= b [l pr] e β5= b [l i]. Os resultados
para o modelo restrito s˜ao apresentados na Figura 5.14. Note que o somat´orio dos
coeficientes β2−5totaliza zero (−1,29939 + 0,186816 + 0,166742 + 0,945829 = 0).
Figura 5.13: Restri¸c˜oes para o modelo restrito de demanda por cerveja.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 63
Figura 5.14: Resultados para o modelo restrito de demanda por cerveja.
5.3 Especifica¸c˜ao do modelo
Diversas quest˜oes relacionadas `a especifica¸c˜ao de um modelo ser˜ao abordadas nesta
se¸c˜ao. Inicialmente ser´a considerado o problema de vi´es de vari´avel omitida. Isso
ocorre quando se omite vari´aveis independentes relevantes para o modelo. Uma vari´avel
independente ´e dita relevante quando essa afeta a m´edia da vari´avel dependente. Mais
precisamente, quando se omite uma vari´avel relevante que est´a correlacionada com
qualquer um dos outros regressores, o estimador de M´ınimos Quadrados sofre de vi´es
de vari´avel omitida.
Por outro lado, incluir vari´aveis irrelevantes ao modelo tamb´em gera problema para
a estima¸c˜ao. Ou seja, incluir regressores que n˜ao afetam y(a vari´avel dependente) ou,
se afetam, n˜ao correlacionados com os demais regressores. A inclus˜ao de vari´aveis
independentes irrelevantes no modelo torna os M´ınimos Quadrados menos precisos do
que seriam – isso aumenta os erros-padr˜ao, reduz o poder dos testes de hip´oteses do
modelo bem com aumenta o tamanho dos intervalos de confian¸ca do modelo.
Nesta se¸c˜ao, os exemplos ir˜ao usar o conjunto de dados edu inc.gdt. O primeiro
modelo ´e dado por:
l faminci=β1+β2hei+β3wei+ei(5.6)
em que l faminc ´e o logaritmo neperiano da renda familiar, he s˜ao os anos de
escolaridade do marido e we s˜ao os anos de escolaridade da esposa. S˜ao estimadas
diversas varia¸c˜oes desse modelo que incluem o n´umero de crian¸cas menores de 6 anos
no domic´ılio (kl6) e duas vari´aveis irrelevantes – x5ex6.
Os dados s˜ao carregados no gretl, o logaritmo neperiano da renda familiar ´e
obtido e, ent˜ao, estima-se a Equa¸c˜ao 5.6, considerada a equa¸c˜ao “baseline”. Ser˜ao
estimados duas especifica¸c˜oes, i) uma especifica¸c˜ao completa, ou seja, incluindo tanto
a escolaridade do marido quanto a escolaridade da esposa e; ii) uma especifica¸c˜ao em
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 64
que a escolaridade da esposa ´e omitida. Uma vez estimada as duas especifica¸c˜oes
coloca-se os resultados das duas estima¸c˜oes em uma ´unica janela (Figura 5.15).
Figura 5.15: Tabela de modelos.
Para conseguir a tabela da Figura 5.15 estima o modelo irrestrito, denominado
modelo 1. Na janela dos resultados do modelo execute o comando Arquivo>Salvar
para sess˜ao como ´ıcone (Figura 5.16. Isso abrir´a a janela gretl: visualiza¸c~ao
de ´ıcones,Figura 5.17, que conter´a um ´ıcone denominado Modelo 1. Siga os mesmos
passos para o modelo restrito e, assim, na janela gretl: visualiza¸c~ao de ´ıcones
existir˜ao dois ´ıcones – Modelo 1 e Modelo 2. Ent˜ao, para obter a Figura 5.15 arraste
o ´ıcone Modelo 1 para o ´ıcone Tabela de modelos bem como arraste o ´ıcone Modelo
2 para o ´ıcone Tabela de modelos. Observa¸c˜ao, arraste um ´ıcone por vez. Feito isso,
basta dar um duplo clique no ´ıcone Tabela de modelos para que a tabela da Figura
5.15 abra.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 65
Figura 5.16: Salvar para sess˜ao como ´ıcone.
Figura 5.17: Visualiza¸c˜ao de ´ıcones.
A seguir apresenta-se a tabela comparativa para a estima¸c˜ao das 5 diferentes
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 66
especifica¸c˜oes, Figura 5.18.
Figura 5.18: Tabela de modelos.
Note que, do Modelo 1 para o Modelo 2, houve a exclus˜ao de uma vari´avel
relevante da especifica¸c˜ao, a vari´avel we. Assim, o R2ajustado ficou menor (passou de
0,1673 para 0,1470). Ou seja, o poder de explica¸c˜ao do modelo ficou menor ao se excluir
uma vari´avel independente relevante para o modelo. Por outro lado, comparando o
Modelo 1 com o Modelo 3 percebe-se que a inclus˜ao de uma vari´avel independente
relevante para o modelo eleva o poder de explica¸c˜ao. Pois o R2ajustado passou de
0,1673 para 0,1849.
Ao contr´ario, a inclus˜ao de vari´aveis independentes irrelevantes para o modelo ir˜ao,
como supracitado, aumentar os erros-padr˜ao, reduzir o poder dos testes de hip´oteses do
modelo, aumentar o tamanho dos intervalos de confian¸ca do modelo bem como reduzir o
poder de explica¸c˜ao do modelo. Comparando o Modelo 3 com o Modelo 4 percebe-se
que a inclus˜ao dos regressores xtra x5 e xtra x6 n˜ao afetam a vari´avel dependente, mas
aumenta os erros-padr˜ao. Por outro lado, o comparativo entre o Modelo 3 e Modelo
5 nota-se que a exclus˜ao do regressor we e a inclus˜ao dos regressores xtra x5 e xtra x6
torna esses dois regressores significativos, entretanto, como s˜ao irrelevantes para o
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 67
modelo, provocam o aumento dos erros-padr˜ao das demais vari´aveis do modelo.
5.4 Sele¸c˜ao do modelo
Um desafio para todo estudo emp´ırico ´e a escolha de um modelo apropriado. A omiss˜ao
de vari´aveis relevantes que est˜ao correlacionadas com as demais vari´aveis faz com que
os M´ınimos Quadrados sejam tendenciosos e inconsistentes.3A inclus˜ao de vari´aveis
irrelevantes reduz a precis˜ao dos M´ınimos Quadrados. Assim, do ponto de vista
puramente t´ecnico, ´e importante estimar um modelo que contenha todas as vari´aveis
relevantes necess´arias e nenhuma irrelevante. Al´em disso, ´e de suma importˆancia a
ado¸c˜ao de uma forma funcional (uma especifica¸c˜ao) adequada. Entretanto, destaca-se
que n˜ao existe nenhum conjunto de regras mecˆenicas que se possa seguir para garantir
que o modelo seja especificado corretamente, mas h´a algumas coisas que se pode fazer
para aumentar as chances de ter um modelo adequado para usar nas tomadas de
decis˜oes.
A seguir tˆem-se algumas regras de ouro que podem auxiliar estudos emp´ıricos:
1. Use a literatura pregressa bem como a teoria econˆomica para selecionar uma
forma funcional. Por exemplo, se estiver estimando uma fun¸c˜ao de produ¸c˜ao de
curto prazo, a teoria econˆomica sugere que os retornos de produ¸c˜ao diminuem.
Portanto, deve-se escolher uma forma funcional que permita retornos de produ¸c˜ao
decrescente e, nesse caso, adota-se uma forma funcional do tipo log-log;
2. Se os parˆametros estimados tiverem sinais opostos ou magnitudes n˜ao razo´aveis
ao esperado pela literatura pregressa, ´e prudente reavaliar a forma funcional ou
se uma ou mais vari´aveis relevantes foram omitidas;
3. Pode-se realizar testes de hip´oteses conjuntas para detectar a inclus˜ao de
conjuntos de vari´aveis irrelevantes. O teste n˜ao ´e infal´ıvel, pois sempre h´a a
probabilidade positiva de que o erro do tipo 1 ou do tipo 2 esteja sendo cometido;
4. Pode-se usar as regras de sele¸c˜ao de modelo para encontrar conjuntos de
regressores que s˜ao “´otimos” em termos de um trade-off estimado de vi´es/precis˜ao
e;
5. Pode-se usar um teste RESET para detectar poss´ıvel especifica¸c˜ao incorreta da
forma funcional.
Nesta se¸c˜ao, ser˜ao apresentado alguns comandos do gretl para ajudar com as duas
´ultimas regras de ouro: sele¸c˜ao de modelo e teste RESET. Ademais, considera-se trˆes
regras para sele¸c˜ao de modelo: ¯
R2, AIC e SC. Por´em, destaca-se que n˜ao se est´a
recomendando a aplica¸c˜ao dessas trˆes regras, pois h´a muitos problemas estat´ısticos
causados pelo uso da amostra para estimar, especificar e testar hip´oteses em um modelo,
mas as vezes se tˆem poucas op¸c˜oes.
3Dada a hip´otese de que uisegue a distribui¸c˜ao normal, os estimadores de M´ınimos Quadrados
Ordin´arios tˆem, entre outras, a seguinte propriedade: S˜ao consistentes; `a medida que o tamanho da
amostra aumenta indefinidamente, os estimadores convergem para os verdadeiros valores da popula¸c˜ao.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 68
5.4.1 R2ajustado
O coeficiente de determina¸c˜ao R2usual ´e “ajustado” – ¯
R2– para impor uma penalidade
quando uma vari´avel independente ´e adicionada ao modelo. Adicionar uma vari´avel
independente com qualquer correla¸c˜ao com a vari´avel dependente ysempre reduz a
Soma dos Quadrados Explicados (SQE) e aumenta o valor do R2usual. Por sua vez,
com a vers˜ao “ajustada”, i.e., ¯
R2, a melhoria no ajuste pode ser penalizada e pode ser
menor `a medida que vari´aveis independentes s˜ao adicionadas ao modelo. A f´ormula ´e:
¯
R2= 1 −SQE /(n−k)
STQ /(n−1) (5.7)
em que SQE ´e a Soma dos Quadrados Explicados, STQ ´e a Soma Total dos Quadrados,
ncaracteriza-se como sendo o n´umero de observa¸c˜oes e kcorresponde ao grau de
liberdade.
Destaca-se que uma desvantagem em usar o ¯
R2–R2ajustado ou R2barra – como
regra de sele¸c˜ao de modelo ´e que a penalidade imposta por essa regra a cada regressor
adicionado ´e muito pequena em m´edia. Assim, esse crit´erio de sele¸c˜ao de modelo tende
a levar a modelos que contˆem vari´aveis independentes irrelevantes.
5.4.2 Crit´erio de informa¸c˜ao
Por padr˜ao, o gretl calcula o Crit´erio de Informa¸c˜ao Akaike (AIC) e o Crit´erio de
Schwarz (SC), esse ´ultimo ´e tamb´em conhecido como Bayesian Information Criterion
(BIC), e os inclui na sa´ıda da regress˜ao padr˜ao. Os valores que o gretl reporta
s˜ao baseados na maximiza¸c˜ao de uma fun¸c˜ao de verossimilhan¸ca logar´ıtmica (erros
normais). Esses dois crit´erios s˜ao utilizados como regras para a sele¸c˜ao de modelo. As
f´ormulas desses crit´erios s˜ao:
AIC = ln (SQE / n)+2k / n (5.8)
SC = BIC = ln (SQE / n) + kln (n)/ n (5.9)
em que SQE corresponde a Soma dos Quadrados Explicados, ncaracteriza-se como
sendo o n´umero de observa¸c˜oes e, por sua vez, krepresenta o grau de liberdade.
Para proceder a sele¸c˜ao de modelo deve-se calcular AIC ou SC para cada modelo
em considera¸c˜ao e escolher o modelo que minimiza o crit´erio desejado. Lembre-se que
os modelos devem ser estimados utilizando-se o mesmo n´umero de observa¸c˜oes, i.e., n.
Assim, uma vez que o tamanho da amostra deve ser mantido constante ao usar regras
de sele¸c˜ao de modelo, percebe-se que os dois crit´erios (AIC ou BIC) levar˜ao exatamente
a mesma escolha do modelo.
5.4.3 teste RESET
Oteste RESET ´e utilizado para checar se a forma funcional empregada ´e adequada. A
hip´otese nula (H0) ´e que a forma funcional ´e adequada enquanto a hip´otese alternativa
(H1ou Ha) implica que a forma funcional n˜ao ´e adequada. O teste RESET envolve
calcular algumas regress˜oes e calcular uma estat´ıstica F.
Considere o seguinte modelo:
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 69
yi=β1+β2xi2+β3xi3+ei(5.10)
E as seguintes hip´oteses:
H0:E[y|xi2, xi3] = β1+β2xi2+β3xi3
H1: n˜ao H0
Se H0for rejeitado implica que a forma funcional empregada n˜ao ´e suportada pelos
dados. Para proceder este teste, primeiramente estime a Equa¸c˜ao 5.10 usando M´ınimos
Quadrados Ordin´arios (MQO) e salve os valores previstos, ˆyi. Ent˜ao, eleve os valores
previstos ˆyiao quadrado e ao cubo e os adicionem ao modelo:
yi=β1+β2xi2+β3xi3+γ1ˆy2
i+ei
yi=β1+β2xi2+β3xi3+γ1ˆy2
i+γ2ˆy3
i+ei
As hip´otese nulas a testar contra a hip´otese alternativa (H1: n˜ao H0) s˜ao:
H0:γ1= 0
H0:γ1=γ2= 0
Para realizar o teste RESET use o comando Testes>RESET de Ramsey
na janela com os resultados da regress˜ao ap´os a estima¸c˜ao do modelo por M´ınimos
Quadrados Ordin´arios (MQO), conforme a Figura 5.19.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 70
Figura 5.19: Teste RESET de Ramsey.
Ao clicar em RESET de Ramsey abrir´a uma janela igual a da Figura 5.20.
Observe que nessa janela est˜ao dispon´ıveis as seguintes op¸c˜oes: i) quadrados e cubos;
ii) apenas quadrados; iii) apenas cubos e; iv) todas as variantes. Inicialmente
realiza-se um teste apenas quadrados e, a seguir, um teste para quadrados e cubos.
Figura 5.20: Janela para o teste de especifica¸c˜ao RESET.
Os resultados do teste RESET para a Equa¸c˜ao 5.6 s˜ao os seguintes (Figuras 5.21 e
5.22):
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 71
Figura 5.21: Teste RESET apenas quadrados.
Figura 5.22: Teste RESET quadrados e cubos.
Pelas Figuras 5.21 e5.22 nota-se que a adequa¸c˜ao da forma funcional n˜ao ´e rejeitada
ao n´ıvel de significˆancia de 5% para ambos os testes. Uma vez que os p-valores foram,
respectivamente, 0,337 e 0,149.
5.4.4 Colinearidade
As estat´ısticas descritivas de um conjunto de dados podem fornecer informa¸c˜oes ´uteis
sobre os dados, servindo a v´arios prop´ositos. Por exemplo, se houver algum problema
com o conjunto de dados, as estat´ısticas descritivas podem fornecer alguma indica¸c˜ao.
O tamanho da amostra ´e o esperado? A m´edia, o m´ınimo e o m´aximo s˜ao razo´aveis?
Caso contr´ario, precisa-se fazer algum trabalho investigativo. Al´em disso, ao observar
as estat´ısticas descritivas se tem uma ideia de como as vari´aveis foram dimensionadas.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 72
Isso ´e de suma importˆancia quando se trata de extrair sentido econˆomico dos resultados.
A magnitude dos coeficientes faz sentido? Por meio das estat´ısticas descritivas tamb´em
´e poss´ıvel identificar vari´aveis discretas, que requerem algum cuidado na interpreta¸c˜ao.
O comando Ver>Estat´ısticas descritivas incluem as seguintes estat´ısticas:
1. M´edia;
2. Mediana;
3. M´ınimo (Min);
4. M´aximo (Max);
5. Desvio padr˜ao (D.P.);
6. Coeficiente de varia¸c˜ao (CV);
7. Assimetria e;
8. Excesso de curtose.
O comando Ver>Matriz de correla¸c˜ao calcula a correla¸c˜ao simples entre as
vari´aveis. Isso pode ser ´util para obter uma compreens˜ao inicial se as vari´aveis s˜ao
altamente colineares ou n˜ao. Embora outras medidas sejam mais ´uteis, nunca ´e demais
olhar para as correla¸c˜oes. Qualquer um desses dois comandos podem ser usado com
uma lista de vari´aveis selecionadas para limitar a quantidade de vari´aveis resumidas ou
correlacionadas. Por exemplo, usando a base de dados rice5.gdt, na Figura 5.23 foram
selecionadas previamente apenas as vari´aveis firm,area,fert,labor,prod eyear,
sombreadas de azul claro, para a obten¸c˜ao das estat´ısticas descritivas e correla¸c˜ao.
Figura 5.23: Janela principal com as vari´aveis de interesse selecionadas.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 73
Considere o exemplo de produ¸c˜ao de arroz (dados contidos no arquivo rice5.gdt).
Esse ´e um modelo log-log de produ¸c˜ao (toneladas de arroz) que depende da ´area
cultivada (hectares), m˜ao de obra (pessoa-dia) e fertilizante (quilogramas).
ln (prod) = β1+β2ln (area) + β3ln (labor) + β4ln (f ert) + e(5.11)
AFigura 5.24 apresenta as principais estat´ısticas descritivas (m´edia, mediana,
desvio padr˜ao (D.P.), M´ınimo e M´aximo) para as vari´aveis em n´ıvel, ou seja, antes
da transforma¸c˜ao logar´ıtmica:
Figura 5.24: Tabela de estat´ısticas descritivas.
Por sua vez, a matriz de correla¸c˜ao para o mesmo conjunto de vari´aveis (menos
a vari´avel firm) est´a demonstrada na Figura 5.25. Nota-se por essa matriz que as
vari´aveis na amostra s˜ao altamente correlacionadas. Por exemplo, a correla¸c˜ao entre
area elabor ´e de 0,9093. Quanto maior a ´area da fazenda maior o emprego de m˜ao
de obra. Nenhuma surpresa!
Figura 5.25: Matriz de correla¸c˜ao para as vari´aveis em n´ıvel.
Tomar o logaritmo das vari´aveis n˜ao provocar´a grandes mudan¸cas nas correla¸c˜oes.
As correla¸c˜oes entre os logaritmos das vari´aveis s˜ao apresentados na Figura 5.26. A
correla¸c˜ao entre ln (area) e ln (labor) na verdade aumenta ligeiramente de 0,9093 para
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 74
0,9320.
Figura 5.26: Matriz de correla¸c˜ao para o logaritmo das vari´aveis.
O modelo de produ¸c˜ao de arroz, Equa¸c˜ao 5.11, ´e estimado para o ano de 1994 e os
resultados s˜ao apresentados na Figura 5.27. Para estimar o modelo apenas para o ano
de 1994 utiliza-se os seguintes comando no console do gretl.
smpl (year == 1994) −−restrict
m 1994 <−ols l prod const l area l labor l fert
omit l area l labor −−test−only
Figura 5.27: Resultados do modelo de produ¸c˜ao de arroz.
Nota-se da Figura 5.27 que al´em da constante a ´unica vari´avel significativa foi
l fert, ao n´ıvel de 5%. A estat´ıstica F´e de 92,90939 com p-valor de 4,53e-18, bem
abaixo de 1%. O coeficiente de determina¸c˜ao R2´e de 0,874501, que parece bastante
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 75
grande. A significˆancia conjunta de β2eβ3´e testada usando o comando omit,Figura
5.28. Os coeficientes s˜ao conjuntamente diferentes de zero uma vez que o p-valor para
este teste foi 0,00214705. Assim, pode-se rejeitar a hip´otese nula de β2=β3= 0 ao
n´ıvel de significˆancia de 1%, pois 0,00214705 <0,01.
Figura 5.28: Significˆancia conjunta de β2eβ3.
Finalmente, a colinearidade ´e examinada usando a fun¸c˜ao vif ap´os a regress˜ao.
vif significa Variance Inflation Factor (Fator de Infla¸c˜ao de Variˆancia) e ´e usado como
um diagn´ostico de colinearidade por muitos softwares, incluindo o gretl. A fun¸c˜ao
vif est´a relacionada com a recomenda¸c˜ao de Hill et al. (2018) p.(91) que sugere
usar o coeficiente de determina¸c˜ao R2de regress˜oes auxiliares para determinar at´e que
ponto cada vari´avel independente pode ser explicada como fun¸c˜oes lineares das outras
vari´aveis independentes. A fun¸c˜ao vif regride xjcontra todas as outras vari´aveis
independentes e compara o R2
jda regress˜ao auxiliar com 10. Se R2
jexceder 10 haver´a
evidˆencia de um problema de colinearidade.
Ovifjrelata as mesmas informa¸c˜oes, mas de uma forma menos direta. O vif
associado ao j-´esimo regressor ´e calculado da seguinte forma:
vifj=1
1−R2
j
(5.12)
que ´e uma fun¸c˜ao apenas de R2
jda j-´esima regress˜ao auxiliar. Ademais, observe que
quando R2
j>0,9, o vifj>10. Portanto, a regra pr´atica para as duas regras ´e, na
verdade, a mesma. Um vifjmaior que 10 ´e equivalente a um R2
jmaior que 0,9 da
regress˜ao auxiliar. Para realizar o teste de colinearidade, estime o modelo e, na janela
do modelo, use o comando An´alise>Colinearidade,Figura 5.29, e os resultados
aparecer˜ao na sa´ıda do gretl.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 76
Figura 5.29: Janela do modelo de regress˜ao.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 77
Figura 5.30: Resultados para o teste de colinearidade.
Mais uma vez, a sa´ıda do gretl ´e bastante informativa, fornece o limite para alta
colinearidade (vifj>10) e a rela¸c˜ao entre vifjeR2
j. Pela Figura 5.30 nota-se que
esses dados s˜ao altamente colineares com o fator de infla¸c˜ao de variˆancia – vif – para
a vari´avel independente l labor acima do limite.
Para obter as estimativas dos intervalos de confian¸ca para cada uma das inclina¸c˜oes,
ou seja, para cada um dos coeficientes, use o comando An´alise>Intervalos de
confian¸ca para os coeficientes, na janela do modelo (Figura 5.31). Isso abrir´a
a janela da Figura 5.32.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 78
Figura 5.31: Janela do modelo de regress˜ao.
Figura 5.32: Intervalos de confian¸ca para os coeficientes.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 79
Uma sugest˜ao para contornar o problema da colinearidade ´e impor restri¸c˜oes aos
parˆametros do modelo. Por exemplo, suponha que se saiba que os retornos da produ¸c˜ao
de arroz sejam constantes. Isso implica ent˜ao, a seguinte restri¸c˜ao sobre os parˆametros
do modelo: β2+β3+β4= 1. Ou seja, o somat´orio de β2−4´e igual a unidade (1), Figura
5.33. Para estimar um modelo restrito veja a Se¸c˜ao 5.2. Note da Figura 5.33 que o
somat´orio dos coeficientes de β2−4= 1, pois 0,226228 + 0,483419 + 0,290253 = 1.
Figura 5.33: Estimativas do modelo restrito.
A restri¸c˜ao como hip´otese nula (H0) n˜ao ´e rejeita ao n´ıvel de 5%, uma vez que
reportou um p-valor igual a 0,313062. Ademais, no modelo restrito a vari´avel
independente l labor passou a ser significativa.
Por fim, repete-se a estimativa do modelo de produ¸c˜ao de arroz usando a amostra
completa, ou seja, usando os dados para os anos de 1993 e 1994. Al´em disso, calcula-se
o fator de infla¸c˜ao de variˆancia vif bem como os intervalos de confian¸ca de 95% para
esse novo modelo. Os resultados para esta nova regress˜ao s˜ao apresentados na Figura
5.34.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 80
Figura 5.34: Resultados para o modelo de produ¸c˜ao de arroz full.
Por sua vez, a Figura 5.35 apresenta os novos intervalos de confian¸ca a 95% para os
coeficientes. Enquanto a sa´ıda para o teste de colinearidade ´e apresentado na Figura
5.36. Destaca-se que o vif da vari´avel l labor caiu de 17,734 para 10,051, ou seja, ´e
melhor do que o modelo para o ano de 1994. Todavia, ainda sinaliza um problema de
colinearidade uma vez que ´e maior do que 10.
Figura 5.35: Intervalos de confian¸ca para o modelo de produ¸c˜ao de arroz full.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 81
Figura 5.36: Teste de colinearidade do modelo de produ¸c˜ao de arroz full.
5.4.5 M´ınimos quadrados n˜ao-linear
A n˜ao linearidade nos parˆametros bem como um termo de erro aditivo implica que o
modelo n˜ao pode ser estimado por M´ınimos Quadrados Ordin´arios mas, na realidade,
esses dois problemas sinalizam para estimativas de M´ınimos Quadrados N˜ao-Linear. A
seguir, estima-se um modelo usando o estimador de M´ınimos Quadrados N˜ao-Linear.
yt=β xt1+β2xt2+et(5.13)
Uma vez que o parˆametro ´e elevado ao quadrado (β2) e o termo de erro ´e aditivo,
este modelo ´e um candidato para estima¸c˜ao n˜ao-linear de m´ınimos quadrados, pois o
m´ınimo da fun¸c˜ao da soma dos erros quadrados n˜ao pode ser resolvido analiticamente
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 82
para βem termos dos dados. Assim, uma solu¸c˜ao num´erica para as equa¸c˜oes normais
de m´ınimos quadrados deve ser encontrada.
Destaca-se que os M´ınimos Quadrados N˜ao-Linear, bem como outros estimadores
n˜ao-linear, usam m´etodos num´ericos, em vez de m´etodos anal´ıticos, para minimizar
a fun¸c˜ao objetivo da soma dos erros quadrados. Assim, os M´ınimos Quadrados
N˜ao-Lineares requerem mais poder computacional do que a estimativa linear,
entretanto, atualmente isso n˜ao ´e uma grande restri¸c˜ao devido ao avan¸co
computacional.
No gretl, para estimar um modelo de M´ınimos Quadrados N˜ao-Linear o usu´ario
deve especificar a fun¸c˜ao de regress˜ao. Essa conter´a vari´aveis nomeadas no conjunto
de dados e um conjunto de parˆametros nomeados pelo usu´ario. Esses parˆametros
devem ser declarados e informado seus valores (os palpites do usu´ario quanto ao valor
que os parˆametros devam assumir). Opcionalmente, pode-se fornecer as derivadas
anal´ıticas da fun¸c˜ao de regress˜ao em rela¸c˜ao a cada um dos parˆametros que determinam
a dire¸c˜ao da pr´oxima etapa. Por´em, se essas derivadas n˜ao forem fornecidas, deve-se
fornecer uma lista dos parˆametros a serem estimados (separados por espa¸co ou v´ırgula)
e precedidos da palavra-chave params. J´a a tolerˆancia, o crit´erio para o encerramento
do procedimento de estimativa iterativa, pode ser ajustada usando o comando set.
AEqua¸c˜ao 5.13 ser´a estimada usando o conjunto de dados nlls.gdt. Com essa base
carregada no gretl, use o comando Modelo>M´ınimos Quadrados N˜ao-Linear
(NLS),Figura 5.37. Isso abrir´a uma janela igual a da Figura 5.38 onde ser´a passada
a estrutura do modelo a ser estimado. Ou seja:
1. A primeira linha fornece o valor inicial (o palpite do usu´ario) do parˆametro b
como 1;
2. A segunda linha define a estrutura do modelo a ser estimado e;
3. A terceira linha fornece a lista dos parˆametros, que no presente caso ´e apenas
um, b.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 83
Figura 5.37: M´ınimos Quadrados N˜ao-Linear (NLS).
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 84
Figura 5.38: Definindo a estrutura do modelo.
Uma vez que foram repassada todas as informa¸c˜oes necess´arias clica-se no bot˜ao OK
da Figura 5.38 que abrir´a a janela com a sa´ıda do modelo de regress˜ao, Figura 5.39.
Figura 5.39: Resultado dos M´ınimos Quadrados N˜ao-Linear (NLS).
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 85
Nota-se da Figura 5.39 que a estimativa para β´e de 1,6121 enquanto o erro-padr˜ao
estimado ´e de aproximadamente 0,131. Ademais, importante destacar que o R2
centrado ´e negativo. Contudo, isso n˜ao deve gerar nenhuma surpresa uma vez que
em modelos n˜ao-linear essa estat´ıstica n˜ao ´e limita entre 0 e 1.
Para uma melhor compreens˜ao, a seguir estima-se mais um exemplo de um modelo
n˜ao-linear simples, por´em, esse novo modelo possui trˆes parˆametros. Na verdade,
estima-se uma curva de crescimento log´ıstico usando dados sobre a parcela de produ¸c˜ao
total de a¸co bruto dos EUA que ´e produzida por fornos el´etrico a arco dispon´ıvel no
conjunto de dados steel.gdt. O modelo ´e dado por:
yt=α
1 + exp (−β−δ t)+et(5.14)
A estrutura¸c˜ao para esse modelo de produ¸c˜ao total de a¸co bruto ´e apresentado
na Figura 5.40 enquanto a sa´ıda para o estimador de M´ınimos Quadrados N˜ao-Linear
encontra-se na Figura 5.41.
Figura 5.40: Estrutura do modelo de produ¸c˜ao de a¸co.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 86
Figura 5.41: Sa´ıda do modelo de produ¸c˜ao de a¸co.
Universidade Federal de Pelotas - UFPel
87
Cap´ıtulo 6
Usando vari´aveis indicadoras
Neste cap´ıtulo, explora-se o uso de vari´aveis indicadoras na an´alise de regress˜ao. A
discuss˜ao incluir´a como cri´a-las, estimar modelos usando-as e como interpretar os
resultados desses modelos. Tamb´em se discuti v´arias aplica¸c˜oes, as quais incluem o
uso de indicadores para criar intera¸c˜oes, indicadores regionais e realizar testes Chow
de equivalˆencia de regress˜ao em diferentes categorias. Por fim, a utiliza¸c˜ao dessas
vari´aveis na estimativas de modelos de probabilidade linear e na avalia¸c˜ao dos efeitos
do tratamento e nos estimadores de diferen¸cas em diferen¸cas.
6.1 Vari´aveis indicadoras
Vari´aveis indicadoras permitem construir modelos em que algum ou todos os
parˆametros desse modelo podem mudar para um subconjunto da amostra. Uma
vari´avel indicador indica se uma determinada condi¸c˜ao ´e satisfeita. Se isso ´e verdade a
vari´avel ´e igual a 1 e se n˜ao ´e igual a 0. Pode-se referir a elas como vari´aveis dummies
e o gretl usa esse termo para a cria¸c˜ao de vari´aveis indicadoras.
O exemplo usado nesta se¸c˜ao ´e novamente baseado nos dados imobili´arios
utown.gdt. Primeiro deve-se abrir o conjunto de dados e examin´a-los. Pode-se
selecionar todas as vari´aveis e ent˜ao clicar com o bot˜ao direito do mouse na op¸c˜ao
Mostrar Valores:
Loures e Fernandez 88
No caso atual, seis observa¸c˜oes s˜ao suficientes para ver que price esqft s˜ao
cont´ınuos, que a idade ´e discreta e que utown,pool efplace provavelmente s˜ao vari´aveis
indicadoras. As estat´ısticas descritivas simples para toda a amostra d˜ao uma ideia do
alcance e variabilidade de price,sqft eidade. As m´edias informam sobre as propor¸c˜oes
de residˆencias pr´oximas `a Universidade e que possuem piscinas ou lareiras. Para isso
selecione todas as vari´aveis clique com o bot˜ao direito e selecione a op¸c˜ao Estat´ısticas
Descritivas>Mostrar Estat´ısticas Principais.
Pode-se ver que metade das casas da amostra est´a perto da Universidade
(519 /1000). Tamb´em ´e bastante claro que os pre¸cos s˜ao medidos em unidades de
$ 1.000 e metros quadrados em unidades de 100. A casa mais antiga tem 60 anos e h´a
algumas novas na amostra (idade = 0). M´ınimos e m´aximos de 0 e 1, respectivamente,
geralmente significam que se tem vari´aveis indicadoras na amostra. Isso confirma o
que se conclui observando as primeiras observa¸c˜oes da amostra.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 89
6.2 Criando vari´aveis indicadoras
´
E f´acil criar vari´aveis indicadoras utilizando o gretl. Suponha que se deseja criar uma
vari´avel dummy para indicar que uma casa ´e grande. Grande nesse caso significa ser
maior do que 250 p´es quadrados (1 p´e quadrado equivale a 0,093 metros quadrados).
Para isso precisa-se ir no menu Acrescentar>Definir nova vari´avel:
A vari´avel ld assumir´a o valor 1 para todos os valores de sqft maiores que 25 e ser´a
zero caso contr´ario. Pode-se tamb´em usar um operador condicional para criar vari´aveis
indicadoras:
A s´erie seria chamada de large e se a express˜ao entre parˆenteses for verdadeira (ou
seja, a casa tiver mais de 2.500 p´es quadrados), ent˜ao assume o valor que segue o ponto
de interroga¸c˜ao (?), que ´e 1. Se a afirma¸c˜ao n˜ao for verdadeira , ´e atribu´ıdo o valor
que segue os dois pontos (ou seja, 0). O operador de atribui¸c˜ao condicional, tamb´em
pode ser usado com l´ogica composta. No pr´oximo exemplo, uma s´erie chamada pre¸co
m´edio recebe o valor 1 se o pre¸co estiver entre 215 e 275:
Nesse caso, a vari´avel midprice receber´a o valor 1 se as duas condi¸c˜oes entre
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 90
parˆenteses forem verdadeiras. Finalmente, os indicadores podem interagir com outros
indicadores ou vari´aveis cont´ınuas usando listas. Suponha que foram criada duas listas.
A primeira cont´em um indicador, utown, que ´e 0 se a casa n˜ao estiver localizada
no bairro Cidade Universit´aria. A segunda lista cont´em indicadores cont´ınuos e
indicadores (sqf t,age epool). Para isso deve-se ir no menu Dados>Criar ou editar
lista:
Para criar uma intera¸c˜ao entre a lista utown ehouse, deve-se acrescentar uma nova
vari´avel e usar o seguinte comando:
Ap´os executar esse comando, perceber´a que o gretl criar´a vari´aveis com o final 0 e
outra com o final 1. Por exemplo, age utown 0 repete os valores de age quanto utown
´e igual a zero. J´a age utown 1 ´e o produto age ×utown, ou seja, repete os valores de
age quando utown ´e igual a 1.
6.2.1 Estimando uma regress˜ao
A seguinte regress˜ao ser´a efetuada usando como plataforma o mesmo conjunto de dados.
O modelo a ser estimado ´e o seguinte:
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 91
price =β1+β2sqft +β3age +δ1utown +δ2pool +δ3f place +γ(sqft ×utown) + ε
A sa´ıda dessa regress˜ao ´e a seguinte:
O coeficiente na vari´avel indicadora de inclina¸c˜ao sqft ×utown ´e significativamente
diferente de zero no n´ıvel de 5%. Isso significa que o tamanho de uma casa perto da
universidade tem um impacto diferente no pre¸co m´edio da casa. Com base no modelo
estimado, pode-se tirar as seguintes conclus˜oes:
•O prˆemio de localiza¸c˜ao para lotes pr´oximos `a universidade ´e de $ 27.453;
•A mudan¸ca no pre¸co esperado por metro quadrado adicional ´e de US$ 89,12
(10 ×(β2+γ)) perto da universidade e US$ 76,12 (10 ×β2) em outros lugares;
•Casas depreciam $ 190,10/ano (1000 ×β3);
•Uma piscina vale $4.377,30 (1000 ×δ2) e;
•Uma lareira vale $1.649,20 (1000 ×δ3).
6.3 Aplicando vari´aveis indicadoras
Nessa se¸c˜ao ser˜ao dados exemplos sobre a estima¸c˜ao e a interpreta¸c˜ao de regress˜oes
que incluem vari´aveis indicadoras.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 92
6.3.1 Intera¸c˜oes
Considere a simples equa¸c˜ao de sal´ario:
wage =β1+β2educ +δ1black +δ2female +γ(f emale ×black) + ε
Em que black efemale s˜ao vari´aveis indicadoras. Tomando o valor esperado do
ln (wage) tem-se os seguintes casos considerados na regress˜ao:
E[wage |educ] =
β1+β2educ Homens Brancos
β1+δ1+β2educ Homens Negros
β1+δ2+β2educ Mulheres Brancas
β1+δ1+δ2+γ+β2educ Mulheres Negras
O grupo de referˆencia ´e aquele em que todas as vari´aveis indicadoras s˜ao zero, ou
seja, homens brancos. O parˆametro δ1mede o efeito de ser negro, em rela¸c˜ao ao grupo
de referˆencia; δ2mede o efeito de ser mulher em rela¸c˜ao ao grupo de referˆencia, e γ
mede o efeito de possuir as duas caracter´ısticas ser mulher e ser negra. O modelo ´e
estimado usando o arquivo cps5 small.gdt como segue:
Mantendo os anos de escolaridade constantes, os homens negros ganham
US$ 2,07/hora a menos que os homens brancos. Para a mesma escolaridade, as
mulheres brancas ganham US$ 4,22 a menos e as negras ganham US$ 0,53 a mais.
No entanto, o coeficiente no termo de intera¸c˜ao n˜ao ´e significativo ao n´ıvel de 5%.
Pode-se testar a significˆancia conjunta de δ1=δ2=γ= 0. Para isso, na tela anterior
clique em Testes>Omitir Vari´aveis:
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 93
Ap´os clicar em ok a seguinte sa´ıda ser´a mostrada:
A estat´ıstica de teste ´e 10,82 e o valor p-valor da distribui¸c˜ao F(3,1195) est´a
bem abaixo de 5%, na verdade ´e praticamente zero. Dessa forma, pode-se rejeitar a
hip´otese nula que os trˆes coeficientes s˜ao iguais a zero.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 94
6.3.2 Indicadores regionais
Nesse exemplo, um conjunto de vari´aveis indicadoras regionais ser˜ao adicionadas ao
modelo. H´a quatro regi˜oes mutuamente exclusivas a serem consideradas. O grupo de
referˆencia deve ser escolhido, nesse caso ser´a a regi˜ao nordeste. O modelo se torna:
wage =β1+β2educ +δ1black +δ2female +γ(f emale ×black)+
θ1south +θ2midwest +θ3west +ε
Note que o grupo de referˆencia ´e composto por homens brancos que residem na
regi˜ao nordeste. Todas as vari´aveis regionais s˜ao vari´aveis dummy (indicadoras).
Tomando o valor esperado do ln (wage) tem-se os seguintes casos:
E[wage |educ] =
β1+β2educ nordeste
β1+θ1+β2educ sul
β1+θ2+β2educ centro oeste
β1+θ3+β2educ oeste
As estimativas para o modelo completo s˜ao as seguintes:
Espera-se que os trabalhadores do sul ganhem US$ 1,65 a menos por hora do que os
do nordeste mantendo outras vari´aveis constantes. No entanto, nenhum dos indicadores
regionais ´e individualmente significativo a 5%. Os resultados do teste conjunto s˜ao:
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 95
A estat´ıstica de teste tem uma distribui¸c˜ao F(3,1192) e ´e igual a 1,79. O
p-valor ´e superior a 5% e, assim, conclui-se que os indicadores n˜ao s˜ao conjuntamente
significativos. Dessa forma, n˜ao foi poss´ıvel concluir que os trabalhadores com mesma
escolaridade, ra¸ca e gˆenero recebem sal´arios por hora diferentes entre entre as regi˜oes
analisadas.
6.3.3 Testando a equivalˆencia entre duas regi˜oes
Pode-se levantar o seguinte questionamento: os sal´arios recebidos no sul s˜ao diferentes
para as demais regi˜oes do pa´ıs? H´a v´arias formas de verificar isso no gretl.
Pode-se utilizar a intera¸c˜ao enter vari´aveis indicadoras ou estimar diferentes modelos
com subamostras. Ainda, pode-se realizar o teste de Chow que permite testar a
equivalˆencia de regress˜oes de subamostras com base em uma vari´avel indicadora. Para
ilustrar isso, considere o seguinte modelo de sal´arios:
wage =β1+β2educ +δ1black +δ2female +γ(f emale ×black) + ε
Se os sal´arios s˜ao determinados de forma diferente na regi˜ao sul, ent˜ao as inclina¸c˜oes
e os interceptos devem ser diferentes. Primeiro cria-se uma lista chamada xvars:
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 96
Depois faz a intera¸c˜ao dessa lista com a vari´avel south. Para isso pode acrescentar
uma nova vari´avel e digitar o comando abaixo ou utilizar o pr´oprio console do gretl:
Posteriormente deve-se estimar uma regress˜ao utilizando essas vari´aveis de
intera¸c˜ao:
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 97
Ao interagir cada uma das vari´aveis, incluindo a constante, com o indicador,
estimamos essencialmente duas regress˜oes separadas em um ´unico modelo. Observe
que os erros padr˜ao s˜ao calculados com base na suposi¸c˜ao de que as duas subamostras
tˆem a mesma variˆancia geral, σ2. Agora deve-se estimar duas equa¸c˜oes separadamente,
uma para amostra restrita aos sal´arios recebidos pelos trabalhadores que residem na
regi˜ao sul e uma mostra para os trabalhadores das outras regi˜oes. Para isso, deve-se
clicar no menu Amostra>Restringir baseado em crit´erios:
A seguir estima-se o modelo para a amostra restrita a regi˜ao sul:
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 98
Para as outras regi˜oes, deve-se clicar no menu Amostra>Restaurar intervalo
completo. Depois, repeti-se o procedimento anterior restringindo o intervalo para
south == 0 e reestima-se o modelo:
As estimativas dos coeficientes coincidem com aquelas obtidas por meio dos
indicadores. Como esperado, os erros padr˜ao s˜ao diferentes.
Um teste de Chow ´e usado para verificar a presen¸ca de quebras estruturais ou
altera¸c˜oes em uma regress˜ao. Em outras palavras, esse procedimento testa se uma
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 99
subamostra possu´ı um intercepto e uma inclina¸c˜ao diferentes de outra. Ele pode
ser usado para detectar quebras estruturais em modelos de s´eries temporais ou para
determinar se, no exemplo em quest˜ao, os sal´arios do sul s˜ao determinados de forma
diferente dos do resto do pa´ıs. Para realizar o teste estime o modelo por M´ınimos
Quadrados e clique no menu Teste>Teste de Chow.
Ap´os isso tem-se a seguinte sa´ıda:
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 100
Observe que p-valor associado ao teste ´e 0,625, fornecendo evidˆencias insuficientes
para convencer de que os sal´arios s˜ao estruturalmente diferentes no sul.
6.3.4 Modelos log-lineares com vari´aveis indicadores
Nesse exemplo, uma vari´avel indicadora ´e inclu´ıda num modelo log linear. Para tanto,
basea-se no modelo do exemplo anterior:
ln (wage) = β1+β2educ +δ1female +ε
A estima¸c˜ao do modelo por m´ınimos quadrados permite computar a diferen¸ca
percentual entre os sal´arios entre homens e mulheres. Com um pouco de ´algebra
pode-se verificar que essa diferen¸ca percentual ´e:
100 e
b
δ−1%
Para isso suponha que female = 0:
ln (wage) = β1+β2educ +ε
Subtraia as duas equa¸c˜oes:
ln (wagef) = β1+β2educ +δ1+ε
−
ln (wagesf ) = β1+β2educ +ε
O que resulta em:
ln wagef
wagesf =δ1
Subtraindo 1 dos dois lados, aplicando o exponencial e multiplicando por 100:
∆wage = 100 ×exp(δ1−1)
Assim pode-se estimar o modelo:
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 101
O coeficiente de escolaridade sugere que um ano adicional de escolaridade aumenta
o sal´ario m´edio em 10,24%, mantendo o sexo constante. O diferencial salarial estimado
entre homens e mulheres de escolaridade semelhante ´e de 17,78%. Usando a equa¸c˜ao
para computar a diferen¸ca percentual obtem-se o valor de -16.29. Esse n´umero sugere
que as mulheres ganham cerca de 16,29% menos do que os homens que tˆem n´ıveis de
educa¸c˜ao semelhantes.
6.4 Modelo de probabilidade linear
O modelo de probabilidade linear ´e uma regress˜ao que a vari´avel dependente ´e uma
indicadora. Esse modelo pode ser estimado por m´ınimos quadrados. Suponha que:
yi=1 se a alternativa ´e escolhida
0 se a alternativa n˜ao ´e escolhida
Adicionalmente, suponha que P r (yi= 1) = πi. Para uma vari´avel discreta:
E[yi]=1×P r (yi= 1) + 0 ×P r (yi= 0) = πi
Dessa forma, a m´edia de uma vari´avel aleat´oria bin´aria pode ser interpretada como
uma probabilidade, isto ´e, a probabilidade que y= 1.
Quando a regress˜ao: E[yi|xi2, xi3, . . . , xiK ] ´e linear ent˜ao:
E[yi] = β1+β2xi2+β3xi3+· ·· +βkxiK
A variˆancia de uma vari´avel bin´aria ´e:
var [yi] = πi(1 −πi)
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 102
O que significa que ser´a diferente para cada indiv´ıduo. Substituindo a probabilidade
n˜ao observada E(yi), com a vari´avel indicadora observar isso requer adicionar um termo
de erro ao modelo que pode ser estimado via m´ınimos quadrados ordin´arios.
No exemplo a seguir, utiliza-se o arquivo coke.gdt, que cont´em 1.140 observa¸c˜oes
de indiv´ıduos que compraram Coca-Cola ou Pepsi. A vari´avel dependente assume o
valor 1 se a pessoa comprar Coca-Cola e 0 se Pepsi. Estes dependem da rela¸c˜ao dos
prices,pratio, e duas vari´aveis indicadoras, disp coke edisp pepsi. Estas vari´aveis
indicam se a loja que vende as bebidas tinha folders promocionais de Coca-Cola ou
Pepsi no momento da compra. As estimativas s˜ao mostradas a seguir:
O modelo foi estimado usando um estimador de matriz de variˆancia-covariˆancia que
´e consistente quando os termos de erro do modelo possuem variˆancias que dependem
da observa¸c˜ao. Esse ´e o caso aqui.
6.5 Efeito do tratamento
Com o prop´osito de entender o impacto dos efeitos do tratamento, considere um simples
modelo de regress˜ao no qual a vari´avel explicativa ´e uma dummy, indicando quando um
indiv´ıduo em particular est´a no grupo de tratamento ou de controle. Seja ya vari´avel
de resultado, que mede a caracter´ıstica que deve ser afetada pelo tratamento. Defina
a vari´avel indicadora dcomo:
di=1 se ´e tratado
0 se n˜ao ´e tratado
O efeito do tratamento na vari´avel de resultado pode ser modelado como:
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 103
yi=β1+β2di+eipara i= 1,2, . . . , N
sendo eia cole¸c˜ao de outros fatores que afetam a vari´avel de resultado. As fun¸c˜oes de
tratamento para os grupos de tratamento e de controle s˜ao:
E(yi) = β1+β2se o indiv´ıduo ´e tratado
β1se n˜ao ´e tratado
O efeito do tratamento que se deseja medir ´e β2. O estimador de m´ınimos quadrados
de β2´e:
b2=XN
i=1(di−¯
d)(yi−¯y)
XN
i=1(di−¯
d)2
= ¯y1−¯y0
em que ¯y1´e a m´edia das observa¸c˜oes de ypara o grupo de tratamento e ¯y0´e a
m´edia amostral para as observa¸c˜oes do grupo n˜ao tratamento. Nessa abordagem de
tratamento/controle o estimado b2´e chamado de estimador de diferen¸ca por causa da
diferen¸ca entre as m´edias amostrais dos grupos de controle e de tratamento.
Para exemplificar esse modelo, utiliza-se o arquivo star.gdt. Primeiramente,
deseja-se descartar as observa¸c˜oes para as salas de aula que possuem professor
auxiliares. Para isso deve-se restringir a amostra da seguinte forma:
Al´em disso, pode ser que a atribui¸c˜ao de grupos de tratamento esteja relacionada
a uma ou mais das caracter´ısticas observ´aveis (tamanho da escola ou experiˆencia do
professor). Uma maneira de controlar esses efeitos omitidos ´e usar a estimativa de
efeitos fixos. Aborda-se esse ponto com mais detalhes posteriormente. Os efeitos fixos
de escola, nada mais s˜ao do que vari´aveis dummy que identificam cada escola. Para isso,
clique com o bot˜ao direito do mouse na vari´avel schid e selecione a op¸c˜ao Transformar
em dummy. Em seguida escolha a primeira op¸c˜ao, Codificar todos os valores e
aperte no bot˜ao Ok. Posteriormente estime um modelo de m´ınimos quadrados, com a
seguinte configura¸c˜ao. N˜ao esque¸ca de retirar a primeira dummy criada para identificar
a escola, pois ela ser´a utilizada como grupo de referˆencia.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 104
Com essa estimativa verifica-se o impacto do efeito de uma turma pequena (small)
no escore total do aluno (totalscore). Na regress˜ao utiliza-se como controle a
experiˆencia do professor e tamb´em adiciona-se os efeitos fixos de escola. Observe que
esses efeitos fixos s˜ao significativos. Em m´edia, pode-se dizer que os escores de leitura
e de matem´atica dos alunos que estudam em turmas pequenas s˜ao 16.06 pontos mais
altos do que aqueles que estudam em turmas “grandes”.
6.5.1 Usando um modelo de probabilidade linear para
verificar a atribui¸c˜ao aleat´oria
No modelo estimado para medir o efeito do tratamento das turmas pequenas, foi
omitido muitas vari´aveis do modelo. Esse procedimento ´e seguro fazˆe-lo considerando
que essas vari´aveis n˜ao estejam correlacionadas com regressores. Caso fossem
correlacionadas, isso seria uma evidˆencia que as atribui¸c˜oes ao grupo de controle
s˜ao sistem´aticas. Para verificar esse fato, pode-se usar uma regress˜ao. Como small
´e uma vari´avel dummy, usa-se uma regress˜ao de probabilidade linear. As vari´aveis
independentes s˜ao boy,white asian,tchexper ef reelunch.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 105
Pode-se observar que a estat´ıstica Fn˜ao ´e significativa a 10%. Nenhuma das raz˜oes
t-individuais ´e significativa. Esses resultados sugerem que a atribui¸c˜ao das crian¸cas
em turmas pequenas ou grandes ´e totalmente aleat´orio, algo como jogar uma moeda.
Dessa forma, pode-se considerar seguro omitir essas vari´aveis explicativas do modelo
de regress˜ao.
6.6 Diferen¸cas em diferen¸cas
Se deseja saber como uma mudan¸ca na pol´ıtica afeta os resultados, nada supera um
experimento aleat´orio controlado. Infelizmente, eles s˜ao raros em economia porque s˜ao
muito caros ou moralmente inaceit´aveis. Ningu´em quer determinar qual ´e o retorno
`a escolaridade atribuindo aleatoriamente pessoas a um determinado n´umero de anos
de escolaridade. Essa escolha deve ser individual e n˜ao de um formulador de pol´ıticas
p´ublicas. Mas, a avalia¸c˜ao de pol´ıticas p´ublicas n˜ao ´e imposs´ıvel quando experimentos
controlados randomizados s˜ao poss´ıveis.
A vida oferece situa¸c˜oes que acontecem a diferentes grupos de indiv´ıduos em
diferentes pontos no tempo. Esses eventos n˜ao s˜ao realmente aleat´orios, mas, do
ponto de vista estat´ıstico, o tratamento pode parecer atribu´ıdo aleatoriamente. ´
E
disso que tratam os chamados experimentos naturais. Vocˆe tem dois grupos de pessoas
semelhantes. Por qualquer motivo, um grupo ´e tratado com a pol´ıtica e o outro n˜ao.
Diferen¸cas comparativas s˜ao atribu´ıdas `a pol´ıtica.
No exemplo, ser´a visto os efeitos de uma mudan¸ca no sal´ario m´ınimo. Isso ´e poss´ıvel
porque o sal´ario m´ınimo foi aumentado em um estado e n˜ao em outro. A semelhan¸ca
dos estados ´e importante porque o estado n˜ao tratado ser´a usado como grupo de
compara¸c˜ao. Os dados s˜ao de Card e Krueger e est˜ao no arquivo njmin3.gdt.
Como se quer ter uma ideia do que aconteceu em NJ e PA antes e depois do aumento
do sal´ario m´ınimo em NJ, pode-se restringir a amostra para antes do aumento e verificar
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 106
as estat´ısticas descritivas. Restaure a amostra completa e, em seguida, restrinja-a ap´os
a pol´ıtica d= 1. Repita as estat´ısticas de resumo para fte. Os resultados n˜ao ir˜ao
indicar muita diferen¸ca.
O coeficiente de dn j ´e o estimador de diferen¸cas em diferen¸cas da mudan¸ca no
emprego devido a uma mudan¸ca no sal´ario m´ınimo. N˜ao ´e significativamente diferente
de zero neste caso e, sendo assim, pode-se concluir que o aumento do sal´ario m´ınimo
em Nova Jersey n˜ao afetou negativamente o emprego.
Na an´alise anterior n˜ao foi explorado uma caracter´ıstica importante dos dados de
Card e Krueger. Os mesmos restaurantes foram observados antes e depois em ambos
os estados em 384 das 410 observa¸c˜oes. Parece razo´avel limitar a compara¸c˜ao antes
e depois `as mesmas unidades. Isso requer a adi¸c˜ao de um efeito fixo individual ao
modelo e a elimina¸c˜ao de observa¸c˜oes que n˜ao tenham antes ou depois com as quais
comparar. Al´em disso, ser´a preciso limitar a amostra `as observa¸c˜oes ´unicas (no original,
cada uma ´e duplicada). Para isso clique na vari´avel demp e selecione a op¸c˜ao no
menu Amostra>Descartar oberva¸c˜oes com valores ausentes. Depois selecione
a vari´avel dclique no menu Amostra>Restringir baseado em crit´erios.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 107
Feito isso estime o seguinte modelo:
O coeficiente de nj n˜ao ´e significativamente menor que zero ao n´ıvel de 5% e,
portanto, conclui-se que o aumento do sal´ario m´ınimo n˜ao reduziu o emprego.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 108
Universidade Federal de Pelotas - UFPel
109
Cap´ıtulo 7
Heterocedasticidade
Uma hip´otese importante do modelo cl´assico de regress˜ao linear ´e que os termos de
erro eique aparecem na fun¸c˜ao de regress˜ao populacional s˜ao homoced´asticos, ou seja,
todos tˆem a mesma variˆancia. Contudo, em uma regress˜ao qualquer, n˜ao h´a a garantia
de que o termo estoc´astico do modelo, o termo de erro ei, tenha a mesma variabilidade.
Ou seja, algumas observa¸c˜oes podem ter uma variˆancia maior ou menor do que outras.
Essa condi¸c˜ao ´e conhecida como heterocedasticidade. A seguir tem-se um modelo de
regress˜ao linear geral:
yi=β1+β2xi2+· ·· +βkxi k +eii= 1,2, . . . , N (7.1)
em que yicaracteriza-se como sendo a vari´avel dependente; xi j corresponde `a i-´esima
observa¸c˜ao sobre a j-´esima vari´avel independente (com j= 2,3, . . . , k); eirepresenta
o termo de erro e β1, β2, . . . , βks˜ao os parˆametros a serem estimados. Note que
neste modelo de regress˜ao m´ultipla (Equa¸c˜ao 7.1) a variˆancia de eiagora depende
de i, ou seja, da observa¸c˜ao a que pertence. Indexar a variˆancia com o subscrito i
´e apenas uma forma de indicar que as observa¸c˜oes podem ter diferentes quantidades
de variabilidade associadas a elas. As suposi¸c˜oes de erro podem ser resumidas como
ei|xi2, xi3, . . . , xi k idd N (0, σ2).
O intercepto e as inclina¸c˜oes (β1, β2, . . . , βk) s˜ao consistentemente estimados por
m´ınimos quadrados mesmo se os dados forem heteroced´asticos. Infelizmente, os
estimadores usuais dos erros padr˜ao dos m´ınimos quadrados e os testes baseados
neles s˜ao inconsistentes e inv´alidos. Neste cap´ıtulo, v´arias maneiras de detectar a
heterocedasticidade s˜ao consideradas bem como s˜ao exploradas formas estatisticamente
v´alidas de estimar os parˆametros da Equa¸c˜ao 7.1 e testar hip´oteses sobre os β’s quando
os dados s˜ao heteroced´aticos.
7.1 Exemplo despesa com alimenta¸c˜ao
O modelo de de regress˜ao linear simples de gastos com alimenta¸c˜ao ´e estimado usando
m´ınimos quadrados. O modelo ´e:
food expi=β1+β2incomei+eii= 1,2, . . . , n (7.2)
em que food expicaracteriza-se como sendo gastos com alimenta¸c˜ao e incomei´e
a renda do i-´esimo indiv´ıduo. Quando os erros do modelo s˜ao heteroced´asticos
Loures e Fernandez 110
o estimador de m´ınimos quadrados dos coeficientes s˜ao consistentes.1Significando
que as estimativas pontuais de m´ınimos quadrados do intercepto bem como da(s)
inclina¸c˜ao(˜oes) s˜ao ´uteis. No entanto, quando os erros s˜ao heteroced´asticos, os erros
padr˜ao de m´ınimos quadrados usuais s˜ao inconsistentes e, portanto, n˜ao devem ser
usados para formar intervalos de confian¸ca ou testar hip´oteses.
Para usar estimativas de m´ınimos quadrados com dados heteroced´asticos deve-se,
no m´ınimo, usar um estimador consistente de seus erros padr˜ao para construir testes e
intervalos de confian¸ca v´alidos. Um c´alculo simples foi proposto por White. Os erros
padr˜ao calculados usando a t´ecnica de White s˜ao referidos como robustos, mas ´e preciso
tomar cuidado ao usar esse termo. Pois os erros padr˜ao s˜ao robustos `a presen¸ca de
heterocedasticidade nos erros do modelo, mas n˜ao necessariamente a outras formas de
especifica¸c˜ao incorreta do modelo.
Figura 7.1: Regress˜ao dos gastos com alimenta¸c˜ao.
Abra o conjunto de dados food.gdt no gretl e estime o modelo usando m´ınimos
quadrados. Se os dados forem heteroced´astico isso produzir´a as estimativas usuais dos
parˆametros, contudo, os erros padr˜ao n˜ao s˜ao confi´aveis para construir intervalo de
1Dada a hip´otese de que eisegue a distribui¸c˜ao normal, os estimadores de m´ınimos quadrados s˜ao
consistentes, ou seja, `a medida que o tamanho da amostra aumenta indefinidamente, os estimadores
convergem para os verdadeiros valores da popula¸c˜ao.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 111
confian¸ca, realizar testes de hip´oteses e outros procedimentos. Uma inspe¸c˜ao visual do
gr´afico de regress˜ao do modelo pode sinalizar se os dados s˜ao heteroced´asticos. No caso
do modelo de gastos com alimenta¸c˜ao se os dados forem heteroced´astico em rela¸c˜ao
`a renda, haver´a mais varia¸c˜ao em torno da linha de regress˜ao para alguns n´ıveis de
renda. Observando o gr´afico da Figura 7.1 parece que esse ´e o caso para o modelo de
gastos com alimenta¸c˜ao, pois h´a uma varia¸c˜ao significativamente maior nos dados para
rendas altas do que para rendas baixas.
7.2 Estimativa robusto de covariˆancia
Para obter os erros padr˜ao robustos `a heterocedasticidade execute o comando
Modelo>M´ınimos Quadrados Ordin´arios, para abrir a caixa de di´alogo
especificar modelo, nessa caixa de di´alogo marque a op¸c˜ao Erros padr~ao
robustos, conforme Figura 7.2. Note que h´a um bot˜ao `a direita chamado HC1.
Clicando nesse bot˜ao ´e aberta uma caixa de di´alogo na qual uma, das duas op¸c˜oes,
podem ser selecionadas: i) Selecione a partir das op¸c~oes do HCCME Regular e ii)
Agrupar por. Marcando a primeira op¸c˜ao, abrir´a uma caixa de di´alogo de preferˆencias,
Figura 7.3. Note que nessa caixa de di´alogo foi selecionado a aba HCCME, na op¸c˜ao Para
dados de corte optou-se por HC3 e marcou a caixa Usar por padr~ao a matriz de
covari^ancia robusta.
Figura 7.2: Caixa para erros padr˜ao robustos `a heterocedasticidade.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 112
Figura 7.3: Defina o m´etodo para calcular erros padr˜ao robustos.
Os resultados do modelo de gastos com alimenta¸c˜ao aparecem na Figura
7.4. Objetivando uma an´alise do intervalo de confian¸ca, execute o comando
An´alise>Intervalos de confian¸ca para os coeficientes na janela principal do
modelo, Figura 7.4. Uma vez que esse modelo foi estimado utilizando a op¸c˜ao de
erros robustos, os erros do modelo ser˜ao baseados na variante dos erros padr˜ao de
White uma vez que foi escolhido a op¸c˜ao HC3, como se pode observar na Figura 7.3. O
resultado para o intervalo de confian¸ca ´e apresentado na Figura 7.5.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 113
Figura 7.4: Sa´ıda do modelo de gastos com alimenta¸c˜ao.
Figura 7.5: Intervalo de confian¸ca para os coeficientes.
7.3 Detec¸c˜ao de heterocedasticidade usando
gr´aficos dos res´ıduos
Na Se¸c˜ao 7.1 utilizou-se o gr´afico da regress˜ao (Figura 7.1) para se ter uma ideia inicial
se os dados s˜ao heteroced´asticos. Agora, por´em, utiliza-se os gr´aficos dos res´ıduos
para tentar identificar se h´a heterocedasticidades nos dados. Entretanto, chama-se a
aten¸c˜ao para o fato de que se deve ter cuidado ao gerar os gr´aficos dos res´ıduos bem
como ao interpret´a-los. Pois, por sua pr´opria natureza, os gr´aficos dos res´ıduos s´o
permitem que se an´alise as rela¸c˜oes de uma ´unica vari´avel por vez. Mas, todavia, se a
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 114
heterocedasticidade envolver mais de uma vari´avel, os gr´aficos dos res´ıduos podem n˜ao
ser muito reveladores.
AFigura 7.6 caracteriza-se como sendo o gr´afico dos M´ınimos Quadrados em rela¸c˜ao
`a renda. Analisando visualmente o gr´afico da Figura 7.6 parece que para maiores n´ıveis
de renda h´a uma varia¸c˜ao muito maior nos res´ıduos. Esse gr´afico pode ser gerado
executando o comando Gr´aficos>Gr´afico dos res´ıduos>Comparado com income
a partir da janela do modelo, Figura 7.7. Importante destacar que a aparˆencia desse
gr´afico foi alterada clicando com o bot˜ao direito do mouse sobre o gr´afico e escolhendo
a op¸c˜ao Editar.
Figura 7.6: Gr´afico dos res´ıduos dos M´ınimos Quadrados.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 115
Figura 7.7: Caixa de di´alogo para o gr´afico dos res´ıduos.
Outro m´etodo gr´afico que mostra a rela¸c˜ao entre a magnitude dos res´ıduos e a
vari´avel independente ´e mostrado na Figura 7.8. O primeiro passo para gerar esse
gr´afico ´e salvar o valor absoluto dos res´ıduos dos M´ınimos Quadrados em uma nova
vari´avel denominada abs e, representada na Figura 7.8 por |e|. A seguir, plota-se
essa vari´avel (|e|) contra a renda como um gr´afico de dispers˜ao e como um gr´afico
de dispers˜ao suavizado e ponderado localmente, estimado pelo processo chamado
loess.loess ´e considerado um suavizador desej´avel pois tende a seguir os dados.
Diferentemente dos m´etodos de suaviza¸c˜ao polinomial que s˜ao globais e, assim, o que
acontece na extrema direita de um gr´afico de dispers˜ao pode afetar os valores ajustados
na extrema esquerda. O gr´afico da Figura 7.8 foi criado executando os comandos da
figura Figura 7.9. J´a para a abrir a janela de console para executar os comandos clique
no terceiro ´ıcone da esquerda para direita na janela principal do gretl,Figura 7.10.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 116
Figura 7.8: Gr´afico do valor absoluto dos res´ıduos com fit loess.
Figura 7.9: Console do gretl com as linhas de comando do gr´afico com fit loess.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 117
Figura 7.10: Janela principal do gretl.
7.4 M´ınimos quadrados ponderados
Modelos em que os dados s˜ao heteroced´asticos as observa¸c˜oes com uma variˆancia alta
n˜ao possuem muita informa¸c˜ao sobre a linha de regress˜ao quanto as observa¸c˜oes com
baixa variˆancia. Nesse caso, uma forma de contornar o problema da heterocedasticidade
´e a ado¸c˜ao do estimador de M´ınimos Quadrados Ponderados (MQP). Isso ´e poss´ıvel
uma vez que o MQP ir´a reponderar os dados para que todas as observa¸c˜oes contenham
o mesmo n´ıvel de informa¸c˜ao, ou seja, mesma variˆancia, sobre a localiza¸c˜ao da linha de
regress˜ao. Na pr´atica, as observa¸c˜oes que contˆem mais (menos) ru´ıdo recebem menos
(mais) peso. Reponderar os dados dessa maneira ´e conhecido como M´ınimos Quadrados
Ponderados (MQP).
Suponha que os erros variem proporcionalmente com xide acordo com:
var (ei) = σ2xi(7.3)
Os erros ser˜ao heteroced´asticos pois cada erro ter´a uma variˆancia diferente,
cujo valor depende de xi. Entretanto, como descrito acima o M´ınimos Quadrados
Ponderados (MQP) reponder´a cada uma das observa¸c˜oes no modelo de modo que cada
observa¸c˜ao transformada tenha a mesma variˆancia que as outras. Algebricamente,
1
√xi
var (ei) = σ2(7.4)
Ent˜ao, multiplique a Equa¸c˜ao 7.1 por 1
√xipara completar a transforma¸c˜ao. Assim,
o modelo resultante, o modelo transformado, ´e homoced´astico e tanto os M´ınimos
Quadrados quanto os erros padr˜ao dos M´ınimos Quadrados s˜ao estatisticamente v´alidos
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 118
e eficientes. Para estimar um modelo de MQP, com a base de dados food.gdt
carregada no gretl clique com o bot˜ao direito do mouse em qualquer ´area da janela
principal do gretl. Isso abrir´a uma janela cuja ´ultima op¸c˜ao ´e Definir nova
vari´avel.... Clicando nessa op¸c˜ao abrir´a uma janela igual a da Figura 7.11. Nessa
janela digite genr peso = 1 / income para criar a vari´avel peso 1/ income que ser´a
usada para reponderar o modelo e, assim, contornar o problema da heterocedasticidade.
Uma vez criada a vari´avel peso execute o comando Modelo>Outros modelos
lineares>M´ınimos Quadrados Ponderados. Isso abrir´a a caixa de di´alogo para a
especifica¸c˜ao do modelo, Figura 7.12.
Figura 7.11: Caixa de di´alogo para criar uma nova vari´avel.
Figura 7.12: Caixa de di´alogo de especifica¸c˜ao do modelo.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 119
Uma vez que a caixa de di´alogo para especifica¸c˜ao do modelo for aberta (Figura
7.12) defina como Vari´avel dependete food exp, como Vari´avel peso weight e como
Regressores const eincome e clique no bot˜ao OK. A sa´ıda do modelo de gastos com
alimenta¸c˜ao utilizando o estimador de M´ınimos Quadrados Ponderados ´e apresentada
na Figura 7.13.
Figura 7.13: Sa´ıda do modelo de gasto com alimenta¸c˜ao.
Para checar a performance do estimador de M´ınimos Quadrados Ponderados a
Figura 7.14 plota os res´ıduos para a estima¸c˜ao empregando MQP, ehat wls, bem
como os res´ıduos para a estima¸c˜ao utilizando o estimador de MQO, ehat. Visualmente
os res´ıduos dos MQP, ehat wls parecem ser homoced´asticos quando comparados aos
res´ıduos do estimador de MQO, ehat. O script para a gera¸c˜ao do gr´afico da Figura
7.14 ´e apresentado na Figura 7.15, n˜ao esque¸ca de digitar cada uma das linhas do script
por vez.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 120
Figura 7.14: Res´ıduos MQP vs res´ıduos MQO.
Figura 7.15: Linhas de comando do gr´afico dos Res´ıduos MQP vs Res´ıduos MQO.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 121
7.5 Detectando heterocedasticidade usando testes
de hip´otese
7.5.1 Testes do multiplicador de Lagrange
Existem muitos testes de hip´otese nula para a homocedasticidade, dois deles s˜ao
baseados nos multiplicadores de Lagrange. Esses s˜ao testes particularmente
simples de fazer e ´uteis. O primeiro ´e algumas vezes denominado de teste de
Breusch-Pagan (BP). Por sua vez, o segundo ´e conhecido como teste de White e
´e creditado a White. As hip´oteses nula (H0) e alternativa (H1) para o teste de
Breusch-Pagan s˜ao:
H0:σ2
i=σ2
H1:σ2
i=h(α1+α2zi2+· ·· +αszis)(7.5)
A hip´otese nula, H0, ´e que os dados s˜ao homoced´asticos enquanto a hip´otese
alternativa, H1ou HA, ´e de que os dados s˜ao heteroced´asticos de uma forma
que dependa das vari´aveis zis, s = 2,3, . . . , S. Essas vari´aveis s˜ao ex´ogenas e
correlacionadas com as vari´aveis do modelo. Destaca-se que a fun¸c˜ao h(.) ´e uma
fun¸c˜ao linear das vari´aveis z. No caso do modelo de gastos com alimenta¸c˜ao, Equa¸c˜ao
1.1, para realizar o teste de Breusch-Pagan de heterocedasticidade deve-se executar
o comando Testes>Heterocedasticidade>Breusch-Pagan na janela da regress˜ao
do modelo, conforme Figura 7.16.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 123
7.5.2 O teste de White
Destaca-se que o teste de White caracteriza-se como sendo uma pequena varia¸c˜ao do
teste de Breusch-Pagan em que as hip´oteses nula, H0, e alternativa, H1ou HA, s˜ao
dados por:
H0:σ2
i=σ2para todo i
H1:σ2
i=σ2
jpara pelo menos 1 i=j(7.6)
Esta ´e uma alternativa composta que captura todas as possibilidades exceto
aquela coberta pelo nulo. Se o pesquisador n˜ao sabe nada sobre a natureza da
heterocedasticidade em seus dados, este ´e um bom teste para se come¸car. O
teste ´e muito semelhante ao teste de Breusch-Pagan. Por´em, no teste de White
as vari´aveis relacionadas `a heterocedasticidade (zis, s = 2,3, . . . , S) incluem cada
regressor n˜ao redundante, seu quadrado e todos os produtos cruzados entre os
regressores. No caso do modelo de gastos com alimenta¸c˜ao h´a apenas o intercepto
e um regressor cont´ınuo (a renda). Portanto, a constante ao quadrado e o produto
cruzado entre a constante e a renda s˜ao redundantes. Dessa forma, existe apenas um
vari´avel para adicionar ao modelo, renda ao quadrado. Note que, assim como no teste
de Breusch-Pagan, a hip´otese nula de homocedasticidade dos dados foi rejeitada, mas,
agora, ao n´ıvel de 5%, Figura 7.18.
Figura 7.18: Resultado do teste de White.
7.6 Erros padr˜ao consistentes com
heterocedasticidade
Lembre-se que na Se¸c˜ao 7.2 foi demonstrado que o estimador de M´ınimos Quadrados
Ordin´arios – MQO – pode ser usado para estimar o modelo linear mesmo quando os
erros s˜ao heteroced´asticos, e isso, destaca-se, com bom resultado. Pois o problema
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 124
com o uso de MQO em um modelo heteroced´astico ´e que o estimador usual de
precis˜ao (matriz de variˆancia-covariˆancia estimada) n˜ao ´e consistente. Assim, a forma
mais simples de contornar esse problema ´e usar MQO para estimar o intercepto e
as inclina¸c˜oes (regressores) e usar um estimador de covariˆancia de MQO que seja
consistente, sejam os erros heteroced´asticos ou n˜ao. Esse ´e o chamado estimador
robusto de heterocedasticidade de covariˆancia que o gretl usa, Figura 7.2.
A seguir, o modelo de gastos com alimenta¸c˜ao ´e usado para estimar o modelo
usando MQO padr˜ao (Ou seja, sem considerar erros padr˜ao robustos) bem como trˆes
conjuntos robustos de erros padr˜ao – HC1, HC2 e HC3. Observe, Figura 7.19, que
as estimativas dos coeficientes s˜ao as mesmas nas quatro colunas (83,42), contudo, os
erros padr˜ao estimados s˜ao diferentes. O erro padr˜ao robusto para a inclina¸c˜ao ´e menor
do que o habitual, quando o modelo ´e estimado sem marcar a caixa Erros padr~ao
robustos. Chama-se ainda a aten¸c˜ao para o fato de que v´arios comandos se comportam
de maneira diferente quando s˜ao usados ap´os o uso de um modelo que emprega Erros
padr~ao robustos. O uso dessa op¸c˜ao for¸ca os testes de Wald subsequentes com
base nas estimativas de MQO a usar o HCCME para computa¸c˜ao. Isso ir´a garantir que os
resultados de omitir ou restringir ser˜ao estatisticamente v´alidos sob heterocedasticidade
quando a regress˜ao for estimada utilizando a op¸c˜ao Erros padr~ao robustos,Figura
7.20. Para mais detalhe sobre como selecionar qual estimador de covariˆancia empregar
(HC1, HC2, entre outros) veja a Se¸c˜ao 7.2.
Figura 7.19: Erros padr˜ao robustos vs n˜ao-robustos.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 125
Figura 7.20: Op¸c˜ao para erros padr˜ao robustos `a heterocedasticidade.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 126
Universidade Federal de Pelotas - UFPel
127
Cap´ıtulo 8
S´eries estacion´arias
O objetivo principal deste cap´ıtulo ´e explorar as propriedades de s´eries temporais dos
dados usando gretl. Um dos pontos b´asicos em econometria ´e que as propriedades dos
estimadores e sua utilidade para estimativas pontuais e testes de hip´oteses dependem
de como os dados se comportam. Por exemplo, em um modelo de regress˜ao linear em
que os erros s˜ao correlacionados com os regressores, os m´ınimos quadrados n˜ao ser˜ao
consistentes e, consequentemente, n˜ao devem ser usados para estimativas ou testes
subsequentes.
Na maioria das regress˜oes de s´eries temporais, os dados devem ser estacion´arios
para que os estimadores tenham propriedades desej´aveis. Isso requer que as m´edias,
variˆancias e covariˆancias das s´eries de dados sejam independentes do per´ıodo de tempo
em que s˜ao observadas. Por exemplo, a m´edia e a variˆancia da distribui¸c˜ao de
probabilidade que gerou o PIB no terceiro trimestre de 1973 n˜ao pode ser diferente
daquela que gerou o PIB do 4o
¯trimestre de 2006. Observa¸c˜oes sobre s´eries temporais
estacion´arias podem ser correlacionadas entre si, mas a natureza dessa correla¸c˜ao n˜ao
pode mudar ao longo do tempo. O PIB est´a crescendo ao longo do tempo (n˜ao
significa estacion´ario) e pode ter se tornado menos vol´atil (n˜ao a varia¸c˜ao estacion´aria).
Mudan¸cas na tecnologia da informa¸c˜ao e nas institui¸c˜oes podem ter encurtado a
persistˆencia dos choques na economia (n˜ao a covariˆancia estacion´aria).
As s´eries temporais n˜ao estacion´arias devem ser usadas com cuidado na an´alise de
regress˜ao. M´etodos para lidar efetivamente com esse problema forneceram um rico
campo de pesquisa para econometristas nos ´ultimos anos.
8.1 Gr´aficos das s´eries temporais
A primeira coisa a fazer ao trabalhar com s´eries temporais ´e observ´a-las graficamente.
Um gr´afico de s´erie temporal revelar´a poss´ıveis problemas com seus dados e sugerir´a
maneiras de proceder estatisticamente. Os gr´aficos de s´eries temporais s˜ao simples de
serem gerados. Abra o arquivo de dados gdp5.gdt e crie as primeiras diferen¸cas de
GDP . A plotagem da s´erie pode ser feita de v´arias maneiras. Por exemplo, pode-se
clicar no menu Ver>Gr´afico das vari´aveis>S´eries Temporais. Alternativamente,
pode-se clicar com o bot˜ao direito do mouse sobre a s´erie e escolher a op¸c˜ao Gr´afico
de S´erie Temporal.
Antes de se fazer o gr´afico, toma-se a primeira diferen¸ca da s´erie do PIB (GDP).
Clique no menu Acrescentar>Primeiras diferen¸cas das vari´aveis selecionadas.
Loures e Fernandez 128
Tamb´em ´e poss´ıvel obter o mesmo resultado clicando com o bot˜ao direito do mouse
sobre a vari´avel desejada e selecionar Acrescentar diferen¸ca. Selecione as duas
vari´aveis e as coloque em um ´unico gr´afico:
Autocorrela¸c˜oes de amostra podem revelar uma potencial n˜ao estacionaridade em
uma s´erie. S´eries n˜ao estacion´arias tendem a ter grandes autocorrela¸c˜oes em defasagens
longas. Isso ´e evidente para a s´erie do PIB, conforme mostrado abaixo. As grandes
autocorrela¸c˜oes para o PIB persistem al´em de 24 defasagens, um sinal claro de que a
s´erie n˜ao ´e estacion´aria. Apenas as duas primeiras autocorrela¸c˜oes s˜ao significativas
para a s´erie de mudan¸cas.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 129
Para produzir o gr´afico acima ´e necess´ario clicar no menu
Vari´avel>Correlograma.
8.2 Tendˆencias determin´ısticas
Vari´aveis n˜ao estacion´arias que parecem vagar para cima e para baixo por um tempo
s˜ao chamadas de tendˆencias estoc´asticas. Por outro lado, algumas tendˆencias s˜ao
persistentes e s˜ao ditas ser determinista. Uma s´erie temporal pode possuir ambos os
tipos de tendˆencia. Uma tendˆencia determin´ıstica simples para uma s´erie ytpode ser
modelada:
yt=c1+c2t+ut
em que t´e o ´ındice temporal. Uma tendˆencia quadr´atica poderia ser:
yt=c1+c2t+c2t2+ut
Adicionalmente, uma tendˆencia em mudan¸ca percentual pode ser modelada como:
ln(yt) = c1+c2t+ut
Em cada caso, o efeito temporal ´e parametrizado e pode ser estimado.
A seguir, ser´a visto um exemplo em que se modela a produ¸c˜ao de trigo em Toodyay
Shire na Austr´alia . A produ¸c˜ao de trigo depende das chuvas e da produtividade, que
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 130
tende a melhorar com o tempo. Assim, ´e razo´avel que o rendimento possa apresentar
uma tendˆencia determin´ıstica. A precipita¸c˜ao tamb´em pode mudar ao longo do tempo,
possivelmente devido as mudan¸cas no clima global. Ap´os carregar os dados, que
est˜ao em toody5.gdt, adicione o logaritmo natural da produtividade e o quadrado
da precipita¸c˜ao ao conjunto de dados. Pode-se adicionar uma tendˆencia linear clicando
no menu Acrescentar>Tendˆencia Temporal . A seguir, estima-se um modelo que
inclu´ı essa tendˆencia e o quadrado da vari´avel rain:
Pode-se observar que a tendˆencia ´e estatisticamente significativa. Pode-se remover
a tendˆencia das s´eries e rodar um novo modelo sem a tendˆencia temporal. Para isso,
precisa-se estimar um modelo de M´ınimos Quadrados Ordin´arios para cada vari´avel
contra a tendˆencia e a constante e salvar os res´ıduos. Ap´os estimar o modelo para l y,
clique em Salvar>Res´ıduos.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 131
Escolha um nome para a nova vari´avel, como por exemplo e ly. Posteriormente
repita esse procedimento para todas as vari´aveis usadas no modelo original e, por fim,
estime o seguinte modelo sem constante:
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 132
8.3 Regress˜ao esp´uria
´
E poss´ıvel estimar uma regress˜ao e encontrar uma rela¸c˜ao estatisticamente significativa
mesmo que n˜ao exista nenhuma. Na an´alise de s´eries temporais, isso ´e realmente uma
ocorrˆencia comum quando os dados n˜ao s˜ao estacion´arios. Este exemplo usa duas s´eries
de dados, rw1 erw2, que foram geradas como caminhos aleat´orios (random walk)
independentes:
rw1:yt=yt−1+v1t
rw2:xt=xt−1+v2t
Os erros s˜ao desvios aleat´orios normais padr˜ao independentes gerados usando um
gerador de n´umeros pseudoaleat´orios. Como se pode ver, xteytn˜ao s˜ao relacionados.
Para explorar a rela¸c˜ao emp´ırica entre essas s´eries n˜ao relacionadas, carregue os dados
spurious.gdt. Em seguida defina os dados como s´eries temporais. Para isso clique no
Menu Dados>Estrutura do Conjunto de Dados>S´eries Temporais. Como as
s´eries s˜ao fict´ıcias, escolha a periodicidade Outro.
Depois plota-se os dados usando um gr´afico de s´erie temporal. Para colocar
ambas as s´eries no mesmo gr´afico de s´erie temporal, selecione Ver>Gr´afico de
vari´aveis>S´erie temporal. Coloque ambas as s´eries na caixa do lado direito e clique
em OK.
Depois estima-se um modelo de M´ınimos Quadrados Ordin´arios. O coeficiente em
rw2 ´e positivo (0,842) e significativo (t= 40.84 >1.96). No entanto, estas vari´aveis
n˜ao est˜ao relacionadas umas com as outras! A rela¸c˜ao observada ´e puramente esp´uria.
A causa do resultado esp´urio ´e a n˜ao estacionariedade das duas s´eries. ´
E por isso que
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 133
se deve verificar a estacionaridade de seus dados sempre que usar s´eries temporais em
uma regress˜ao.
Finalmente, os res´ıduos da regress˜ao esp´uria s˜ao testados para autocorrela¸c˜ao
de 1a
¯ordem usando o teste LM. No modelo estimado clique no menu
Testes>Autocorrela¸c˜ao e escolha a ordem 1 para o teste, como segue:
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 134
A estat´ıstica do teste LM ´e 682,95 e seu valor-p est´a bem abaixo do limite de
5%. As conclus˜oes baseadas em evidˆencias visuais s˜ao confirmadas estatisticamente,
ou seja, os erros s˜ao autocorrelacionados.
8.4 Testes de estacionariedade
Oteste Dickey-Fuller (aumentado) pode ser usado para testar a estacionariedade
dos dados. O teste ´e baseado no seguinte modelo de regress˜ao. A vers˜ao aumentada do
teste Dickey-Fuller adiciona v´arias diferen¸cas defasadas ao modelo. Para o modelo
com uma tendˆencia constante e sem determin´ıstica, isso seria:
∆yt=α+γ yt−1+
m
X
s=1
as∆yt−s+vt
Para realizar o teste, algumas decis˜oes devem ser tomadas em rela¸c˜ao `a s´erie
temporal. As decis˜oes geralmente s˜ao tomadas com base na inspe¸c˜ao visual dos gr´aficos
das s´eries temporais. Os gr´aficos s˜ao usados para identificar quaisquer tendˆencias
determin´ısticas na s´erie. Se a tendˆencia da s´erie for quadr´atica, a vers˜ao diferenciada
da s´erie ter´a uma tendˆencia linear.
Deve-se determinar o n´umero de termos defasados a serem inclu´ıdos nas regress˜oes
ADF. H´a v´arias formas de fazer isso. Em princ´ıpio, os res´ıduos da regress˜ao ADF
devem ser isentos de qualquer autocorrela¸c˜ao. Inclua apenas os lags suficientes de
∆yt−spara garantir que os res´ıduos n˜ao sejam correlacionados. O n´umero de termos
defasados tamb´em pode ser determinado examinando a fun¸c˜ao de autocorrela¸c˜ao (ACF)
dos res´ıduos ou a significˆancia dos coeficientes de defasagem estimados.
A hip´otese nula do teste ADF ´e que a s´erie temporal possui raiz unit´aria e n˜ao ´e
estacion´aria. Se essa hip´otese for rejeitada, concluir´a que a s´erie ´e estacion´aria. N˜ao
rejeitar a hip´otese nula significa que a s´erie em n´ıvel n˜ao ´e estacion´aria. Importante
destacar uma caracter´ıstica sobre os resultados do teste ADF,gretl expressa o modelo
de maneira ligeiramente diferente, como segue:
(1 −L)yt=β0+ (α−1) yt−1+α1∆yt−1+et
O coeficiente β0est´a inclu´ıdo porque a s´erie pode ter uma tendˆencia, (α−1) = γ
´e o coeficiente de interesse na regress˜ao de Dickey-Fuller eα1´e o parˆametro para
o termo que “aumenta” a regress˜ao de Dickey-Fuller. Ele ´e inclu´ıdo para eliminar
a autocorrela¸c˜ao nos erros do modelo, et, e mais defasagens podem ser inclu´ıdas, se
necess´ario, para realizar isso. A nota¸c˜ao no lado esquerdo da equa¸c˜ao (1 −L)ytfaz
uso do operador de lag,L. O operador lag realiza a m´agica Lyt=yt−1. Assim,
(1 −L)yt=yt−Lyt=yt−yt−1= ∆ yt.
No exemplo a seguir, s˜ao consideradas a taxa dos fundos federais (ffr) e a taxa
dos t´ıtulos de 3 anos (br). O arquivo a ser usado ´e o usdata5.gdt. Para realizar
os testes Dickey-Fuller, primeiro decida se deve usar uma tendˆencia constante e/ou
determin´ıstica. Deve-se selecionar uma das s´eries, por exemplo ffr e clicar no menu
Vari´avel>Testes de Ra´ız Unit´aria>Teste de Dickey-Fuller Aumentado. As
op¸c˜oes mostradas na figura abaixo s˜ao as padr˜oes que o gretl d´a para o teste ADF:
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 135
Ap´os rodar o teste os seguintes resultados s˜ao mostrados:
Os resultados do teste s˜ao bastante informativos. Para os modelos com constante e
constante e tendˆencia, n˜ao se pode rejeitar a hip´otese nula de raiz unit´aria. Em outras
palavras a s´erie dos t´ıtulos federais americanos n˜ao ´e estacion´aria em n´ıvel. Agora ser´a
utilizado apenas uma defasagem. Os resultados do teste s˜ao os seguintes:
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 136
Os resultados do teste podem ser reproduzidos rodando um MQO tendo como
vari´avel dependente a primeira diferen¸ca ffr contra ffr defasada e a primeira diferen¸ca
da vari´avel defasada. Use o bot˜ao Acrescentar para criar as defasagens e tomar a
primeira diferen¸ca. Veja que a estat´ıstica t da vari´avel ffr 1 ´e igual a do tau ct(1)
do modelo com constante e tendˆencia.
Assim n˜ao se pode rejeitar a hip´otese nula de ra´ız unit´aria. Em outras palavras, a
s´erie ffr n˜ao ´e estacion´aria em n´ıvel. Agora veja o gr´afico dessa s´erie quando se toma
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 137
a primeira diferen¸ca.
A s´erie ´e estacion´aria. Fa¸ca o teste ADF para conferir.
8.4.1 Outros testes para n˜ao estacionariedade
H´a outros testes para n˜ao estacionariedade no gretl. O primeiro ´e o teste DF-GLS.
Esse procedimento performa o teste t modificado de Dickey-Fuller (conhecido como
teste DF-GLS) proposto por Elliott et al. (1996). Essencialmente, o teste ´e um
teste de Dickey-Fuller aumentado, exceto que a s´erie temporal ´e transformada
por meio de uma regress˜ao de M´ınimos Quadrados Generalizados (GLS) antes de
estimar o modelo. Elliott et al. (1996) mostraram que esse teste tem poder
significativamente maior do que as vers˜oes anteriores do teste Dickey-Fuller
aumentado. Consequentemente, n˜ao ´e incomum que este teste rejeite a hip´otese nula
da n˜ao estacionariedade quando o teste de Dickey-Fuller aumentado usual n˜ao o
faz.
Para executar o teste ADF-GLS deve-se selecionar a vari´avel desejada (ffr) e clicar
no menu Vari´avel>Teste de raiz unit´aria>Teste ADF-GLS. Para tanto selecione
as seguintes op¸c˜oes:
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 138
Ao clicar em OK, tem-se os seguintes resultados:
A estat´ıstica do teste ´e -1,7735 e tem um p-valor de 0,0723, que est´a na zona de
rejei¸c˜ao a 10% . Ao n´ıvel de significˆancia de 10%, a s´erie ´e estacion´aria. O gretl
tamb´em pode realizar o teste KPSS proposto por Kwiatkowski et al. (1992). A
hip´otese nula desse teste ´e que a vari´avel em quest˜ao ´e estacion´aria. Para execut´a-lo o
caminho ´e o mesmo, basta selecionar a vari´avel e clicar no menu Vari´avel>Teste de
raiz unit´aria>Teste KPSS. A seguir, tem-se o resultado do teste:
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 139
Op-valor ´e menor que 0.01, ent˜ao pode-se rejeitar a hip´otese nula que a s´erie ´e
estacion´aria.
8.5 Integra¸c˜ao e cointegra¸c˜ao
Duas s´eries temporais n˜ao estacion´arias s˜ao cointegradas se tendem a se mover juntas
ao longo do tempo. Por exemplo, estabelece que os n´ıveis da taxa de fundos federais e
do t´ıtulo de 3 anos s˜ao n˜ao estacion´arias.
Na linguagem opaca usada na literatura de s´eries temporais, diz-se que cada s´erie
´e integrada de ordem 1 ou I (1). Se as duas s´eries n˜ao estacion´arias se movem juntas
ao longo do tempo, diz que s˜ao cointegradas. A teoria econˆomica sugeriria que eles
deveriam ser vinculados por meio de arbitragem, mas isso n˜ao ´e garantido. Nesse
contexto, o teste de cointegra¸c˜ao equivale a um teste da substituibilidade desses ativos.
O teste b´asico ´e muito simples. Deve-se regredir uma vari´avel I (1) contra outra
usando m´ınimos quadrados. Se as s´eries forem cointegradas, os res´ıduos dessa regress˜ao
ser˜ao estacion´arios. Isso ´e verificado usando o teste de Dickey-Fuller aumentado,
com um novo conjunto de valores cr´ıticos que levam em conta que a s´erie de res´ıduos
utilizada no teste ´e estimada a partir de dados. Engle e Granger usaram simula¸c˜oes
para determinar os valores cr´ıticos corretos para o teste, o teste recebe o nome dos dois
pesquisadores.
A hip´otese nula ´e que os res´ıduos s˜ao n˜ao estacion´arios, o que implica que
as s´eries n˜ao s˜ao cointegradas. Para obtˆe-lo, use Modelo>S´erie temporal
Multivariadas>Teste de cointegra¸c˜ao (Engle-Granger) na janela principal do
gretl. Na caixa de di´alogo, indique quantas defasagens devem ser inclu´ıdas nas
regress˜oes Dickey-Fuller iniciais em cada uma das vari´aveis, quais vari´aveis se
deseja incluir na rela¸c˜ao de cointegra¸c˜ao e se uma constante, tendˆencia ou tendˆencia
quadr´atica ´e necess´aria nas regress˜oes.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 140
Pode-se rejeitar a hip´otese nula que os res´ıduos possuem raiz unit´aria, ou seja, s˜ao
n˜ao estacion´arios. Em outra palavras, as s´eries s˜ao cointegradas.
8.6 Corre¸c˜ao de erro
A cointegra¸c˜ao ´e uma rela¸c˜ao entre duas vari´aveis n˜ao estacion´arias, I (1). Essas
vari´aveis compartilham uma tendˆencia comum e tendem a se mover juntas no longo
prazo. Nesta se¸c˜ao, examina-se uma rela¸c˜ao dinˆamica de curto prazo entre vari´aveis I
(0) que incorpora uma rela¸c˜ao de cointegra¸c˜ao conhecida como modelo de corre¸c˜ao de
erros.
Inicia-se com um modelo ARDL (1, 1):
yt=δ+θ1yt−1+δ0xt+δ1xt−1+vt
ap´os alguma manipula¸c˜ao:
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 141
∆yt=−(1 −θ1) (yt−1−β1−β2xt−1) + δ0∆xt+vt
O termo no segundo conjunto de parˆenteses ´e uma rela¸c˜ao de cointegra¸c˜ao em
que os n´ıveis de yexest˜ao linearmente relacionados. Seja α= (1 −θ1) e os
parˆametros da equa¸c˜ao podem ser estimados por m´ınimos quadrados n˜ao lineares. ´
E
uma quest˜ao meramente emp´ırica a op¸c˜ao de adicionar ou n˜ao as defasagens de ∆ xte
∆ytcomo regressores. Novamente, devemos incluir defasagens suficientes para remover
a autocorrela¸c˜ao dos res´ıduos.
O modelo de corre¸c˜ao de erro a ser estimado ´e:
∆brt=−α(brt−1−β1−β2ffrt−1) + γ1∆brt−1+γ2∆brt−2
+δ0∆ffrt+δ1∆ffrt−1+δ2∆ffrt−2+δ3∆ffrt−3+δ4∆ffrt−4+et
Os m´ınimos quadrados n˜ao lineares requerem valores iniciais. A regress˜ao
cointegrante ´e usada para inicializar β1eβ2. Os res´ıduos s˜ao obtidos e defasados
para serem inclu´ıdos em uma regress˜ao linear para inicializar os outros parˆametros. O
parˆametro de corre¸c˜ao de erros ´e inicializado em zero.
Deve-se estimar uma regress˜ao de br contra ffr e uma constante. Depois
armazena-se os res´ıduos. Estima-se outra regress˜ao usando br em primeira diferen¸ca
(d br) contra os res´ıduos defasados, as defasagens de 1 at´e 2 e a primeira diferen¸ca de
ffr at´e a sua quarta defasagem. Ap´os rodar o modelo salve os valores dos coeficientes
como vari´aveis:
•g1 = $coeff(d br 1)
•g2 = $coeff(d br 2)
•d0 = $coeff(d ffr)
•d1 = $coeff(d ffr 1)
•d2 = $coeff(d ffr 2)
•d3 = $coeff(d ffr 3)
•d4 = $coeff(d ffr 4)
Em seguida rode uma regress˜ao de br contra constante e ffr e salve os coeficientes
da constante e de ffr
•b1 = $coeff(const)
•b2 = $coeff(ffr)
•a=0
Uma vez que os valores declarados s˜ao obtidos, um bloco nls ´e constru´ıdo
para estimar o modelo acima. Para estimar esse modelo, clique no menu
Modelo>M´ınimos Quadrados N˜ao-Linear (NLS). Insira o seguinte c´odigo:
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 142
A estimativa pode ser vista na seguinte tela:
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 143
Estes correspondem aos resultados anteriores. As estimativas dos parˆametros de
cointegra¸c˜ao s˜ao muito pr´oximas das obtidas por uma regress˜ao simples de br sobre
ffr e uma constante. Finalmente, os parˆametros de cointegra¸c˜ao estimados b1 eb2 s˜ao
usados para calcular os res´ıduos e estes s˜ao testados quanto `a estacionaridade (tamb´em
conhecido como Engle-Granger). Deve-se utilizar um teste ADF e a estat´ıstica de
teste deve ser comparada com o valor cr´ıtico adequado. Para isso, clica-se no menu
Salvar>Definir nova vari´avel.
•theta1 = 1-$coeff(a)
•ehat = br-$coeff(b1)-$coeff(b2)*ffr
Depois executa-se um teste ADF:
A raz˜ao tdo res´ıduo defasado ´e -5.52. Observe que o relacionamento de cointegra¸c˜ao
cont´em um intercepto. A conclus˜ao ´e que a taxa de t´ıtulos e a taxa de fundos federais
s˜ao cointegradas.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 144
Universidade Federal de Pelotas - UFPel
145
Cap´ıtulo 9
Vetor de Corre¸c˜ao de Erro e Vetor
Autorregressivo
O modelo de vetor autorregressivo ´e uma estrutura geral usada para descrever a
interrela¸c˜ao dinˆamica entre vari´aveis estacion´arias. Portanto, o primeiro passo na
an´alise deve ser determinar se os dados s˜ao estacion´arios em n´ıvel. Caso contr´ario, tome
as primeiras diferen¸cas de seus dados e tente novamente. Normalmente, se os n´ıveis
(ou n´ıveis em logaritmo) de sua s´erie temporal n˜ao forem estacion´arios, as primeiras
diferen¸cas ser˜ao. Se as s´eries temporais n˜ao forem estacion´arias, a estrutura VAR
precisa ser modificada para permitir uma estimativa consistente das rela¸c˜oes entre as
s´eries. O modelo vetorial de corre¸c˜ao de erro (VECM) ´e apenas um caso especial do
VAR para vari´aveis que s˜ao estacion´arias em suas diferen¸cas (ou seja, I(1)). O VECM
tamb´em pode levar em conta quaisquer rela¸c˜oes de cointegra¸c˜ao entre as vari´aveis.
9.1 Modelos VAR e VEC
Considere duas s´eries temporais com as vari´aveis ytext. Generalizando a discuss˜ao
sobre o relacionamento dinˆamico dessas duas s´eries interrelacionadas em um sistema
de equa¸c˜oes:
yt=β10 +β11 yt−1+β12 xt−1+vy
t
xt=β20 +β21 xt−1+β22 yt−1+vx
t
As equa¸c˜oes descrevem um sistema em que cada vari´avel ´e uma fun¸c˜ao de sua
pr´opria defasagem e da defasagem da outra vari´avel no sistema. Juntas, as equa¸c˜oes
constituem um sistema conhecido como vetor autorregressivo (VAR). Neste exemplo,
como o lag m´aximo ´e de ordem um, temos um VAR(1).
Se yexs˜ao estacion´arios, o sistema pode ser estimado usando m´ınimos quadrados
ordin´arios aplicados a cada equa¸c˜ao. Se yexn˜ao s˜ao estacion´arios em seus n´ıveis, mas
estacion´arios em diferen¸cas (ou seja, I(1)), ent˜ao pegue as diferen¸cas e estime:
∆yt= ∆ β11 yt−1+β12 ∆xt−1+v∆y
t
∆xt=β21 ∆xt−1+β22 ∆yt−1+v∆x
t
Se yexs˜ao I(1) e cointegrados, ent˜ao o sistema de equa¸c˜oes pode ser modificado
para permitir a rela¸c˜ao de cointegra¸c˜ao entre as vari´aveis. A rela¸c˜ao leva a um modelo
conhecido como modelo de corre¸c˜ao de erro vetorial (VEC). Ser˜ao utilizados dados
Loures e Fernandez 146
macroeconˆomicos sobre o PIB real para uma economia grande e pequena; usa ´e o PIB
real trimestral para os Estados Unidos e aus ´e a s´erie correspondente para a Austr´alia.
Os dados podem ser obtidos no arquivo gdp.gdt e j´a foram dimensionados para que
ambas as economias tenham PIB real de 100 no ano 2000, ou seja, ano base igual 2000.
Utiliza-se um modelo VEC porque as s´eries temporais n˜ao s˜ao estacion´arias em
n´ıvel, mas s˜ao em suas primeiras diferen¸cas e as vari´aveis s˜ao cointegradas.
9.1.1 Gr´aficos de s´eries temporais
As impress˜oes iniciais devem ser obtidas observando os gr´aficos das duas s´eries. Os
gr´aficos de dados s˜ao obtidos da maneira usual ap´os a importa¸c˜ao do conjunto de
dados. Os dados sobre o PIB dos EUA e da Austr´alia s˜ao encontrados no arquivo
gdp.gdt e foram coletados de 1970 : 1 −2000 : 4. Toma-se a primeira diferen¸ca das
vari´aveis e plota-se um gr´afico de m´ultiplas s´eries temporais:
A partir dos gr´aficos de s´eries temporais, parece que as s´eries em n´ıvel possuem uma
tendˆencia de crescimento ao longo do tempo. As primeiras diferen¸cas possuem uma
pequena tendˆencia ascendente. Isso significa que as vari´aveis em primeira diferen¸ca
podem ser estacion´arias. Pode-se verificar se isso ´e verdade realizando um teste ADF.
Deve-se levar em conta, quantas defasagens devem ser utilizadas no teste ADF. H´a
v´arias maneiras de selecionar lags e o gretl automatiza algumas delas. O conceito
b´asico ´e incluir lags suficientes nas regress˜oes do teste ADF para tornar os res´ıduos de
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 147
ru´ıdo branco.
A primeira estrat´egia ´e incluir defasagens suficientes para que a ´ultima delas seja
estatisticamente significativa. O gretl automatiza esse processo quando se utiliza a
op¸c˜ao do teste ADF:testar para baixo a partir da ordem m´axima de defasagem . Inicie
as regress˜oes do ADF com um n´umero bastante generoso de defasagens e o gretl reduz
automaticamente esse n´umero at´e que a propor¸c˜ao t na defasagem restante mais longo
seja significativa no n´ıvel de 10%.
Os p-valores da estat´ıstica s˜ao muito altos para a s´eries indicando que ambas s˜ao
n˜ao estacion´arias em n´ıvel. Se esse teste for repetido com as primeiras diferen¸cas das
duas s´eries pode-se ver que elas s˜ao estacion´arias.
A outra estrat´egia ´e testar os res´ıduos das regress˜oes do Teste de Dickey-Fuller
Aumentado para autocorrela¸c˜ao. Comece com um modelo pequeno e teste os res´ıduos
da regress˜ao para autocorrela¸c˜ao usando um teste LM (ou LMF). Se os res´ıduos forem
autocorrelacionados, adicione outra diferen¸ca defasada da s´erie `a regress˜ao ADF e
teste os res´ıduos novamente. Uma vez que a estat´ıstica LM ´e insignificante, termine a
testagem. ´
E necess´ario come¸car com um n´umero bastante razo´avel de defasagens no
modelo ou os testes n˜ao possuir˜ao propriedades desej´aveis.
9.1.2 Teste de cointegra¸c˜ao
Dado que as duas s´eries s˜ao estacion´arias em suas diferen¸cas (ou seja, ambas s˜ao I(1)),
o pr´oximo passo ´e testar se elas s˜ao cointegradas. Para fazer isso, use os m´ınimos
quadrados para estimar a regress˜ao a seguir.
aust=β usat+et
Obtenha os res´ıduos, ˆete ent˜ao estime o seguinte modelo:
∆ ˆet=γˆet−1+ut
Para isso estime a regress˜ao de aus contra usa e salve os res´ıduos. A seguir, tome
a primeira diferen¸ca dos res´ıduos e fa¸ca a regress˜ao da primeira diferen¸ca dos res´ıduos
contra os res´ıduos defasados (sem a inclus˜ao da constante).
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 148
Veja que os res´ıduos defasados s˜ao significativos a 1%, o que permite rejeitar a
hip´otese nula de n˜ao cointegra¸c˜ao.
9.1.3 VECM: PIB australiano e americano
Possui-se duas s´eries que s˜ao estacion´arias em primeira diferen¸ca. Consequentemente,
um modelo de corre¸c˜ao de erros da dinˆamica de curto prazo pode ser estimado usando
m´ınimos quadrados. Um modelo simples de corre¸c˜ao de erros ´e:
∆aust=β11 +β12 ˆet−1+v1t
∆aust=β21 +β22 ˆet−1+v2t
e as estimativas s˜ao dadas por:
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 149
O coeficiente negativo significativo em ˆet−1indica que o PIB australiano responde
a um desequil´ıbrio tempor´ario entre os EUA e a Austr´alia. Os EUA n˜ao parecem
responder a um desequil´ıbrio entre as duas economias. A raz˜ao tem ˆet−1´e
insignificante. Esses resultados apoiam a ideia de que as condi¸c˜oes econˆomicas na
Austr´alia dependem daquelas nos EUA mais do que as condi¸c˜oes nos EUA dependem
da Austr´alia. Em um modelo simples de com´ercio de duas economias, os EUA s˜ao uma
grande economia fechada e a Austr´alia ´e uma pequena economia aberta.
9.1.4 Usando o comando vecm
O exemplo do PIB da Austr´alia/EUA foi realizado manualmente em uma s´erie de
etapas para familiariz´a-lo com a estrutura do modelo VEC. Na maioria das aplica¸c˜oes,
o economista emp´ırico provavelmente usar´a outros m´etodos para estimar o VECM.
Eles fornecem informa¸c˜oes adicionais ´uteis e geralmente mais eficientes.
Depois de algumas experimenta¸c˜oes acaba-se usando um modelo de terceira ordem
com apenas 1 vetor cointegrante. Como existem apenas 2 s´eries, o n´umero m´aximo e
´unico de vetores cointegrantes ´e 1. O padr˜ao, “caso 3”, que ´e uma constante irrestrita,
´e usado para modelar os componentes determin´ısticos do modelo. Escolher o caso
correto ´e outra parte da arte de fazer um estudo VECM. Assim, cabe ao economista
emp´ırico aprofundar os estudos nesta quest˜ao para resolver esse problema complicado.
Para estimar o modelo VECM clique em Modelo>S´eries Temporais
Multivariadas>VECM.´
E poss´ıvel adicionar vari´aveis end´ogenas ao VAR, vari´aveis
ex´ogenas (que devem ser I(0)), escolher defasagens, n´umero de vetores cointegrantes e
um modelo que inclu´ı uma tendˆencia determin´ıstica. A janela oferece acesso imediato
a testes, gr´aficos e ferramentas adicionais para an´alise. Al´em disso, h´a tamb´em um
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 150
recurso pr´atico que permite uma r´apida reespecificar˜ao do modelo. Na barra de menu
da janela do modelo, escolha Editar>Revisar especifica¸c˜ao para abrir a caixa de
di´alogo VECM novamente para alterar as configura¸c˜oes.
A seguir est˜ao as estimativas da equa¸c˜ao de cointegra¸c˜ao. Os vetores de ajuste
s˜ao, na verdade, os coeficientes dos res´ıduos defasados da rela¸c˜ao de cointegra¸c˜ao.
Geralmente, estes devem ter sinais opostos em dois modelos de vari´aveis, caso contr´ario
os ajustes aos choques podem n˜ao ser equilibrados. Finalmente, algumas estat´ısticas
de sele¸c˜ao de modelo (n˜ao mostradas aqui) aparecem na parte inferior que podem ser
´uteis para determinar a ordem do VECM.
O coeficiente de corre¸c˜ao de erro ´e negativo e diferente de zero para os EUA. A
autocorrela¸c˜ao nos res´ıduos n˜ao ´e evidente. Para a Austr´alia, o termo de corre¸c˜ao de
erro n˜ao ´e significativamente diferente de zero e n˜ao h´a autocorrela¸c˜ao remanescente.
Uma maneira de avaliar se foram feitas as escolhas de modelagem adequadas ´e examinar
v´arias estat´ısticas na sa´ıda para verificar a significˆancia dos atrasos, bem como as
magnitudes e os sinais dos coeficientes. Verifique se defasagens desnecess´arias foram
inclu´ıdas no modelo (raz˜oes t insignificantes nas defasagens mais longas), verifique o
valor da estat´ıstica de Durbin-Watson (deve ser pr´oximo de 2) e verifique os sinais e a
significˆancia dos termos de corre¸c˜ao de erros . Neste caso, os sinais s˜ao os esperados, e
apenas a economia australiana se ajusta significativamente aos choques no curto prazo.
Mais uma coisa vale a pena conferir. Plote os termos de corre¸c˜ao de erro.
Este gr´afico mostra que a maior parte do desequil´ıbrio ´e negativo. A Austr´alia
est´a constantemente tentando alcan¸car os EUA. Note que o coeficiente na equa¸c˜ao
de cointegra¸c˜ao ´e -1,025. A estimativa simples dos m´ınimos quadrados foi -0,985.
Suspeitando que esse parˆametro deva ser igual a -1 (essas economias de mercado s˜ao
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 151
aproximadamente compar´aveis), teste isso usando uma instru¸c˜ao restrita.
9.2 Vetor autoregressivo
O modelo de vetor autoregressivo (VAR) ´e, na verdade, um pouco mais simples do que
estimar o modelo VEC. ´
E utilizado quando n˜ao h´a cointegra¸c˜ao entre as vari´aveis e ´e
estimado a partir de s´eries temporais estacion´arias.
Ser˜ao utilizados os dados macroeconˆomicos de RPDI e RPCE para os Estados
Unidos. Os dados s˜ao encontrados no conjunto de dados fred.gdt e j´a foram
transformados em seus logaritmos naturais. Na base de dados, y´e o logaritmo da renda
dispon´ıvel real e c´e o logaritmo das despesas reais de consumo. O primeiro passo ´e
determinar se as vari´aveis s˜ao estacion´arias. Se n˜ao forem, deve-se transform´a-las em
s´eries temporais estacion´arias e verificar se h´a cointegra¸c˜ao. Os dados precisam ser
analisados da mesma forma que a s´erie do PIB no exemplo do VECM. Examine os
gr´aficos para determinar poss´ıveis tendˆencias e use os testes ADF para determinar em
quais formas os dados s˜ao estacion´arios. Esses dados s˜ao n˜ao estacion´arios em n´ıveis,
mas estacion´arios em diferen¸cas. Em seguida, estime o vetor de cointegra¸c˜ao e teste
a estacionaridade de seus res´ıduos. Se os res´ıduos forem estacion´arios, as s´eries s˜ao
cointegradas e, ent˜ao, estima-se um VECM. Caso contr´ario, um tratamento VAR ´e
suficiente.
Para selecionar o n´umero de defagens a serem inclu´ıdas no VAR, clique no menu
Modelo>S´eries Temporais Multivariadas>Sele¸c˜ao de defasagnes do VAR.
Escolha um n´umero suficientemente grande de defasagem para a testagem.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 152
Pode-se observar que conforme os valores dos testes BIC eHQC deve-se escolher
o modelo com apenas 1 defasagem. No entanto, deve-se verificar se h´a alguma
correla¸c˜ao serial nos res´ıduos. Para isso, ap´os estimarmos o modelo VAR clicar no
menu Modelo>S´eries Temporais Multivariadas>Autoregress˜ao Vetorial com
apenas 1 defagem e uma matriz de vari^ancia-covari^ancia HAC, deve-se realizar um
teste de autocorrela¸c~ao de Ljung-Box. Observe que a autocorrela¸c˜ao some ap´os
inserirmos 4 defasagens. Em outras palavras, os p-valores s˜ao superiores a 0.10 o que
permite n˜ao rejeitar a hip´otese nula de n˜ao autocorrela¸c˜ao.
Dessa forma, deve-se estimar um modelo VAR com 4 defasagens:
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 153
9.2.1 Fun¸c˜oes de impulso resposta e decomposi¸c˜ao de
variˆancia
As fun¸c˜oes de impulso resposta mostram os efeitos dos choques na trajet´oria de ajuste
das vari´aveis. As decomposi¸c˜oes da variˆancia do erro de previs˜ao medem a contribui¸c˜ao
de cada tipo de choque para a variˆancia do erro de previs˜ao. Ambos os c´alculos s˜ao
´uteis para avaliar como os choques nas vari´aveis econˆomicas reverberam em um sistema.
Fun¸c˜oes de impulso resposta e decomposi¸c˜oes de variˆancia de erro de previs˜ao podem
ser produzidas ap´os a estima¸c˜ao dos modelos VAR e VECM. Os resultados podem ser
apresentados em uma tabela ou gr´afico.
Para gerar os gr´aficos das fun¸c˜oes de impulso resposta, ap´os estimar o modelo VAR,
deve-se clicar no menu Gr´afico>Impulso Resposta. Nesse menu, pode-se escolher
se quer observar os efeitos dos choques em um ´unico gr´afico ou se deseja acompanhar
o efeito exclusivo em alguma das vari´aveis do modelo. Abaixo apresenta-se um gr´afico
com os m´ultiplos choques:
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 154
O per´ıodo escolhido para acompanhar os choques foi de 12 trimestres. Um exemplo
de interpreta¸c˜ao ´e que o efeito de um choque na varia¸c˜ao da renda pessoal dispon´ıvel
faz com que a varia¸c˜ao dos gastos em consumo aumente muito pouco nos 2 primeiros
trimestres. Ap´os isso, essa varia¸c˜ao ser´a negativa at´e se aproximar de zero no sexto
at´e o oitavo trimestre.
No menu an´alise, pode-se ver os valores para as fun¸c˜oes de impulso resposta, bem
como, para a decomposi¸c˜ao de variˆancia do erro de previs˜ao.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 155
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 156
Universidade Federal de Pelotas - UFPel
157
Cap´ıtulo 10
Dados em Painel
Um painel de dados consiste em um grupo de unidades transversais (pessoas, empresas,
estados ou pa´ıses) que s˜ao observadas ao longo do tempo. Denota-se o n´umero de
unidades transversais por ne o n´umero de per´ıodos de tempo que s˜ao observados como
T. Para usar os procedimentos predefinidos para estimar modelos usando dados de
painel em gretl, deve-se ter certeza de que os dados foram estruturados corretamente
no programa.
As caixas de di´alogo para atribuir a estrutura do conjunto de dados do painel
usando vari´aveis de ´ındice. Para usar este m´etodo, os dados devem incluir vari´aveis que
identifiquem cada indiv´ıduo e per´ıodo de tempo. O gretl fornece acesso f´acil a v´arios
conjuntos de dados de painel ´uteis por meio de seu servidor de banco de dados. Inclu´ı
a Penn World Table e os dados de Barro e Lee (1996) sobre desempenho educacional
internacional. Esses dados podem ser instalados usando o menu Arquivo>Base de
Dados>No servidor de base de dados.
10.1 Um modelo b´asico
A express˜ao mais geral dos modelos de regress˜ao linear que possuem dimens˜oes de
tempo e unidade ´e vista na equa¸c˜ao abaixo.
yit =β1it +β2it x2it +β3it x3it +eit (10.1)
sendo i= 1, . . . , n et= 1, . . . , T . Se tiver um conjunto completo de observa¸c˜oes
de tempo para cada indiv´ıduo, haver´a nT observa¸c˜oes totais na amostra. Neste
caso, diz que o painel est´a equilibrado. N˜ao ´e incomum ter algumas observa¸c˜oes de
tempo perdido para um ou mais indiv´ıduos. Quando isso acontece, o n´umero total de
observa¸c˜oes ´e menor que nT e o painel fica desbalanceado.
O maior problema com a Equa¸c˜ao 10.1 ´e que mesmo que o painel esteja balanceado,
o modelo cont´em 3 vezes mais parˆametros do que observa¸c˜oes (nT )! Para poder
estimar o modelo, algumas suposi¸c˜oes devem ser feitas a fim de reduzir o n´umero
de parˆametros. Uma das suposi¸c˜oes mais comuns ´e que as inclina¸c˜oes s˜ao constantes
para cada indiv´ıduo e para cada per´ıodo de tempo; al´em disso, as intercepta¸c˜oes variam
apenas por indiv´ıduo. Este modelo ´e mostrado na Equa¸c˜ao 10.2.
yit =β1i+β2x2it +β3x3it +eit (10.2)
Loures e Fernandez 158
Essa especifica¸c˜ao inclu´ı n+ 2 parˆametros, inclu´ı vari´aveis dummy que permitem
separar cada intercepto para cada indiv´ıduo. Tal modelo implica que n˜ao h´a mudan¸cas
substantivas na fun¸c˜ao de regress˜ao em curtos per´ıodos de tempo. Obviamente, quanto
maior a dimens˜ao do tempo, maior a probabilidade de essa suposi¸c˜ao ser falsa.
10.2 Efeitos Fixos
Na Equa¸c˜ao 10.2 os parˆametros que variam por indiv´ıduo s˜ao chamados de efeitos fixos
individuais e o modelo ´e referido como efeitos fixos unidirecionais. O modelo ´e adequado
quando os indiv´ıduos da amostra diferem uns dos outros de uma forma que n˜ao varia
ao longo do tempo. ´
E uma maneira ´util de evitar diferen¸cas n˜ao observadas entre
os indiv´ıduos da amostra que, de outra forma, teriam de ser omitidas. Lembre-se de
que a omiss˜ao de vari´aveis relevantes pode fazer com que os m´ınimos quadrados sejam
tendenciosos e inconsistentes; um modelo de efeitos fixos unidirecional, que requer o
uso de dados de painel, pode ser muito ´util para mitigar o vi´es associado a efeitos n˜ao
observ´aveis invariantes no tempo.
Para pain´eis mais longos em que a fun¸c˜ao de regress˜ao est´a mudando ao longo do
tempo, vari´aveis fict´ıcias de tempo T−1 podem ser adicionadas ao modelo. O modelo
torna-se:
yit =β1i+β1t+β2x2it +β3x3it +eit (10.3)
em que β1iou β1tdevem ser omitidos para evitar colinearidade perfeita. Este modelo
cont´em n+ (T−1) + 2 parˆametros que geralmente ´e menor que as nT observa¸c˜oes na
amostra. A Equa¸c˜ao 10.3 ´e chamada de modelo de efeitos fixos bidirecionais porque
cont´em parˆametros que ser˜ao estimados para cada indiv´ıduo e cada per´ıodo de tempo.
Ainda ´e poss´ıvel reescrever a Equa¸c˜ao 10.3 da seguinte forma:
yit =β2x2it +β3x3it +ci+eit (10.4)
sendo cio efeito fixo individual que est´a potencialmente correlacionado com os
regressores x. Pode-se escrever Equa¸c˜ao 10.4 tomando a m´edia para cada unidade
i:
¯yi=β2¯x2i+β3¯x3i+ ¯ci+ ¯ei(10.5)
Subtraindo (10.4) de (10.5) tem-se que:
(yit −¯yi) = β2(x2it −¯x2i) + β3(x3it −¯x3i)+(ci−¯ci)+(eit −¯ei)
y∗
it =β2x∗
2it +β3x∗
3it +e∗
it (10.6)
Os termos com asterisco se referem aos termos entre parˆenteses que s˜ao diferenciados
pela m´edia. Observe que cie todos os demais termos que s˜ao constantes no tempo
ser˜ao eliminados com esta transforma¸c˜ao. Esse estimador ´e conhecido Within e pode
ser estimado por MQO.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 159
10.3 Primeira diferen¸ca
Antes de apresentar o modelo de primeira diferen¸cas importa-se o conjunto de dados
nls panel.csv que inclui um subconjunto do National Longitudinal Survey, conduzido
pelo Departamento de Trabalho dos EUA. A base de dados inclui observa¸c˜oes sobre
mulheres, em 1968, com idades compreendidas entre os 14 e os 24 anos. Em seguida,
acompanha-as ao longo do tempo, registando v´arios aspectos das suas vidas anualmente
at´e 1973 e semestralmente depois. A amostra ´e composta por 716 mulheres observadas
em 5 anos (1982,1983,1985,1987 e 1988). O painel ´e equilibrado e h´a um total de
3.580 observa¸c˜oes.
O primeiro passo trata-se da importa¸c˜ao desse conjunto de dados. Para tanto,
clica-se no menu Arquivo>Abri dados>Arquivos do usu´ario. N˜ao esque¸ca de
selecionar a op¸c˜ao para leitura de arquivos CSV ou para a leitura de qualquer tipo de
arquivo. Essa op¸c˜ao fica no menu localizado acima do bot˜ao Abrir. Ao abrir os dados
ogretl perguntar´a se deseja interpretar a primeira apenas como uma coluna, vocˆe deve
marcar que N~ao. Posteriormente, o software lhe oferecer´a algumas op¸c˜oes para que se
possa definir a base de dados no formato de dados em painel. Quando perguntado sobre
a estrutura de dados, selecione a op¸c˜ao dados em painel>usar vari´aveis ´ındice.
Selecione o id como vari´avel de unidade ou de grupo e o ano (year) como vari´avel de
´ındice de tempo. A dimens˜ao temporal do painel ´e anual tendo come¸cado em 1982.
Para utilizar o estimador de primeiras diferen¸cas s˜ao necess´arios pelo menos dois
per´ıodos de tempo, e se deve diferenciar as vari´aveis no tempo e estimar o modelo
por MQO. As vari´aveis invariantes no tempo e a intercepta¸c˜ao saem do modelo ap´os a
diferencia¸c˜ao. Por exemplo, se desejar estimar o seguinte modelo:
ln (wageit ) = β1i+β2educit +β3exper3it +eit (10.7)
Tomando a primeira diferen¸ca, note que o termo educ desaparece da equa¸c˜ao:
∆ ln (wageit ) = ∆ β3experit + ∆ eit (10.8)
Para estimar esse modelo, clique no menu Modelo>M´ınimos Quadrados
Ordin´arios e selecione as vari´aveis em primeira diferen¸ca.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 160
Embora o modelo seja simples, ´e poss´ıvel observar que a varia¸c˜ao da experiˆencia
influencia positivamente a varia¸c˜ao no sal´ario.
Por fim, qual estimador utilizar: efeitos fixos ou primeira diferen¸ca? O estimador
de primeira diferen¸ca pode ser usado se T > 2. Se T= 2 ambos estimadores s˜ao
idˆenticos. Para T > 2, o estimador de efeitos fixos ´e mais eficiente se os pressupostos
cl´assicos s˜ao satisfeitos. O m´etodo de primeira diferen¸ca pode ser melhor caso os
res´ıduos apresentem correla¸c˜ao serial e se T´e muito grande e o n´umero de unidades
Nn˜ao ´e t˜ao grande. Nesse caso, o painel apresenta caracter´ısticas de s´eries temporais
e alguns problemas de dependˆencia podem surgir, assim provavelmente o estimador
de primeiras diferen¸cas ´e mais apropriado. Caso contr´ario, ´e melhor realizar as duas
estimativas e checar a robustez.
10.4 Painel Agrupado
Para estimar o modelo da Equa¸c˜ao 10.7 deve-se fazer o mesmo procedimento com as
vari´aveis em n´ıvel, sem estarem em primeira diferen¸ca. Para isso deve-se estimar a
seguinte equa¸c˜ao:
ln (wageit ) = β1+β2educit +β3exper3it +γt+eit (10.9)
Note que foram inclu´ıdo efeitos fixos temporais (γt), isto ´e, dummies de ano. Em
seguida realiza-se a estima¸c˜ao desse modelo por MQO.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 161
Veja que a educa¸c˜ao e a experiˆencia possuem um efeito positivo sobre o sal´ario.
Observe que as dummies temporais n˜ao s˜ao significativas.
10.5 Efeitos Aleat´orios
O estimador de efeitos aleat´orios trata as diferen¸cas individuais como sendo atribu´ıdas
aleatoriamente aos indiv´ıduos. Ao inv´es de estim´a-los como parˆametros como realizado
no modelo de efeitos fixos, aqui eles s˜ao incorporados ao erro do modelo, que em um
painel ter´a uma estrutura espec´ıfica. O termo β1ina Equa¸c˜ao 10.3 ´e modelado:
β1i=¯
β1+ut(10.10)
em que uis˜ao as diferen¸cas individuais aleat´orias que s˜ao as mesmas em cada per´ıodo
de tempo.
yit =¯
β1+β2x2it +β3x3it + (eit +ui)
=¯
β1+β2x2it +β3x3it +vit
(10.11)
o termo combinado de erro ´e chamado de erro de composi¸c˜ao:
vit =eit +ui
A propriedade chave ´e que novo termos de erro ´e homoced´astico e serialmente
correlacionado:
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 162
σ2
v=var (vit ) = var (eit +ui) = σ2
u+σ2
e
Para o indiv´ıduo ia covariˆancia entre os erros ´e:
cov (vit, vis )=0
para t=s. Al´em disso, a covariˆancia entre quaisquer dois indiv´ıduos ´e zero. Uma das
principais vantagens do modelo de efeitos aleat´orios ´e que os parˆametros dos regressores
invariantes no tempo podem ser estimados. As estimativas dos parˆametros s˜ao
realmente obtidas atrav´es de M´ınimos Quadrados Generalizados Fact´ıvel (MQGEF).
A transforma¸c˜ao que ´e usada nas vari´aveis do modelo ´e algumas vezes chamada de
quase-degrada¸c˜ao. ´
E baseado no c´alculo de:
θ= 1 −σe
pT σ2
u+σ2
e
Com θ∈[0,1] . Lembre-se do estimador Within de efeitos fixos. Deve-se fazer a
diferencia¸c˜ao da m´edia de cada unidade imultiplicada pelo parˆametro θ, como segue:
(yit −θ¯yi) = ( ¯
β1−θ¯
β1) + β2(x2it −θ¯x2it ) + β3(x3it −θ¯x3it )+(vit −θ¯vit )
y∗
it =β1+β2x∗
2it +β3x∗
3it +v∗
it
As vari´aveis em asterisco referem-se aos termos em parˆenteses e a constante ´e
definida como β1= ( ¯
β1−θ¯
β1).
10.6 Testes de diagn´ostico de painel
H´a alguns testes de especifica¸c˜ao chave que devem ser feitos antes de confiar
nos efeitos fixos, aleat´orios ou nos estimadores de m´ınimos quadrados agrupados.
Para consistˆencia, todos exigem que a heterogeneidade n˜ao observada n˜ao esteja
correlacionada com os regressores do modelo. Isso ´e testado usando uma vers˜ao de
um teste de Hausman. O outro teste ´e para a presen¸ca de efeitos aleat´orios, esse
teste ´e um teste LM que `as vezes ´e referido como Breusch-Pagan.
10.6.1 Breusch-Pagan
Oteste de Breusch-Pagan ´e baseado numa estat´ıstica teste de um multiplicador
de Lagrange e ´e calculado da seguinte forma:
LM =snT
2 (T−1) (Pn
i=1 (Pn
i=1 ˆeit)2
Pn
i=1 PT
i=1 ˆe2
it −1)
Com a hip´otese nula H0:σ2
u= 0 contra a alternativa que H1:σ2
u≥0. Sob
a hip´otese nula LM ∼N(0,1) e a melhor ideia ´e realizar um teste unicaudal.
Infelizmente o gretl e outros softwares relatam o LM2e usam uma distribui¸c˜ao χ2(1)
que faz com que a hip´otese alternativa seja H1:σ2
u= 0.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 163
A boa not´ıcia ´e que pelo menos gretl calcula LM2por padr˜ao sempre que se
estima um modelo de efeitos aleat´orios. A rejei¸c˜ao da hip´otese nula significa que o
indiv´ıduo (e neste modelo, aleat´orio) as diferen¸cas possuem variˆancia. Se o economista
emp´ırico n˜ao conseguir rejeitar a hip´otese nula, provavelmente desejar´a usar M´ınimos
Quadrados Agrupados. Se os efeitos individuais aleat´orios estiverem correlacionados
com regressores, ent˜ao o estimador de efeitos aleat´orios n˜ao ser´a consistente. Um teste
estat´ıstico desta proposi¸c˜ao deve ser feito sempre que este estimador for utilizado, a
fim de reduzir a chance de erro de especifica¸c˜ao do modelo.
10.6.2 Hausman
Oteste de Hausman prova a consistˆencia do estimador de efeitos aleat´orios. A
hip´otese nula ´e que essas estimativas s˜ao consistentes, ou seja, exige que a hip´otese
de ortogonalidade dos res´ıduos seja satisfeita. O teste ´e baseado numa medida, H, que
´e uma “distˆancia” entre os estimadores de efeitos fixos e efeitos aleat´orios. Essa medida
´e constru´ıda de modo que sob o nulo segue a distribui¸c˜ao χ2com graus de liberdade
iguais ao n´umero de regressores, J, que variam no tempo. Se o valor de Hfor grande,
isso sugere que o estimador de efeitos aleat´orios n˜ao ´e consistente e o modelo de efeitos
fixos ´e prefer´ıvel.
Para calcular o teste, os seguintes procedimentos devem ser realizados:
1. Considere o modelo de efeitos aleat´orios como o “modelo restrito”, e salve a soma
dos quadrados dos res´ıduos como (SQRr);
2. Estime via MQO um modelo irrestrito em que a vari´avel dependente ´e y
(diferenciada da m´edia) e os regressores incluem X(diferenciado na m´edia) (como
no modelo RE) e as variantes diminu´ıdas de todas as vari´aveis variantes no tempo
(ou seja, os regressores de efeitos fixos);
3. Registre a soma dos res´ıduos quadrados deste modelo como SQRue;
4. Calcule H=n(SSRr−SSRu)/SSRu, em que n´e o n´umero total de observa¸c˜oes
usadas. Nesta variante, Hn˜ao pode ser negativo, uma vez que adicionar
regressores adicionais ao modelo efeitos aleat´orios n˜ao pode aumentar o SQR.
10.7 Exemplo
Com base no arquivo nls panel.gdt estima-se o seguinte modelo:
ln (wageit ) = β1+β2educit +β3experit +β4exper2
it +β5tenureit+
+β6tenure2
it +γ1south +γ2union +γ3black +eit
(10.12)
Para isso clique no menu Modelo>M´ınimos Quadrados Ordin´arios. Esse ´e o
modelo de painel agrupado:
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 164
Ap´os a estimativa deve-se clicar no menu Teste>Especifica¸c˜ao de Painel. Ao
fazer isso o gretl nos mostrar´a a seguinte sa´ıda:
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 165
Veja que o gretl j´a faz os dois testes de especifica¸c˜ao que foram discutidos
anteriormente. De acordo com o teste LM o modelo de efeitos aleat´orios ´e adequado
em rela¸c˜ao ao MQO. Conforme o teste de Hausman, verifica-se que o modelo de
Efeitos Fixo ´e adequado em rela¸c˜ao ao modelo de Efeitos Aleat´orios. Dessa forma,
deve-se realizar a estima¸c˜ao do modelo de efeitos fixos. Para isso, clique no menu
Modelo>Painel>Efeitos Fixos ou Aleat´orios. Escolha o modelo de efeitos fixos
e marque as op¸c˜oes para inclus˜ao de dummies temporais e erros padr˜oes robustos.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 166
Como as vari´aveis educ eblack possuem pouca ou nenhuma vari¸c˜ao temporal
elas s˜ao removidas do modelo. Note que a inclus˜ao das dummies temporais n˜ao foi
importante para estima¸c˜ao do modelo.
Universidade Federal de Pelotas - UFPel
167
Cap´ıtulo 11
Modelos com vari´avel dependente
qualitativa ou categ´orica
H´a muitos eventos na economia que n˜ao podem ser quantificados de forma significativa.
Como vocˆe vota em uma elei¸c˜ao, se vocˆe vai para a p´os-gradua¸c˜ao, se vocˆe possui o
trabalho assalariado ou qual faculdade vocˆe escolhe n˜ao h´a uma forma natural de ser
quantificado. Cada um deles expressa uma qualidade ou condi¸c˜ao que vocˆe possui.
Modelos de como essas decis˜oes s˜ao determinadas por vari´aveis que s˜ao chamados de
escolha qualitativa ou modelos de vari´aveis qualitativas.
As escolhas podem ser entre duas (bin´arias) ou mais (multinomiais) alternativas.
Escolhas multinomiais podem ser feitas a partir de uma hierarquia (ordenadas) ou n˜ao.
Por exemplo, uma escolha de uma escala de satisfa¸c˜ao ´e ordenada e a escolha de ir a
p´e, de carro ou de ˆonibus para o trabalho n˜ao. Uma vari´avel dependente limitada
´e cont´ınua, mas sua faixa de valores ´e restrita de alguma forma. Alguns dos valores
da vari´avel dependente n˜ao s˜ao observados ou, se todos forem observados, alguns s˜ao
restritos ao mesmo valor se o valor real exceder (ou cair abaixo) algum limite. Vers˜oes
simples de ambos os tipos de modelo s˜ao consideradas abaixo.
Inicia-se com decis˜oes bin´arias e depois passa-se para modelos de escolha
multinomial. Modelos para dados de contagem s˜ao estimados e regress˜oes censuradas
e truncadas s˜ao consideradas.
11.1 Modelo de probabilidade linear
Em um modelo de escolha bin´aria, a decis˜ao de modelar tem apenas dois resultados
poss´ıveis. Um n´umero artificial ´e atribu´ıdo a cada resultado antes que an´alises
emp´ıricas adicionais possam ser feitas. Em um modelo de escolha bin´aria, ´e
convencional atribuir “1” `a vari´avel se ela possuir uma qualidade espec´ıfica ou se existir
uma condi¸c˜ao e “0” caso contr´ario. Assim, a vari´avel dependente ´e:
yi=1 se o indiv´ıduo ipossui a caracter´ıstica
0 caso contr´ario
O modelo de probabilidade linear, modela a probabilidade de que yi= 1 como
uma fun¸c˜ao linear das vari´aveis independentes. Neste exemplo, ´e tomada uma decis˜ao
bin´aria sobre dirigir de autom´ovel ou usar o transporte p´ublico.
Loures e Fernandez 168
autoi=1 se o indiv´ıduo iescolhe o carro
0 se o transporte p´ublico ´e escolhido
Isso ´e estimado em fun¸c˜ao do diferencial de tempo de deslocamento entre as duas
alternativas. Isso ´e dtime =(bustime −autotime)/10. Em um modelo de probabilidade
linear, isso se torna:
autoi=β1+β2dtimei+ei
Utiliza-se os dados da base transport.gdt. Esta base de dados pode ser baixada
diretamente do servidor. Clique no menu Arquivo>Arquivo de exemplos e observe
que h´a um pequeno computador (ver no servidor), selecione a op¸c˜ao POE 4th:
Ademais, tamb´em pode-se fazer o download de v´arias outras bases como as dos
manuais de econometria de Wooldridge e Gujarati. Primeiramente obt´em-se as
estat´ısticas descritivas (Ver>Estat´ısticas Descritivas) dos dados:
A m´edia da vari´avel auto representa a propor¸c˜ao de indiv´ıduos que escolhem o
transporte por autom´ovel. Note que esse valor ´e o que corresponde ao n´umero 1 da
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 169
vari´avel de escolha bin´aria. Em outras palavras, 47,62% dos indiv´ıduos da amostra
preferem esse tipo de transporte.
O modelo ´e estimado por m´ınimos quadrados usando erros padr˜oes robustos, pois
uma vari´avel dependente bin´aria ´e heteroced´astica. Posteriormente calcula-se uma nova
s´erie que assume o valor e a probabilidade prevista estiver acima de 50%. Tamb´em
calcula-se a previs˜ao incorreta, quando o modelo prevˆe que o indiv´ıduo escolher´a o
autom´ovel, mas ele de fato pega o ˆonibus. A m´edia desta s´erie mede a frequˆencia
relativa de previs˜oes incorretas.
O coeficiente em dtime ´e positivo (significativamente a 5%), o que indica que quanto
maior o diferencial de tempo, maior a probabilidade de uma pessoa fazer uma viagem
de autom´ovel. Ap´os estimar o modelo clica-se no menu Salvar>valores ajustados.
Ent˜ao salva-se os valores previstos como y hat. Em seguida cria-se as seguintes vari´aveis
usando o Menu da janela principal Acrescentar>Definir nova vari´avel:
•series y pred = y hat>0.5
•series incorrect = abs(auto-y pred)
Em seguida clique no menu Ferramentas>Console do gretl e digite o seguinte
comando: summary incorrect --by = auto --simple. Esse comando mostra as
principais estat´ısticas descritivas separadas por “auto”:
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 170
A partir deles pode-se determinar que apenas 1 de 11 passageiros de ˆonibus
(1/11 = 0,091) e 1 de 10 passageiros de autom´oveis (1/10 = 0,10) foram previstos
incorretamente. O n´umero total de previs˜oes corretas ´e igual a 19/21 = 90%. Esse
n´umero pode ser calculado, definindo uma nova vari´avel, da seguinte forma: scalar
correct = $nobs - sum (abs (auto - y pred). Lembre que 21 ´e o n´umero de
observa¸c˜oes da nossa amostra.
11.2 Probit
O modelo estat´ıstico Probit expressa a probabilidade ptal que yi= 1 como uma fun¸c˜ao
das vari´aveis independentes:
P[(yi|xi2, xi3)=1]=Φ(β1+β2xi2+β3xi3)
sendo Φ a fun¸c˜ao de distribui¸c˜ao cumulativa normal (cdf ). O argumento dentro de
Φ ´e linear nos parˆametros e chamado de fun¸c˜ao de ´ındice. Φ mapeia os valores da
fun¸c˜ao de ´ındice no intervalo fechado [0,1]. Estima-se este modelo usando uma fun¸c˜ao
de m´axima verossimilhan¸ca j´a dispon´ıvel no gretl. Utiliza-se a mesma base de dados
a qual foi usada para estimar o MPL (Modelo de Probabilidade Linear). A vantagem
dos Probit e do Logit em rela¸c˜ao a esse modelo ´e que todos os valores previstos estar˜ao
dentro do intervalo probabil´ıstico entre zero e um. A seguir ser´a estimada a seguinte
equa¸c˜ao:
P[autoi= 1] = Φ (β1+β2dtimei)
Para isso seleciona-se o seguinte menu Modelo>Vari´avel dependente
limitada>Probit>Bin´ario. Escolha a seguinte configura¸c˜ao (Veja Figura 11.1):
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 172
Figura 11.2: Sa´ıda do modelo Probit.
O diferencial de tempo aumenta em m´edia as chances do indiv´ıduo escolher o uso
do autom´ovel. Agora ser´a visto como interpretar mudan¸cas pontuais e na m´edia da
vari´avel independente e seus efeitos na vari´avel dependente.
11.2.1 Efeitos marginais e efeitos marginais m´edios
O efeito marginal de uma mudan¸ca em xij na probabilidade de escolha Pi´e:
∂Pi
∂xij
= Φ (β1+β2xi2+β3xi3)βj
em que Φ (·) ´e a densidade da distribui¸c˜ao de probabilidade normal. Isso significa que os
efeitos marginais dependem de todos os parˆametros do modelo bem como os valores das
vari´aveis. Dado que a viagem por transporte p´ublico atualmente leva 20 (dtime = 2)
minutos a mais do que o autom´ovel, o efeito marginal estimado foi:
∂ Pi
∂ dtimei
= Φ ( ˆ
β1+ˆ
β2dtimei)ˆ
β2= Φ (−0.0644 + 0.3×2) ×0.3 = 0.1037
Os efeitos marginais para vari´aveis indicadoras necessitam de uma abordagem
diferente. Para um regressor indicador, a probabilidade ´e calculada para cada um
de seus estados (0 e 1), mantendo os valores das outras vari´aveis constantes nos valores
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 173
selecionados. As demais vari´aveis podem ser avaliadas em suas m´edias amostrais ou
em pontos representativos.
Uma abordagem bastante popular ´e calcular os efeitos marginais m´edios. O efeito
marginal de uma mudan¸ca de xij em Pi´e:
\
AMEj=1
N
N
X
i= 1
Φ( ˆ
β1+ˆ
β2xi2+· ·· +ˆ
βNxiN )ˆ
βj
Tamb´em ´e comum avaliar os efeitos na m´edia de cada vari´avel independente. Isso
´e efeito do seguinte modo:
[
MEj=1
N
N
X
i= 1
Φ ( ˆ
β1+ˆ
β2¯x2+· ·· +ˆ
βN¯xN)ˆ
βj
Os efeitos de
[
MEjs˜ao calculados e rotulados no gretl como inclina¸c˜ao. A
maior desvantagem em us´a-los ´e que os valores m´edios das vari´aveis podem n˜ao
ser representativos. Isso ocorre com muita frequˆencia se uma ou mais das vari´aveis
independentes for um indicadora ou dummy. Por esse motivo, ´e indicado uso do AME,
a menos que haja casos espec´ıficos a serem considerados. Pode-se ter uma boa ideia
dos efeitos marginais (m´edios) observando as inclina¸c˜oes estimadas de um modelo de
probabilidade linear. Para ver os efeitos marginais m´edios, deve-se selecionar a op¸c˜ao
“mostrar a inclina¸c˜ao na m´edia” quando for estimar o modelo Probit:
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 174
O efeito de uma mudan¸ca na m´edia da diferen¸ca de tempo afeta em 0,11 a
probabilidade do individuo optar pelo uso do autom´ovel. Para computar os efeitos
marginais individuais, m´edios ou na m´edia de todas as vari´aveis dependentes ´e
poss´ıvel usar a fun¸c˜ao (pacote) lp-mfx. Para instalar este pacote, clique no menu
Arquivo>Pacotes de Fun¸c˜oes>No Servidor.
Clique no disquete para instalar. Depois estime novamente o modelo probit. Na
tela de estima¸c˜ao do modelo, clique no menu An´alise>Marginal effects –Figura
11.3
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 175
Figura 11.3: Selecionando a op˜ao Marginal effects.
Ser˜ao obtido as seguintes sa´ıdas – Figura 11.4:
Figura 11.4: Marginal effects.
Note que quando se seleciona mostrar “inclina¸c˜ao” o gretl calcula o efeito marginal
“at means”, isto ´e, o
\
AMEjpara a varia¸c˜ao de uma unidade da vari´avel avaliada. A
fun¸c˜ao lp-mfx tamb´em pode ser utilizada para calcular os efeitos marginais do modelo
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 176
logit que ser´a apresentado na pr´oxima subse¸c˜ao.
11.3 Logit
O modelo logit ´e muito similar ao probit. No entanto, a probabilidade de um
evento a ser descrito pelo evento por uma distribui¸c˜ao normal ´e modelada utilizando
uma distribui¸c˜ao log´ıstica. As distribui¸c˜oes normal e log´ıstica possuem uma forma
(curvatura) bastante similares, portanto a estima¸c˜ao desses modelos s˜ao muito
pr´oximas. A probabilidade que o indiv´ıduo iescolha a alternativa ´e:
Pi= (F zi) = Λ (zi) = 1
1 + e−zi
zi=
k
X
j= 1
xij βj
No logit, a probabilidade ´e modelada utilizando Λ (ziao inv´es de Φ (zi) como no
modelo probit. Para exemplificar o uso do modelo logit, ser´a utilizado a escolha pelo
consumo de refrigerante, sendo a vari´avel dependente igual a um se o consumidor
comprar Coca-Cola e zero caso contr´ario. Modela-se essa rela¸c˜ao como uma fun¸c˜ao da
raz˜ao entre o pre¸co da Coca-Cola (Coke, em inglˆes) e o pre¸co da Pepsi. O modelo ´e:
P r (C okei= 1) = ϕ(β1+β2pratio +β3disp coke +β4disp pepsi)
Para isso usa-se o arquivo coke.gdt. Para estimar esse modelo, clique no menu
Modelo>Vari´avel dependente limitada>Logit>Bin´ario:
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 177
A tabela dos valores previstos revela que com logit, dos (507 + 123) = 630
consumidores que escolheram Pepsi (Pepsi = 0). O modelo previu 507 deles
corretamente (80,48% correto para Pepsi). Para Coca-Cola o modelo previu 247/(263+
247) = 247/510 = 48,43%. A porcentagem total que foi prevista corretamente ´e
754/1140 = 66,1%. Para compar as estimativas do logit, com as do probit e do mpl
utiliza-se o script. Para isso clique no menu Arquivo>Arquivos de script>Novo
script>Script Gretl:
Para executar o script clique nas engrenagens, que est˜ao ao lado da impressora e
da tesoura. Cada modelo ficar´a dispon´ıvel na tela de ´ıcones. Deve-se arrastar o ´ıcone
de cada modelo para a Tabela de modelos e posteriormente clicar duas vezes nesse
´ıcone.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 178
O resultado ser´a o seguinte:
Figura 11.5: Tabela de modelos.
Os sinais e as raz~oes t s˜ao aproximadamente iguais entre os estimadores. Nos
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 179
modelos logit e probit, os coeficientes e os sinais s˜ao consistentes com a dire¸c˜ao
dos efeitos marginais. As magnitudes dos coeficientes diferem apenas por causa das
diferen¸cas impl´ıcitas em como os coeficientes s˜ao normalizados. Embora, n˜ao seja ´obvio,
h´a uma rela¸c˜ao aproximada entre os coeficientes de “inclina¸c˜ao” dos trˆes conjuntos de
estimativas.
eγlogit ∼
=4ˆ
βM P L
e
βprobit ∼
=2.5ˆ
βM P L
eγlogit ∼
=1.6ˆ
βprobit
Portanto, 4(−0,4009) = −1,6036 ´e bastante pr´oximo da estimativa de −1,996 para
o coeficiente pratio na coluna logit. Mais importante ainda, existem semelhan¸cas
mais pr´oximas entre os efeitos marginais impl´ıcitos por logit e probit. Suas m´edias
(AME) s˜ao muito pr´oximas do coeficiente correspondente no modelo de probabilidade
linear. Pode-se esperar que eles se tornem mais pr´oximos `a medida que o tamanho da
amostra aumenta. O primeiro conjunto de estat´ısticas computadas ´e o AME de cada
um dos modelos. Isso ´e f´acil para o MPL, pois os efeitos marginais s˜ao os mesmos,
independentemente do valor de x. Para probit e logit requer o uso do m´etodo delta
para obter estimadores consistentes do erros padr˜ao.
11.3.1 Teste de Raz˜ao de Verossimilhan¸ca
Como os modelos probit e logit s˜ao estimados pelo m´etodo da verossimilhan¸ca
m´axima, tamb´em pode realizar um teste de raz˜ao de verossimilhan¸ca. A raz˜ao de
verossimilhan¸ca ´e:
LR = 2 (lnLU−lnLR)∼χ2(J)
Se a hip´otese nula for verdadeiro. O parˆametro Js˜ao os graus de liberdade para o
χ2(J) e ´e igual ao n´umero de hip´oteses que se est´a testando em conjunto, neste caso s˜ao
duas. Os parˆametros LUeLRs˜ao as log verossimilhan¸cas dos modelos irrestrito (U) e
restrito (R), respectivamente. O procedimento ´e estimar modelos restritos e irrestritos,
calcular a log-verossimilhan¸ca de cada um, compor a estat´ıstica LR e calcular seu
p-valor.
Para isso volta-se ao exemplo anterior e estima-se o seguinte modelo:
Pcoke−U=ϕ(β1+β2pratio +β3disp coke +β4disp pepsi)
Chamando esse modelo de irrestrito (U). Para o modelo restrito considera que
β3= 0.
Pcoke−R=ϕ(β1+β2pratio +β4disp pepsi)
Desta forma, estima-se um modelo Probit irrestrito e clica-se no menu Salvar>Log
da verossimilhan¸ca. Defina o nome da vari´avel como lr u. Depois clique no menu
Modificar modelo e estime um novo modelo sem a vari´avel disp coke. Novamente
clique em Salvar>Log da verossimilhan¸ca. Defina essa vari´avel como lr r. Em
seguida v´a no menu Acrescentar>Definir nova vari´avel. A f´ormula ´e a mesma
mostrada na equa¸c˜ao ll =scalar2∗(lr u −lr r). No menu Ferramentas, selecione o
console do gretl e digite os seguintes comandos:
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 180
Figura 11.6: Console do gretl.
Este ´e quase o mesmo resultado obtido usando o teste de Wald. Para estimadores
n˜ao lineares, essas estat´ısticas normalmente produzir˜ao resultados (ligeiramente)
diferentes. Pode-se rejeitar a H0que β3= 0 a um n´ıvel de 5%. Alternativamente,
pode-se fazer um teste de restri¸c˜oes lineares! Estima-se o modelo completo e clica-se
no menu Testes>Restri¸c˜oes Lineares. Deve-se ainda inserir a op¸c˜ao b3 = 0 e apertar
ok.
Note que os resultados s˜ao muito pr´oximos!!!
11.4 Regressores end´ogenos
Com um regressor cont´ınuo e end´ogeno, h´a pelo menos duas abordagens que podem
ser adotadas para estimar os parˆametros do modelo de forma consistente. A primeira
´e usar m´ınimos quadrados lineares de dois est´agios. Esta ´e a contraparte do regressor
end´ogeno para o modelo de probabilidade linear. A outra abordagem ´e usar uma
vari´avel instrumental probit (ou logit). Este N ˜
AO ´e um estimador de dois est´agios no
mesmo sentido que o 2SLS linear. Requer alguns cuidados na pr´atica.
A seguir ser˜ao utilizados os dados contidos no arquivo mroz.gdt para estimar um
modelo de participa¸c˜ao feminina na for¸ca de trabalho (LFP). A vari´avel LFP ´e bin´aria,
assumindo o valor 1 se uma mulher estiver na for¸ca de trabalho e 0 caso contr´ario. O
modelo de probabilidade linear estimado ´e:
LF P =β1+α1educ +β2exper +β3exper2+β4kidls6 + β5age +e
A escolaridade da mulher, educ, ´e considerada end´ogena. Para o modelo de M´ınimos
Quadrados em Dois Est´agios (MQO2E), precisa-se de um instrumento. Neste caso,
ser´a utilizado a educa¸c˜ao da m˜ae (mothereduc) como instrumento para educ. Para
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 181
isso clique no menu Modelos>Vari´aveis Instrumentais>M´ınimos Quadrados
em Dois Est´agios.
Isso ´e proporcionado pela educa¸c˜ao da m˜ae, mothereduc.
As estimativas do modelo MQO2E:
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 182
Embora o instrumento pare¸ca forte (F= 144,4), o teste de Hausman para a
exogeneidade da educa¸c˜ao n˜ao ´e rejeitado a 5%. Uma outra possibilidade ´e estimar uma
vers˜ao do modelo probit com vari´aveis instrumentais. Isso pode ser feito usando um
pacote chamado HIP. O pacote HIP foi escrito por Riccardo Lucchetti e Claudia Pigini
e apresenta uma cole¸c˜ao de scripts para estimar modelos probit heteroced´asticos, que
podem incluir regressores end´ogenos.
Primeiramente cria-se uma lista de vari´aveis ex´ogenas e instrumentos. Para tanto,
clique no menu Dados>Criar ou editar lista. Crie uma lista chamada exog vars
com as vari´aveis const, exper, exper2, kidsl6 e age. Em seguida deve-se clicar no menu
Modelo>Vari´avel Limitada Dependente>Probit>IV/Heteroced´astico.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 183
As estimativas do modelo podem ser vistas – Figura 11.7:
Figura 11.7: IV/Heteroskedastic
Os resultados do teste s˜ao bastante semelhantes aos do MPL/IV. A educa¸c˜ao n˜ao
´e considerada end´ogena em 5%. A raz~ao t em educa¸c˜ao foi de 2,35 na vers˜ao LPM e
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 184
´e de 2,4 na vers˜ao IV/probit. ´
E claro que calcular os efeitos marginais no IV/probit ´e
complicado pela n˜ao linearidade do modelo.
11.5 Logit Multinomial
No modelo Logit Multinomial, a vari´avel dependente ´e categ´orica e codificada da
seguinte maneira. Um estudante concluindo o ensino m´edio escolhe entre trˆes
alternativas: n˜ao frequentar a faculdade psechoice = 1, matricular-se em uma
faculdade de 2 anos psechoice = 2 ou matricular-se em uma faculdade de 4 anos
psechoice = 3. A vari´avel explicativa s˜ao as notas, que ´e um ´ındice que varia de 1,0
(n´ıvel mais alto, nota A+) a 3,0 (n´ıvel mais baixa, nota F) e representa o desempenho
combinado em inglˆes, matem´atica e estudos sociais. Para este exemplo, as op¸c˜oes s˜ao
tratadas como n˜ao ordenadas, h´a 1.000 observa¸c˜oes.
Para estimar o modelo de escolha da escola em fun¸c˜ao das notas e uma constante,
abra o conjunto de dados nels small.gdt e clique no menu Modelo>Vari´avel
Dependente Limitada>Logit>Multinomial.
Os coeficientes aparecem agrupados. O primeiro grupo cont´em os coeficientes
que est˜ao associados a escolha de psechoice = 2 e o segundo grupo associa-se com
psechoice = 3. Isso implica que o gretl escolheu psechoice = 1 como grupo
de referˆencia. A probabilidade de escolher uma alternativa em um modelo logit
multinomial ´e:
pij =1
1 + PJ
j= 2 exp (β1j+β2jxi2+· ·· +βkj xik)para j= 1
pij =exp (β1j+β2jxi2+· ·· +βkj xik )
1 + PJ
j= 2 exp (β1j+β2jxi2+· ·· +βkj xik)para j= 1
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 185
A obten¸c˜ao das probabilidades estimadas pelo modelo ´e bastante simples. Estime
o modelo Modelo>Vari´avel dependente limitada>Logit>Multinomial. Na
janela do modelo, selecione An´alise>Probabilidades de resultado para produzir
as probabilidades previstas para cada caso na amostra:
11.6 Probit Ordenado
A seguir apresenta-se um exemplo em que as probabilidades de n˜ao frequentar a
faculdade, de frequentar por 2 anos e por 4 anos, s˜ao modeladas como uma fun¸c˜ao
das notas do aluno. Em princ´ıpio, espera-se que os estudantes com notas mais altas
no ensino m´edio, possuem maior chance de frequentar uma faculdade por 4 anos e
menos chances de pular o ensino superior. No conjunto de dados, as notas s˜ao medidas
em uma escala de 1 a 13, sendo 1 a mais alta. Isso significa que se notas mais altas
aumentam a probabilidade de ir para uma faculdade de 4 anos, o coeficiente nas notas
ser´a negativo. As probabilidades s˜ao modeladas usando a distribui¸c˜ao normal neste
modelo onde os resultados representam n´ıveis crescentes de dificuldade. O modelo ´e:
y∗
i=β gradesi+ei
A vari´avel y∗
i´e uma vari´avel latente, ou seja, o seu valor ´e n˜ao observado. Na
verdade, observa-se as escolhas categ´oricas de entrada na faculdade:
yi=
3
2
1
Faculdade por 4 anos
Faculdade por 2 anos
n˜ao frequentou
Os dados utilizados ser˜ao os de nels small.gdt. Essa plataforma consiste em
conjunto de 1.000 observa¸c˜oes coletadas como parte do Estudo Longitudinal de
Educa¸c˜ao Nacional de 1988. As notas vari´aveis medem a nota m´edia em matem´atica,
inglˆes e estudos sociais na escala de 13 pontos, sendo 1 a mais alta. Para estimar o
modelo v´a no menu Modelo>Vari´avel dependente limitada>Probit>Ordenado.
Escolha uma vari´avel dependente e um conjunto de regressores:
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 186
O coeficiente nas notas ´e negativo e significativo a 5%. Isso significa que, `a medida
que a vari´avel de notas aumenta (as notas pioram), o ´ındice fica menor e nas margens
2 anos os participantes da faculdade est˜ao sendo empurrados para nenhuma faculdade
e os participantes da faculdade de 4 anos est˜ao sendo empurrados para a op¸c˜ao de
2 anos. Sabe-se que a probabilidade de estar na categoria mais baixa aumenta e de
estar na categoria mais alta diminui. O que quer que aconte¸ca no meio depende dos
efeitos l´ıquidos das pessoas sendo empurradas para fora da categoria 3 e puxadas para
a categoria 1.
11.7 Tobit
O modelo Tobit ´e uma regress˜ao linear em que algumas observa¸c˜oes da vari´avel
dependente foram censuradas. Uma vari´avel censurada ´e aquela que uma vez que
atinge a um limite, esse valor limitador ´e registrado, n˜ao importa o valor de fato. Por
exemplo, algum indiv´ıduo com ganhos acima de 1 milh˜ao de reais ou mais por ano
poderia ser registrado no limite superior que seria o de ganhos acima de 1 milh˜ao. Isso
significa que indiv´ıduos que ganham valores pr´oximos ao limite superior, por exemplo,
1 milh˜ao e 100 mil reais est˜ao no mesmo grupo daqueles indiv´ıduos que ganham 10
milh˜oes de reais. Para dados desse tipo, o modelo de m´ınimos quadrados pode ser
seriamente enviesado e ent˜ao ´e aconselh´avel usar um modelo de regress˜ao censurado
(tobit) para estimar os parˆametros da regress˜ao.
Considere o seguinte modelo de regress˜ao, tendo como vari´avel dependente o n´umero
de horas trabalhadas por uma amostra composta apenas por mulheres.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 187
hoursi=β1+β2educi+β3experi+β4agei+β5kidsl6i+ei
Pode-se estimar um modelo como uma regress˜ao censurada, uma vez que v´arias
mulheres na amostra trabalham zero horas, ou seja, n˜ao trabalham. Ser´a utilizado
a base mroz.gdt. Posteriormente, clique no menu Modelo>Vari´avel dependente
limitada>Tobit.
Ao estimar a regress˜ao por Tobit observa-se um efeito positivo e significativo da
educa¸c˜ao, nas horas trabalhadas. Em outras palavras, um maior n´ıvel de escolaridade
aumenta a chance da mulher trabalhar mais. Se estimar a equa¸c˜ao acima por um
modelo de MQO, percebe-se que o efeito da educa¸c˜ao ser´a subestimado, como segue:
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 188
11.8 Heckit
O vi´es de sele¸c˜ao ocorre quando em alguma das observa¸c˜oes n˜ao se tem os dados
para a vari´avel dependente por alguma raz˜ao. Os problemas estat´ısticos ocorrem
quando a causa da limita¸c˜ao da amostra est´a relacionada por alguma raz˜ao com a
vari´avel dependente. Ignorando a correla¸c˜ao, o modelo pode ser estimado usando
M´ınimos Quadrados, Tobit ou M´ınimos Quadrados Censurados (regress˜ao censurada).
De qualquer forma, n˜ao ´e poss´ıvel obter estimativas consistentes dos parˆametros de
regress˜ao quando a causa das observa¸c˜oes faltantes est´a correlacionada com a vari´avel
dependente do modelo de regress˜ao.
Considere um modelo que consiste em duas equa¸c˜oes. A primeira ser´a denominada
de equa¸c˜ao de sele¸c˜ao e pode ser definida como:
z∗
i=γ1+γ2wi+ui, i = 1, . . . , N
em que z∗
i´e uma vari´avel latente, γ1eγ2s˜ao os parˆametros, wi´e uma vari´avel
explicativa e ui´e o dist´urbio aleat´orio. Uma vari´avel latente ´e n˜ao observ´avel, mas,
por sua vez, uma vari´avel dicotˆomica pode ser observada:
zi=1
0
z∗
i>0
caso contr´ario
A segunda equa¸c˜ao ´e chamada de equa¸c˜ao de regress˜ao, e ´e o modelo de regress˜ao
linear de interesse.
yi=β1+β2xi+ei, i = 1, . . . , n ;N > n
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 189
em que yi´e uma vari´avel aleat´oria observ´avel, β1eβ2s˜ao os parˆametros, xi´e uma
vari´avel ex´ogena e ei´e um erro aleat´orio. Assumi-se que os erros aleat´orios das duas
equa¸c˜oes s˜ao distribu´ıdos como:
ui
ei∼N0
0,1
ρ
ρ
σ2
e
O problema de sele¸c˜ao surge quando yi´e observado somente quando zi= 1 e ρ= 0.
Nesse caso, os estimadores de m´ınimos quadrados de β´e viesado e inconsistente. Um
estimador consistente foi sugerido por Heckman (1979) e ´e comumente referenciado
como o estimador de dois passos de Heckman ou simplesmente Heckit. Isso ocorre
porque os erros s˜ao normalmente distribu´ıdos e tamb´em os parˆametros s˜ao estimados
por m´axima verossimilhan¸ca. O estimador Heckit est´a baseado na m´edia condicional
de yiquando essa vari´avel pode ser observada:
E[yi|zi>0] = β1+β2xi+βλλi
em que:
λi=ϕ(γ1+γ2wi)
Φ (γ1+γ2wi)
´e a raz˜ao inversa de Mill. ϕ(γ1+γ2wi) ´e uma fun¸c˜ao de densidade de probabilidade
valorada ao ´ındice ie; Φ (γ1+γ2wi) ´e a fun¸c˜ao de densidade cumulativa da distribui¸c˜ao
normal avaliada a esse ´ındice. Adicionando um erro aleat´orio temos:
yi=β1+β2xi+βλλi+vi
Pode-se mostrar que a equa¸c˜ao acima ´e heteroced´astica e se λifosse conhecido
(e n˜ao estoc´astico), ent˜ao o modelo com a corre¸c˜ao do vi´es de sele¸c˜ao poderia ser
estimado por M´ınimos Quadrados Generalizados. Como alternativa, pode ser estimado
por m´ınimos quadrados ordin´arios, usando o estimador de covariˆancia consistente de
heterocedasticidade de White (HCCME) para teste de hip´otese e constru¸c˜ao de intervalos
de confian¸ca. Infelizmente, λin˜ao ´e conhecido e deve ser estimado usando a amostra.
A natureza estoc´astica de λitorna inapropriado o uso autom´atico de HCCME neste
contexto.
Os dois passos do estimador Heckit consistem em:
1. Estime a equa¸c˜ao de sele¸c˜ao para obter ˆγ1e ˆγ2. Use-os para estimar a raz~ao
inversa de Mill,ˆ
λi.
2. Adicione ˆ
λiao modelo de regress˜ao como na equa¸c˜ao e estime-o usando m´ınimos
quadrados.
O procedimento Heckit leva em considera¸c˜ao que a decis˜ao de trabalhar por
remunera¸c˜ao pode estar correlacionada com o sal´ario que uma pessoa ganha. Ele
come¸ca modelando a decis˜ao de trabalhar e estimando a equa¸c˜ao de sele¸c˜ao resultante
usando um modelo probit. O modelo pode conter mais de uma vari´avel explicativa,
wi, e neste exemplo h´a quatro: a idade de uma mulher, seus anos de escolaridade, uma
vari´avel dummy para saber se ela tem filhos e a al´ıquota marginal de imposto que ela
pagaria sobre os ganhos se estivesse empregada.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 190
A base de dados mroz.gdt continuar´a sendo utilizada. O primeiro passo ´e criar
o logaritmo da vari´avel sal´ario (wage), selecionando-a e pressionando o bot˜ao direito
do mouse. A seguir cria-se uma vari´avel dummy kids para verificar se h´a a presen¸ca
de crian¸cas na residˆencia da fam´ılia. Para isso, utiliza o menu Acrescentar>Definir
nova vari´avel bem como a seguinte express˜ao: serieskids = (kidsl6 + kids618 >0).
Em seguinda, selecione Modelo>Vari´avel dependente limitada>Heckit na janela
principal do gretl. Insira l wage como a vari´avel dependente e a vari´avel indicadora
lf p como a vari´avel de sele¸c˜ao. Em seguida, insira as vari´aveis independentes desejadas
para as equa¸c˜oes de regress˜ao e sele¸c˜oes.
Por fim, selecione o bot˜ao de estimativa em 2 etapas na parte inferior da caixa de
di´alogo e clique em OK. Ent˜ao, ser´a poss´ıvel notar que as estimativas dos coeficientes s˜ao
idˆenticas `as produzidas manualmente acima. No entanto, os erros padr˜ao, que agora
s˜ao estimados de forma consistente, mudaram. O gretl tamb´em produz as estimativas
da equa¸c˜ao de sele¸c˜ao, que aparecem diretamente abaixo daquelas da regress˜ao.
Universidade Federal de Pelotas - UFPel
191
Cap´ıtulo 12
Modelos de equa¸c˜oes simultˆaneas
Este cap´ıtulo apresenta um modelo de oferta e demanda. Sendo assim, importante
destacar que esse modelo econom´etrico cont´em duas vari´aveis dependentes e duas
equa¸c˜oes. Uma caracter´ıstica dos modelos de equa¸c˜oes simultˆaneas ´e que os valores
de duas (ou mais) vari´aveis s˜ao determinados conjuntamente. Isso significa que uma
mudan¸ca em uma das vari´aveis faz com que a outra vari´avel mude e vice-versa. A
estimativa de um modelo de equa¸c˜oes simultˆaneas ´e demonstrada usando o exemplo
da trufa. Para isso utilizar´a a base truffles.gdt.
12.1 Exemplo do modelo de equa¸c˜oes simultˆaneas
para trufa
Considere um modelo de oferta e de demanda para trufas:
qi=α1+α2pi+α3psi+α4dii+ed
i(12.1)
qi=β1+β2pi+β3pfi+es
i(12.2)
AEqua¸c˜ao 12.1 ´e a demanda por trufas em que qrepresenta a quantidade
demandada em um determinado mercado, p´e o pre¸co de mercado da trufa, ps ´e o
pre¸co de um bem substituto e di´e a renda dispon´ıvel per capita do mercado local.
Por sua vez, a Equa¸c˜ao 12.2 caracteriza-se como sendo a equa¸c˜ao de oferta. Essa
equa¸c˜ao cont´em a vari´avel pf que representa o pre¸co de um fator de produ¸c˜ao. Cada
observa¸c˜ao ´e indexada por meio do ´ındice i= 1,2, . . . , N. Como ser´a visto, pre¸cos e
quantidades em um mercado s˜ao determinados conjuntamente, portanto, neste modelo
econom´etrico, peqs˜ao ambos end´ogenos ao sistema.
12.2 As equa¸c˜oes na forma reduzida
Destaca-se que as equa¸c˜oes na forma reduzida expressam cada vari´avel end´ogena como
fun¸c˜ao linear de cada vari´avel ex´ogena em todo o sistema. Assim,
qi=π11 +π21 psi+π31 dii+π41 pfi+vi1(12.3)
Loures e Fernandez 192
pi=π12 +π22 psi+π32 dii+π42 pfi+vi2(12.4)
Uma vez que cada uma das covari´aveis (vari´aveis independentes) ´e ex´ogena em
rela¸c˜ao a qep, as equa¸c˜oes na forma reduzida (12.3) e (12.4) podem ser estimadas
usando m´ınimos quadrados.
Os resultados do grelt aparecem abaixo. Cada uma das vari´aveis ´e individualmente
diferente de zero a 5%. As estat´ısticas Fgerais s˜ao 19,79 e 69,19; ambas, tamb´em,
significantes a 5%.
ˆq= 7,895
(3,243)
+ 0,6564 ps
(0,1425)
+ 2,167 di
(0,7005) −0,5070 pf
(0,1213)
n= 30 ¯
R2= 0,6625 F(3,26) = 19,973 ˆσ= 2,6801
(erros padr˜ao entre parˆenteses)
ˆp=−32,51
(7,984)
+ 1,708
(0,3509)
ps + 7,602
(1,724)
di + 1,354
(0,2985)
pf
n= 30 ¯
R2= 0,8758 F(3,26) = 69,189 ˆσ= 6,5975
(erros padr˜ao entre parˆenteses)
12.3 As equa¸c˜oes estruturais
As equa¸c˜oes estruturais s˜ao estimadas empregando o estimador de M´ınimos Quadrados
em Dois Est´agios (MQ2E). Os instrumentos utilizados na estima¸c˜ao do MQ2E
consistem em todas as vari´aveis ex´ogenas, i.e., as mesmas empregadas para estimar
as equa¸c˜oes na forma reduzida (12.3) e (12.4).
A seguir apresenta-se os comandos, a serem passados no console do gretl –Figura
12.1, para abrir os dados da base truffles.gdt e estimar as equa¸c˜oes estruturais
empregado o estimador MQ2E no gretl.
1. list z = const ps di pf
2. tsls q const p ps di; z
3. tsls q const p pf; z
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 193
Figura 12.1: Console do gretl.
Observe que a primeira linha do script cria uma lista chamada de z e que cont´em
todas as vari´aveis ex´ogenas. Essas vari´aveis s˜ao usadas para calcular a regress˜ao de
primeiro est´agio, ou seja, a lista de instrumentos. Por sua vez, a linha 2 estima os
coeficientes da equa¸c˜ao demanda por trufa empregando o estimador TSLS. Importante
salientar que o comando tsls do gretl solicita o estimador MQ2E e ´e seguido pela
especifica¸c˜ao da equa¸c˜ao estrutural que se deseja estimar – no presente exemplo, a
vari´avel dependente qe as vari´aveis independentes const,p,ps edi. Note que o ponto
e v´ırgula separa o modelo que se deseja estimar da lista de instrumentos, agora contidos
na lista z. J´a a terceira linha segue o mesmo racioc´ınio da equa¸c˜ao demanda, por´em,
agora para estimar os parˆametros da equa¸c˜ao de oferta de trufa.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 194
Figura 12.2: Criando uma lista com todas as vari´aveis ex´ogenas.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 195
Figura 12.3: Estimando os coeficientes da equa¸c˜ao demanda.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 196
Figura 12.4: Estimando os parˆametros da equa¸c˜ao oferta.
AFigura 12.3 mostra os resultados reportados pela estimativa de M´ınimos
Quadrados em Dois Est´agios (MQ2E) da equa¸c˜ao de demanda. O coeficiente do pre¸co
na equa¸c˜ao de demanda ´e de −0,374 e ´e significativamente negativo a 5%. Lembre-se
de que as curvas de demanda s˜ao negativamente inclinadas. Ademais, o teste de
Hausman reportou um valor de 132,484 com um p-valor pr´oximo de zero e, assim,
evidenciando que o pre¸co n˜ao ´e uma vari´avel ex´ogeno. O teste de instrumentos fracos
excede 10 e, portanto, o conjunto de instrumentos ´e bastante forte.
Os resultados para a estima¸c˜ao em dois est´agios da especifica¸c˜ao da oferta s˜ao
apresentados na Figura 12.4. Como esperado, o coeficiente do pre¸co ´e positivo.
O resultado do teste de Sargan,p-valor = 0,215625 >0,05, caracteriza que o
modelo ´e adequadamente superidentificado. Al´em disso, o teste de instrumento fraco
demonstra que os instrumentos utilizados na estima¸c˜ao s˜ao adequadamente fortes
(estat´ıstica-F (2,26) = 41,4873).
Universidade Federal de Pelotas - UFPel
197
Cap´ıtulo 13
Modelos de contagem
Quando a vari´avel dependente em um modelo de regress˜ao ´e uma “contagem” do
n´umero de ocorrˆencias de um evento, pode-se querer usar o modelo de regress˜ao de
Poisson. Nestes modelos, a vari´avel dependente ´e um n´umero inteiro n˜ao negativo
(ou um n´umero natural), que representa o n´umero de ocorrˆencias de um determinado
evento. Quando se est´a trabalhando com dados de contagem, inicia-se a estima¸c˜ao dos
parˆametros por meio de um modelo de regress˜ao Poisson, devido `a sua simplicidade.
Neste caso, a vari´avel dependente de um modelo de regress˜ao Poisson deve seguir uma
distribui¸c˜ao Poisson com m´edia igual `a variˆancia. Nestes casos, trabalha-se com a
estima¸c˜ao de um modelo de regress˜ao binomial negativo.
A probabilidade de um determinado n´umero de ocorrˆencias ´e modelada em fun¸c˜ao
de vari´aveis independentes.
P(Y=y|x) = e−λλy
y!
em que λ=β1+β2x´e a fun¸c˜ao de regress˜ao.
A estima¸c˜ao desse modelo, se d´a por m´axima verossimilhan¸ca. Como exemplo,
ser´a usado o n´umero de consultas m´edicas nos ´ultimos trˆes anos. Este n´umero
ser´a modelado em fun¸c˜ao da idade da pessoa, sexo e se ela tem seguro p´ublico ou
privado. Os dados est˜ao em rwm88 small.gdt, que s˜ao um subconjunto do German
Socioeconomic Panel Survey de 1988. Depois que os dados s˜ao carregados, os modelos
para dados de contagem podem ser acessados por meio do sistema de menu usando
Modelo>Vari´avel dependente limitada>Contagem.
Loures e Fernandez 198
As vari´aveis age epublic s˜ao estatisticamente diferentes de zero.
13.1 Teste de superdispers˜ao
Caso a variˆancia da vari´avel dependente seja consideravelmente maior do que a sua
m´edia, a estima¸c˜ao de um modelo Poisson poder´a gerar parˆametros viesados, por conta
do problema conhecido por superdispers˜ao. ´
E sempre recomend´avel, portanto, que,
ap´os a estima¸c˜ao de um modelo de regress˜ao Poisson, seja elaborado um teste para
verifica¸c˜ao da existˆencia de superdispers˜ao e, caso sua presen¸ca seja detectada, ser´a
recomendada a estima¸c˜ao de um modelo de regress˜ao binomial negativo. Seguindo o
exemplo anterior, pode-se gerar as estat´ısticas descritivas da vari´avel dependente:
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 199
Como observado, a m´edia ´e diferente da variˆancia. Cameron e Trivedi (1990)
prop˜oem um interessante procedimento para verifica¸c˜ao da existˆencia de superdispers˜ao
em modelos de regress˜ao Poisson. Para tanto, ´e preciso que seja gerada uma vari´avel
Y∗, da seguinte maneira:
Y∗
i=[(Yi−ˆµi)2−Yi]
ˆµi
Sendo Yio n´umero de ocorrˆencias para cada observa¸c˜ao da amostra. O termo ˆµi´e
o res´ıduo da regress˜ao de Poisson. Ap´os criar Y∗
ideve-se estimar o seguinte modelo de
regress˜ao:
ˆ
Y∗
i=βˆµi
Ap´os a estima¸c˜ao do modelo de regress˜ao se o parˆametro βfor estatisticamente
diferente de zero observa-se o fenˆomeno da superdispers˜ao. Para isso, ap´os rodar
a regress˜ao deve-se salvar os res´ıduos. Para isso clique no menu Salvar>Res´ıduos.
Guarde a vari´avel como uhat1. Posteriormente adiciona-se uma nova vari´avel, clicando
no menu Acrescentar>definir nova vari´avel. A f´ormula ´e a seguinte:
yi=(docvis −uhat1)2−docvis)
uhat1
Em seguida estima-se o seguinte modelo de regress˜ao por M´ınimos Quadrados
Ordin´arios:
Observe que o parˆametro β´e estatisticamente diferente de zero, logo h´a o fenˆomeno
da superdispers˜ao e as estimativas devem ser executadas por meio da distribui¸c˜ao
binomial negativa.
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 200
13.2 Binomial Negativa
Esta distribui¸c˜ao ´e tamb´em conhecida por distribui¸c˜ao Poisson-Gama por ser uma
combina¸c˜ao de duas distribui¸c˜oes que foi desenvolvida para levar em considera¸c˜ao o
fenˆomeno da superdispers˜ao que ´e comumente observado em dados de contagem. Ainda
segundo os autores, leva este nome por aplicar o teorema binomial com um expoente
negativo. Se, por exemplo, a m´edia do n´umero de ocorrˆencias de uma distribui¸c˜ao
Poisson possuir uma parcela aleat´oria, a express˜ao (14.5) passar´a ser escrita da seguinte
forma:
λi=e(α+β1x1i+···+β1xki+ϵi)
que pode ser escrita como:
λi=uivi
que possui uma distribui¸c˜ao binomial negativa, em que o primeiro termo (ui) representa
o valor esperado de ocorrˆencias e possui uma distribui¸c˜ao Poisson e o segundo termo
(vi) corresponde `a parcela aleat´oria do n´umero de ocorrˆencias da vari´avel dependente
e possui uma distribui¸c˜ao Gama. Para determinada observa¸c˜ao i(i= 1,2, . . . , n em
que n´e o tamanho da amostra), a fun¸c˜ao da distribui¸c˜ao de probabilidade da vari´avel
vi:
p(vi) = δψvψ−1
ie−viδ
Γ(ψ)
O parˆametro de forma ´e ψ > 0 e o parˆametro de taxa δ > 0. Pode-se combinar as
express˜oes de modo a gerar a fun¸c˜ao da probabilidade de uma distribui¸c˜ao binomial
negativa, o que nos permitir´a calcular a probabilidade de ocorrˆencia de uma contagem
m, dada determinada exposi¸c˜ao.
p(Yi=m) = m+ψ−1
ψ−1 ψ
ui+ψψui
ui+ψm
, m = 0,1,2, . . .
que representa a fun¸c˜ao de probabilidade da distribui¸c˜ao binomial negativa para a
ocorrˆencia de uma contagem m, com as seguintes estat´ısticas:
M´edia: E(Y) = u
Variˆancia: V ar (Y) = u+α u2
sendo α=1
ψ.
O segundo termo da express˜ao de variˆancia da distribui¸c˜ao binomial negativa
representa a superdispers˜ao. Se observar que α→0, este fenˆomeno n˜ao estar´a presente
nos dados. No entanto, quando ϕ´e estatisticamente maior do que zero, deve-se estimar
um modelo de regress˜ao binomial negativo.
Ogretl permite a estima¸c˜ao de dois modelos de regress˜ao binomial negativo. O
modelo apresentado acima ´e conhecido como NB2 (negative binomial 2 regression
model). Uma vers˜ao alternativa, utiliza a seguinte express˜ao para a variˆancia:
Universidade Federal de Pelotas - UFPel
Loures e Fernandez 201
V ar (Y) = u(1 + α)
e, ´e conhecido por modelo de regress˜ao NB1 (negative binomial 1 regression model).
Utiliza-se a mesma regress˜ao aplicada no modelo de Poisson, utilizando a distribui¸c˜ao
NegBin2:
Universidade Federal de Pelotas - UFPel