Administração e Contabilidade de Ribeirão Preto Universidade de São ...

Revista de Contabilidade e Organiza??es ISSN: 1982-6486 Universidade de S?o Paulo, Faculdade de Economia, Administra??o e Contabilidade de Ribeir?o Preto

Pagliarussi, Marcelo Sanches O ensino do modelo cl?ssico de regress?o linear por meio de simula??o de Monte Carlo

Revista de Contabilidade e Organiza??es, vol. 12, e152100, 2018 Universidade de S?o Paulo, Faculdade de Economia, Administra??o e Contabilidade de Ribeir?o Preto

DOI:

Dispon?vel em:

Como citar este artigo N?mero completo Mais informa??es do artigo Site da revista em

Sistema de Informa??o Cient?fica Redalyc

Rede de Revistas Cient?ficas da Am?rica Latina e do Caribe, Espanha e Portugal

Sem fins lucrativos acad?mica projeto, desenvolvido no ?mbito da iniciativa acesso aberto

ReviMst.aS.dPeaCgloianrtuasbsiili/dRaedve. eCOonrgt aOnrigza(?2?0e1s8()2, 0v.1182),:ve.11522:e110502100

1

Revista de Contabilidade e Organiza??es

DOI:

Journal of Accounting and Organizations

rco.usp.br

rco.usp.br

O ensino do modelo cl?ssico de regress?o linear por meio de simula??o de Monte Carlo

The teaching of the classical linear regression model using Monte Carlo simulation Marcelo Sanches Pagliarussia

a Universidade de S?o Paulo

Palavras-chave Simula??o de Monte Carlo. Modelo cl?ssico de regress?o linear. Distribui??o amostral. Estimadores de m?nimos quadrados.

Resumo

Este trabalho apresenta um conjunto de estudos de Monte Carlo, usando softwares de planilha eletr?nica, que pode ser usado para facilitar a aprendizagem do conceito de distribui??o amostral em um contexto de aprendizagem do modelo cl?ssico de regress?o linear. A partir da constru??o de duas planilhas b?sicas, uma para regress?o simples e outra para regress?o m?ltipla, outras planilhas podem ser facilmente obtidas com pequenas altera??es no processo gerador de dados. As altera??es que podem ser introduzidas incluem varia??es no tamanho das amostras e em diversas caracter?sticas do termo de erro, como sua vari?ncia, valor m?dio e fun??o de probabilidade. Tamb?m podem ser introduzidas correla??es entre os regressores no modelo de regress?o m?ltipla. Um professor de econometria introdut?ria pode usar o conjunto de planilhas de modo a obter figuras e tabelas que facilitam a visualiza??o do desempenho dos estimadores de m?nimos quadrados ordin?rios para diferentes situa??es. Deste modo, os estudantes podem compreender na pr?tica como as viola??es nas premissas do modelo cl?ssico de regress?o linear afetam om desempenho dos estimadores de m?nimos quadrados ordin?rios e dos testes de hip?teses usualmente empregados no contexto da an?lise de regress?o. As viola??es trabalhadas no presente trabalho incluem heterocedasticidade, omiss?o de vari?veis relevantes, erros n?o normais e multicolinearidade.

Keywords Monte Carlo simulation. Classical linear regression model. Sampling distribution. Least square estimators.

Abstract

This work presents a series of Monte Carlo studies using spreadsheet software aimed at facilitating the understanding of the concept of sampling distributions when students are learning the classical linear regression model. Starting from two basic spreadsheets, one for simple regression and the other for multiple regression, other spreadsheets can be easily built by introducing minor alterations in the data-generating process. The modifications that can be introduced include variations in sample size, and several characteristics of the error term, such as its variance, expected value and probability function. Different degrees of correlation between regressors can also be included. A teacher of basic econometrics can use the set of spreadsheets to obtain graphics and tables that enable the visualization of the performance of ordinary least squares estimators in different situations. Thus, students can understand in practice how violations in the underlying hypotheses of the classical linear regression model affect the performance of least square estimators, as well as the tests of hypotheses that usually accompanying the process of regression analysis. The violations analyzed in the present work include heteroscedasticity, omission of relevant variables, nonnormal errors and multicollinearity.

Informa??es do Artigo Recebido: 26 de novembro de 2018 Aceito: 18 de dezembro de 2018 Publicado: 28 de dezembro de 2018

Implica??es pr?ticas

O artigo apresenta um conjunto de pr?ticas de ensino que pode facilitar o entendimento da infer?ncia estat?stica na an?lise de regress?o linear simples e m?ltipla. Assim, tem o potencial de contribuir para a melhoria do ensino de tais conceitos nos cursos de gradua??o em ci?ncias cont?beis, administra??o e economia.

Copyright ? 2018 FEA-RP/USP. Todos os direitos reservados

Autor Correspondente: Tel. (16) 3315-9028 E-mail: marcelosp@usp.br (M. S. Pagliarussi) Universidade de S?o Paulo. Faculdade de Economia, Administra??o e Contabilidade de Ribeir?o Preto. Avenida Bandeirantes, 3900 - Monte Alegre - Ribeir?o Preto/SP - 14040-905, Brasil.

2

M. S. Pagliarussi / Rev. Cont Org (2018), v. 12: e152100

1 INTRODU??O

Muito provavelmente, um professor de econometria b?sica que segue os bons livros existentes sobre o assunto ir? desenvolver aulas que requerem um n?vel razoavelmente elevado de racioc?nio te?rico e matem?tico. Tal abordagem ? comum inclusive em cursos direcionados ao p?blico da ?rea de neg?cios (Becker e Greene, 2001). Este mesmo professor, ao abordar o conceito de distribui??o amostral de um estimador, provavelmente ir? perceber nos olhos dos seus alunos a dificuldade de compreender o seu significado. Diversos professores-autores relataram tal percep??o. Becker e Greene (2001) observaram que seus alunos compreendiam facilmente o papel que o acaso representa na obten??o de uma dada amostra. Por?m, os autores notaram que os alunos t?m imensa dificuldade em entender que as estat?sticas calculadas a partir de tal amostra s?o igualmente fruto do acaso, cujos valores podem ser representados em um histograma de modo a produzir a distribui??o amostral da estat?stica.

Kennedy (1998) afirma que, contrariamente ao que imaginam os professores, ao final do curso de econometria b?sica a ampla maioria dos estudantes n?o compreende a l?gica fundamental da estat?stica, representada pelo conceito de distribui??o amostral. O autor ressalta que os alunos aprendem a realizar procedimentos, como calcular a vari?ncia, executar uma regress?o, testar uma hip?tese, e eles sabem que ser?o aprovados no curso se memorizarem como tais t?cnicas funcionam. Entretanto, usualmente os cursos levam os alunos ? percep??o de que a estat?stica ? um ramo da matem?tica, e estes n?o desenvolvem a habilidade de usar a estat?stica como uma lente para enxergar o mundo, pois o conceito de distribui??o amostral constitui essa lente (Kennedy, 1998).

Barreto e Howland (2005), Chance, Garfield e del Mas (1999) e Dyck e Gee (1998) manifestaram essencialmente o mesmo desconforto com suas observa??es de que muitos estudantes aprovados com boas notas em econometria b?sica n?o desenvolvem a compreens?o necess?ria do conceito de distribui??o amostral, nem a capacidade de aplicar o conceito em uma linha de racioc?nio coerente. Chance, del Mas e Garfield (2004) explicam que a dificuldade em apreender o conceito de distribui??o amostral pode residir no fato de que o conceito requer que os estudantes integrem e apliquem v?rios outros conceitos obtidos em diferentes momentos do curso de estat?stica, assim como raciocinem a respeito do comportamento hipot?tico de muitas amostras. Na vis?o dos autores, mesmo que o Teorema do Limite Central forne?a um modelo te?rico para o comportamento das distribui??es amostrais, os alunos t?m dificuldade em aplicar tal modelo em contextos pr?ticos.

Kennedy (1998) sugere que uma mudan?a fundamental deveria ocorrer nos cursos de econometria b?sica: a inser??o de estudos de Monte Carlo como ferramenta pedag?gica para investiga??o das propriedades da distribui??o amostral de um estimador. O autor inclusive chega a afirmar que havia suprimido a maior parte das demonstra??es matem?ticas em seus cursos. Para Kennedy (1998), a investiga??o de distribui??es amostrais por meio de estudos de Monte Carlo deveria constituir a maior parte da carga hor?ria dos cursos de econometria, pois tal atividade permite aos estudantes alcan?ar a compreens?o de todas as dimens?es do curso. O autor conclui que a apresenta??o de t?cnicas de estima??o avan?adas n?o agrega nada se os estudantes n?o compreendem os princ?pios fundamentais que as sustentam.

Apesar dos fortes argumentos de Kennedy (1998), o uso de estudos de Monte Carlo no ensino de econometria ? pouco difundido. Becker e Greene (2001) destacam que a maioria dos professores deixa o desenvolvimento do conceito de distribui??o amostral a cargo da imagina??o dos estudantes, mesmo tendo ? sua disposi??o computadores e softwares que permitem o desenvolvimento real do histograma dos valores poss?veis de uma estat?stica amostral. Bekkerman (2015) tamb?m chama a aten??o para o pouco uso de simula??es no ensino de econometria, possivelmente pela falta de conhecimento dos professores a respeito dos potenciais benef?cios pedag?gicos da ferramenta.

Barreto e Howland (2005) ressaltam sua frustra??o com o ensino de econometria baseado em equa??es e na prova de proposi??es. Tal abordagem, segundo os autores, resulta na ?nfase na memoriza??o ao inv?s do uso efetivo do conceito em situa??es reais. O uso de simula??es permite a visualiza??o din?mica e a repeti??o de situa??es interessantes. Por exemplo, por meio do Excel os estudantes podem instantaneamente obter resultados novos e reconstruir tabelas e gr?ficos ap?s terem alterado o valor de um par?metro ou obtido uma nova amostra (Barreto e Howland, 2005). Os autores defendem que, por meio do uso de planilhas, os estudantes conseguem associar os valores com os s?mbolos abstratos presentes nas equa??es, e conseguem ver um teorema em opera??o quando um resultado esperado ? observado repetidamente em muitas amostras. Barreto e Howland (2005) concluem que ? ir?nico que as simula??es desempenhem papel proeminente nos estudos avan?ados de econometria, enquanto que o ensino da disciplina padece nos m?todos ultrapassados de memoriza??o e prova.

M. S. Pagliarussi / Rev. Cont Org (2018), v. 12: e152100

3

Com base nas recomenda??es de Kennedy (1998), Judge (1999) desenvolveu um exerc?cio de Monte Carlo

simples em Excel, direcionado a permitir que os estudantes simulem a obten??o de 100 amostras aleat?rias contendo

observa??es de duas vari?veis, X e Y, e calculem as estimativas dos par?metros de um modelo de regress?o simples

Y=1+2 X+u para valores obtidos do

cada amostra. Entre os estimador de m?nimos

objetivos do exerc?cio estavam a an?lise da distribui??o amostral dos 100 quadrados ordin?rios ^2MQO, como sua m?dia, vari?ncia e a discuss?o de

quest?es como vi?s e aus?ncia de vi?s. Al?m disso, os estudantes precisavam analisar se o histograma constru?do

com

os

100

valores

obtidos

de

^ MQO 2

se

assemelhava

a

uma

distribui??o

normal.

Craft

(2003)

oferece

contribui??o

semelhante ao detalhar as etapas necess?rias para modelar o processo gerador de dados, obter amostras aleat?rias

repetidas e calcular as estimativas dos par?metros de uma regress?o simples usando planilhas eletr?nicas.

Mais recentemente, Briand e Hill (2013) exp?em detalhadamente a realiza??o de estudos de Monte Carlo usando planilhas em uma aplica??o envolvendo regress?o linear simples. Os autores desenvolvem dois exerc?cios. No primeiro, explicam como os alunos podem obter a distribui??o amostral do estimador de inclina??o por meio do procedimento de m?nimos quadrados ordin?rios. No segundo, s?o obtidas as estimativas de intervalos de confian?a para o coeficiente de inclina??o ^2MQO.

O presente artigo estende as propostas de Judge (1999), Craft (2003) e Briand e Hill (2013) ao apresentar v?rios exerc?cios desenvolvidos por meio da aplica??o da simula??o de Monte Carlo aplicada em situa??es de regress?o linear simples como m?ltipla. Por meio da ferramenta pedag?gica apresentada aqui, os estudantes poder?o desenvolver simula??es com o objetivo de: (1) obter a distribui??o amostral dos estimadores ^MQO calculados para 1.000 amostras aleat?rias repetidas; (2) analisar as propriedades da distribui??o amostral dos estimadores, como m?dia, vari?ncia e forma; (3) analisar como o tamanho da amostra impacta no desempenho do teste F para signific?ncia global da regress?o, e do teste t para signific?ncia dos coeficientes individuais; (4) analisar como as viola??es das premissas do modelo cl?ssico de regress?o linear afetam as propriedades da distribui??o amostral dos estimadores e o desempenho dos testes F e t. As viola??es analisadas incluem termo de erro com vari?ncia heteroced?stica, termo de erro com distribui??o n?o normal, termo de erro com m?dia diferente de zero, omiss?o de vari?veis relevantes e exist?ncia de multicolinearidade entre regressores.

A se??o 2 a seguir apresenta a t?cnica de simula??o de Monte Carlo e sua aplica??o em um contexto de an?lise de regress?o linear. Na se??o 3, s?o explicados os procedimentos para obten??o das amostras repetidas, estima??o pontual e intervalar dos par?metros do modelo de regress?o e obten??o das estat?sticas da regress?o, como R?, F, t e suas respectivas signific?ncias. A se??o 4 apresenta uma breve discuss?o da abordagem proposta e suas poss?veis extens?es. Por fim, a ?ltima se??o conclui brevemente a proposta.

2 ESTUDOS DE MONTE CARLO E SUAAPLICA??O NO CONTEXTO DAAN?LISE DE REGRESS?O LINEAR

Simula??o de Monte Carlo refere-se ao emprego de modelos artificiais para representar processos reais de gera??o de dados, de modo a obter uma maior compreens?o de tais processos (Barreto e Howland, 2005). As simula??es usam geradores de n?meros aleat?rios para recriar os processos estoc?sticos, e o fazem repetidas vezes para observar os resultados obtidos (Barreto e Howland, 2005; Hill, Griffiths e Lim, 2011). Por meio da simula??o, podem ser criadas muitas amostras de tamanho N e assim examinar as propriedades de diferentes m?todos de estima??o, inclusive o seu comportamento em situa??es distantes do ideal, como ? o caso de muitas aplica??es na ?rea de neg?cios (Hill, Griffiths e Lim, 2011). A Figura 1 a seguir apresenta o fluxo de trabalho em um estudo de Monte Carlo.

Modelagem do processo gerador de dados

Obten??o dos conjuntos de dados

Calcular os M valores de

Calcular os M valores de

Estimar a

d is trib u i??o amostral de

Estimar a

d is trib u i??o amostral de

Comparar

Figura 1. Estrutura de um estudo de Monte Carlo. Adaptada de Kennedy (2003)

4

M. S. Pagliarussi / Rev. Cont Org (2018), v. 12: e152100

Do ponto de vista pedag?gico, uma raz?o importante para o uso de experimentos de Monte Carlo ? propiciar o entendimento dos conceitos de amostragem repetida e propriedades da distribui??o de amostragem de um estimador, que s?o conceitos cruciais para o entendimento de econometria (Kennedy, 2003). O autor descreve as etapas do desenvolvimento de um estudo de Monte Carlo (2003):

1. Modelar o processo gerador de dados: um estudo de Monte Carlo se inicia com a constru??o do modelo que permita ao computador imitar o processo gerador de dados, incluindo seu componente estoc?stico. Por exemplo, pode ser especificado que N valores de X1e X2 e um termo de erro u ir?o produzir N valores de Y de acordo com a equa??o Y=1+2 X1+u. Na equa??o, 1e 2 s?o n?meros espec?ficos e conhecidos, as N observa??es de X1e X2 correspondem a realiza??es ex?genas dos valores das respectivas vari?veis, e os N valores de u s?o obtidos aleatoriamente a partir de uma distribui??o normal com m?dia zero e vari?ncia conhecida 2. Quaisquer caracter?sticas especiais do processo gerador de dados podem ser inclu?das no modelo. Por exemplo, o termo de erro pode ser gerado a partir de uma distribui??o normal com m?dia diferente de zero e vari?ncia conhecida 2. Tamb?m ? poss?vel fazer com que a vari?ncia do termo de erro dependa seja fun??o de X1. Por fim, os erros podem ser gerados a partir de uma distribui??o de probabilidade diferente da normal. Um aspecto importante a destacar ? que todos os valores dos par?metros s?o conhecidos, porque a pessoa que conduz o estudo ? que escolhe tais valores.

2. Cria??o dos conjuntos de dados: ap?s o modelo do processo gerador de dados ter sido constru?do e inserido no computador, os dados artificiais podem ser criados. Deste modo, uma amostra completa com N valores de Y,X1,X2 e u ? obtida. Note que tal conjunto artificial de dados pode ser enxergado como um exemplo dos dados reais que um pesquisador iria obter quando tivesse que lidar com o problema de estima??o que o modelo representa. ? importante destacar tamb?m que o conjunto de dados depende crucialmente dos valores obtidos para o termo de erro. Um conjunto diferente de N valores de u iria alterar significativamente os valores de Y obtidos para o mesmo problema. Se tal processo de amostragem for repetido 1.000 vezes, por exemplo, teremos 1.000 conjuntos de amostras com tamanho N, chamadas amostras repetidas.

3. C?lculo das estimativas: cada uma das amostras obtidas ser? usada como input para o c?lculo do valor do estimador 2 . Ent?o, se estivermos trabalhando com 1.000 amostras, podemos obter 1.000 estimativas 2 para o par?metro 2. As estimativas podem ser vistas como 1.000 sorteios aleat?rios de valores retirados da distribui??o de 2 .

4. Estima??o das propriedades da distribui??o amostral: as 1.000 extra??es aleat?rias da distribui??o amostral de 2 podem ser usadas como dados para estimar as propriedades dessa distribui??o. As propriedades de maior interesse s?o o valor esperado e a vari?ncia, os quais podem ser usados para estimar o vi?s e o erro quadr?tico m?dio do estimador. Na etapa 3 as estimativas obtidas por meio de um estimador alternativo 2 * tamb?m podem ser obtidas, de modo que as propriedades da distribui??o amostral de 2 * podem ser comparadas com as propriedades da distribui??o de 2 .

Assim, de acordo com a abordagem de Briand e Hill (2013), e as orienta??es de Kennedy (1998, 2003), as aplica??es a seguir foram desenvolvidas com o objetivo de servirem como ferramentas pedag?gicas e contribuir para o entendimento das propriedades dos estimadores e testes associados ? regress?o linear simples e m?ltipla, a partir da simula??o de um processo de amostragem repetida.

3 APLICA??ES DA SIMULA??O DE MONTE CARLO NA AN?LISE DE REGRESS?O USANDO O EXCEL

Nesta se??o s?o desenvolvidas duas aplica??es da simula??o de Monte Carlo. Na Aplica??o 1, as etapas da constru??o do processo de simula??o que ir? resultar na obten??o de 1.000 amostras de pares de valores (x,y) em uma planilha eletr?nica s?o detalhadamente descritas. Na sequ?ncia da obten??o das amostras, ? apresentado o passo a passo da obten??o das estimativas de ponto e de intervalo, das estat?sticas de regress?o. Tamb?m s?o obtidas as estat?sticas F e t e os resultados dos respectivos testes de hip?teses. A Aplica??o 2 estende os procedimentos da Aplica??o 1 para o contexto de regress?o linear m?ltipla.

3.1 Aplica??o 1: estima??o dos par?metros na RLS usando diferentes tamanhos de amostra

O desenvolvimento de estudos de Monte Carlo come?a com a defini??o do processo gerador de dados. Assim, a partir de um modelo Y=1+2 X1+u ? necess?rio definir os valores dos par?metros 1 e 2 e os valores de X na amostra. Em seguida, deve-se inserir a f?rmula para obten??o dos valores de Y. Isto ? feito usando a fun??o ALEAT?RIO do Excel para gerar os valores de u, de modo a tornar a rela??o entre Y e X n?o determin?stica. A Tabela 1 a seguir apresenta os par?metros definidos para as simula??es da Aplica??o 1.

................
................

In order to avoid copyright disputes, this page is only a partial summary.

Google Online Preview   Download