Avaliação de impacto experimental

Priscilla Bacalhau

imagem em preto e branco de mãos apontando para papel com gráficos
A avaliação experimental é utilizada para identificar os efeitos causados por um programa, projeto ou política pública. Entenda conceitos sobre essa metodologia, que é considerada o ‘padrão-ouro’ da avaliação de impacto
  • Aleatorização

    O método de aleatorização foi desenvolvido nas áreas de medicina e farmacêutica. Para comprovar se um medicamento ou procedimento médico tem eficácia, os indivíduos no estudo são divididos aleatoriamente entre tratados e não tratados e realiza-se um experimento para determinar se o tratamento médico causa os efeitos esperados.

    No contexto de avaliação de políticas públicas e projetos sociais, o método experimental de avaliação consiste em sortear, de maneira aleatória, quem irá participar do programa (grupo de tratamento) e quem não irá (grupo de controle). É uma forma de determinar se uma intervenção teve efeito causal na população-alvo. Esse é considerado o “padrão-ouro” da avaliação de impacto. Em 2019, o prêmio Nobel de Economia reconheceu o trabalho de combate à pobreza no mundo por meio de uma abordagem de avaliação experimental de políticas sociais.

    Com um número de participantes suficientemente grande, o processo de seleção aleatória dos participantes, via sorteio, garante que o grupo de controle seja um bom contrafactual — representando o que teria acontecido com o grupo de tratamento caso não tivesse participado do programa. O sorteio permite que qualquer diferença observada no resultado de interesse entre o grupo de tratamento e o grupo de controle seja atribuída à participação do programa — trata-se, portanto, do impacto estimado. Além disso, a aleatorização, que define que cada indivíduo tem a mesma chance de ser sorteado, é uma maneira justa e transparente de selecionar os participantes, em especial quando há recursos escassos que impossibilitam o atendimento de todos os interessados.

  • Contrafactual

    Medir o impacto de um programa envolve comparar duas situações: a) o que ocorreu após a implementação e b) o que teria acontecido se o programa não tivesse ocorrido. Porém, não é possível observar o que teria acontecido caso a intervenção não tivesse ocorrido, pois essa é uma situação hipotética. O contrafactual é então o resultado que os participantes do programa teriam tido na ausência do programa. Por definição, ele não pode ser observado e precisa ser estimado.

    Para estimar o contrafactual é preciso utilizar grupos de comparação, isto é, encontrar um grupo de não participantes do programa que seja muito similar ao grupo de participantes, podendo, dessa forma, representar o que teria acontecido caso o programa não tivesse sido oferecido.

  • Dificuldades operacionais do experimento

    Do ponto de vista científico, o método experimental de estimar impacto produz uma medida causal do efeito do programa, por isso, é muitas vezes a forma de avaliação escolhida pelos avaliadores. Mas o lado operacional da realização do experimento pode trazer muitos desafios, principalmente para o gestor do programa.

    A primeira barreira para realizar uma aleatorização pode vir já em seu planejamento, por envolver elevados custos de execução. Além disso, uma vez definidos os grupos de tratamento e controle via sorteio, é preciso haver um monitoramento constante para garantir a validade do experimento e evitar que dificuldades técnicas gerem vieses na estimação de impacto. Exemplos dessas dificuldades que podem fazer com que o grupo de controle sorteado não seja mais um contrafactual válido são:

    • Atrito: ocorre quando integrantes do grupo de tratamento ou do grupo de controle não são mais encontrados e não é possível medir os resultados de interesse para eles;
    • Cumprimento parcial: ocorre quando integrantes do grupo de controle participam do programa, ou quando integrantes do grupo de tratamento não participam;
    • Efeito de transbordamento: ocorre quando o grupo de comparação é beneficiado indiretamente pelo programa;
    • Compensação: ocorre quando o grupo de comparação recebe algum tipo de ação compensatória por não participar do programa.
  • Dilemas éticos

    Apesar de o método experimental ser uma forma robusta de se obter uma estimativa de impacto de uma política pública, nem sempre é possível realizá-lo por razões éticas. Em muitos casos, não é desejável privar uma parte da população de acessar um programa social via sorteio de quem será grupo de tratamento e quem será grupo de controle. Por exemplo, em intervenções de larga escala, como programas de vacinação, não seria ético decidir que apenas uma parcela da população elegível fosse beneficiada.

    Contudo, há diversas situações no contexto de implementação de políticas públicas em que é preciso tomar decisões sobre quem receberá os benefícios de uma intervenção. Isso se dá devido à limitação de recursos, que não torna possível oferecer o programa para toda a população-alvo de uma única vez. Assim, quando há excesso de demanda, ou quando haverá uma entrada gradual de pessoas no programa ao longo tempo, a aleatorização é uma forma justa de decidir quem receberá seus benefícios e pode ser utilizada para estimar os impactos da política.

  • Grupo de tratamento e grupo de comparação 

    Grupo de tratamento é o grupo de participantes ou beneficiários de um programa ou política. Podem ser pessoas, famílias, domicílios, estudantes, escolas, empresas, ou qualquer unidade que seja o público-alvo da intervenção. Um grupo de comparação válido são os não participantes do programa ou política que apresentem as mesmas características que o grupo de tratamento, exceto pelo fato de que não participam da intervenção.

    Para avaliar o impacto do programa, é preciso encontrar um grupo de comparação válido: os não participantes comparáveis aos participantes precisam representar um bom contrafactual — que é o que teria acontecido caso a intervenção não tivesse ocorrido. Quando o grupo de comparação é definido de forma aleatória, via sorteio, ele é chamado de grupo de controle.

  • Impacto

    No ciclo da política pública, após a identificação de um problema social, deve-se desenhar e implementar um programa ou projeto que busque mitigar as consequências negativas desse problema e levar a uma melhora no resultado de interesse. Contudo, nem toda mudança observada no resultado do programa implementado é necessariamente causada por ele, pois fatores externos também podem estar atuando. O impacto de uma intervenção (programa, política ou projeto) é a parte do resultado de interesse que pode ser atribuída diretamente a essa intervenção — seu efeito causal. Comparar os resultados antes e depois de um programa não basta, em geral, para identificar seu impacto.

    A avaliação de impacto, portanto, busca responder se uma intervenção afeta seus participantes e qual a magnitude desse efeito, estabelecendo uma relação causal entre a participação no programa e os resultados. Esse tipo de avaliação também pode testar qual formato de implementação é mais efetivo para causar uma mudança em um resultado de interesse. O impacto é associado a efeitos de médio ou longo prazo, podendo ser positivos ou negativos, intencionais ou não intencionais.

  • Métodos quase-experimentais

    A cultura da avaliação de políticas públicas e do uso de seus resultados na tomada de decisão baseada em evidências deve ser incentivada, pois apenas assim é possível conhecer a efetividade dos programas em gerar os efeitos desejados e aperfeiçoá-los para obtenção de melhores resultados. Contudo, as dificuldades operacionais e éticas associadas ao método experimental podem inviabilizar o uso dessa técnica na estimação do impacto de uma intervenção.

    Nesses casos, recomenda-se realizar uma avaliação quase-experimental. Os métodos quase-experimentais, assim como o experimental, buscam encontrar um grupo de comparação que gere um contrafactual válido para o grupo de tratamento, mas a definição dos grupos não é realizada por seleção aleatória (ou seja, sorteio) dos beneficiários. Esses métodos utilizam diferentes técnicas econométricas para buscar comparabilidade entre os grupos e estimar o efeito causal do programa. Exemplos desses métodos são diferença em diferenças, regressão descontínua, pareamento e controle sintético.

  • Validade interna e validade externa

    Uma avaliação de impacto tem validade interna quando usa um grupo de comparação válido, ou seja, traz uma boa estimativa do contrafactual — o que teria ocorrido com o grupo de tratamento na ausência do programa. Quando há validade interna, há confiança de que as conclusões da avaliação expressam uma relação de causalidade entre o programa social e os resultados de interesse. O método experimental, ao definir o grupo de controle por meio de sorteio aleatório, gera um bom contrafactual, portanto, tem validade interna.

    Por outro lado, para que a avaliação tenha validade externa, é preciso que a amostra utilizada na avaliação represente adequadamente a população de interesse do programa. Se isso for verdade, o impacto causal estimado na avaliação pode ser generalizado para toda a população elegível ao programa, — mesmo as pessoas que não participaram da avaliação e vivem em outro tempo ou localidade. Nesse caso, as conclusões e recomendações da avaliação de impacto são aplicáveis em outras situações e contextos além daquele do programa avaliado. O método experimental não tem, em geral, grande validade externa: apesar de o grupo de tratamento e de controle serem semelhantes, não há garantia de que a amostra utilizada na avaliação seja representativa de outras situações fora do experimento.

  • Viés de seleção

    O impacto estimado de um programa sofre viés de seleção quando as razões pelas quais um indivíduo participa de um programa são correlacionadas com os resultados. Se, por exemplo, o critério de seleção para um programa envolve adesão voluntária dos participantes, o impacto sofrerá de viés de seleção se, no grupo de controle, os indivíduos não tiverem aderido voluntariamente ao estudo. Indivíduos que voluntariamente aderem ao programa podem apresentar uma motivação intrínseca para se engajarem mais e obterem melhores resultados, diferentemente daqueles que não aderem. Logo, esse grupo de controle não é uma boa comparação, pois o fato de que os indivíduos não escolheram se voluntariar ao programa é uma característica relevante que os diferencia do grupo de tratamento.

    O método experimental, via aleatorização da população elegível para o programa, dividindo-os em grupos de tratamento e de controle, gera estimativas de impacto sem viés de seleção. Isso ocorre porque não há diferença entre os grupos que podem influenciar a participação no programa e estar correlacionadas com os resultados de interesse . Portanto, após o programa, qualquer diferença observada entre tratamento e controle pode ser totalmente associada à intervenção.

Bibliografia

ANGRIST, J. D., PISCHKE, J. S. Mostly harmless econometrics: An empiricist's companion. Princeton university press, 2008.

DUFLO, E.; GLENNERSTER, R.; KREMER, M. Using randomization in development economics research: A Toolkit. In: T. SCHULTZ; J. STRAUSS. Handbook of Development Economics. Oxford: North Holland, 2008. v. 4, p. 3895-3962.

GERTLER, P., J., et al (2011). Avaliação de Impacto na Prática, The International Bank for Reconstruction and Development / The World Bank, segunda edição. Disponível aqui.

HENRIQUES, R.; CARVALHO, M.; BARROS, R. P. Avaliação de impacto em educação: a experiência exitosa do programa Jovem de Futuro em parceria com o poder público. São Paulo, SP: Instituto Unibanco, 2020. Disponível aqui.

MENEZES FILHO, N. (Org). Avaliação Econômica de Projetos Sociais. São Paulo: Fundação Itaú Social. 2016. Disponível aqui.

Priscilla Bacalhau é doutora em economia pela FGV EESP e foi pesquisadora visitante na Escola de Educação da Universidade de Stanford. Atua como consultora para a equipe de Educação do Banco Mundial e presta assistência técnica em avaliação de impacto pela FGV EESP Clear para Brasil e África Lusófona. É pesquisadora convidada do CPTE (Centro de Pesquisa Transdisciplinar em Educação) do Instituto Unibanco.

Veja também

Parceiros

AfroBiotaBPBESBrazil LAB Princeton UniversityCátedra Josuê de CastroCENERGIA/COPPE/UFRJCEM - Cepid/FAPESPCPTEClimate Policy InitiativeMudanças Climáticas FAPESPGEMAADRCLAS - HarvardIEPSISERJ-PalLAUTMacroAmbNeriInsper