Avaliação de programas públicos e projetos sociais é um campo de pesquisa aplicada com muito mais disputa metodológica, controvérsia sobre resultados e divergências sobre o que fazer acerca das intervenções avaliadas do que imagina boa parte da sociedade – e do público acadêmico. É um campo que movimenta algumas dezenas de centros de pesquisa, centenas de profissionais e pesquisadores e alguns milhões de reais de empresas privadas, instituições filantrópicas e governos. Confere reconhecimento acadêmico, prestígio junto à Administração Pública e publicações em periódicos. Mas nem sempre o campo devolve tudo aquilo que é investido, com a qualidade e pluralidade necessária, para informar algo tão impactante na vida das pessoas como os programas e projetos sociais.
Essa assertiva vale também para aqueles estudos realizados pelos autoproclamados “avaliadores de fato”, que consideram que os modelos experimentais de pesquisa e, com alguma concessão, alguns desenhos quase-experimentais, constituiriam o método padrão-ouro para avaliação de programas (Gertler et al 2015). Este segmento da comunidade epistêmica da Avaliação (chamado por Ravaillon ,2009 de randomistas) argumenta que, garantidos os pressupostos de sua aplicação, esse modelo de pesquisa pode garantir de forma mais consistente a inferência causal entre a intervenção – suas atividades e produtos – e seus efeitos. De acordo com o que sugere um manual de Avaliação de Políticas Públicas editado pela Casa Civil em 2018 (Brasil 2018), evidências produzidas nesse tipo de avaliação seriam mais robustas para formulação e decisão de políticas públicas, cabendo um papel complementar – e menos meritório – aos resultados de avaliações realizadas por meio de outras abordagens.
Os fartos recursos de apoio a projetos em fundações privadas, o contexto de primado da austeridade fiscal dos últimos anos e a repercussão pública dos procedimentos de testes de vacina contra a Covid-19 certamente têm favorecido essa tendência, legitimando a convicção do modelo experimental como “método mais científico” de avaliação de qualquer iniciativa governamental na saúde, na educação ou proteção social. Tal tendência ou preferência talvez não tivesse qualquer repercussão mais séria se ficasse tão-somente restrita ao debate acadêmico, como se fosse uma disputa paradigmática sem maiores consequências para o mundo dos comuns…
Mas o fato é que a crença no método continua vívida e eficiente para capturar corações e mentes nas universidades, setor público e até mesmo a mídia no país, mesmo em um novo contexto mais favorável de investimentos em políticas públicas. E pior, sob uma aparentemente intransponível couraça metodológica, avaliações experimentais teimam em apontar falta de impacto de programas e projetos sociais mesmo quando esses, de fato, o têm! Iniciativas meritórias que não tiveram tempo de serem implementadas adequadamente são invariavelmente deslegitimadas nessas avaliações (Jannuzzi 2022). É o que a experiência vivenciada e um tanto longeva de análise de avaliações, teses e dissertações sobre programas sociais parece demonstrar: a falta de impacto de programas sociais identificada em avaliações parece ser uma consequência recorrente tanto da inadequação do desenho avaliativo quanto da intervenção propriamente dita. Ou, dito de outra forma, programas e projetos sociais podem estar apresentando efeitos positivos e ainda assim, por falhas de especificação das avaliações de impacto, não revelarem seus efeitos. Essa é a questão que se procura discutir nesse texto, a partir de reflexões mais alongadas em Moral-Arce (2014), Chianca (2015) e Jannuzzi (2023).
Sem dúvida, o desenho experimental é um modelo atraente, aparentemente intuitivo, aplicável desde o teste de eficácia de medicamentos e vacinas até o de intervenções sociais complexas. O modelo experimental clássico na pesquisa epidemiológica tem o objetivo de investigar a estrutura e a intensidade de causalidade entre uma variável-efeito consequente (cura, melhora do estado de saúde) e sua variável-fator determinante (tratamento, medicamento ou vacina). Para isso, é preciso garantir o controle da situação experimental em laboratório e o emprego de dois grupos compostos de forma aleatória, a partir de uma mesma população original ou mesmo conjunto de pacientes. Um desses grupos é submetido aos efeitos do novo tratamento que se quer avaliar (grupo Tratamento). O outro não é submetido ao novo tratamento, mas pode (e deve) receber o tratamento convencional disponível (grupo Controle). Medições dos dois grupos são realizadas ao longo do tempo e comparadas para se avaliar se o grupo Tratamento apresenta resultados estatisticamente melhores – cura, estado de saúde, em relação ao grupo Controle. Nessa situação, o medicamento, protocolo de tratamento ou vacina em teste é considerado como eficaz. A ideia intuitiva que está subjacente nesse experimento é que, como os dois grupos foram expostos às mesmas condições de ‘laboratório’ (internação no mesmo hospital, por exemplo) e são muito parecidos (pois são amostras de um mesmo conjunto inicial de pacientes), a eventual diferença entre eles seria consequência do fato de um deles ter tido acesso ao tratamento enquanto o outro, não. Eventual diferença na evolução da condição de saúde entre dois grupos similares de indivíduos, mantidos sob mesmo contexto externo, deveria ser imputada, pois, à diferença no tratamento a que os grupos estão submetidos.
Randomistas defendem que essa mesma lógica experimental poderia ser aplicada no caso de avaliação de programas e projetos sociais. Sem dúvida, pode, mas em circunstâncias muito mais restritivas, por motivos de natureza ética, política e operacional. Em primeiro lugar, para aplicação do desenho experimental clássico em políticas públicas, há problemas éticos não triviais de como escolher e justificar quem vai ser beneficiário e quem vai ficar de fora do programa, questão que na prática da pesquisa médica já foi equacionada pelos Comitês de Ética (Cano 2004). Tais instâncias assumem a responsabilidade, risco e legitimidade dessas escolhas em prol do desenvolvimento científico e promoção da cura e saúde, mas asseguram aos pacientes do grupo Controle o melhor tratamento então disponível. No campo das políticas públicas, pode-se estar diante de uma situação de avaliar o efeito de um programa novo em comparação com nenhum serviço público disponível.
No caso brasileiro, a seleção de beneficiários de programas por meio de sorteio é ainda bastante discutível do ponto de vista ético. Em uma sociedade marcada por grande desigualdade regional, cor/raça, condição socioeconômica e iniquidades sociais como pobreza, fome, trabalho infantil não parece que a “promessa ética do desenvolvimento científico” consiga calar ou falar mais alto que o “compromisso ético com a dignidade humana”. Combate da desigualdade, asseguramento de direitos sociais básicos e promoção da dignidade humana são valores públicos e princípios presentes em marcos normativos constitucionais e infra-constitucionais no país.
Questões éticas à parte, sempre em disputa, em termos operacionais há, de partida, um problema de escala na avaliação experimental: em políticas públicas não se está lidando na dimensão de centenas ou poucos milhares de pessoas em ensaios clínicos ou projetos sociais; são dezenas e centenas de milhares, senão milhões de pessoas a serem potencialmente atendidas. Amostras representativas seriam inevitavelmente grandes e dispendiosas no tratamento e controle contextual. Há ainda dificuldades operacionais na condução de uma avaliação experimental, já que envolvem coleta de dados em campo por pelo menos duas vezes ou ondas, para se ter as medidas pré e pós-programa dos grupos de tratamento e controle. Dependendo do espaçamento de tempo entre as duas ondas de levantamento, podem-se perder famílias ou pessoas de um ou outro grupo, pela mudança de endereço, migração para outra localidade, óbito ou recusas em participar (sobretudo entre não beneficiários).
Encontram-se também desafios metodológicos na escolha de qual é a melhor medida para captar a dimensão impactada. O que se supõe como dimensão impactada guarda, pelo desenho lógico do programa, vinculação estreita com as ações, produtos e serviços deste? O efeito a ser medido é um resultado concreto do programa, assegurável tão-somente pelo programa ou um efeito desejável ou potencial, que requer outros pressupostos ou ações não previstas no desenho do programa? O impacto deve ser medido sobre os beneficiários, nas suas famílias, comunidade a que pertencem ou ainda na sociedade? E afinal, será que é possível expressar toda a cadeia causal de efeito de um programa e suas atividades por meio de apenas uma equação com relação linear entre variável resposta e variáveis determinantes? Não seria a realidade mais complexa, a exigir um sistema de equações e relações não necessariamente lineares?
Se as considerações sistematizadas até aqui acerca do uso do delineamento experimental não são suficientes para abalar a crença acerca de sua superioridade técnica – padrão-ouro – na avaliação de programas, talvez valha a pena conhecer as Leis Metálicas da Avaliação, formuladas por Peter Rossi (1987). Baseado na observação da regularidade dos achados dos modelos experimentais de avaliação nos anos 1960 nos EUA, auge do uso desse método (Leão e Eyal 2019), o autor consubstanciou quatro “leis”, a saber:
A Lei do Ferro da Avaliação: “O valor esperado de qualquer avaliação de impacto de qualquer programa social de grande escala é zero.” A Lei de Ferro surge da experiência de que poucas avaliações de impacto de programas sociais de grande escala descobriram que os programas em questão tiveram algum impacto. A lei também determina que, com base nos esforços de avaliação dos últimos vinte anos, a melhor estimativa a priori da avaliação de impacto de qualquer programa é zero, ou seja, que o programa não terá efeito.
A Lei do Aço da Avaliação: “Quanto mais bem elaborada a avaliação de impacto de um programa social, mais provável é que a estimativa de impacto resultante seja zero.” Essa lei significa que quanto mais rigorosa do ponto de vista técnico for a avaliação do impacto, maior será a probabilidade de seus resultados serem zero – ou sem efeito. Especificamente, esta lei implica que ao estimar os impactos por meio de experimentos aleatórios controlados, a melhor abordagem para estimar os impactos tem mais probabilidade de mostrar efeitos zero do que outras abordagens menos rigorosas.
A Lei do Bronze da Avaliação: “Quanto mais programas sociais são projetados para mudar indivíduos, mais provável é que o impacto do programa seja zero.” Essa lei significa que os programas sociais destinados a reabilitar indivíduos, alterando-os de uma forma ou de outra, têm maior probabilidade de fracassar. Essa lei pode parecer redundante, uma vez que todos os programas, incluindo aqueles projetados para lidar com indivíduos, são cobertos pela Lei de Ferro. Essa redundância tem o objetivo de enfatizar a tarefa especialmente difícil de projetar e implementar programas eficazes destinados a reabilitar indivíduos.
A Lei do Zinco da Avaliação: “Apenas os programas com probabilidade de reprovação são avaliados.” Das várias leis metálicas de avaliação, a lei do zinco é a que apresenta o viés mais otimista, uma vez que implica que existem programas eficazes, mas que tais programas nunca são avaliados. Também implica que, se um programa social for eficaz, essa característica é óbvia o suficiente e, portanto, os formuladores de políticas e outros que patrocinam e financiam as avaliações decidem contra a avaliação.
Se analisássemos os resultados dos estudos avaliativos com desenho experimental, realizados entre 2000 e 2020, sobre os programas sociais no Brasil, é muito provável que a regularidade dos achados levasse a considerar a plausibilidade das “Leis Metálicas” de Rossi (1987). Eficaz ou não, não parece haver como um programa ou projeto social possa escapar à lógica deslegitimadora da avaliação experimental. Não poderia ser mais conveniente tal abordagem metodológica em contextos de austeridade fiscal ou desmonte de políticas públicas, como o vivenciado a partir do Golpe de 2016…
Se as Leis Metálicas imperam no mundo positivista da Avaliação, há enfim algum alento. Afinal, como corolário dessas “Leis” pode-se dizer que “a eventual falta de impacto de um programa social pode derivar antes do método de medi-los do que da inefetividade do programa em si”. Ou ainda, “se há expectativas que um programa público releve algum impacto, é recomendável que o método de avaliação não seja “puramente” experimental.” Do contrário, o veredito já estará escrito antes mesmo da avaliação…
Bibliografia
- BRASIL. Casa Civil. Avaliação de políticas públicas : guia prático de análise ex post, Brasília: Casa Civil da Presidência da República, 20 18, v.2.
- CANO,I. Introdução à avaliação de programas sociais. Rio de Janeiro: FGV, 2004.
- CHIANCA,T. Um modelo alternativo ao estudo experimental para inferir causalidade em avaliações do impacto de projetos sociais. Revista Brasileira de Monitoramento e Avaliação, Brasília, n.9, 1-30, 2015.
- LEÃO,L.S. , EYAL, G. The rise of randomized controlled trials (RCTs) in international development in historical perspective. Theor Soc 48, 383–418 (2019).
- JANNUZZI,P.M.Avaliação de impacto de programas e projetos educacionais e culturais. Revista Observatório, v. 33, p. 1-12, 2022.
- JANNUZZI,P.M.Delineamentos experimentais na avaliação de políticas públicas: usos e abusos. Estudos em Avaliação Educacional (Online), v. 34, p. e09956, 2023.
- MORAL-ARCE, I. Elección del método de evaluación cuantitativa de una política pública: buenas prácticas en América Latina y la Unión Europea. Madrid: EuroSocial, 2014. (Documentos de Trabajo, n.6).
- RAVALLION, M. Should the randomists rule? Bekerley Eletronic Press, p.1-5, fev. 2009
- ROSSI, P. The Iron Law of Evaluation and other Metallic Rules. MILLER, J. LEWIS, M. Research in Social Problems and Public Policy. Jai Press, v. 4, p. 3-20, 1987.
***
Os artigos representam a opinião dos autores e não necessariamente do Conselho Editorial do Terapia Política.
Ilustração: Mihai Cauli e Revisão: Celia Bartone
Clique aqui para ler artigos do autor.