Classificadores Binários, Políticas Públicas Sociais e Dados Desbalanceados

Autores

  • Cinara J. Santos Programa de Pós-Graduaçao em Modelagem Computacional - UFJF / mestranda
  • Vitor Gabriel Barra Souza Faculdade de Medicina - UFJF
  • Victor Teixeira de Melo Mayrink Programa de Pós-Graduaçao em Modelagem Computacional - UFJF / mestre
  • Henrique Steinherz Hippert Programa de Pós-graduação em Modelagem Computacional - Fac. Engenharia - UFJF Depto. Estatística - ICE - UFJF
  • Marcel de Toledo Vieira Programa de Pós-graduação em Economia Aplicada - Fac. Economia - UFJF Depto. Estatística - ICE - UFJF

DOI:

https://doi.org/10.13037/ria.vol13n1.169

Resumo

Neste estudo utilizamos uma base de dados de pesquisa vinculada ao desempenho do Programa Bolsa Família (PBF) no ano de 2009. Este programa implica na transferência direta de renda com condicionantes nas áreas de educação, saúde e assistência social, visando atender famílias pobres e extremamente pobres - assim classificadas segundo um determinado valor percapita mensal. Esta base contem informações de cunho financeiro (renda e gastos das famílias), e também grau de instrução dos indivíduos, e elementos descritores do ambiente domiciliar (moradia e entorno). A aplicação dos algoritmos de predição visou averiguar a eficiência desses processos a partir das variáveis que descrevem as famílias, identificando corretamente se estas atendiam ou não ao perfil de beneficiárias do programa. Os algoritmos utilizados foram regressão logística, árvore binária de decisão e rede neural artificial em múltiplas camadas. Diversas medidas de desempenho foram calculadas, a partir da matriz de confusão resultante de cada algoritmo. Os valores encontrados para estas medidas foram baixos frente a uma das classes a serem identificadas. As intervenções aplicadas foram o reembaralhamento aleatório e também super-amostragem da classe minoritária e sub-amostragem da classe majoritária. Embora tenha ocorrido alguma melhora, o desempenho no reconhecimento da classe minoritária permaneceu baixo o que aponta para a necessidade de novos experimentos.

Downloads

Biografia do Autor

Cinara J. Santos, Programa de Pós-Graduaçao em Modelagem Computacional - UFJF / mestranda

Graduada em Eng.Elétrica, pós lato-sensu em eng. de produção, mestranda em modelagem computacional com foco em políticas públicas sociais.

Referências

ALBERTO, B. L. A. Abordagens de préprocessamento de dados em problemas de classificação com classes desbalanceadas. 2012. Dissertação de Mestrado. Centro Federal de Educação Tecnológica de Minas Gerais.

AMARAL, E.F.L; GONÇALVES, G.Q.; MONTEIRO, V.P.; et al. Avaliação de impactos das condicionalidades de educação do Programa Bolsa Família: uma análise com o censo de 2010. in XVIII Encontro Nacional de Estudos Populacionais, ABEP, Águas de Lindóia/SP–Brasil. 2012.

ANDRADE A.L.S.S.; ZICKER F. Avaliação de testes diagnósticos. In: Andrade A.L.S.S. & Zicker F. (Eds), Métodos de Investigação Epidemiológica em Doenças Transmissíveis. Vol.1. 1997. p.9-30. FNS, OPAS, Brasília, DF.

BARANAUSKAS, J. A. Aprendizado de Máquina Conceitos e Definições. 2007. Notas de aula. Disponível em [http://dcm.ffclrp.usp.br/~augusto/teaching/ami/AM-I-Conceitos-Adicionais-Metricas.pdf]. Acesso em ago. 2016.

BATISTA, G. E. A. P. A; PRATI, R. C.; MONARD, M. C. A study of the behavior of several methods for balancing machine learning training data. ACM Sigkdd Explorations Newsletter, v. 6, n. 1, p. 20-29, 2004.

PRATI, R. C.; BATISTA, GEAPA; MONARD, M. C. Curvas ROC para avaliação de classificadores. Revista IEEE América Latina, v. 6, n. 2, p. 215-222, 2008.

BISHOP, C. M. Neural networks for pattern recognition. Oxford University Press, 1995.

BRASIL. Ministério do Desenvolvimento Social e Combate à Fome; Centro de Desenvolvimento e Planejamento Regional. Sumário executivo – avaliação de impacto do Programa Bolsa Família – 2ª Rodada. Brasília, DF: SAGI; IFPRI/Datamétrica Consultoria, Pesquisa e Telemarketing Ltda. 2012.

CAMILO, C. O.; SILVA, J. C. da. Mineração de dados: Conceitos, tarefas, métodos e ferramentas. 2009. Universidade Federal de Goiás.

CARVALHO, F. A.T. Aprendizagem Estatística de Dados. 2010. Notas de aula. Disponível em [http://www.cin.ufpe.br/~fatc/AM/AvaliacaoClassificadores.pdf]. Acesso em out. 2016.

CASTRO, CL de; BRAGA, A. P. Aprendizado supervisionado com conjuntos de dados desbalanceados. Rev. Controle Autom, v. 22, n. 5, p. 441-466, 2011.

CASTRO, L. N.; VON ZUBEN, F. J. Redes Neurais Artificiais. (Notas de aula). Disponível em [ftp://ftp.dca.fee.unicamp.br/pub/docs/vonzuben/ia006_03/topico5_03.pdf]. Acesso em ago. 2016.

SANTOS, A.M.; SEIXAS, J.M.; PEREIRA, B.B.; et al. Usando redes neurais artificiais e regressão logística na predição da hepatite A. Rev. Bras. Epidemiol., v. 8, n. 2, p. 117-126, 2005.

DUARTE, G. B.; SAMPAIO, B.; SAMPAIO, Y. Programa Bolsa Família: impacto das transferências sobre os gastos com alimentos em famílias rurais. Revista de economia e sociologia rural, v. 47, n. 4, p. 903-918. 2009.

FÁVERO, L.P.L; BELFIORE, P.P.; SILVA, F.L.; et al. Análise de dados: modelagem multivariada para tomada de decisão. São Paulo, Brasil: Campus. 2009.

GONZAGA, A. Métodos de avaliação de Classificadores. 2011. Notas de aula. Disponível em [http://iris.sel.eesc.usp.br/sel886/Aula_9.pdf]. Acesso em dez. 2016.

GUJARATI, D. N. Econometria Básica. 3.ed. São Paulo, Brasil: Pearson Makron Books. 2000.

GUSMÃO, G. C.; TOYOSHIMA, S. H.; PAULA, R. Avaliação do Programa Bolsa Família: um estudo de caso no estado de Minas Gerais no ano de 2009. Vozes dos Vales, v. 01, p. 01-31, 2012.

JANNUZZI, P. de M., QUIROGA, J. Síntese das pesquisas de avaliação de programas sociais do MDS. Cadernos de Estudos Desenvolvimento Social em Debate 2011-2014. v. 16. p.1-358. 2014.

LIMA, L. M. C. Modelagem de distribuição geográfica para Hydromedusa maximiliani (Mikan, 1820) (Testudines, Chelidae). 2014. Dissertação de Mestrado. Universidade Federal de Juiz de Fora.

MATOS, P. F.; LOMBARDI, L. O., CIFERRI, R. R. et al. Relatório técnico “métricas de avaliação”. Universidade Federal de São Carlos. 2009. Disponível em [http://gbd.dc.ufscar.br/~pablofmatos/files/ReportMetrica-MatosEtAl.pdf], Acesso em out. 2016.

Ministério do Desenvolvimento Social e Combate à Fome, 2012, Sumário Executivo – Avaliação de Impacto do Programa Bolsa Família – 2ª Rodada. Brasília.

MONARD, M. C.; BARANAUSKAS, J. A. Conceitos sobre Aprendizado de Máquina. In: Solange Oliveira Rezende. (Org.). Sistemas Inteligentes - Fundamentos e Aplicações. 1ª ed. Barueri - SP: Editora Manole Ltda., 2003, p. 89-114.

MONARD, M. C.; BARANAUSKAS, J. A. Indução de Regras e árvores de Decisão. In: Solange Oliveira Rezende. (Org.). Sistemas Inteligentes - Fundamentos e Aplicações. 1ª ed. Barueri - SP: Editora Manole Ltda., 2003, p. 115-139.

MUNARETTO, L. F.; SILVA, J. F.; VIANNA, P. H. et al. Um estudo sobre Programa Bolsa Família (PBF): o caso dos municípios que integram a associação dos municípios da zona da produção (AMZOP). In. Anais do IV SINGEP - São Paulo/SP – Brasil. 2015.

NETO, Si. B.; NAGANO, M. S.; DA COSTA MORAES, M. B. Utilização de redes neurais artificiais para avaliação socioeconômica: uma aplicação em cooperativas. Revista de Administração da Universidade de São Paulo, v. 41, n. 1, 2006.

OLIVEIRA, S. R. de M. Medidas para Avaliação de Regras e de Modelos de Classificação (Notas de aula). Disponível em [http://www.ime.unicamp.br/~wanderson/Aulas/MT803-Aula10-AprendizadoMaquina-Interestingness.pdf]. Acesso em: nov. 2016.

PRETTO, D.; BENDER FILHO, R. Análise da influência dos programas complementares para a emancipação sustentada dos beneficiários vinculados ao programa bolsa família: estudo com ex-beneficiários do município de Santo Ângelo/RS. 2016. Gestão Pública: Práticas e Desafios-ISSN: 2177-1243, v. 8, n. 2.

PRINCIPE, J. C.; EULIANO, N. R.; LEFEBVRE, W. C. Neural and adaptive systems: fundamentals through simulations with CD-ROM. John Wiley & Sons, Inc., 1999.

RAMEZANKHANI, A.; POURNIK, O.; SHAHRABI, F. et al. The impact of oversampling with SMOTE on the performance of 3 classifiers in prediction of type 2 diabetes. Medical decision making, v. 36, n. 1, p. 137-144, 2016.

RUFINO, H. L. P. Algoritmo de aprendizado supervisionado-baseado em máquinas de vetores de suporte - uma contribuição para o reconhecimento de dados desbalanceados. 2011. Tese de Doutorado. Universidade Federal de Uberlândia - MG.

SCHIAVONI, André Spinelli. Um estudo comparativo de métodos para balanceamento do conjunto de treinamento em aprendizado de redes neurais artificiais. 2010. Monografia de Graduação. Universidade Federal de Lavras – MG.

SENNA, M. C. M.; BRANDÃO, A. A.; DALT, S. Programa Bolsa Família e o acompanhamento das condicionalidades na área de saúde. Serviço Social & Sociedade, n. 125, p. 148-166, 2016.

SILVA, C. C. S.; VIANNA, R.P.T.; MORAES, R. M. et al. Rede neural artificial e o modelo de apoio à decisão em segurança alimentar nutricional. in Revista de enfermagem UFPE on-line, Recife, 9(3):7078-85. 2015. Disponível em [http://www.revista.ufpe.br/revistaenfermagem/index.php/revista/article/download/6317/pdf_7386]. Acesso em 20 de ago. 2016.

SOARES, S.; SÁTYRO, N. O Programa Bolsa Família: desenho institucional, impactos e possibilidades futuras. 2009.

SOUZA, F. C. S. Inteligência

SOUZA, F. C. S. Inteligência computacional aplicada na análise e recuperação de portfólios de créditos do tipo non-performing loans. 2015. Dissertação de Mestrado. Universidade Nove de Julho – SP.

SOUZA, F. C. S. de. Métricas de avaliação de modelos de classificação/predição. 2014.

7 Valor ajustado pelo Decreto-Lei nº 8.794, de 29 de junho de 2016, valores percapita. Disponível em [https://mineracaodedados.wordpress.com/tag/matriz-de-confusao/]. Acesso em ago. 2016

Wikipedia. Youden's J statistic. Wikipedia, The Free Encyclopedia. Last edition: 22 Nov. 2016. Disponível em [https://en.wikipedia.org/wiki/Youden's_J_statistic]. Acesso em dez. 2016

SANTOS, C. J.; SOUZA, V. G. B.; MAYRINK, V. T. M. et al. Classificadores Binários como Critério de Averiguação em Políticas Públicas. In: VII Conferência Sul em Modelagem Computacional, 2016. Rio Grande/RS. 2016. Anais do 7o. MCSul - Conferência Sul em Modelagem Computacional. Rio Grande - RS: FURG, 2016. p. 718-726.

Downloads

Publicado

2020-05-31

Como Citar

Santos, C. J., Souza, V. G. B., Mayrink, V. T. de M., Hippert, H. S., & Vieira, M. de T. (2020). Classificadores Binários, Políticas Públicas Sociais e Dados Desbalanceados. Revista De Informática Aplicada, 13(1). https://doi.org/10.13037/ria.vol13n1.169

Edição

Seção

Artigos