Extração de informação em bases de dados abertas governamentais através de uma abordagem de mineração descritiva empregando a ferramenta R

Autores

  • Lydia de Castro Cançado Braga Universidade Federal de Itajubá
  • Isabela Neves Drummond Universidade Federal de Itajubá

DOI:

https://doi.org/10.13037/ria.vol14n1.201

Resumo

O processo de extração de conhecimento de grandes bases de dados envolve diversas técnicas. Cada uma delas é apropriada para um tipo de problema e a análise dos métodos utilizados inclui peculiaridades dos dados e a experiência do analista. Neste contexto, dados abertos governamentais tornam-se essenciais para análise dos diversos componentes presentes no cotidiano populacional de um país, como educação, crescimento econômico e política.
Este artigo aborda a criação de uma metodologia de mineração de dados utilizando a linguagem R como ferramenta, buscando verificar seu potencial neste contexto.
Os estudos de casos apresentados utilizam o conjunto de dados Enem 2013, provido pelo Instituto Nacional de Estudos e Pesquisa (INEP), e os Dados das Teses e Dissertações da Pós-Graduação 2012, disponíveis no Banco de Teses e Dissertações da Capes, ambos enquadrados na Lei de Acesso à Informação.
Os resultados alcançados demonstram a viabilidade de aplicação da abordagem proposta na construção de aplicativos, tornando possível a difusão de conhecimento em diversas áreas.

Downloads

Referências

BANCO, D. T. E. D. D. CAPES. 2013.

BRAGA, L. C.; DRUMMOND, I. N. Uma abordagem de mineração descritiva aplicada a dados abertos governamentais empregando a ferramenta r. Anais do Computer on the Beach, p. 051–060, 2017.

BREIMAN, L. et al. Classification and regression trees. [S.l.]: CRC press, 1984.

CAMILO, C. O.; SILVA, J. C. d. Mineração de dados: Conceitos, tarefas, métodos e ferramentas. Universidade Federal de Goiás (UFC), p. 1–29, 2009.

CHARRAD, M. et al. NbClust: An R package for determining the relevant number of clusters in a data set. Journal of Statistical Software, v. 61, n. 6, p. 1–36, 2014. Disponível em: http://www.jstatsoft.org/v61/i06/.

CHI, S.-C.; YANG, C. C. Integration of ant colony som and k-means for clustering analysis. In: SPRINGER. International Conference on Knowledge-Based and Intelligent Information and Engineering Systems. [S.l.], 2006. p. 1–8.

CORRÊA, Â. M. J.; SFERRA, H. Conceitos e aplicações de data mining. Revista de ciência & tecnologia, v. 11, p. 19–34, 2003.

DIETRICH, D. et al. Open data handbook. 2009.

DUTRA, C. C.; LOPES, K. M. G. Dados abertos: Uma forma inovadora de transparência. 2013.

FACELI, K. et al. Inteligência artificial: Uma abordagem de aprendizado de máquina. Rio de Janeiro: LTC, v. 2, p. 192, 2011.

FEINERER, I.; HORNIK, K. tm: Text Mining Package. [S.l.], 2017. R package version 0.7-1. Disponível em: https://CRAN.R-project.org/package=tm.

FELLOWS, I. wordcloud: Word Clouds. [S.l.], 2014. R package version 2.5. Disponível em: https://CRAN.R-project.org/package=wordcloud.

FOUNDATION, O. K. (Ed.). The Open Data Handbook. [S.l.], 2012. Disponível em: http://opendatahandbook.org/.

FRIZZARINI, C.; LAURETTO, M. S. Proposta de um algoritmo para induçao de árvores de classificaçao para dados desbalanceados. Annais do X Simpósio Brasileiro de Sistemas de Informação, p. 722–733, 2013.

GODIN, N.; HUGUET, S.; GAERTNER, R. Integration of the kohonen’s self-organising map and k-means algorithm for the segmentation of the ae data collected during tensile tests on cross-ply composites. NDT & E International, Elsevier, v. 38, n. 4, p. 299–309, 2005.

HALL, M. et al. The weka data mining software: an update. ACM SIGKDD explorations newsletter, ACM, v. 11, n. 1, p. 10–18, 2009.

HAND, D. J.; MANNILA, H.; SMYTH, P. Principles of data mining. [S.l.]: MIT press, 2001.

HOTHORN, T.; HORNIK, K.; ZEILEIS, A. Unbiased recursive partitioning: A conditional inference framework. Journal of Computational and Graphical Statistics, v. 15, n. 3, p. 651–674, 2006.

HOTHORN, T.; ZEILEIS, A. partykit: A modular toolkit for recursive partytioning in R. Journal of Machine Learning Research, v. 16, p. 3905–3909, 2015. Disponível em: http://jmlr.org/papers/v16/hothorn15a.html.

JAIN, A. K. Data clustering: 50 years beyond k-means. Pattern recognition letters, Elsevier, v. 31, n. 8, p. 651–666, 2010.

KOHONEN, T. Essentials of the self-organizing map. Neural networks, Elsevier, v. 37, p. 52–65, 2013.

R Core Team. R: A Language and Environment for Statistical Computing. Vienna, Austria, 2017. Disponível em: https://www.R-project.org/.

RIPLEY, B. D. The r project in statistical computing. MSOR Connections. The newsletter of the LTSN Maths, Stats & OR Network, v. 1, n. 1, p. 23–25, 2001.

ROSSUM, G. V.; DRAKE, F. L. The python language reference manual. [S.l.]: Network Theory Ltd., 2011.

SUAREZ, A. F.; CANDEIAS, A. Avaliação de acurácia da classificação de dados de sensoriamento remoto para o município de maragogipe. IV Simpósio Brasileiro de Ciências Geodésicas e Tecnologias da Geoinformação, DeCart-UFPE, Recife, 2012.

TANG, J.; ALELYANI, S.; LIU, H. Feature selection for classification: A review. Data Classification: Algorithms and Applications, CRC Press, p. 37, 2014.

TEAM, R. C. R language definition. Vienna, Austria: R foundation for statistical computing, 2000.

WEHRENS, R.; BUYDENS, L. M. et al. Self-and super-organizing maps in r: the kohonen package. J Stat Softw, v. 21, n. 5, p. 1–19, 2007. Disponível em: http://www.jstatsoft.org/v21/i05.

WILKINSON, L.; FRIENDLY, M. The history of the cluster heat map. The American Statistician, Taylor & Francis, v. 63, n. 2, p. 179–184, 2009.

WING, M. K. C. from J. et al. caret: Classification and Regression Training. [S.l.], 2017. R package version 6.0-77. Disponível em: https://CRAN.R-project.org/package=caret.

ZAMBENEDETTI, C. Extração de informação sobre bases de dados textuais. 2002.

Downloads

Publicado

2020-05-31

Como Citar

Braga, L. de C. C., & Drummond, I. N. (2020). Extração de informação em bases de dados abertas governamentais através de uma abordagem de mineração descritiva empregando a ferramenta R. Revista De Informática Aplicada, 14(1). https://doi.org/10.13037/ria.vol14n1.201

Edição

Seção

Artigos