Extração de informação em bases de dados abertas governamentais através de uma abordagem de mineração descritiva empregando a ferramenta R
DOI:
https://doi.org/10.13037/ria.vol14n1.201Resumo
O processo de extração de conhecimento de grandes bases de dados envolve diversas técnicas. Cada uma delas é apropriada para um tipo de problema e a análise dos métodos utilizados inclui peculiaridades dos dados e a experiência do analista. Neste contexto, dados abertos governamentais tornam-se essenciais para análise dos diversos componentes presentes no cotidiano populacional de um país, como educação, crescimento econômico e política.Este artigo aborda a criação de uma metodologia de mineração de dados utilizando a linguagem R como ferramenta, buscando verificar seu potencial neste contexto.
Os estudos de casos apresentados utilizam o conjunto de dados Enem 2013, provido pelo Instituto Nacional de Estudos e Pesquisa (INEP), e os Dados das Teses e Dissertações da Pós-Graduação 2012, disponíveis no Banco de Teses e Dissertações da Capes, ambos enquadrados na Lei de Acesso à Informação.
Os resultados alcançados demonstram a viabilidade de aplicação da abordagem proposta na construção de aplicativos, tornando possível a difusão de conhecimento em diversas áreas.
Downloads
Referências
BANCO, D. T. E. D. D. CAPES. 2013.
BRAGA, L. C.; DRUMMOND, I. N. Uma abordagem de mineração descritiva aplicada a dados abertos governamentais empregando a ferramenta r. Anais do Computer on the Beach, p. 051–060, 2017.
BREIMAN, L. et al. Classification and regression trees. [S.l.]: CRC press, 1984.
CAMILO, C. O.; SILVA, J. C. d. Mineração de dados: Conceitos, tarefas, métodos e ferramentas. Universidade Federal de Goiás (UFC), p. 1–29, 2009.
CHARRAD, M. et al. NbClust: An R package for determining the relevant number of clusters in a data set. Journal of Statistical Software, v. 61, n. 6, p. 1–36, 2014. Disponível em: http://www.jstatsoft.org/v61/i06/.
CHI, S.-C.; YANG, C. C. Integration of ant colony som and k-means for clustering analysis. In: SPRINGER. International Conference on Knowledge-Based and Intelligent Information and Engineering Systems. [S.l.], 2006. p. 1–8.
CORRÊA, Â. M. J.; SFERRA, H. Conceitos e aplicações de data mining. Revista de ciência & tecnologia, v. 11, p. 19–34, 2003.
DIETRICH, D. et al. Open data handbook. 2009.
DUTRA, C. C.; LOPES, K. M. G. Dados abertos: Uma forma inovadora de transparência. 2013.
FACELI, K. et al. Inteligência artificial: Uma abordagem de aprendizado de máquina. Rio de Janeiro: LTC, v. 2, p. 192, 2011.
FEINERER, I.; HORNIK, K. tm: Text Mining Package. [S.l.], 2017. R package version 0.7-1. Disponível em: https://CRAN.R-project.org/package=tm.
FELLOWS, I. wordcloud: Word Clouds. [S.l.], 2014. R package version 2.5. Disponível em: https://CRAN.R-project.org/package=wordcloud.
FOUNDATION, O. K. (Ed.). The Open Data Handbook. [S.l.], 2012. Disponível em: http://opendatahandbook.org/.
FRIZZARINI, C.; LAURETTO, M. S. Proposta de um algoritmo para induçao de árvores de classificaçao para dados desbalanceados. Annais do X Simpósio Brasileiro de Sistemas de Informação, p. 722–733, 2013.
GODIN, N.; HUGUET, S.; GAERTNER, R. Integration of the kohonen’s self-organising map and k-means algorithm for the segmentation of the ae data collected during tensile tests on cross-ply composites. NDT & E International, Elsevier, v. 38, n. 4, p. 299–309, 2005.
HALL, M. et al. The weka data mining software: an update. ACM SIGKDD explorations newsletter, ACM, v. 11, n. 1, p. 10–18, 2009.
HAND, D. J.; MANNILA, H.; SMYTH, P. Principles of data mining. [S.l.]: MIT press, 2001.
HOTHORN, T.; HORNIK, K.; ZEILEIS, A. Unbiased recursive partitioning: A conditional inference framework. Journal of Computational and Graphical Statistics, v. 15, n. 3, p. 651–674, 2006.
HOTHORN, T.; ZEILEIS, A. partykit: A modular toolkit for recursive partytioning in R. Journal of Machine Learning Research, v. 16, p. 3905–3909, 2015. Disponível em: http://jmlr.org/papers/v16/hothorn15a.html.
JAIN, A. K. Data clustering: 50 years beyond k-means. Pattern recognition letters, Elsevier, v. 31, n. 8, p. 651–666, 2010.
KOHONEN, T. Essentials of the self-organizing map. Neural networks, Elsevier, v. 37, p. 52–65, 2013.
R Core Team. R: A Language and Environment for Statistical Computing. Vienna, Austria, 2017. Disponível em: https://www.R-project.org/.
RIPLEY, B. D. The r project in statistical computing. MSOR Connections. The newsletter of the LTSN Maths, Stats & OR Network, v. 1, n. 1, p. 23–25, 2001.
ROSSUM, G. V.; DRAKE, F. L. The python language reference manual. [S.l.]: Network Theory Ltd., 2011.
SUAREZ, A. F.; CANDEIAS, A. Avaliação de acurácia da classificação de dados de sensoriamento remoto para o município de maragogipe. IV Simpósio Brasileiro de Ciências Geodésicas e Tecnologias da Geoinformação, DeCart-UFPE, Recife, 2012.
TANG, J.; ALELYANI, S.; LIU, H. Feature selection for classification: A review. Data Classification: Algorithms and Applications, CRC Press, p. 37, 2014.
TEAM, R. C. R language definition. Vienna, Austria: R foundation for statistical computing, 2000.
WEHRENS, R.; BUYDENS, L. M. et al. Self-and super-organizing maps in r: the kohonen package. J Stat Softw, v. 21, n. 5, p. 1–19, 2007. Disponível em: http://www.jstatsoft.org/v21/i05.
WILKINSON, L.; FRIENDLY, M. The history of the cluster heat map. The American Statistician, Taylor & Francis, v. 63, n. 2, p. 179–184, 2009.
WING, M. K. C. from J. et al. caret: Classification and Regression Training. [S.l.], 2017. R package version 6.0-77. Disponível em: https://CRAN.R-project.org/package=caret.
ZAMBENEDETTI, C. Extração de informação sobre bases de dados textuais. 2002.
Downloads
Publicado
Como Citar
Edição
Seção
Licença
Copyright (c) 2019 Lydia de Castro Cançado Braga, Isabela Neves Drummond

Este trabalho está licenciado sob uma licença Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Os autores que publicam trabalhos na RIA estão de acordo com os seguintes termos:
- Autores mantêm seus direitos autorais e concedem à RIA o direito à primeira publicação. Admite-se o compartilhamento do referido trabalho, desde que seja reconhecida sua autoria e publicação inicial nesta revista.
- Autores podem fechar contratos adicionais separadamente, para distribuição não exclusiva da versão do trabalho publicado na RIA, com reconhecimento de sua autoria e publicação inicial nesta revista.
- Autores podem publicar e distribuir seu trabalho online, antes ou durante o processo editorial.