Mineração de Informações em Dados Não Regulares

Autor(es) e Instituição: 
Josmar Mazucheli
Apresentador: 
Josmar Mazucheli

Por mais simples que seja a análise de dados, sua viabilidade e sucesso depende não só da habilidade do estatístico mas também, em muito, dos recursos computacionais disponíveis. Muitos métodos importantes de análise só tiveram sucesso --- tornaram-se populares --- graças ao advento destes recursos. Dentre estes pode-se citar os métodos de reamostragem (Bootstrap, Jackknife, Cross-validation, Permutation tests), MCMC, redes neurais, Data Mining dentre outros. Nos últimos 20 anos uma infinidade de softwares tornaram-se disponíveis para o processamento e análises de dados - Lisp Perl , Python, Ox, R, SAS, S-Plus etc. Com o surgimento destes softwares, com linguagens próprias de programação, dados antes na condição de não analizáveis passaram a ser analisados. Como exemplo, considere a tarefa de obter informação, de qualidade e relevância, a partir de textos ou de dados não estruturados, semi-estruturados ou ainda não regulares. Este trabalho surgiu de uma aplicação real onde o objetivo era a extração de informações de uma base de dados formada por anúncios - classificados - de vendas de imóveis na cidade de Maringá. Informações extraídas da base de anúncios tais como valor anunciado do imóvel, localização, metragem, número de cômodos etc., foram utilizadas para traçar o perfil do mercado imobiliário da cidade. Outras informações pertinentes a base foram usadas para se criar um possível modelo de precificação. A mineração em texto utilizou o que se chama em computação de expressões regulares.