Aplicação de árvores de contexto probabilísticas para classificação de textos do Corpus Histórico do Português Tycho Brahe

Autor(es) e Instituição: 
Bruno Sette Camara de Oliveira
Denise Duarte
Apresentador: 
Bruno Sette Camara de Oliveira

O Corpus Histórico do Português Tycho Brahe é um corpus eletrônico anotado, composto de textos em português escritos por autores nascidos entre 1435 e 1845 e está disponível para pesquisadores, gratuitamente, para fins acadêmicos e pedagógicos. Ele é desenvolvido junto ao projeto temático Padrões Rítmicos, Fixação de Parâmetros & Mudança Linguística.

O trabalho consiste na modelagem probabilística do Corpus Histórico e utilizamos árvores de sufixo probabilísticas que foram introduzidas por Rissanem em 1983, no caso de árvores finitas. Em seu trabalho ele não apenas introduz o modelo como também propõe um algoritmo para estimar as árvores de contexto dada uma amostra. Em seu artigo ele apresenta uma prova da consistência (fraca) do algoritmo no caso de uma árvore fixa. Em nosso trabalho, generalizamos este resultado para o caso de uma árvore probabilística ilimitada.

Recentemente, árvores de sufixo probabilísticas se tornaram populares na literatura estatística com o nome de variable length Markov chains utilizado por Buhlman e Wyner (1999). Eles provaram a consistência de uma variante do algoritmo de contexto para árvores finitas permitindo que a altura da árvore crescesse com o tamanho da amostra. Árvores probabilísticas ilimitadas definem uma interessante família de cadeias estocásticas de ordem infinita em um alfabeto finito. A idéia é que para cada passado, apenas um sufixo finito do passado (sequência finita de símbolos), chamada de contexto é suficiente para predizer o próximo símbolo. Esses sufixos podem ser representados por uma árvore enumerável completa de contextos finitos na qual existe uma probabilidade de transição associada a cada contexto.

Agradecemos o apoio da FAPEMIG na realização do projeto.

Resumo estendido: