09/04/2021

Tutorial sobre gramáticas computacionais no formalismo HPSG utilizando a Grammar Matrix

Gramáticas computacionais elaboradas manualmente com base em princípios linguísticos têm tido a sua eficácia comprovada em diversas aplicações de nível industrial que exigem compreensão textual, em tarefas como tradução automática, resolução de perguntas e extração de informações.

Esse tipo de gramática é um complemento às abordagens estatísticas baseadas em corpora sintaticamente anotados, os chamados treebanks.

A anotação de um corpus por meio de uma gramática computacional assegura a profundidade e a consistência das análises, permitindo que o conhecimento de especialistas seja automaticamente aplicado na anotação de um grande volume de sentenças.

Uma das teorias gramaticais formais mais utilizadas para a elaboração de gramáticas desse tipo é a HPSG. As principais gramáticas de ampla cobertura implementadas nesse formalismo são a English Resource Grammar (ERG), a JACY do japonês e a gramática alemã do DFKI (Centro de Pesquisa Alemão de Inteligência Artificial), resultado de um esforço de mais de uma década de indivíduos ou pequenos grupos.

A modelagem computacional dos fenômenos gramaticais de uma língua nesse formalismo pressupõe o domínio da linguagem de descrição TDL (Type Description Language), constituindo uma tarefa de programação complexa, objeto da engenharia da gramática.

A Grammar Matrix, que vem sendo desenvolvida desde os anos 2000 na University of Washington por Emily M. Bender e colegas, possibilita a reutilização de soluções de implementação das gramáticas referidas para a construção de novas gramáticas, dispensando conhecimento da linguagem TDL.

O sistema possui uma interface sob a forma de um questionário baseado em extensa pesquisa tipológica, que cobre alguns dos principais fenômenos gramaticais das línguas do mundo. Para construção de uma gramática computacional de uma determinada língua, o usuário só precisa especificar as particularidades da língua em relação a uma série de parâmetros gramaticais, como ordem de palavras, tipos de categorias morfossintáticas etc. bem como descrever as propriedades dos itens lexicais. Essa gramática inicial pode ser ampliada depois manualmente.

Neste tutorial, apresentamos os conceitos linguísticos fundamentais necessários à compreensão e utilização do questionário bem como noções mínimas da teoria da HPSG. As noções serão exemplificadas por meio da construção de minigramáticas do inglês e do latim, línguas que diferem estruturalmente de modo bastante significativo.

O tutorial será concluído com a apresentação de aplicações e ferramentas para utilização da ERG. Para acompanhamento do tutorial, recomendamos a prévia instalação do parser LKB-Fos integrado ao editor Emacs e aquisição de uma familiaridade mínima com os dois sistemas, embora isso não seja estritamente necessário.

Instrutores

• Leonel Figueiredo de Alencar — Professor Titular da Universidade Federal do Ceará e Professor Visitante da Escola de Matemática Aplicada da Fundação Getulio Vargas

• Alexandre Rademaker — Professor da Escola de Matemática Aplicada da Fundação Getulio Vargas e Pesquisador do IBM Research

Inscrição

Os interessados devem se inscrever através do link abaixo.

https://forms.gle/8EGJNa8oWjbLjqe47

Site: http://arademaker.github.io/blog/2021/04/05/grammar-matrix.html

Programação

• 12.04.2021 15:00 – 16:30 (L. F. de Alencar): Conceitos linguísticos fundamentais: estrutura de constituintes, teoria X-barra, gramática universal, relações gramaticais, categorias morfossintáticas, controle, raising etc. Noções elementares de HPSG: estrutura de traços tipada, hierarquia de tipos, unificação etc. Minigramática English 1.

• 19.04.2021 15:00 – 16:30 (L. F. de Alencar): Minigramática English 2. Minigramática Latin 1.

• 26.04.2021 15:00 – 16:30 (L. F. de Alencar): Minigramática English 3. Minigramática Latin 2.

• 03.05.2021 15:00 – 16:30 (L. F. de Alencar): Minigramática English 4. Minigramática Latin 3. Limitações da Grammar Matrix e como contorná-las. Exemplos concretos de modificações manuais do código TDL.

• 10.05.2021 15:00 – 16:30 (A. Rademaker): English Resource Grammar, aplicações e ferramentas de utilização.