Linguística

Composicionalidade

Para acessar outros textos e as referências, clique aqui.

MATOS, E. E. S. LUDI: um framework para desambiguação lexical com base no enriquecimento da semântica de frames. 200 p. Tese (Doutorado), Universidade Federal de Juiz de Fora, 2014.

Esta pesquisa investiga maneiras de melhorar a compreensão, por aplicações computacionais, de sentenças ou textos expressos em língua natural. É importante ressaltar que estamos usando termo “compreensão” no sentido aplicado às tarefas em PLN, ou seja, a identificação da situação, contexto ou domínio abordado pela sentença, com o objetivo de construir uma “interpretação”, uma representação computacional daquela situação, contexto ou domínio. Através de uma análise semântica (e sintática, quando aplicável), a ideia é reconhecer “sobre o que” a sentença trata e não “o que” a sentença efetivamente significa, já que o significado, no seu sentido mais amplo, depende de um conhecimento de mundo, do contexto do discurso e de fatores pragmáticos que não são abordados neste trabalho. Porém, mesmo limitada, a “compreensão textual” por máquinas é útil em diversas aplicações de PLN, tais como sumarização de textos e dicionários eletrônicos, classificação de documentos, refinamento de pesquisas em corpus e realização de inferências lexicais.

A compreensão por parte da máquina envolve a criação de uma representação do significado da sentença. Um princípio básico que governa a interpretação de expressões linguísticas é o Princípio da Composicionalidade (CRUSE, 2010, p. 83). O que este princípio estabelece é que o significado de uma expressão semanticamente complexa é uma função composicional dos significados de seus constituintes semânticos. Segundo Cruse, esta definição se apoia em duas fortes pressuposições:

  1. Uma língua tem um número infinito de sentenças gramaticais;
  2. A linguagem tem um poder de expressão ilimitado, ou seja, qualquer coisa que possa ser concebida pode ser expressa via linguagem.

Não é difícil observar aqui alguns pressupostos da Gramática Gerativa e Transformacional, uma abordagem linguística que vem sofrendo várias elaborações e adaptações, desde a sua apresentação no final da década 1950, por Noam Chomsky. Ela é denominada Gerativa porque pretende fornecer uma descrição estrutural (finita) para todos os objetos linguísticos (infinitos) que são gramaticais dentro da língua natural sob exame; e é denominada Transformacional, porque concebe e descreve estruturas de superfície como resultado de transformações operadas em estruturas profundas. Ou seja, esta abordagem estuda as gerações e as transformações que ocorrem nas sentenças.

Em relação às estruturas das sentenças, a Estrutura de Superfície é aquela diretamente relacionada com a forma fonética do enunciado; sua representação é linear, possui um arranjo hierárquico dos elementos e pode levar à ambiguidade. Já a Estrutura Profunda não está representada diretamente na forma do signo, é abstrata e não possui ambiguidade. Estas estruturas (sintáticas) são representadas através de Diagramas Arbóreos (ou simplesmente, árvores).

Como o gerativismo privilegia a sintaxe, é natural a ideia de que o significado de uma expressão complexa pode ser predito pelo uso de regras gerais, aplicadas aos seus constituintes, porque ele é uma função do significado daqueles constituintes e da forma sintática associada a eles. Ou seja, a linguagem humana seria produtiva e sistemática. Produtiva porque o sistema de representação inclui um número infinito de unidades simbólicas diferentes, sintáticas e semânticas. Sistemática porque cada unidade simbólica do sistema de representação possui o mesmo valor em cada estrutura em que ele é usado.

De fato, os defensores da composicionalidade direta argumentam que qualquer operação sintática tem uma operação semântica correlacionada e, consequentemente, qualquer expressão bem formada em termos sintáticos tem um significado predizível. Este é o chamado Princípio da Composicionalidade Forte.

No entanto, os estudos linguísticos, principalmente no campo da Linguística Cognitiva, já mostraram que a questão é muito mais complicada: uma língua pode apresentar diversos padrões de combinações de palavras, onde cada combinação (das mesmas palavras) pode apresentar um sentido diferente; o mesmo item lexical pode se referir a conceitos diferentes; a alternância dos verbos pode provocar uma mudança na leitura; existem significados que não são sintaticamente transparentes; existem expressões que são não-composicionais. Além disso, como dito antes, fatores contextuais, conceptuais, discursivos e pragmáticos, além de um “conhecimento do mundo” limitado, podem comprometer seriamente a compreensão do enunciado.

Não obstante estas dificuldades, adotamos como pressuposto que o processo de composicionalidade é fundamental na busca do significado da sentença. Para obter este significado, um passo essencial é olhar além das palavras individualmente, reconhecendo que o significado de uma dada palavra tipicamente inclui conceitos que não são únicos para nenhum item linguístico (DODGE, 2010). Outro passo é o reconhecimento que o significado não está associado apenas com o lexema, mas também com os padrões construcionais onde estes lexemas ocorrem (como Unidades Lexicais). Embora não tratado diretamente nesta pesquisa, o estudo das construções gramaticais é importante, pois elas desempenham um papel preponderante na compreensão do enunciado.

A estratégia desenvolvida ao longo deste trabalho é o uso de Frames. Os Frames permitem simultaneamente localizar a palavra num contexto mais amplo de significado (expresso pela definição do Frame) e relacionar a palavra com outras partes da sentença, através dos Elementos de Frame. Assumindo que o significado principal da sentença como um todo está associado com um Frame (dependendo de qual palavra é tomada como foco da análise – uma operação de construal), podemos identificar quais elementos do Frame estão sendo expressos pelas diferentes partes da sentença.

O uso da Semântica de Frames permite que nos afastemos da Hipótese Forte da Composicionalidade (HFC) que, como visto, considera obter o significado de uma expressão linguística através da soma do significado literal das suas partes constituintes, tentando excluir da constituição do significado todo e qualquer conhecimento de mundo ou efeito pragmático. Um modelo assim não admite ambiguidade, sinonímia, homonímia e vagueza. Já o uso de Frames nos possibilita o acesso a um parcial conhecimento de mundo e o entendimento de que a soma do significado das partes pode não ser igual ao significado do todo. A Semântica de Frames possibilita inferências explicadas (ou motivadas) pelo Frame, diante das quais a HFC nada tem a dizer. Associada a estas inferências, a integração de conceitos através de processos cognitivos, usando as relações entre Frames, nos possibilita uma abordagem mais ampla para a construção do significado.

Segundo Dodge (2010), a análise usando Elementos de Frame possui duas vantagens sobre o uso de papéis temáticos isolados. Uma vantagem se refere à profundidade do significado. Através do uso de diferentes Frames e Elementos de Frame para representar os significados das sentenças, podemos capturar significados mais específicos do que aqueles associados tipicamente aos papéis temáticos (como Agente e Paciente). Outra vantagem se refere à integração do significado. Tipicamente os papéis temáticos são definidos como entidades separadas, enquanto Comprador e Mercadorias (elementos do Frame COMÉRCIO_COMPRAR) estão claramente relacionados um com o outro.

A FrameNet, portanto, oferecendo um grande conjunto de Frames (e uma metodologia para criação de novos Frames quando necessário), se constitui um recurso valioso para o tipo de análise aqui proposta. No entanto, apesar de existirem Frames para verbos, nomes, adjetivos e preposições, historicamente uma atenção maior vem sendo dada ao verbos e ao estudo das valências verbais. Apesar do reconhecimento de que substantivos associados a artefatos e entidades naturais possuem uma estrutura de Frame mínima (RUPPENHOFER et al., 2010), estes Frames raramente dominam as orações em que eles ocorrem, e raramente são selecionados como objetos de anotação.