Linguística

Teoria do Léxico Gerativo

Para acessar outros textos e as referências, clique aqui.


MATOS, E. E. S. LUDI: um framework para desambiguação lexical com base no enriquecimento da semântica de frames. 200 p. Tese (Doutorado), Universidade Federal de Juiz de Fora, 2014.

A Teoria do Léxico Gerativo (TLG), apresentada em Pustejovsky (1991) e desenvolvida em Pustejovsky (1995), considera o léxico como um sistema complexo, que forma uma parte crucial das línguas naturais e fornece as informações necessárias para o tratamento das propriedades polimórficas dos itens lexicais e sua permeabilidade ao contexto. Assim, as unidades lexicais são representadas por estruturas de informação, seguindo um conjunto finito de regras que possibilitam a descrição do significado no contexto e a descrição da interface sintaxe-semântica (AMARO, 2009).

Segundo Pustejovsky (1998b), a TLG é largamente motivada pelo desejo de ver qual a contribuição que a informação lexical fornece para a interpretação semântica completa da sentença. A TLG busca estudar a habilidade que temos de tomar uma categoria e refinar ou redefinir seu uso de uma forma nova ou em um novo contexto. O refinamento ou a redefinição contínua dos papéis que um objeto exerce em nosso ambiente e como conceptualizamos as diferentes propriedades daquele objeto em diferentes contextos é um dos mecanismos analisados pela TLG. A tese é que o potencial semântico da linguagem não deve ser explicado em termos de mecanismos ad hoc, mas sim através de um sistema gerativo restrito, criado especialmente com esta finalidade. Assim, os mecanismos subjacentes à semântica permanecem inalterados, enquanto dão origem a novos significados. De fato, afirma Pustejovsky, o que faz a linguagem tão unicamente expressiva é o modo como ela parece abraçar as mudanças de significados, tais como a polissemia. A polissemia (mais especificamente a chamada polissemia regular, sistemática ou lógica) ocupa, realmente, uma posição de destaque nos estudos da TLG, nos quais ela é considerada central à linguagem.

Assim, ao invés de tratar a polissemia através de uma abordagem enumerativa, na TGL a metodologia tem sido a construção de estruturas diferenciais, que têm comportamentos funcionais. Mais especificamente, a semântica dos itens lexicais é considerada subespecificada; cada elemento em um sintagma pode funcionar ativamente na composição do sintagma e a noção de “sentido da palavra” somente emerge no nível da sentença, ou
seja, é o “sentido no contexto” (PUSTEJOVSKY, 1991).

Crucialmente a TLG, ao invés de assumir um conjunto fixo de primitivas para descrever o significado das palavras, assume um número fixo de mecanismos gerativos que são usados para construir as expressões semânticas. Desta forma, um léxico gerativo pode ser caracterizado como um sistema envolvendo pelo menos quatro níveis básicos de representação linguística:

a) Estrutura argumental (A), que define o número e o tipo de argumentos de um item lexical;
b) Estrutura de eventos (E), que se refere às propriedades de um evento associado ao item lexical;
c) Estrutura qualia (Q), que provê os objetos semânticos que definem o significado de um item lexical;
d) Estrutura de herança lexical (I), que lista as relações existentes entre uma dada estrutura lexical e outras estruturas no léxico.

Um dado item lexical (IL) é então representado pela informação nestes níveis distintos pela expressão (3.1).

(3.1) IL =< A,E, Q, I >

Por outro lado, um conjunto de mecanismos gerativos conecta estes quatro níveis, provendo a interpretação composicional das palavras em contexto (PUSTEJOVSKY, 1995, p. 105). A natureza destes mecanismos determina a expressividade polimórfica da semântica de maneira bastante restritiva. Estes mecanismos incluem a coerção de tipo, a subseleção e a co-composição.

A coerção de tipo consiste em uma operação semântica que converte um argumento de um dado tipo no tipo esperado pelo predicado. Apesar da coerção de tipo poder ser refletida na expressão sintática do predicado, esta operação semântica não envolve mudanças para o tipo sintático do item, mas sim para seu tipo semântico, que pode ser associado a formas sintáticas canônicas diferentes. O tipo mais simples de coerção é a coerção de subtipo, quando um argumento é de um subtipo do tipo esperado pelo predicado. A sentença (3.2) é compreensível porque <Honda> é um subtipo de <veículo>(o complemento esperado para <dirigir>). Na mesma sentença pode-se ver que o tipo de (uma ação) sofre uma coerção para <local>, que é o tipo esperado para um dos argumentos de <chegar>.

(3.2) Pedro dirigiu seu Honda até chegar ao serviço.

A subseleção é um mecanismo relacionado à descrição da relação entre um
modificador e o item modificado. A subseleção permite ao modificador selecionar seus argumentos de um conjunto de objetos no conteúdo semântico do item modificado. Este mecanismo possibilita, por exemplo, explicar a sensibilidade ao contexto de adjetivos como <rápido>, dependendo do substantivo, uma vez que a interpretação resultante emerge da modificação do valor do qualia selecionado presente no conteúdo semântico do substantivo. Em <um carro rápido> e <um digitador rápido>, o adjetivo <ráido> seleciona, claramente, diferentes interpretações.

Já a co-composição está associada a ocorrência da chamada polissemia lógica. Pustejovsky (1995, p. 28)) apresenta a seguinte definição para a polissemia lógica:

I will define logical polysemy as a complementary ambiguity where there is no change in lexical category, and the multiple senses of the word have overlapping, dependent, or shared meanings.

Assim, são descritas como casos de polissemia lógica as várias alternâncias que sistematicamente ocorrem em nomes, tais como a relação entre contáveis e não contáveis; recipiente e conteúdo; processo e resultado; lugar e pessoas etc. Esta recorrência justifica o tratamento dado a esse tipo de polissemia como “lógica”, pois parece haver algo intrínseco a natureza lexical desses termos que os torna polissêmicos, e esse é um fenômeno produtivo na língua .

A co-composição vai, então, congregar as operações semânticas que permitem completar formas subespecificadas com o conteúdo semântico de seus argumentos. Dentre estas operações estão, por exemplo, a co-composição de maneira, a unificação de features e a especificação de verbos leves. Moura e Pereira (2004), estudando o verbo <preparar.v>, argumentam que este apresenta polissemia lógica, pois possui sentidos diversos que podem ser correlacionados de maneira regular. Esta polissemia seria produzida pela regra de co-composição, ou seja, os diferentes sentidos do verbo <preparar.v> derivam de sua combinação com os sintagmas nominais em posição de complemento. Por exemplo, quando os argumentos, em posição de complemento, são eventos, a ação verbal designa atividades de planejamento. Já quando os argumentos são pessoas, a ação verbal se refere, única e exclusivamente, a uma mudança de estado. As sentenças (3.3) ilustram esta situações.

(3.3) (a) A empresa prepara o lançamento de um novo produto.
(b) O curso prepara o aluno para o processo seletivo.

Por outro lado, a TLG considera que o significado das palavras está estruturado na base de quatro fatores gerativos, chamados “papéis qualia“. Cada papel qualia captura como os seres humanos entendem os objetos e as relações no mundo e provê uma explicação mínima para o comportamento linguístico dos itens lexicais. A determinação dos valores de cada papel qualia não é obrigatória; para um dado item lexical, somente os valores dos papéis pertinentes devem ser definidos. (PUSTEJOVSKY, 1995, p. 85) define quatro papéis qualia:

  • Formal: valores que estabelecem o que diferencia um dado objeto dentro do seu domínio semântico; tipicamente é a descrição de sua categoria básica.
  • Constitutivo: valores que expressam a relação entre um dado objeto e seus constituintes ou suas partes, tais como o material, o peso ou partes características.
  • Télico: valores relativos a informação sobre a função ou o propósito do objeto, tais como a intenção de um agente executando uma dada ação ou a função intrínseca do objeto.
  • Agentivo: valores que determinam a origem do objeto, tais como seu criador, tipo de origem (natural ou artificial) ou sua causa inicial.


A Figura 1 ilustra três dos níveis descritos anteriormente, considerando a semântica do verbo <construir> ’build’. Os números representam a unificacação dos traços de cada estrutura. O processo e1 é identificado como um ato agentivo, envolvendo tanto um sujeito ARG1 e um argumento default D −ARG1, que é relacionado com o objeto relação constitutiva de ARG2.

Figura 1 – Estrutura do item lexical build (construir)
Fonte: Pustejovsky (1995, p. 82)

Dado o viés computacional da TLG, os valores dos papéis qualia são especificados através de expressões lógicas, com tipos bem definidos e estruturas relacionais, indicando a associação apropriada com o termo predicador. O sistema de tipos, usado para categorizar os itens lexicais, é assim uma questão importante na TLG. Em especial, em muitos sistemas
de tipos usados para estruturas conceituais (e as lexicalizações associadas) é necessário empregar um esquema de herança múltipla. Porém, este esquema sofre de uma noção muito limitada de estrutura lexical; em particular, uma consequência deste modelo é a ambiguidade em relação a participação de um item em uma classe.

Para tratar esta questão, a TLG propõe o uso de uma herança ortogonal. Neste modelo de herança, ao invés de uma única estrutura organizacional para os tipos, diferentes estruturas são usadas ortogonalmente, baseadas na estrutura qualia. Um item lexical herda informação de acordo com a estrutura qualia que ele carrega. Por exemplo, <livro> é-um <objeto físico> (qualia formal), mas <livro> é-uma <informação> (qualia télico). Os tipos para um dado item lexical podem então ser unificados. Esta estratégia permite a criação de conceitos cada vez mais específicos. Tipos unificados podem ser vistos como estruturados por dimensões ortogonais, ou perspectivas.

Um item lexical pode também apresentar sentidos que aparentemente são contraditórios ou distintos, mas que na realidade estão ligados mais profundamente. Nas sentenças em (3.4) a palavra <livro> parece ter sentidos distintos (informação e objeto comercial), mas que estão relacionados. Na TLG esta situação é representada pelo uso de tipos complexos. Um tipo complexo é uma relação que associa um par de sentidos de uma forma bem definida, permitindo que, em dado contexto, um ou outro sentido seja usado na interpretação.

(3.4) (a) Maria não acreditou naquele livro.
(b) Paulo vendeu seu livro para João.

Pustejovsky (1998a) afirma que a posição adotada pela TLG é de que a capacidade linguística humana é reflexo de nossa habilidade em categorizar e representar o mundo de maneira específica. O que é unicamente humano não é uma linguagem extensional per si, mas a habilidade gerativa de construir o mundo conforme ele é revelado através
da linguagem e das categorias que são empregadas. Esta posição claramente reflete a relação entre a capacidade gerativa e o processo cognitivo, teoricamente assentada por Chomsky desde seus primeiros trabalhos e apresentada mais detalhadamente em (HAUSER;
CHOMSKY; FITCH, 2002), com a ressalva de que, neste caso, a geratividade é estritamente sintática.

Em especial, na TLG pode-se perceber a ligação entre a ideia da geratividade sintática e da geratividade semântica. A chamada infinitude discreta pode ser explicada, na sintaxe, pela manipulação simbólica da forma, através de fórmulas, algoritmos, regras de transformação. Dispondo de um conjunto de unidades combinatórias e de um conjunto de princípios que combinem estas unidades, sentenças bem formadas e interpretáveis podem ser produzidas. Projetada na âmbito da semântica, a TLG propõe que o significado também pode ser assim representado, deduzido, computado, uma vez que se disponha de certas unidades que podem ser combinadas (o léxico) e de mecanismos que realizem a combinação (os mecanismos gerativos).

Como destaca Salomão (2002), é interessante notar que, a par de avanços inegáveis em relação às teorias que privilegiam apenas os aspectos sintáticos (pois ocorrem refinamentos nos processos de composição semântica e a polissemia passa a ser considerada), permanece ainda a ideia que o significado do todo pode ser obtido pela composição dos significados das partes; apenas as partes, agora, possuem uma estrutura um pouco mais
complexa (não “atômica”, mas “molecular”). Nesta etapa, segundo Salomão (2002), a significação continua ser tratada como representação simbólica, derivada algoritmicamente.

Paralelamente, um grupo de pesquisadores com experiência em semântica gerativa (como Fillmore, Lakoff, Langacker, entre outros) passaram a buscar um viés teórico mais consistente para as relações entre sintaxe e semântica, investigando principalmente as relações entre forma e significado (FERRARI, 2011, p. 13). A ideia fundamental nesta abordagem alternativa é que a forma serve para evocar o significado, mas não explica
os mecanismos de sua construção. As operações associadas ao significado, tais como a identidade, a integração dos conceitos e o uso da imaginação, apresentam extremas dificuldades de formalização e possuem um caráter essencialmente inconsciente, usando metáforas, simbolismos e analogias. Os estudos sob esta perspectiva, em que a linguagem não é vista como uma capacidade cognitiva à parte das demais, mas visa estruturar linguisticamente o conteúdo conceptual, deram origem a chamada Linguística Cognitiva.