A ambigüidade na recuperação da informação | DataGramaZero, v. 3, n. 1, 2002 | 2002 - Brapci
DataGramaZero, v. 3, n. 1, 2002

A ambigüidade na recuperação da informação

Ambiguity in information retrieval

Resumo: Discutem-se questões relativas à extração de informações contidas em textos completos e posterior recuperação, por meio de métodos de tratamento automático da linguagem natural. Além da extração de palavras do texto, procura-se manter as relações de significado que estas palavras possuem no contexto do discurso em que ocorrem. Assim, defende-se o tratamento de determinados fenômenos lingüísticos que afetam a qualidade da recuperação, como o da ambigüidade. Como referencial teórico-metodológico para efetuar a análise e organização sintático-semântica de conteúdos, utilizam-se a Gramática de Valências de Borba e a teoria de Gráficos Conceituais de Sowa. Emprega-se um sistema de tratamento automático da linguagem natural – o Zstation – em um corpus constituído de documentos oficiais do Mercosul, para testes de desambiguação. Conclui-se que um sistema de recuperação da informação em linguagem natural pode solucionar determinados tipos de ambigüidades quando dispõe de informações relativas à valência sintático-semântica das unidades lexicais que compõem um enunciado. Os resultados obtidos demonstram ser possível introduzir procedimentos automáticos de solução de ambigüidades em sistemas de tratamento da linguagem natural.
Palavras-chave: Recuperação da informação Tratamento automático da linguagem natural Ambigüidade Valência sintático-semântica Gráfico conceitual
Abstract: Tissues relative to information extraction from complete texts and subsequent retrieval by means of automatic natural language treatment methods are discussed. Besides extracting words from the text, the relationship of significance that these words have in the context of the speech in which they occur is attempted to be preserved. An information retrieval system using natural language should be able to treat given linguistic phenomena that affect the quality of information, such as, for instance, the issues of ambiguity. The Valence Grammar and the Conceptual Graphics are used as theoretical and methodological. An automatic natural language treatment system – Zstation – is utilized, as well as a pool of official documents concerning the Mercosul, for the ambiguity solutions tests. The conclusion is reached that a natural language treatment system can solve certain types of ambiguities when information is available regarding the syntactic-semantic valence of the lexical units that compose an enunciation. The results obtained show that it is possible to introduce automatic procedures for solving ambiguities in a natural language treatment system.
Keywords: Information retrieval Document analysis Natural language processing Ambiguity Valence grammar Conceptual graphs
Palabras clave: Ambigüedad
Mots clés:


MEDEIROS, M. B. B. A ambigüidade na recuperação da informação. DataGramaZero, v. 3, n. 1, 2002.
MEDEIROS MBBM. A ambigüidade na recuperação da informação. Datagramazero. 2002;3(1).
MEDEIROS, M. B. B. (2002). A ambigüidade na recuperação da informação. Datagramazero; 3(1).
Dados complementares
Informações

Conteúdo relacionado às informações.

References

  • O mesmo gráfico, gerado a partir de um processo de percepção, serve de representação para as frases expressas nas duas línguas - português e francês. Os GCs constituem-se, portanto, numa linguagem universal e independente, no nível da estrutura profunda. CONCEITOS NOS GCS Nos gráficos conceituais, um conceito é um objeto que possui um tipo e um referente que especifica exatamente que espécie do tipo precedente o conceito representa.  none0 
  • O tipo do conceito não é necessariamente muito distante (do ponto de vista semântico) do conceito representado. Por exemplo, o tipo do conceito gato é GATO[4] e não MAMÍFERO, apesar de gato ter como hiperônimo mamífero. Esta relação de hiperonímia encontra-se representada por uma rede, chamada treillis de conceitos, na qual é estabelecida a hierarquia entre tipos. A relação representada nessa hierarquia é uma relação de ordem de grandeza que se estabelece entre tipos de conceitos e não entre conceitos individuais. Existem, assim, diversas famílias de conceitos, isto é, conjuntos de conceitos que têm o mesmo hiperônimo. Esses conceitos são ditos do mesmo tipo. Tomando-se como exemplo o tipo FRUTA, pode-se dizer que laranja, pêra e banana são do tipo FRUTA - fruta é um hiperônimo de laranja, pêra e banana.  none0 
  • A hierarquia de tipos é um ordenamento parcial definido a partir de um conjunto de etiquetas de tipo. O símbolo <= determina a ordem hierárquica. Os termos subtipo e supertipo são utilizados para designar a posição dos conceitos na hierarquia, como abaixo: Se X < Y, então: X é um subtipo de Y, e  none0 
  • Y é um supertipo de X. Se X <= Y e X < = Z, então: X é um subtipo comum de Y e Z. Se X >= Y e X >= Z, então: X é um supertipo comum de Y e Z. Na hierarquia de tipos, assim como em outras estruturas hierárquicas gênero/espécie baseadas em Aristóteles, os subtipos herdam as propriedades de seus supertipos. Um treillis de conceitos deve ter supertipos e subtipos comuns. Para indicar os tipos de conceitos de forma linear, utiliza-se a seguinte notação: [: ]Ex.: [INSTITUIÇÃO: ‘Embratel’]RELAÇÕES NOS GCS As relações conceituais definem o papel de cada conceito num GC. São as ligações que se estabelecem entre os conceitos do gráfico. Podem ter um número qualquer de arcos, sendo que a relação mais comum é díade[5].  none0 
  • II) Análise morfossintática Encontra o lema morfológico correspondente para cada forma no texto, e sua categoria morfossintática(substantivo, verbo, pronome, adjetivo, Tc). Sua tarefa reduz-se a consultar uma base de dados que contém todos os lemas do dicionário de lemas. III) Análise sintagmática Extrai todos os tipos de grupos necessários para a análise sintática da sentença ou de unidades de texto maiores. Há uma diferença importante entre análise sintagmática e análise sintática. O programa de análise sintagmática basicamente extrai tipos específicos de grupos (grupo nominal, preposicional, verbal, adverbial, etc.). Na análise sintática, o objetivo é identificar as ligações entre grupos ou frases, definindo os papéis destes grupos na frase: sujeito, objeto1, objeto2, etc.  none0 
  • DICIONÁRIO AUTOMÁTICO Um dicionário no Zstation é constituído de um conjunto de lemas e de dados lingüísticos referentes a eles, como ilustrado no exemplo a seguir: brasileiro MOD=amigo  none0 
  • APD= MOD=belo  none0 
  • {CPT=praticaração0  none0 
  • APD= arg(0, rel=FIN, cat=sub_de, fonct=modN, conds=[ ]){CPT=titcred0  none0 
  • APD= arg(0, rel=ORIG, cat=sub_de, fonct=modN, conds=[ ]){CPT=convpojur0  none0 
  • APD= arg(0, rel=AGNT, cat=sub_de, fonct=Spsagt, conds=[ ])arg(0, rel=OBJ, cat=sub_contra, fonct=Spcomp1, conds=[ ])O argumento atribuído à atividade0 indica que um conceito representado por substantivo precedido da preposição de (sub_de) possui uma relação finalidade com o conceito de atividade0 do lema ação. Este substantivo é um modificador de N (N é o lema de entrada), pois indica uma característica de N. Em titcred0(título de crédito), o conceito expresso pelo ‘sub_de’ indica a origem (ORIG) do título e constitui-se num modificador do nome ação. No sentido de convocar poder jurisdicional (convpojur0), ação, possui outra estrutura argumental: a) um agente (AGNT) representado por um sub_de, que está em relação subjetiva com o predicado(fonct=Spsagt) ; b) um objeto (OBJ) do ato de convocar, indicado por sub_contra, que se constitui no primeiro e único complemento.  none0 
  • O argumento de convpojur0 informa também que um substantivo precedido da preposição para (cat=sub_para)indica com que finalidade (rel=FIN) convoca-se o poder jurisdicional. Este substantivo funciona como modificador, não sendo parte da matriz valencial. Nos argumentos, as condições sintático-semântica são enunciadas. O detalhamento dos parâmetros sintáticos é feito na Gramática de Variáveis, e dos parâmetros semânticos, na Ontologia.  none0 
  • GRAMÁTICA MORFOLÓGICA As gramáticas morfológicas no Zstation reúnem o conjunto de lemas selecionados como modelos morfológicos para os demais lemas incluídos num dicionário de base. Cada entrada de uma gramática inclui: o modelo morfológico, a categoria gramatical, as variáveis (pessoa e tempo para verbos e gênero e número para demais categorias aos quais se aplicam) e a regra morfológica a ser aplicada. O modelo amigo exemplifica uma entrada da Gramática Morfológica Portuguesa criada no âmbito da pesquisa: amigo  none0 
  • VARS=[masc, sing]VARS=[masc, plur]VARS=[fem, sing]VARS=[fem, plur]REGS=[ ]REGS=[+s]REGS=[-o, +a]REGS=[-o, +as]Na gramática morfológica, CAT identifica a categoria gramatical do modelo, VARS as variáveis morfológicas e REGS a regra a ser aplicada segundo a variação definida. No exemplo, o lema ‘amigo’ constitui o modelo morfológico de todos os substantivos que formam o masculino/plural com acréscimo do ‘s’ ; o feminino com a substituição do ‘o’ pelo ‘a’, e o feminino/plural com a troca do ‘o’ pelo ‘as’.  none0 
  • A aplicação automática do modelo morfológico adequado a cada lema do dicionário permite que outros programas do Zstation identifiquem, nos textos que estão sendo analisados automaticamente, todas as formas possíveis de determinado lema. A utilização do modelo morfológico reduz o número de entradas de um dicionário automático. Faz-se necessária apenas uma entrada para cada lema, as demais formas são geradas e reconhecidas automaticamente. GRAMÁTICA DE ARGUMENTOS Esta gramática especifica como se efetuam as ligações entre os constituintes relacionados a determinada função sintática. As regras são enunciadas segundo a sintaxe do Zstation, como descrito a seguir: r(X, Cat, Fonct, F, Ops), em que: X = forma a ser encontrada Cat = categoria associada à X Fonct = função associada à X  none0 
  • F = forma de referência Ops = operações lingüísticas As regras da gramática de argumentos possibilitam que o sistema identifique e analise, nos enunciados do corpus, as seqüências que devem ser interpretadas segundo os parâmetros estabelecidos nos argumentos. A interpretação dos enunciados recorre também às informações semânticas descritas na Ontologia. As regras estabelecidas para o argumento convpojur0 do exemplo 2, demonstram o uso da gramática: Regra 1: r(X, sub_de, Spsagt, F[match(F, de, X)])Regra2: r(X, sub_contra, Spcomp1, F[match(F, contra, X)])Na primeira parte da regra, que está fora do parênteses, encontram-se as variáveis a serem interpretadas. As informações incluídas nos parênteses orientam o sistema a interpretar as variáveis estabelecidas.  none0 
  • A regra 1, por exemplo, determina que, encontrando uma seqüência F + de + substantivo, o sistema deve interpretar de + substantivo como sintagma preposicional em relação de sujeito agente (Spsagt). Da mesma maneira será interpretada a regra 2: ao encontrar as seqüências indicadas pelo comando ‘match’, o sistema deverá interpretá-las como sintagma preposicional em relação de complemento (Spcomp1). A interpretação dos enunciados recorre também às informações semânticas descritas na Ontologia.  none0 
  • + indica os que são aceitos, aqueles com os quais a relação pode ser estabelecida, e o símbolo - informa os que não são aceitos. Os conceitos indicados nas relações devem ser também incluídos na Ontologia, até se chegar às classes mais genéricas da cadeia hierárquica, cujo supertipo é U. A Ontologia forma um “treillis” de conceitos estabelecendo-se, portanto, um mecanismo de hereditariedade. Os subtipos herdam as propriedades de seus supertipos. Indicando-se na Ontologia que banco é uma instfin0 (instituição financeira), este conceito será aceito para a relação ORIG do conceito titcred0.  none0 
  • O conceito instfin0 é um subtipo de instituição0, que, por sua vez, é um subtipo de entidades animadas. Segundo esta cadeia hierárquica, qualquer conceito do tipo instituição0 é aceito na relação AGNT de convpojur0. Na pesquisa realizada, as características eleitas para se estabelecer a Ontologia levaram em conta as áreas de assunto do Mercosul, tema do corpus de pesquisa.  none0 
  • DESAMBIGUAÇÃO APLICANDO TRATAMENTO SINTÁTICO-SEMÂNTICO O conjunto de dados registrados no Dicionário, na Gramática Morfológica, na Gramática de Argumentos e na Ontologia foram utilizados para efetuar-se o tratamento sintático-semântico de enunciados do corpus de pesquisa, verificando a ocorrência de ambigüidades e se estas foram solucionadas ou não pelo sistema Zstation. Fornecendo o enunciado: A empresa vende produtos ao consumidor, o sistema gera o seguinte Gráfico Conceitual: [VENDER](AGNT) => [EMPRESA](OBJ) => [PRODUTOS](BEN) => [CONSUMIDOR]Aplicando as regras de formação de gráficos conceituais, o Zstation é capaz de analisar, também, os seguintes enunciados: Venda de gás ao consumidor.  none0 
  • DESIGNAR(AGNT) - [DIRETOR](OBJ) - [+ANIMADO]DESIGNAR(AGNT) - [+ANIMADO](OBJ) - [+DIRETOR]Segundo Borba [xi], este tipo de ambigüidade ocorre porque o sintagma preposicional em relação subjetiva pode se tornar contíguo ao nome abstrato, passando a ser introduzido por de, por causa do apagamento[8] do sintagma preposicional em relação objetiva e, ainda, devido à possibilidade de apagamento do sintagma preposicional em relação subjetiva. Quando não há apagamento, não ocorre ambigüidade predicativa, como em aprovação pelo Organismo Executor do relatório final.  none0 
  • REFERÊNCIAS BIBLIOGRÁFICAS[i] NETWORK Digital Library Thesis and Dissertations.Diponível em: [ii] OPEN archives initiative. Disponível em: < http://www.openarchives.org >[iii] CHEN, Hsinchun. Semantic research for digital libraries. D-Lib Magazine, v.5, n. 10 out.1999. Disponível em  journal 
  • ARTIGO 05  none0 
  • AMBIGÜIDADE Entende-se ambigüidade como uma expressão da língua (palavra ou frase) que possui vários significados distintos, podendo, conseqüentemente, ser compreendida de diferentes maneiras por um receptor. [ix; x] A ambigüidade ocorre quando palavras ou frases podem gerar mais de uma interpretação de seu significado, como nos seguintes exemplos: Ex.1: na frase O arquivo está precisando de manutenção, a ambigüidade latente da palavra arquivo induz à interpretação de um arquivo como móvel, um arquivo como conjunto de documentos ou de um arquivo como instituição. Ex. 2 - na fraseologia Neutralização de contaminação com leite , a ambigüidade permite interpretar que a neutralização é feita com leite ou que a contaminação é causada pelo leite.  none0 
  • A ambigüidade causa ruído na recuperação da informação, pois, sob um mesmo termo, o usuário encontrará informação relevante e irrelevante. No exemplo 1, o usuário recuperará informação sobre manutenção de arquivo em três direções semânticas distintas: conjunto de documentos, instituição e móvel. Qual desses significados respondem à sua pergunta? No exemplo 2, a ambigüidade sintática não permite, num sistema de recuperação, decidir entre os assuntos neutralização de contaminação e neutralização com leite. Ao encontrar diferentes significados possíveis de serem extraídos de uma frase ou palavra, o sistema de recuperação necessita distinguir um destes significados, determinando, segundo o contexto, qual o significado a ser aplicado, obtendo, dessa maneira, maior precisão na resposta dada ao usuário.  none0 
  • A ambigüidade pode ser ocasionada por diversos fatores[1]: polissemia, homografia, policategorização, relação contextual e estrutura sintática das frases. Segundo o fator que a ocasiona, a ambigüidade pode ser classificada em diferentes tipos. Pela sistematicidade e clareza com que distingue os tipos de ambigüidades, adota-se, neste estudo, a classificação de Fuchs [x], sintetizada a seguir.  none0 
  • I) Ambigüidade morfológica: ocorre quando não é possível classificar determinada forma quanto à categoria gramatical. Este tipo de ambigüidade é ocasionado pela policategorização – em que palavras pertencem a mais de uma categoria gramatical, como proposta , que pode ser ou substantivo, ou adjetivo ou verbo. II) Ambigüidade lexical: ocorre quando há mais de uma interpretação possível do significado de uma unidade lexical. Este tipo de ambigüidade é provocado por: homografia: ocorre por meio da « colisão acidental entre as formas de dois signos lingüísticos distintos ». [x; p.9]. Ex.: cobre (metal) ; cobre (do verbo cobrir)polissemia: ocorre quando uma só e mesma expressão envolve significados distintos, sendo um único signo lingüístico; é a própria expressão que é ambígua, à medida que possui uma forma à qual corresponde uma pluralidade de significados. [x]. Ex.: arquivo (móvel, instituição, conjunto de documentos).  none0 
  • DESAMBIGUAÇÃO NA RECUPERAÇÃO DA INFORMAÇÃO Denomina-se desambiguação[2] o processo pelo qual uma ambigüidade é solucionada. Este processo exige diferentes níveis de conhecimentos lingüísticos e extralingüísticos.  none0 
  • A ambigüidade morfológica, causada por policategorização, por exemplo, pode ser solucionada pela análise do co-texto imediato que circunda a palavra policategorial, recorrendo-se apenas a conhecimento morfossintático(categoria gramatical, concordância e combinações sintáticas entre constituintes da frase, entre outros). Na frase O governo aumentou o imposto, governo e imposto, por estarem precedidos do determinante, são interpretados corretamente pelo sistema como substantivos e não como verbos (formas flexionadas dos verbos governar e impor). Certos casos de polissemia são solucionados por meio de conhecimento semântico. Ao dispor das informações: * comprar é uma ação que exige objeto comercializável ; * móveis são objetos que podem ser comprados ; e  none0 
  • * arquivo é um tipo de móvel ; um sistema recuperação em linguagem natural pode atribuir corretamente o significado móvel a arquivo na frase Maria comprou um arquivo para seu escritório[3]Algumas ambigüidades predicativas são solucionadas pela introdução de traços semânticos que restringem os papéis temáticos desempenhados pelos argumentos de um predicado. Como exemplifica Borba [xi], o sintagma nominal A observação da criança é ambíguo, mas A observação do quadro não, uma vez que, pelo traço-humano, quadro não estabelece uma relação agente de observar. Existem, portanto, determinados tipos de ambigüidades que podem ser solucionadas automaticamente, pois os conhecimentos necessários para desambiguá-las são passíveis de modelização aplicando-se métodos de tratamento automático da linguagem natural.  none0 
  • A pesquisa relatada neste artigo trata de diferentes tipos de ambigüidades e propõe a desambigüação por meio de tratamento sintático-semântico, utilizando gráficos conceituais como estrutura de representação de conhecimento. GRÁFICOS CONCEITUAIS COMO MODELO DE REPRESENTAÇÃO DE CONHECIMENTO  none0 
  • => (RELAÇÃO) =>, simbolizam as ligações existentes entre os conceitos e demonstram os papéis que cada entidade desenrola. Para Sowa [xii; p.20], « os gráficos conceituais formam uma base semântica da linguagem natural e representam modelos do mundo real ou de um mundo possível. » No esquema da figura 1, demonstra-se como funciona o mecanismo implícito no triângulo do conceito, com os GCs servindo de ligação entre o referente e o significante, onde: a) as regras de sintaxe mapeam gráficos para sentenças em LN e mapeam sentenças para gráficos. b) os arcos dos gráficos correspondem à função da palavra e a casos relacionais da LN. No exemplo da figura 1, EST e LOC são, respectivamente símbolos das relações ‘estado’ e ‘local’ c) os nós dos gráficos são conceitos intensionais de indivíduos que devem existir no mundo real ou em algum mundo hipotético.  none0 
Dados explicitados em RDF do trabalho
CategoryDetails
dateOfAvailability2002-01-01: 3815
hasAuthorMarisa Bräscher Basilio Medeiros: (1528)
hasFileStorage_repository/434/2018/09/oai_brapci_inf_br_article_1257#00026.pdf: (44700)
hasSectionOfArtigo científico: 435
hasSubjectRecuperação da informação: 261956
hasSubjectTratamento automático da linguagem natural: 5343
hasSubjectAmbigüidade: 175550
hasSubjectValência sintático-semântica: 5345
hasSubjectGráfico conceitual: 5346
isPartOfSourceDatagramazero: 434
hasIssueOfISSUE:JNL:00026-2002-3-1: 5305
hasAbstractDiscutem-se questões relativas à extração de informações contidas em textos completos e posterior recuperação, por meio de métodos de tratamento automático da linguagem natural. Além da extração de palavras do texto, procura-se manter as relações de significado que estas palavras possuem no contexto do discurso em que ocorrem. Assim, defende-se o tratamento de determinados fenômenos lingüísticos que afetam a qualidade da recuperação, como o da ambigüidade. Como referencial teórico-metodológico para efetuar a análise e organização sintático-semântica de conteúdos, utilizam-se a Gramática de Valências de Borba e a teoria de Gráficos Conceituais de Sowa. Emprega-se um sistema de tratamento automático da linguagem natural – o Zstation – em um corpus constituído de documentos oficiais do Mercosul, para testes de desambiguação. Conclui-se que um sistema de recuperação da informação em linguagem natural pode solucionar determinados tipos de ambigüidades quando dispõe de informações relativas à valência sintático-semântica das unidades lexicais que compõem um enunciado. Os resultados obtidos demonstram ser possível introduzir procedimentos automáticos de solução de ambigüidades em sistemas de tratamento da linguagem natural.: 0
hasIDoai:brapci.inf.br:article/1257
hasRegisterIdhttp://www.brapci.inf.br/index.php/article/view/0000001257: 0
hasSourceDataGramaZero, v. 3, n. 1, 2002, p. A05.: 0
hasTitleA ambigüidade na recuperação da informação: 0
hasUrlhttp://www.brapci.inf.br/index.php/article/download/7481: 0
hasUrlPDF:_repositorio/2010/01/pdf_834a67da41_0007481.pdf: 0
prefLabelOai:brapci.inf.br:article/1257#00026: 0
Classe: Article