User Tools

Site Tools


cc:ontologias_thesaurus_e_glossarios

Ontologias, Thesaurus e Glossários

Durante os últimos projectos em que estou envolvido várias pessoas me têm perguntado as diferenças entre dicionários, thesauri e ontologias. Neste artigo vou apresentar a minha visão sobre estes recursos, e como se distinguem. Devo desde já avisar que estas definições não são consensuais, pelo que não me admira que brevemente alguém me conteste. Em primeiro lugar temos os dicionários. De acordo com os mesmos, podemos defini-lo como:

conjunto dos vocábulos de uma língua ou dos termos próprios de uma ciência ou arte, dispostos por ordem alfabética e com a respectiva significação ou a sua versão noutra língua.

Esta, imagino, é a definição que toda a gente acaba por associar ao termo dicionário. No entanto também se considera um dicionário a uma lista de termos/palavras sem a sua significação.

Segue-se um outro objecto muito pouco distante, que também estamos habituados a ter na estante: uma enciclopédia. Em processamento de linguagem natural não é costume o seu uso, mas já que se assemelha muito a um dicionário achei por bem clarificar um pouco as suas diferenças. De acordo com o dicionário:

vasto conjunto de todos os conhecimentos humanos; obra que trata de todas as ciências e artes em geral;

Esta não é uma definição tão clara como a anterior sobre o que é um dicionário. O que são ao certo os conhecimentos humanos? Ou então, uma enciclopédia só trata de ciências e artes? Do meu ponto de vista, a diferença entre uma enciclopédia e um dicionário tem a ver essencialmente com a profundidade em que os temas são tratados, bem como a abrangência. Ou seja, num dicionário não é habitual encontrar informação sobre personalidades, países, etc, objectos esses que são normalmente definidos numa enciclopédia.

Por sua vês, os glossários são definidos como:

vocabulário em que se explicam palavras pouco conhecidas ou de sentido obscuro; vocabulário tecnológico.

Esta definição embora não muito clara está muito próxima do que se entende por um glossário: um dicionário tecnológico, com terminologia própria de uma área do conhecimento (por exemplo, terminologia médica, terminologia mecânica, etc.). Ou seja, um dicionário de palavras pouco usadas na vida comum, usadas por conjunto restrito de pessoas.

Os thesauri (também escrito como tesaurus por alguns) são entidades já um pouco diferentes, mas também bastante mais úteis. Mais uma vez a sua definição não é clara, e é pouco certeira:

  1. colecção exaustiva de termos relativos a determinada zona do conhecimento, alfabética e sistematicamente ordenados;
  2. dicionário que regista uma lista de palavras que são associadas semanticamente a outras, apresentando geralmente sinónimos e, algumas vezes, antónimos;

Em primeiro lugar, a primeira definição é a que foi dada para um glossário. Por sua vez, a segunda definição começa a aproximar-se à definição correcta de thesauri para as ciências da computação: lista da palavras (a que prefiro chamar termos) que estão associadas semanticamente entre elas. Ou seja, além de existir uma lista de termos, existem relações entre eles.

De acordo com o ISO 2788 (Guidelines for the establishment and development of monolingual thesauri) os thesauri são listas de palavras às quais podem estar associadas notas de uso (scope notes) e que estão organizadas hierarquicamente (ou seja, um termo pode ser mais específico (narrower term) ou mais genérico (broader term) do que outro). Além disso, é possível também definir que dois termos estão simplesmente relacionados (related terms). Existem ainda outros detalhes que deixo para outro artigo. Mas portanto, um thesauri é um grafo que relaciona termos de forma hierárquica e de forma relacional.

Sobram as ontologias. Agora nem queiram ler a definição de ontologia que está nos dicionários:

ciência que estuda os seres em geral; teoria ou ciência do ser; metafísica.

Do ponto de vista das ciências da computação, uma ontologia não tem nada que ver com esta definição. Uma ontologia é um thesaurus generalizado: em vez de se restringir o conjunto de relações entre termos, este conjunto é infinito, cabendo ao utilizador definir que relações acha importantes. Estas relações podem ser as hierárquicas simples, como parte de, ou instância de, até a relações específicas para determinado tipo de termos (por exemplo para um rio, a relação desagua em). Além destas relações binárias entre termos, podemos também generalizar as relações com outras entidades que não termos. Ou seja, é-nos possível definir uma relação entre um termo e uma definição, entre um termo e uma fotografia, entre um termo e um sítio na net. Então, podemos considerar que uma ontologia é a estrutura mais complexa mas também a mais completa, na qual conseguimos mapear qualquer um dos outros recursos.

Finalmente, devo dizer que todos estes recursos podem ser multilingues, e que brevemente devo escrever um outro artigo sobre o uso de ontologias em Perl utilizando o módulo Biblio::Thesaurus.

Alberto Simões: 2008/07/10 14:18

cc/ontologias_thesaurus_e_glossarios.txt · Last modified: 2008/07/10 22:18 by ambs