Content area

Abstract

Muitos dos trabalhos de classificação existentes na literatura, envolvem a atribuição a cada instância (exemplo) de uma única classe, de entre um conjunto pré-definido de classes normalmente pequeno e organizado de forma plana. Porém, existem problemas de classificação mais complexos, em que a cada instância é possível atribuir mais do que uma classe, podendo as classes, estar organizadas numa estrutura hierárquica. Para estes problemas, existe um conjunto de abordagens para lidar com o facto de uma instância poder pertencer a mais do que uma classe (classificação multi-etiqueta). Existem também abordagens para lidar com a organização hierárquica das classes (classificação hierárquica).

Esta dissertação, apresenta um estudo das abordagens e conceitos de classificação multi-etiqueta e hierárquica, aplicados à classificação de documentos de texto. Trata-se, portanto, de um problema de classificação, em que as instâncias são documentos de texto, que podem pertencer a mais do que uma classe e estas encontram-se organizadas hierarquicamente.

Nos problemas de classificação de texto, uma fase importante, é o pré-processamento dos documentos. Um processo transformativo, aplicado normalmente para reduzir o número de termos de um documento, de forma a obter uma representação dos documentos, mais adequada para as fases seguintes. Nesta dissertação, são também estudadas as várias tarefas de pré-processamento que podem ser realizadas, como por exemplo, remoção de stopwords, stemming, esquemas de atribuição de pesos aos termos.

No estudo experimental realizado, foi utilizado o esquema de classificação ACM (Computing Classification System), que define um conjunto de classes, organizadas hierarquicamente, nas áreas científicas no campo da computação.

O estudo experimental realizado, consistiu no desenvolvimento de uma solução para automatizar a navegação e recolha de documentos classificados da biblioteca digital ACM, pré-processamento dos documentos, construção e aplicação de diferentes classificadores a documentos ainda não classificados e por fim a avaliação do seu desempenho de previsão. Foi proposta uma metodologia para classificação multi-etiqueta hierárquica que combina as abordagens usadas na classificação multi-etiqueta e na classificação hierárquica que se mostrou adequada para a resolução destes problemas.

Alternate abstract:

On many works in text classification literature, each instance (example) is assigned to one class, from a predefined class dataset usually little and flat. However, there are more complex classification problems in which an instance can belong to any number of classes and they can be organized hierarchical. For this kind of problems, there are a set of approaches.

This MSc thesis is focused on a study about approaches and concepts of hierarchical multilabel text classification.

Preprocessing is a very important stage on text classification. This transformation process is usually applied to reduce the number of terms present in documents, to generate document models that are appropriate for the following stages. In this report, several preprocessing tasks, like stopwords, stemming and term weighting are studied.

The experimental study is made using ACM (Association for Computing Machinery) Computing Classification System, where classes have a hierarchical structure on computer science field.

In this experimental study, a solution was developed to automate the navigation and collection of documents from ACM digital library. This thesis also covers: preprocessing of documents, building a document’s classifier and its performance evaluation. A methodology for classification hierarchic multi-label that combines the used boardings in the classification multi-label and in the hierarchic classification was proposal that if it showed adequate for the resolution of these problems.

Details

Title
Classificação Multi-etiqueta Hierárquica de Textos Segundo a Taxonomia ACM
Author
dos Santos, António Paulo Gomes
Publication year
2008
Publisher
ProQuest Dissertations & Theses
ISBN
9798780674702
Source type
Dissertation or Thesis
Language of publication
Portuguese
ProQuest document ID
2632131792
Copyright
Database copyright ProQuest LLC; ProQuest does not claim copyright in the individual underlying works.