Classificazione di dati multi-label

La disponibilità di enormi quantità di testi, immagini, video e documenti multimediali in formato digitale, rende indispensabile la loro annotazione rispetto a categorie semantiche che ne riassumano il contenuto, per rendere possibile la loro gestione e recupero. Data l'impossibilità di un'annotazione puramente manuale, negli ultimi anni sono state proposte diverse tecniche di annotazione automatica basate su tecniche di apprendimento e riconoscimento automatico.
Il PRA Lab sta sviluppando tecniche di classificazione multi-label che, dato un insieme di categorie, individuano automaticamente quelle che meglio descrivono il contenuto di un documento di testo, di un'immagine, ecc. Per esempio, a una notizia di agenzia possono essere assegnate le etichette "sport" e "economia", se tratta di entrambi i temi, e un'immagine può essere etichettata sia come "spiaggia" che come "tramonto", se mostra un tramonto su una spiaggia. I problemi di classificazione multi-label diventano particolarmente complessi quando il numero di categorie è elevato, come succede in molte applicazioni pratiche. Le tecniche di classificazione multi-label trovano applicazione in diversi campi legati all'organizzazione, il filtraggio o l'analisi (data mining) di grandi quantità di documenti di testo, immagini, etc.

Il PRA Lab sta anche sviluppando metodi di classificazione multi-label in grado di raggiungere un compromesso tra il costo (tempo) richiesto per l'annotazione manuale, e l'accuratezza raggiungibile con la sola annotazione automatica, nei casi in cui quest'ultima non soddisfi i requisiti applicativi. La soluzione proposta consiste nel consentire a un algoritmo di classificazione di prendere automaticamente solo le decisioni più certe, demandando quelle più incerte (molte delle quali potrebbero essere errate) all'annotazione manuale. In questo modo si puà raggiungere un'accuratezza di annotazione automatica sufficientemente alta, e nello stesso tempo si limita il costo dell'annotazione manuale.