Wordcloud

Per una presentazione può essere utile o anche solo piacevole inserire una wordcloud, la nuvola di parole che rappresenta il numero di occorrenze di ciascun termine visualizzandolo in dimensioni diverse. Vediamo come fare.

L’utilità delle word cloud consiste nella possibilità di ottenere una visione immediata dei contenuti di un testo, individuandone, con un colpo d’occhio, alcuni temi rilevanti, ma può anche essere un modo gradevole di presentare dei contenuti.

Per esempio, quella che segue è una simpatica word cloud ottenuta dall’analisi di un corpus di articoli dedicati al veganismo.

cloud.png

Qui una word cloud ricavata dall’analisi dell’url della pagina Wikipedia dedicata a Facebook.

wordcloud (5)
Questa invece è la rappresentazione ottenuta dal file pdf, di oltre 300 pagine, del libro The Meanings of Social Life: A Cultural Sociology, del noto sociologo Jeffrey C. Alexander.

wordcloud (6)

Tra i diversi servizi online gratuiti disponibili per creare word cloud, vi consiglio di dare un’occhiata a www.wordclouds.com.

Il servizio è gratuito e permette di creare word clouds di diversa forma, dimensione e colore, scelte tra quelle disponibili, ed anche personalizzabili. Come ho mostrato qui sopra, si possono caricare file di testo salvati in diversi formati (pdf, office, txt), oppure link di pagine web o infine inserire la propria lista di parole indicandone il numero di occorrenze per ciascuna. Le immagini così create possono essere scaricate in vari formati file ed in varie dimensioni.

wordcloud (2)

Un problema delle word clouds è che i termini più frequenti in un testo sono le cosiddette “parole vuote”, termini grammaticali che dicono poco del contenuto di un testo. Rimuoverle manualmente richiederebbe un lavoro certosino impossibile a farsi. Wordclouds.com può rimuovere alcune di queste parole (chiamate “stop-words”) ma solo in lingua inglese. Per rimuovere stop-words italiane e personalizzarle (cosa che ho fatto per “pulire” i testi con cui ho creato la prima delle word cloud presentate) occorre avere qualche base di programmazione o ricorrere a programmi un po’ più complessi.

Un altro problema è che alcune parole sono composte da due o più termini (“New York”, per esempio) ma il programma le spezza, considerando ciascuna parte come un termine autonomo. Questo inficia un po’ la bontà della rappresentazione. Se si intende svolgere un lavoro preciso, occorre individuare le parole composte ed unirle con un trattino (“New-York”) così che il programma le possa considerare come un’unica parola. Anche in questo caso occorre un’analisi un po’ più approfondita e difficile da svolgere manualmente. Solo l’uso di opportuni strumenti informatici può rendere il lavoro concretamente realizzabile.

Buon divertimento!

CONDIVIDI :