Siete ricercatori e volete esplorare le potenzialità di Twitter per le vostre ricerche, ma non sapete come scaricare i tweet in modo semplice ed efficace? Oppure volete sperimentare le potenzialità delle tecniche più avanzate di text mining in modo semplice e professionale? In questo articolo vi presento uno strumento gratuito che vi aiuterà.

Text Analysis, Crawling and Interpretation

Il tool che vi presento permette di svolgere con semplicità operazioni interessanti, come per esempio il download di svariati tweets. Proprio in questo momento sta lavorando sul mio computer – e lo farà per 24 ore – per scaricare i tweets di tutta questa prima giornata di Vinitaly 2017. Ma è ben più di un tool per scaricare tweets, è una suite di programmi di text crawling e text analysis per scaricare, analizzare e interpretare dati testuali.

Il programma, completamente gratuito, è stato sviluppato alla University of Southern California – che ne detiene la proprietà intellettuale – all’interno del The Computational Social Science Lab (CSSL). Si tratta quindi di un programma di livello accademico. Il suo nome è TACIT:

TACIT’s plugin architecture has three main components:

  • Crawling plugins, for automated text collection from online sources (e.g., US Senate and Supreme Court speech transcriptions, Twitter, Reddit)
  • Analysis plugins, including LIWC-type word count, topic modeling, sentiment analysis, clustering and classification.
  • Corpus management, for applying standard text preprocessing to prepare and store corpora.

Si tratta di un software gratuito che può essere utilizzato esclusivamente per attività senza scopo di lucroQui potete trovare un articolo, con primo autore Morteza Dehghani, che lo presenta nel dettaglio. Nel suo abstract si leggono le ragioni e la filosofia che hanno motivato il progetto:

As human activity and interaction increasingly take place online, the digital residues of these activities provide a valuable window into a range of psychological and social processes. […] the complexity of managing and analyzing the quantities of data currently available has limited both the types of analysis used and the number of researchers able to make use of these data […] The Text Analysis, Crawling, and Interpretation Tool (TACIT) is designed to bridge this gap by providing an intuitive tool and interface for making use of state-of-the-art methods in text analysis and large-scale data management. Furthermore, TACIT is implemented as an open, extensible, plugin-driven architecture, which will allow other researchers to extend and expand these capabilities as new methods become available.

Funzionalità

Vediamo sinteticamente le attuali funzionalità di questo programma “researcher-friendly”.

Crawler

TACIT consente anzitutto di ricercare e scaricare testi attraverso i suoi crawler, tra cui figurano crawler per Reddit, PLOS, Twitter e molti altri. Qui di seguito il tutorial per scaricare i tweet.

Classification Tools

TACIT implementa algoritmi di Machine Learning per classificare i testi in categorie definite dal ricercatore. In particolare implementa due classificatori molto utilizzati, chiamati Naive Bayes Classifier e Support Vector Machine (SVM).

Clustering Tools

Quando le categorie non sono stabilite a priori, TACIT consente di usare algoritmi di Cluster analysis per raggruppare automaticamente i testi in gruppi simili tra loro. Gli algoritmi a disposizione sono quelli classici di Hierarchical Clustering e K-Means Clustering.

Topic Modeling Tools

TACIT implementa algoritmi di Topic Modeling, che possono essere usati per scoprire e descrivere i temi contenuti nei documenti oppure il loro cambiamento nel corso del tempo.  TACIT include una serie di varianti della Latent Dirichlet Allocation (LDA).

Word Count Tools

Per concludere, TACIT permette di svolgere analisi mediate tecniche di Word Counts, conteggio di parole sulla base di dizionari creati dal ricercatore, per accertare e misurare quanto i documenti riflettano i topic di interesse. Permette anche di svolgere analisi delle co-occorrenze.

TACIT può essere scaricato gratuitamente alla pagina dedicata sul sito web della University of Southern California, dove potete trovare ulteriore documentazione utile.

Il Dalai Lama sembra aver detto: “Condividi la tua conoscenza. È un modo per raggiungere l’immortalità”. Non so se sia vero e di certo non lo posso garantire, ma se hai trovato l’articolo utile e interessante puoi condividerlo con uno dei pulsanti qui sotto. Grazie per la lettura!