Psicanalisi di Twitter

Receptiviti è un programma di analisi psicolinguistica del testo. Promette di risalire dalle parole al profilo psicologico del loro autore. Le sue possibili applicazioni spaziano dalla profilazione e segmentazione del target all’analisi dei candidati per una posizione di lavoro. In questo articolo ne prendiamo in considerazione potenzialità e limiti concentrandoci soprattutto sulla sua applicazione all’analisi dei tweet.

Psicoanalisi di Twitter
Psicoanalisi di Twitter

Receptiviti

Receptiviti è il “braccio commerciale” del famoso software per la ricerca scientifica LIWC (Linguistic Inquiry and Word Count), frutto del lavoro dello psicologo sociale James W. Pennebaker e della sua équipe.

Rientra nella classe dei software per l’analisi psicometrica dei testi offline e online, programmi che mirano a risalire dalle parole uscite dalla tastiera di un autore ai suoi tratti di personalità. Altri programmi simili sono per esempio l’IBM Watson™ Personality Insights, che fino a non molto tempo fa si basava anch’esso su LIWC.

Receptiviti Home Page
Receptiviti Home Page

Cosa analizza Receptiviti?

Poniamoci subito una domanda: Receptiviti analizza davvero il profilo psicologico dell’autore dei testi? A mio parere la risposta è: “forse”, per esempio se si analizza un corpus consistente creato secondo certi criteri. È più prudente trattare i risultati come indicatori del tono comunicativo dei dati testuali? In linea generale, ritengo di sì.

In ogni caso, il tipo di testo preso in considerazione, conta. Per esempio, i testi politici, rivolti alla base elettorale, sono orientati a persuadere l’elettore più che ad esprimere il vissuto interiore. Inoltre possono essere scritti da ghost writers o concordati con uno staff. Ciò non toglie che possano esserci relazioni con la personalità del candidato. Il tipo di testo o discorso, tuttavia, non è irrilevante.

Parole e personalità

La relazione tra tono comunicativo, personalità e stato psicologico “interno” del soggetto, insomma, può esserci, ma non è sempre deducibile dalle sole parole.

Does word use validly reflect people’s psychological states?

Let’s rephrase that: If a person is using a high rate of anger words, are they really angry? (sic) This is a tough question to answer directly. It also points to the importance of hundreds of scientific studies that have been conducted since the early 1990s.

There have indeed been several studies that find that when people report themselves as being angry they use more anger-related words. Analyses of speeches, writings and conversations show that people rate texts that are high in anger words as expressing higher rates of hostility. But is the speaker really angry? Is it possible that she or he is just pretending to be angry? This is a judgment call, and context matters. For example, if you’re analyzing the words of a Wikipedia page on “anger management”, the results likely have little to do with how angry the author was at the time of writing. (Receptiviti FAQ)

Pur essendo un programma che fa dell’automatizzazione il suo punto di forza, ai fini della raccolta dei dati e della loro interpretazione non sono irrilevanti competenze generali e specialistiche. La corretta considerazione del tipo di testo analizzato, l’ampiezza del database e l’adeguata impostazione del campionamento, la conoscenza del contesto di origine dei dati, competenze psico-sociali di base e la conoscenza della letteratura specialistica sono centrali per un utilizzo appropriato dello strumento.

Modi d’uso

Receptiviti offre due modalità per raccogliere e analizzare i tweet: o mediante interfaccia web o direttamente mediante API (application programming interface).

  • Nel primo caso l’uso è semplice e intuitivo. Bastano competenze informatiche di base, consapevolezza delle potenzialità e dei limiti dello strumento, capacità analitiche, cultura ed esperienza in campo socio-psicologico per interpretarne i risultati.
  • Nel secondo caso si aprono gli spazi della programmazione informatica. L’uso diventa più complesso. Gli sviluppatori possono rispondere ad esigenze specifiche implementando Receptiviti in applicazioni originali.

In questa presentazione ci concentreremo sull’uso con interfaccia web, di interesse più generale.

Punti di forza e limiti

Quali sono i punti di forza di Receptiviti? Ne metto in luce tre:

  1. Il principale è l’automatizzazione del processo di download, pulizia e analisi dati. È sufficiente digitare un hashtag o un nickname Twitter per avviare il download e trovare pronta l’analisi dei tweet. Si possono anche copiare e incollare dei testi direttamente nella clipboard. Oppure si possono caricare file .csv (vedi immagine qui sotto).
  2. Un secondo punto di forza è l’integrazione con LIWC – strumento noto e consolidato nel settore della ricerca psicologica e sociale basata sui dati testuali – e la presenza dello stesso James W. Pennebaker nel team di sviluppo, che prelude ad ulteriori miglioramenti dello strumento.
  3. Almeno per quanto riguarda la mia esperienza, posso dire che il servizio di supporto è molto rapido.

A questi pregi si accompagnano alcuni difetti. Ne metto in luce alcuni:

  1. Analizza solo testi in lingua inglese (prossimamente anche in spagnolo). Se volete analizzare testi in italiano, dovete cercare altrove.
  2. La documentazione mi sembra un po’ carente, sebbene questo possa essere comprensibile considerando che si tratta di un programma commerciale coperto da “segreto industriale”.
  3. Il download da Twitter mediante interfaccia web – il più comodo – scarica dagli ultimi tweet pubblicati, senza possibilità di campionamento e con conseguenti limiti, sebbene il numero di parole scaricato sia più che sufficiente al corretto funzionamento del programma. Si possono comunque inserire fino a 10.000 parole nella clipboard o caricare file esterni, dopo aver scaricato i tweet con altri strumenti oppure passando dalla API.
  4. Almeno secondo un recente studio di Jen Golbeck (l’unico ad ora disponibile), non raggiungerebbe risultati ottimali in alcune delle stime calcolate (Golbeck 2016). Consideriamo ora questo punto in dettaglio.

Le stime dei Big Five sono affidabili?

I Big Five sono un noto e diffuso strumento per la valutazione della personalità. La loro stima rappresenta dunque un “pezzo forte” del programma. Tuttavia – almeno stando ai risultati di un primo studio (Golbeck 2016) – le stime dei Big Five prodotte da Receptiviti mostrerebbero margini di imprecisione intorno al 15/30%. Dunque piuttosto ampi. Tuttavia, certi margini di errore sono comuni a tutta la classe dei programmi di questo tipo. Il punto non è raggiungere la perfezione della stima, ma una stima sufficientemente valida da offrire indicazioni utili.

Il picco di inaffidabilità riguarderebbe la categoria openness (apertura all’esperienza). Migliori appaiono essere le stime  che riguardano la categoria di neuroticism (nevroticismo) e conscientiousness (coscienziosità).

Qui sotto una tabella tratta dallo studio di Golbeck intitolato “Predicting Personality from Social Media Text”, che confronta (su diversi campioni) le medie dei punteggi ottenuti da vari soggetti sui Big Five (BFPI) con le medie dei punteggi predetti da Receptiviti sulla base dei testi pubblicati da queste stesse persone. Come si vede, nel caso di Twitter, le medie reali e stimate sono comunque abbastanza vicine, fatta eccezione per la prima dimensione. Altri studi sono necessari per la validazione dello strumento.

Golbeck, Jennifer Ann (2016) "Predicting Personality from Social Media Text," AIS Transactions on Replication Research: Vol. 2, Article 2. Available at: http://aisel.aisnet.org/trr/vol2/iss1/2
Golbeck, Jennifer Ann (2016) “Predicting Personality from Social Media Text,” AIS Transactions on Replication Research Vol. 2: http://aisel.aisnet.org/trr/vol2/iss1/2

Potenzialità e miglioramenti futuri

Per quanto lo studio di Golbeck possa apparire severo, viene anche aggiunto che le stime possono essere utili qualora utilizzate in confronti tra gruppi di casi:

Preliminary analysis suggests relative scores between groups of subjects may be maintained, which may be sufficient for many applications (Golbeck 2016: 1)

Non va poi trascurato che Receptiviti è direttamente collegato al lavoro di Pennebaker – cofondatore della società proprietaria. Inoltre, per quanto riguarda le categorie già ben validare del dizionario LIWC, Receptiviti ha la stessa affidabilità di quest’ultimo, che è lo strumento più utilizzato nella ricerca nel settore:

The Linguistic Inquiry and Word Count tool (abbr. LIWC) is a widely tested, validated, and applied system for performing psycholinguistic text analysis. (Golbeck 2016: 1)

È certo che le stime dei Big Five andranno interpretate con cautela, anche tenendo conto di informazioni contestuali e del tipo di testo sottoposto ad analisi. Altrettanto certo è che Receptiviti implementi continui nuovi miglioramenti che ne faranno un programma di riferimento. Molti miglioramenti stanno già arrivando.

Come si è già detto, il software propone numerose altre funzioni che non abbiamo qui preso in considerazione. Le potrete conoscere leggendo le informazioni presenti sul sito ufficiale. Per i potenziali interessati, Receptiviti offre l’uso gratuito per un mese, durante il quale potrete sperimentare tutte le sue potenzialità. Non esiste un listino prezzi. Per il suo acquisto è necessario contattare  lo staff. Lo staff di Receptiviti si rende inoltre disponibile a discutere proposte di collaborazione per ricerche accademiche.

CONDIVIDI :