XI Lezione - Arabo LAR Giath Rammo @ Libera Accademia Romana
Presentacion taltac2
1. Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale,
U N I V E R S I T À degli Studi di P A D O V A-Corsi car
T.A. L.T .A.C. 2
Obiettivo del corso: sviluppare competenze di gestione di Taltac2 attraverso M.A.D.I.T.
•Trattamento
automatico
•Lessicale
Unità di testo = PAROLE
•Testuale
Unità di contesto = frammenti/documenti
•Contenuto
Ricerca di parole chiave,misure di specificità
•Corpus
Struttura del testo, DNA del testo
2. T.A. L .T.A.C. 2
Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale,
U N I V E R S I T À degli Studi di P A D O V A-Corsi car
Analisi lessicale:
1. Misure lessico-metriche
2. Analisi dei segmenti ripetuti
3. Tagging (grammaticale e semantico)
4. Confronti lessicali
5. Analisi delle specificità
6. Linguaggio peculiare (parole rilevanti, TFIDF)
3. T.A.L. T .A.C. 2
Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale,
U N I V E R S I T À degli Studi di P A D O V A-Corsi car
Analisi testuale:
1. Analisi delle concordanze
2. Estrazione informazioni con query
4. T.A.L. T .A.C. 2
Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale,
U N I V E R S I T À degli Studi di P A D O V A-Corsi car
Quale tipologia di testo analizza lo strumento?
Risposte a DOMANDE APERTE/TESTI INTERI:
•
Testi da blog
•
Testi di focus group
•
Articoli di giornale
•
Opere di un autore
VARIABILI
CATEGORIALI
5. T.A.L. T .A.C. 2
Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale,
U N I V E R S I T À degli Studi di P A D O V A-Corsi car
Da cosa è composto IL CORPUS?
= INSIEME DI FRAMMENTI
Insieme di risposte a domanda aperta
1 frammento = 1 risposta
o
Intero libro/manuale
1 frammento = 1 capitolo
6. T.A.L. T .A.C. 2
1 Corpus = più frammenti
Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale,
U N I V E R S I T À degli Studi di P A D O V A-Corsi car
sezione
sezione
sezione
Es. corpus = raccolta di articoli
= abstract, testo articolo,
titolo, rif. bibliografico
7. T.A.L. T .A.C. 2
Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale,
U N I V E R S I T À degli Studi di P A D O V A-Corsi car
Come costruire il corpus affinché Taltac2 lo legga?
LE REGOLE DELLA SINTASSI
ES. 3 frammenti (= 3 articoli), suddivisi in 3 sezioni (occhiello, titolo, testo)
con 2 VARIABILI (testata e mese di pubblicazione)
****ARTICOLO1*TESTATA=repubblica*MESE=gennaio
++++ occhiello
Sjdfsjfoijwfpw sjodjsaodjapid aidhosjdoiljdap osjdosdjopsa sojdojdo
++++ titolo
ksjhlihdL AJHsaj AsjlkJSò
++++ testo
8. T.A.L. T .A.C. 2
Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale,
U N I V E R S I T À degli Studi di P A D O V A-Corsi car
LE REGOLE DELLA SINTASSI
ES. 3 frammenti (= 3 articoli), suddivisi in 3 sezioni (occhiello, titolo, testo)
con 2 VARIABILI (testata e mese di pubblicazione)
****ARTICOLO1*TESTATA=repubblica*MESE=gennaio
*NOMEVAR=NOME MODALITA’
Indica che
inizia una variabile
No segni di
interpunzione
né spazi
RIGHE DI
IDENTIFICAZIONE
FRAMMENTO
Qualsiasi carattere ma non *
9. T.A.L. T .A.C. 2
Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale,
U N I V E R S I T À degli Studi di P A D O V A-Corsi car
1. Se un frammento non presenta 1
modalità?
*NOMEVAR=nullo
****ARTICOLO1*TESTATA=repubblica*MESE=nullo
2. Quante variabili sono ammesse?
Al massimo 99
1 o più frammenti non contenga 1 o più
sezioni
3. Lo strumento ammette che:
Tutti i frammenti non abbiano VAR associate
Tutti i frammenti non presentino sezioni
10. T.A.L. T .A.C. 2
Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale,
U N I V E R S I T À degli Studi di P A D O V A-Corsi car
In quale formato redarre il corpus?
Scrivere il testo in Word,
salvarne una versione = .doc
In quale formato salvare il corpus?
Salvare il testo in
testo delimitato da tabulazione = .txt
Dove salvare i documenti?
11. T.A.L. T .A.C. 2
Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale,
U N I V E R S I T À degli Studi di P A D O V A-Corsi car
In quali ambienti vengono salvati i file prodotti dallo
strumento?
CARTELLA DI LAVORO = CARTELLA DI SESSIONE
File di risultato
file di testo .txt
Primo step: Inserimento corpus in Taltac e costruzione del
vocabolario
12. T.A.L. T .A.C. 2
Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale,
U N I V E R S I T À degli Studi di P A D O V A-Corsi car
Prima esercitazione: costruzione del corpus oggetto
dell’analisi
Obiettivo: costruire il file di testo rispetto alle seguenti
indicazioni
Il file di testo è composto da: 3 FRAMMENTI DI 2 VARIABILI SUDDIVISI IN 2 SEZIONI
LA DOMANDA: Pensando alla sua esperienza con la Facoltà di Psicologia, mi
può descrivere una situazione in cui NON è stato pienamente soddisfatto?
Pensando alla sua esperienza con la Facoltà di Psicologia, mi può descrivere
una situazione in cui è stato pienamente soddisfatto?
I RISPONDENTI: PSICOLOGI NEO LAUREATI
VARIABILI: data = mese di dicembre (I,II,III,IV settimana)
luogo = it. Centro, sud, nord, e estero
SEZIONE: dom 1 e dom 2
13. T.A. L.T .A. C . 2
Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale,
U N I V E R S I T À degli Studi di P A D O V A-Corsi car
Lessico, testuale, del contenuto e del corpus
LESSICO: il significato del termine è stabilito dai parlanti, è negoziato nell’interazione
(il significato è quello del dizionario).
CONCETTO: si stabilisce che il significato del termine ha una modalità d’uso entro
un particolare campo di applicazione in cui il termine vale per tutti allo stesso modo.
COSTRUTTO: il significato del termine è stabilito all’interno di una determinata
teoria in uno specifico testo.
Come usare lo strumento secondo riferimenti scientifici?
14. L’INDICE IS DI MORRONE, l’incidenza delle occorrenze del segmento rispetto alle
occorrenze delle forme semplici che lo compongono” (Bolasco, 1999).
La formula per il calcolo dell’indice di Morrone è la seguente:
L fsegm
IS = [ ∑ ---------- ] * P
i=1 ffgi
“per ciascuna delle L forme grafiche componenti il segmento, si considera il rapporto
fsegm (occorrenze del segmento) su ffg (occorrenze della forma grafica componente),
moltiplicando poi la somma di tutti questi quozienti per il numero P di parole piene
presenti nel segmento. Tale indice è sempre positivo, si annulla quando il segmento è
composto solo da parole vuote, ed ha il suo massimo valore uguale a L2.” (
Bolasco, 1999).
L’INDICE IS RELATIVO, ottenuto rapportando l’indice al suo massimo valore ottenuto,
collocandosi su un continuum di valori che va da 0 a 1.
Laddove per “parole piene” si intende “parole chiave per l’analisi in corso”, mentre per “parole vuote”
si intende “parole che non esprimono aspetti rilevanti rispetto all’analisi o parole strumentali alla
costruzione sintatticamente corretta delle proposizioni” (Tuzzi, 2003).[
15. Pretrattamento:
•
•
•
•
normalizzazione
eliminazione forme/taglio di soglia
correzione errori ortografici e grammaticali
disambiguazione: es famiglia, es. analisi
dei segmenti, es. utilizzo delle maiuscole
(attenzione conflitto con normalizzazione),
analisi dei segmenti
• categorizzazione