una suggestione: hal 9000 vs alexa di cosa parleremo …€¦ · dalle espressioni regolari alle...
TRANSCRIPT
1
STRUTTURA (GERARCHICA UNIVERSALE) DELLE LINGUE UMANEINTRODUZIONE ALLE GRAMMATICHE FORMALI, ALLA LORO
NECESSITÀ E ALLA VARIAZIONE LINGUISTICA
Cristiano Chesi (NETS, IUSS Center for Neurocognition, Epistemology and theoretical Syntax)
MACCHINE PARLANTIA.A. 2019/20
UNA SUGGESTIONE: HAL 9000
2001: A space Odyssey Regia di Stanley Kubrick
UNA SUGGESTIONE: HAL 9000 VS ALEXA DI COSA PARLEREMO OGGI
Che cosa ci serve per far capire ad una macchina cosa significa un enunciato ?(in una qualsiasi lingua umana)
La descrizione strutturale degli enunciati Dalle espressioni regolari alle grammatiche regolari passando per gli automi a stati finiti Grammatiche context-free La grammatica trasformazionale
La variazione linguistica I Principi e Parametri della variazione
2
RIFERIMENTI BIBLIOGRAFICI ESSENZIALI
Chomsky N. (1957) Syntactic Structures. de Gruyter
Baker M. (2001)The Atoms of Language. Basic books
Oniga, R., Iovino, R., & Giusti, G. (Eds.). (2011) Formal linguistics and the teaching of Latin: theoretical and applied perspectives in comparative grammar. Cambridge Scholars Publishing.
COME SI DESCRIVE UNA GRAMMATICA
A = Alfabetoinsieme finito di caratteri (A* = l’insieme di tutte le stringhe possibili costruite concatenando elementi di A; è l’elemento nullo)
V = Vocabolarioinsieme (potenzialmente in)finito di parole, costruite concatenando elementi di A (V A*)
L = Linguaggioinsieme (potenzialmente in)finito di frasi, costruite concatenando elementi di V (L V*)
COME SI FORMALIZZA UNA GRAMMATICA
Una grammatica formale per il linguaggio L è un insieme di regole che permettono di generare/riconoscere tutte e sole le frasi appartenenti a L e(d eventualmente) di assegnare a queste frasi un’adeguata descrizione strutturale.
Una grammatica formale G deve essere:
esplicita (il giudizio di grammaticalità deve essere frutto solo dell’applicazione meccanica delle regole scelte)
consistente (una stessa frase non può risultare allo stesso tempo grammaticale e non grammaticale)
LE ESPRESSIONI REGOLARI
Le Espressioni Regolari sono notazioni algebriche per definire insiemi di stringhe di testo. Il cuore dell’espressione regolare è il pattern di identificazione composto da caratteri alfanumerici (compresi segni di spaziatura e di interpunzione) e da segni speciali volti a stabilire le relazioni tra i caratteri del pattern.
Espressione Regolare Corrispondenza Es. pattern identificato
[Dd]uomo Duomo oppure duomo Il duomo è nella piazza
[^a-z] tutto fuorché lettere minuscole Il duomo è ...
sali?ta salita oppure salta Marco deve saltare
sal.ta accetta ogni carattere tra le i e la t Marco saluta
bu* b seguito da un numero imprecisato (anche nullo) di u
buuuuuu! oppure b!
^L Vs. a$ ^ = inizio stringa; $ = fine stringa La casa
cas(a|e) | è equivalente alla disgiunzione logica Marco vive in un casale
\* il backslash è il simbolo di escape A*
3
AUTOMI E COMPUTAZIONE
Gli automi sono modelli matematici che permettono di definire una computazione descrivendo relazioni tra «stati» di un sistema.
Ecco un esempio di automa (a stati finiti): l’interruttore!
0 = acceso1 = spento = pressione
0 1
MACCHINE E STATI FINITI (FINITE STATE AUTOMATA, FSA)
Finite-State Automata (FSA)definiti come quintuple <Q, Σ, q0, F, δ> dove:
Q = insieme finito e non nullo di stati
Σ = alfabeto finito e non nullo di caratteri accettabili in input
q0 = stato iniziale, con q0 Q
F = insieme di stati finali, con F Q
δ = insieme delle regole di transizione definite in QxΣ su Q
FSA USATI COME RICONOSCITORI DI PAROLE
un insieme di FSA è un insieme di macchine che permettono non solo di riconoscere o rifiutare un elemento lessicale, ma anche di rappresentare una frase (o «tutta» una lingua…).
FSA che riconosce la parola casa ed il suo plurale: Q = {q0, q1, q2, q3, q4},
Σ = {c,a,s,e,#},Q0={q0},
F ={q4}, δ =
q0 q1 q2 q3 q4c a s a
e
q0 q1 q2 q3 q4
c q1
a q2 q4
s q3
e q4
GRAMMATICHE A STATI FINITI(LINGUAGGI REGOLARI)
q0
qf
q1
il cane q2
q3q4
q5 q6è
4
COME SI FORMALIZZA UNA GRAMMATICA
Una grammatica formale G può essere formalizzata (grammatica a struttura sintagmatica o Phrase Structure Grammar, PSG Chomsky 1965), come una quadrupla ordinata <VN, VT, →, {S}> dove:
VN è l’insieme di tutti i vocaboli non terminali (i.e. categorie: NP, N, VP, V, S...)
VT è l’insieme di tutti e soli gli elementi terminali (i.e. le parole della lingua «il», «pennarello», «usato»... VT VN = V)
→ è una relazione binaria, asimmetrica e transitiva definita su V*, dettarelazione di riscrittura. Ogni coppia ordinata appartenente alla relazione èchiamata regola di riscrittura. Per ogni simbolo AVN φAψ → φτψ per qualche φ, τ, ψ V*
{S} è un sottoinsieme di VN definito come l’insieme degli assiomi che convenzionalmente contiene il solo simbolo S.
CAPACITÀ GENERATIVA E RELAZIONI DI EQUIVALENZA
La capacità generativa denota l’insieme di oggetti generati dalla grammatica; tale capacità è:
debole se riferita al solo semplice insieme di frasi generabili
forte se associa a tali frasi l’appropriata descrizione strutturale
Due grammatiche si dicono equivalenti se sono in grado di generare lo stesso insieme di oggetti. Anche qua si può parlare di equivalenza debole o equivalenza forte
GRAMMATICHE REGOLARI – LINGUAGGI REGOLARI
Le grammatiche regolari sono grammatiche che ammettono solo regole sistematicamente di questo tipo:
A xB
oppure (sistematicamente) di questo:
A Bx
I linguaggi generati da queste grammatiche si definiscono Regolari
RG, FSA E RE SONO EQUIVALENTI
Grammatiche Regolari (RG, Regular Grammar), le Macchine a Stati Finiti (FSA, Finite State Automata) le Espressioni Regolari (RE, Regular Expressions) sono equivalenti(i.e. descrivono lo stesso insieme di linguaggi: i linguaggi regolari).
Dimostrazione per costruzione
5
COME SI STABILISCE L’APPARTENENZA AD UNA GRAMMATICA
Pumping lemmasServono per verificare se una proprietà linguistica può essere catturata da una grammatica oppure no
Pumping lemma per le grammatiche regolarianbn non è una stringa generabile da nessuna grammatica regolare (poiché nessuna sottostringa può essere “pompata” indefinitivamente garantendo lo stesso numero di a e di b)
q0 qfq1x z
y
GRAMMATICHE CONTEXT-FREE
Le grammatiche Context-Free (CFG) sono grammatiche che ammettono solo regole sistematicamente di questo tipo:
A (dove è una sequenza qualsiasi di simboli terminali o non terminali)
I linguaggi generati da queste grammatiche si definiscono Context-Free
Ogni grammatica CF può essere «convertita» in una grammatica (debolmente) equivalente nella forma chiamata Chomsky Normal Form (CNF):
A BCA a
PUSH-DOWN AUTOMATA (PDA)
Un Push-Down Automata (PDA) è una macchina a stati finiti dotata di uno stack di memoria; i PDA sono definiti come sestuple <Q, Σ, q0, F, δ, > dove:
Q = insieme finito e non nullo di stati
Σ = alfabeto finito e non nullo di caratteri accettabili in input
q0 = stato iniziale, con q0 Q
F = insieme di stati finali, con F Q
δ = insieme delle regole di transizione definite in Q x Σ x su Q x
= alfabeto di memoria
PDA USATI COME RICONOSCITORI DI FRASI
XXR
Q = {q0, q1, q2, q3, q4},
Σ / = {a, b, ε},Q0={q0},
F ={q4},
δ =
q0 q1 q2 q3 q4a b … ε/ε
Push(a)a
b
Push(b)
Pop(…)
q0 q1 q2 qn q4
a q1 push(a)
b q2 push(b)
… qn pop()
ε q4
6
CFG E PDA SONO EQUIVALENTI
Le Grammatiche Context-Free (CFG, Context-Free Grammars), e i Push-Down Automata (PDA) sono equivalenti(i.e. descrivono lo stesso insieme di linguaggi: i linguaggi Context-Free).
«Dimostrazione» per costruzione:1. PDA contiene una regola tale che: (q0, ε, ε) → (q1, S)2. Per ogni regola della CFG tale che A → x, il PDA contiene un’istruzione di questo tipo: (q1, ε, A) →
(q1, x) 3. Per ogni simbolo a : a VT , il PDA contiene un’istruzione del tipo (q1, a, a) → (q1, ε)
OGNI ESPRESSIONE LINGUISTICA PUÒ ESSERE GENERATA DALLE GRAMMATICHE CF?
Pumping lemma per le grammatiche context-freeSe A è un Linguaggio Context-Free, allora c’è un numero p (che esprime l’ampiezza del «pompaggio»), per cui, se s è una qualsiasi stringa di A di lunghezza almeno equivalente a p, allora può essere divisa in 5 parti, s = uvxyz tali che:I. Per ogni i 0, uvixyiz AII. |vy| 0III. |vxy| p
Proprietà di linguaggi non riconoscibili dalle grammatiche regolarianbncn non è una stringa generabile da nessuna grammatica context-free (poiché nessuna tripla di sottostringhe può essere “pompata” indefinitivamente garantendo lo stesso numero di a di b e di c)
S
R
R
u v x y z
INCLUSIONI TRA CLASSI DI GRAMMATICHE
La gerarchia di Chomsky (1956, 59) pone in relazione grammatiche di potenza diversa ponendo restrizioni sulla struttura delle regole:
Tipo 0: grammatiche non ristrette(Turing Equivalent Grammars): ( ) (es. Augmented Transition Networks)
Tipo 1: grammatiche contestuali (Context Sensitive Grammars): A ( ) (es. Tree Adjoining Grammars)
Tipo 2: grammatiche non-contestuali (Context Free Grammars):A (es. Phrase Structure Grammars)
Tipo 3: grammatiche regolari (Regular Grammars):A xB (es. Finite State Automata)
INCLUSIONI TRA CLASSI DI GRAMMATICHE
Linguaggi Context-Sensitive
Linguaggi Context-Free
Linguaggi Regolari
Linguaggi Turing Equivalent
7
DOVE STANNO LE LINGUE NATURALI?
Ricorsività nelle lingue naturali, ovvero come fare un uso infinito di mezzi finiti:
Incassamento a destra (abn: iterazione): [il cane morse [il gatto [che rincorse [il topo [che scappò]]]]]
Incassamento centrale (anbn: counting recursion): [il topo [che il gatto [che il cane morse] rincorse] scappò]
Dipendenze cross-seriali (xx, identity recursion)Gianni, Maria e Marco sono rispettivamente sposato, nubile e divorziato
DOVE STANNO LE LINGUE NATURALI?
Le lingue naturali non sono generabili da grammatiche regolari (Chomsky 1956):
If A then B (con A e B potenzialmente anch’esse nella forma “if X then Y”... quindi linguaggi di tipo anbn)
Le lingue naturali non sono generabili da grammatiche context-free (Shieber 1985):
Jan säit das mer em Hans es huus hälfed aastriiche(“famoso” dialetto svizzero tedesco)
J. dice che noi a H. la casa abbiamo aiutato a dipingere
Gianni, Luisa e Mario sono rispettivamente sposato, divorziata e scapolo( “ABC...ABC”... quindi linguaggi di tipo XX)
DOVE STANNO LE LINGUE NATURALI?
Linguaggi di tipo 0
Linguaggi Mildly Context-Sensitive
Linguaggi Context-Free
Linguaggi Regolari
Linguaggi Context-Sensitive
Lingue naturali
PUSH DOWN AUTOMATA(LINGUAGGI CONTEXT-FREE)
Dichiarativa: Gianni ha invitato Luigi
Interrogativa: Chii credi che Gianni abbia invitato _i?
Relativa restrittiva: Il signorei [che Gianni ha invitato _i ] non _i è venuto.
chi credi che Gianniq0
qf
q1 q2 q3 q4
abbia invitato
chiGianni
8
GRAMMATICHE TRASFORMAZIONALI(CHOMSKY 1957-65)
Modello a “T”DS
Deep Structure
SSSurface Structure
LFLogical Form
PFPhonetic Form
Lexicon
GRAMMATICHE TRASFORMAZIONALI(CHOMSKY 1957-65)
Esempio di regola di trasformazione:
S NP1 AUXha V-to NP2
S NP2 è stato V-to da NP1
ES.Gianni ha salutato un amico
un amico è stato salutato da Gianni
DA REGOLE TRASFORMAZIONALIAI PRINCIPI E PARAMETRI (CHOMSKY 1981)
regole principi & parametrispecifiche e valide universali linguistici +per una sola lingua settaggio parametri di variazione
Ricerca di una migliore adeguatezza esplicativa oltre che descrittiva
Obiettivo: cogliere gli universali linguistici descrivendo precisamente la limitata variabilità sintattica
DA REGOLE TRASFORMAZIONALIAI PRINCIPI E PARAMETRI (CHOMSKY 1981)
regole
regola passivo frase passivaregola coordinazione frase con sintagmi coordinatiregola di focalizzazione frase focalizzata...
principi & parametri
P1 frase passivaP2 frase dativaP3 frase focalizzata
potenzialmente una decina di principi + pochi parametri possono generare migliaia di regole
9
PRINCIPI E PARAMETRI (CHOMSKY 1981)
Alcuni principi
X' theory
- criterionogni argomento deve ricevere uno ed un solo ruolo tematico (e ogni ruolo tematico è assegnato ad uno ed un solo argomento)
Case filterogni NP lessicale deve ricevere un caso (P e Vfinito assegnano caso)
XP
X'
X°head
ZPcomplement
YPspecifier
PRINCIPI E PARAMETRI (CHOMSKY 1981)
Altri principi
Move una categoria può muoversi in qualsiasi momento, ovunque
Free indexationindici sono liberamente assegnati alle categorie in posizione A(rgomentale)
Binding theory condizione A – Un’anafora (es. se stessa) è legata nel suo dominio di legamento (binding domain) condizione B – Un pronome (es. lei) è libero nel suo dominio di legamento condizione C – Un’espressione referenziale (es. Maria) è sempre libera
PRINCIPI E PARAMETRI (CHOMSKY 1981)
Alcuni parametri
Posizione testa-complemento:
testa finale testa iniziale
Soggetto nullomangio una mela Vs. *eat an apple
XP
X'
ZPcomplement
X°head
YPspecifier
XP
X'
X°head
ZPcomplement
YPspecifier
PRINCIPI E PARAMETRI (CHOMSKY 1981)
Parametri (Baker 2002)
Head Directionality(HD)
Verb Attraction(VA)
Null Subject(NS)
first
English
Japanese
French Italian
no yes
yesno
last
10
LO STUDIO DEL LATINO E LA TEORIA P&P
Latino antico: nessun parlante nativo ancora in vita
Corpora di produzioni scritte
Approccio all’apprendimento del latino utilizzando la «consapevolezza meta-linguistica»: riflettendo sui Principi universali che caratterizzano tutte le lingue naturali e ipotizzando una lista di Parametri che spieghino le variazioni degli ordini delle parole attestate nel nostro corpus, proviamo a descrivere una «grammatica generativa» per il Latino (new comparative grammar, Haegeman1997)
Grandi grammatiche di riferimento: Italiano contemporaneo (Renzi et al. 1998-2001), Italiano antico (Salvi e Renzi 2010)
LO STUDIO DEL LATINO E LA TEORIA P&P
Vantaggi:
Se ad un apprendente viene esplicitato il funzionamento di una certa funzione cognitiva durante un compito, tale compito viene meglio controllato e la performance di apprendimento è migliore (Cornoldi 1995)
Eliminare lunghe liste di eccezioni, casi speciali, nozioni vaghe ed imprecise
Facilitare la memorizzazione basando le osservazioni su regole/principi generali (Cardinaletti 2007, 2007, Oniga 2008)
LE PECULIARITÀ DEL LATINO
La struttura del Sintagma Nominale (NP)
“omnium exspectatio visendi Alcibiadis” Nepote (Alcibiades - 6,1)l’attesa (di tutti) di vedere Alcibiade
NP
N'
N NPcomp
NPspec
omnium exspectatio visendi Alcibadis
NP
N'
N NPcomp
NPspec
L’ attesa di vedere Alcibiade
LE PECULIARITÀ DEL LATINO
La struttura del Sintagma Nominale (NP)
Giusti & Oniga 2007, Gianollo 2007
NP
N'
N NPcomp
NPspec
Subj-Gen N Obj-Gen
11
LE PECULIARITÀ DEL LATINO
La struttura del Sintagma Nominale (NP)
“Veteribus Helvetiorum iniuris populi Romani”Gli antichi oltraggi degli Elvezicontro il popolo romano
Cesare (De Bello Gallico – 1,30,2)
NP
N'
N NPcomp
NPspec
Helvetiorum iniuriis populi Romani
N'
N'
NP
AP
iniuriisveteribus
LE PECULIARITÀ DEL LATINO
La struttura del Sintagma Nominale (NP)
NP
N'
N NPcomp
APspec
Romani populi
N'
N'
populi
LE PECULIARITÀ DEL LATINO
La struttura del Sintagma Nominale (NP)
“Admiratio magna vulgi”la grande ammirazione del popolo
NP
N'
N NPcomp
Nspec
vulgi admiratio
N'
N'
NP
APspec
admiratiomagna
N'
N'
admiratio
LE PECULIARITÀ DEL LATINO
La struttura del Sintagma Nominale (NP)
NP
N'
N NPcomp
NPspec
caeli templa
"Coeli caerula templa"Gli spazi celesti del cielo
12
LE PECULIARITÀ DEL LATINO
La struttura del Sintagma Nominale (NP)
NP
N'
N NPcomp
NPspec
caeli templa
N'
N'
templa
NP
APspec
caerula
"Caeli caerula templa"Gli spazi celesti del cielo
LE PECULIARITÀ DEL LATINO
NP
N'
N NPcomp
NPspec
caeli templa
N'
N'
templa
NP
APspec
caerula
TOP
NP
caeli
"Coeli caerula templa"Gli spazi celesti del cielo
LE PECULIARITÀ DEL LATINO
NP
N'
N NPcomp
NPspec
mea oratio
N'
N'
oratio
NP
DemPspec
illa
TOP
AP
prima
N'
N'
oratio
NP
APspec
prima
"prima illa mea oratio"quella mia prima orazione
PRINCIPI «UNIVERSALI»
La derivazione della struttura procede per pezzi
Le relazioni tra gli elementi sono binarie e asimmetriche
Gli elementi uniti sono organizzati gerarchicamente: I soggetti sono strutturalmente più alti degli oggetti I dimostrativi più alti degli aggettivi Anche i tratti sono organizzati gerarchicamente (genere > numero > caso)
Merge e Movimento possono introdurre (o muovere) una testa (X) o un sintagma (XP).
Quando un elemento si muove (X o XP) esprime più relazioni, ognuna in una distinta posizione (implicazioni interpretative).
13
L’UNIVERSALITÀ DELLA STRUTTURA X-BARRA
La struttura del Sintagma Nominale (NP) e del Sintagma Verbale (VP)
NP
N'
N NPcomp
NPspec
Subj-Gen N Obj-Gen
VP
V'
V NPcomp
NPspec
Subj-Nom V Obj-Acc
L’UNIVERSALITÀ DELLA STRUTTURA X-BARRA
La struttura del Sintagma Verbale (VP)
VP
V'
V NPcomp
NPspec
Caesar subducit suas copias
"copias suas Caesar (in proximum collem) subducit"Cesare si ritirò con le sue truppe sul colle più vicino
LE PECULIARITÀ DEL LATINO
VP
V'
V NPcomp
NPspec
Caesar subduc-
T'
T
subduc-it
CP
spec
copias suas
C'
C TP
spec
Caesar copias suas
"copias suas Caesar (in proximum collem) subducit"Cesare si ritirò con le sue truppe sul colle più vicino
ALTRI PRINCIPI «UNIVERSALI»
I tratti morfologici possono far spostare le teste (X)
Gli elementi possono essere riordinati, ma ogni riordinamento tende a richiamare in una posizione“periferica” l’elemento a lei più prossimo (località del movimento, Rizzi 1990)
L’ordine SVO e SOV possono essere ottenuti attraverso il movimento (e non solo attraverso una parametrizzazione della posizione testa-complemento)
Ogni operazione di movimento deve essere «recuperabile» (e.g. di solito le lingue dotate di caso e/o maggiore ricchezza morfologica flessiva permettono riordinamenti più liberi)
14
IN CONCLUSIONE
Abbiamo poi visto che la sintassi può essere espressa in modo preciso: Utilizzando le grammatiche a struttura sintagmatica (regolari o context-free) Esistono formalismi equivalenti per esprimere la stessa classe di grammatiche/linguaggi: Grammatiche Regolari (RG) = Automi a Stati Finiti (FSA) = Espressioni Regolari Grammatiche Context-Free (CFG) = Push-Down Automata (PDA) Vista la collocazione delle grammatiche formali nella gerarchia di Chomsky, alcune proprietà
linguistiche trascendono la potenza generativa sia delle RG (anbn), sia delle CFG (XX) La parametrizzazione cross-linguistica ci permette di esprimere in modo compatto ed euristico la
variazione grammaticale (vedere il caso del Latino), focalizzando l’attenzione su pochesignificative differenze che distinguono due lingue di cui sono inferibili i parametri (teoria deiPrincipi e dei Parametri)