Appunti per il corso di Geometria I

Giorgio Ottaviani

Chiudere ogni finestra che che viene aperta prima di aprirne un'altra!

Questi appunti sono in costruzione, ogni commento è benvenuto! (spedire una mail a ottaviani@math.unifi.it)

Il linguaggio delle funzioni
Lo spazio Rⁿ
Le matrici
L'algoritmo di Gauss ed i sistemi lineari
Spazi vettoriali e funzioni lineari
Basi ortonormali e spazi ortogonali
Complementi: somma e somma diretta, la formula di Grassmann
Il determinante
Autovalori e autovettori. Il teorema spettrale.

0. Il linguaggio delle funzioni

Scriveremo una funzione da un insieme A ad un insieme B con la notazione f : A ® B. Per ogni a Î A l'elemento f(a) Î B si dice l'immagine di a tramite f. Due funzioni f₁, f₂ da A a B sono uguali (f₁ = f₂) quando f₁(a) = f₂(a) "a Î A. Date due funzioni ¦ : A ® B e g : B ® C,la composizione g · f : A ® C è definita da
(g · f )(a) : = g[¦(a )]. La funzione identità 1 _A : A ®A è definita dalla formula 1_A( a ) := a "a Î A. È utile pensare alle funzioni come algoritmi (ma a livello fondazionale è pericoloso!) dove gli elementi di A corrispondono all'input ed elementi di B corrispondono all'output. La funzione identità corrisponde allora all'algoritmo che lascia invariato ogni elemento in input.

Esercizio 0.1 Se ¦ : A ® B provare che 1_B·¦=¦, ¦·1_A=¦. Soluzione

Se ¦ : A ® A.allora la composizione f ·f si indica con f ². Analogamente f ^k indica la composizione di f con se stessa per k volte.

Esempio 0.2 Se ¦ : Z ® Z è definita da f(x):= 2x allora f^k(x)=2^kx " x Î Z "k Î N

Prop. 0.3 Consideriamo tre funzioni
f:A ® B
g:B ® C
h:C ® D.
Allora (h · g) · f=h · (g · f), cioè la composizione tra funzioni gode della proprietà associativa. Dimostrazione

Definizione f:A ® B si dice iniettiva se per ogni a, a' Î A tali che f(a)=f(a') abbiamo a=a'.
Definizione f:A ® B si dice suriettiva se per ogni b Î B esiste a Î A tale che f(a)=b.

Osservazione 0.4 Siano f,g : Z ® Z definite da f(x)=|x| , g(x)=2x. Allora f · g(2)=2 , g · f(2)=-2 , quindi f· g ¹ g · f. (Segue che la composizione tra funzioni non è commutativa.) Questo fatto sarà particolarmente importante riguardo alle trasformazioni geometriche del piano e dello spazio.

Esercizi di base sulle funzioni iniettive e suriettive.

Esercizi avanzati sulle funzioni iniettive e suriettive.

Definizione Una funzione f si dice biunivoca se è iniettiva e suriettiva.
Esercizi sulle funzioni biunivoche.

Se f è biunivoca allora per ogni b Î B esiste unico a Î A tale che f(a)=b. L'esistenza di a è garantita dalla suriettività di f, l'unicità di a è garantita dall'iniettività di f .
Esempio 0.5 Sia g : Z ® Z definita da g(x)=2x e f : Z ® Z definita da f(x)=[x/2] dove [ ] denota la parte intera.
Allora f· g =1 _Z, mentre g· f(x) è uguale a x se x è e pari ed è uguale a x-1 se x è dispari.

Definizione Una funzione f : A® B si dice invertibile se esiste una funzione g : B® A tale che f· g =1 _B, g· f =1 _A

Lemma-Definizione 0.6 Nella definizione di invertibilità di f, se g esiste allora è unica, si chiama inversa di f e si indica con la notazione g=f^-1. Dimostrazione

Teorema 0.7 Sia f : A® B . f è invertibile Û f è biunivoca

Dimostrazione
Þ Per ipotesi esiste f^-1 inversa di f. Proviamo che f &egrave iniettiva. Se f(a)=f(a') allora f^-1 · f(a)=f^-1 ·f(a') cioè a=a', quindi f è iniettiva. Proviamo che f è suriettiva. Se bÎ B allora f[f^-1(b)]=b quindi f è suriettiva.
Ü Per ipotesi per ogni b Î B esiste unico a Î A tale che f(a)=b. Definiamo quindi f^-1(b)=a. È immediato verificare che f^-1 &egrave l'inversa di f.

Esercizi (non facili) per la comprensione dell'equivalenza tra funzioni biunivoche e funzioni invertibili.

Per ogni insieme S denotiamo con T(S) l'insieme delle funzioni biunivoche da S in se stesso. Ai fini del presente corso ci interesserà soprattutto il caso in cui S &egrave lo spazio (affine o euclideo). T(S) ammette l'operazione di composizione. Rispetto a questa operazione sono verificate le seguenti tre proprietà

Per ogni f, g, h Î T(S) vale (f·g)·h= f· (g·h) proprietà associativa
Per ogni f Î T(S) vale 1_S· f= f·1_S =f esistenza dell'elemento neutro
Per ogni f Î T(S) esiste f^-1Î T(S) tale che f^-1· f= f·f^-1= 1_S esistenza dell'inverso

Le tre proprietà precedenti ci permettono di affermare che T(S) è un gruppo

Un sottoinsieme non vuoto A di T(S) è un sottogruppo se

per ogni f Î A allora f^-1Î A A è chiuso rispetto all'inverso
per ogni f,g Î A allora f·g Î A A è chiuso rispetto alla composizione

Notiamo che ogni sottogruppo è in particolare un gruppo, cioè soddisfa gli assiomi di gruppo.
Se S è il piano euclideo allora le isometrie, le traslazioni, le similitudini formano sottogruppi significativi di T(S).
I gruppi sono insiemi "arricchiti" dall'operazione (la composizione nel caso di T(S) ). Un insieme con operazioni che soddisfano certe proprietà si dice in generale una struttura algebrica. I gruppi sono tra le strutture algebriche più importanti. Altri esempi che vedremo più avanti sono gli spazi vettoriali. Le funzioni tra gruppi che si comportano "bene" rispetto all'operazione prendono il nome di omomorfismi tra gruppi.
Esempi Sia S il piano euclideo. Denotiamo con d(P,Q) la distanza di due punti P, Q Î S. Una funzione f Î T(S) si dice una isometria se d(P,Q)=d(f(P),f(Q)), cioè se conserva la distanza. Il sottogruppo di T(S) che consiste nelle isometrie che portano un triangolo equilatero in se stesso è formato da 6 elementi (3 simmetrie assiali, e le tre rotazioni attorno al baricentro di angoli risp. 0, 2p/3, 4p/3). La rotazione di un angolo 0 coincide con l'identità.
Il sottogruppo di T(S) che consiste nelle isometrie che portano un poligono regolare di n lati in se stesso è formato da 2n elementi.
Il sottogruppo di T(S) che consiste nelle isometrie che portano un cerchio in se stesso è formato da infiniti elementi.

1. Lo spazio Rⁿ

Rⁿ è per definizione il prodotto cartesiano di R con se stesso per n volte, cioè gli elementi di Rⁿ sono n-ple di numeri reali che scriveremo con la notazione

x =(x₁,..., x_n) ÎRⁿ Chiameremo gli elementi di Rⁿ vettori con n componenti. Ad esempio (2,4,3)ÎR³ è un vettore con 3 componenti. Gli elementi x_i per i=1,...,n si dicono le componenti di x.
2 è la prima componente di (2,4,3), 4 è la seconda componente di (2,4,3) e così via.
È ben noto che gli elementi di R² si possono identificare con i punti di un piano, gli elementi di R³ con i punti dello spazio. Vedremo che gli elementi di Rⁿ si possono identificare con i punti di uno spazio a n dimensioni.
Se x =(x₁,..., x_n) , y =(y₁,..., y_n) ÎRⁿ è definita la somma
x+y =(x₁+y₁,..., x_n+ y_n) ÎRⁿ La somma è quindi definita componente per componente. Denotiamo con 0=(0,...,0) la n-pla costituita da tutti le componenti nulle. Per ogni x =(x₁,..., x_n) ÎRⁿ denotiamo con -x =(-x₁,..., -x_n) ÎRⁿ la n-pla costituita da tutti le componenti di x cambiate di segno.
La somma soddisfa alle tre proprietà di facile verifica

Per ogni x, y, z Î Rⁿ vale
(x+ y)+z=x+(y+z) proprietà associativa
Per ogni x Î Rⁿ vale
0+x= x+0 =x esistenza dell'elemento neutro
Per ogni x Î Rⁿ esiste -xÎ Rⁿ tale che
-x+x=x+(-x)=0 esistenza dell'inverso (opposto)

Le tre proprietà precedenti sono analoghe a quelle viste per T(S) con la differenza che l'operazione è denotata con il simbolo + (notazione additiva), l'elemento neutro con 0 e l'inverso con -x (invece che con x^-1 ). Le tre proprietà ci permettono di affermare che Rⁿ è un gruppo

Vale in questo caso una quarta proprietà

Per ogni x, y Î Rⁿ vale
x+y=y+x proprietà commutativa

Queste quattro proprietà ci permettono di affermare che Rⁿ è un gruppo abeliano (o commutativo).
T(S) in generale non è abeliano.

Su Rⁿ si può definire una seconda operazione, di natura un pò diversa perché non è un'operazione interna all'insieme, cioè non si esegue tra due elementi di Rⁿ.
Consideriamo x =(x₁,..., x_n) ÎRⁿ e l ÎR. Il prodotto l xÎ Rⁿ è definito da l x= (l x₁,..., l x_n) Ad esempio
5(2,4,3)=(10,20,15)
l x prende il nome di prodotto di x per lo scalare l . Le proprietà delll'operazione di prodotto per uno scalare sono le seguenti, di facile verifica

Per ogni x Î Rⁿ, per ogni l, m Î R vale
(l+m)x= lx +mx proprietà distributiva degli scalari
Per ogni x, y, Î Rⁿ, per ogni l Î R vale
l(x+y)= lx +ly proprietà distributiva dei vettori
Per ogni x Î Rⁿ, per ogni l, m Î R vale
(lm)x= l( mx)
Per ogni x Î Rⁿ vale
1x=x

Le otto proprietà precedenti ci permettono di affermare che Rⁿ è uno spazio vettoriale

Le seguenti proprietà sono di immediata verifica e sono conseguenza delle otto precedenti, cioè valgono in ogni spazio vettoriale.

Per ogni x Î Rⁿ
0x=0 dimostrazione come conseguenza di 1..8
Per ogni x Î Rⁿ, per ogni l Î R
(-l)x=-(l)x in particolare
(-1)x=-x (opposto di x) dimostrazione come conseguenza di 1..8

I vettori applicati nell'origine e l'interpretazione geometrica delle operazioni.

Ogni vettore x Î Rⁿ può essere interpretato geometricamente come un segmento orientato con punto iniziale l'origine e punto finale x stesso. I segmenti orientati si disegnano come delle freccette e questa è la rappresentazione che si dà usualmente dei vettori. Questa descrizione è ben nota dalla Fisica, dove si sottolinea che un vettore è descritto da tre grandezze: la direzione, il verso e la lunghezza. La somma tra vettori si può calcolare geometricamente con la regola del parallelogramma, cioè x+y corrisponde alla diagonale con punto iniziale l'origine del parallelogramma che ha per lati x e y. Il prodotto lx corrisponde al vettore che ha la stessa direzione di x , stesso verso se l>0 oppure verso opposto se l<0 e lunghezza ottenuta moltiplicando la lunghezza di x per |l|.

La lunghezza di un vettore di Rⁿ .

Se x Î Rⁿ la sua lunghezza (euclidea) è per definizione |x|:= $\sqrt{\sum_{i=1}^nx_i^2}$
La formula precedente usa il simbolo di sommatoria.
Per n=2 la formula precedente si giustifica attraverso il teorema di Pitagora. Infatti il segmento che unisce l'origine con (x₁,x₂) è l'ipotenusa di un triangolo rettangolo i cui cateti misurano rispettivamente |x₁| e |x₂|. Notiamo che

|x| ³0 per ogni x Î Rⁿ
|x| =0 se e solo se x=0

Le proprietà precedenti sono di verifica immediata. Vale una terza proprietà, detta disuguaglianza triangolare, che dimostreremo tra breve, come conseguenza della disuguaglianza di Cauchy-Schwarz.

|x+y| £ |x|+|y| per ogni x, y Î Rⁿ
disuguaglianza triangolare

Angolo tra due vettori in R² .

Prop. 1.1 Siano v=(v₁, v₂) e w=(w₁, w₂) due vettori (applicati nell'origine) di lunghezza 1 in R² che formano un angolo q. Allora
cos q= v₁w₁+ v₂w₂
Dimostrazione Sia a l'angolo che v forma con l'asse delle ascisse. Allora v=(v₁, v₂)=(cos a, sen a )
Quest'ultima uguaglianza tra vettori (uguaglianza vettoriale) equivale alle due uguaglianze
v₁ = cos a, v₂ = sen a.
Vale anche
w=(w₁, w₂)=(cos (a+q), sen (a+q) )
Dalla formula di sottrazione
cos q=cos [(a+q)-a]= cos( a+q)cosa+ sen( a+q)sena =
= w₁v₁+ w₂v₂

Teorema 1.2 Siano v=(v₁, v₂) e w=(w₁, w₂) due vettori non nulli (applicati nell'origine) in R² che formano un angolo q. Allora
cos q= (v₁w₁+ v₂w₂)/(|v| |w|)
Dimostrazione L'angolo tra v e w è lo stesso dell'angolo tra i loro normalizzati
(1/|v|)v=( v₁/ [Ö v₁²+v₂²], v₂/ [Ö v₁²+v₂²] )
e
(1/|w|)w=( w₁/ [Ö w₁²+w₂²], w₂/ [Ö w₁²+w₂²] )
La formula segue allora dalla prop. precedente.

Il prodotto scalare in R² .

Le formule trovate per gli angoli suggeriscono di porre la seguente definizione
Definizione 1.3 Dati due vettori v=(v₁, v₂) e w=(w₁, w₂) in R² definiamo v. w:= v₁w₁+ v₂w₂ che si dice prodotto scalare di v e w.

È importante osservare che v.v= v₁²+ v₂²=|v|² Pertanto il teorema 1.2 può essere così riformulato
Teorema 1.2 (riformulazione) Siano v e w due vettori (applicati nell'origine) in R² che formano un angolo q. Allora
cos q= (v.w) /(|v| |w|)
È utile scrivere la formula precedente nella forma v.w=(|v| |w|)cos q
che vale anche nel caso in cui v oppure w sono nulli.
Dalle formule precedenti segue che v e w sono ortogonali se e solo se v.w= 0

Il prodotto scalare in Rⁿ .

La generalizzazione naturale del prodotto scalare a Rⁿ è la seguente
Definizione 1.4 Dati due vettori v=(v₁,..., v_n) e w=(w₁,..., w_n) in Rⁿ definiamo v. w:= S_i=1ⁿ v_iw_i= v₁w₁+ ...+v_nw_n che si dice prodotto scalare di v e w.

Proprietà del prodotto scalare

v.w= w.v simmetria
( lv₁+ m v₂) .w= l (v₁.w)+ m (v₂.w) linearità rispetto alla prima componente
v.( lw₁+ m w₂)= l (v. w₁) + m (v. w₂) linearità rispetto alla seconda componente

Le verifiche delle proprietà precedenti seguono dalla definizione.
Osserviamo che vale anche la formula
Lemma 1.5 v . v= |v|²

La disuguaglianza di Cauchy-Schwarz

Teorema 1.6 (Cauchy-Schwarz) Per ogni v, w ÎRⁿ vale |v.w| £ |v| |w|
e vale l'uguaglianza se e solo se v e w hanno la stessa direzione.
Dimostrazione Se w=0 la disuguaglianza è vera. Supponiamo quindi che w sia non nullo e calcoliamo per ogni t Î R 0 £ |v+tw|²= (v+tw) . (v+tw) = v. v+tv.w+ tw.v+t²w .w=
per la simmetria ed il lemma 1.5
=|v|²+2t v.w+ t²|w|²
L'espressione precedente è un polinomio di secondo grado in t con coefficiente di grado massimo positivo. Siccome il polinomio è sempre non negativo segue che il suo discriminante è non negativo (abbiamo una parabola con concavità verso l'alto sopra all'asse delle ascisse) da cui
(v.w)²-|v|² |w|² £ 0
che equivale alla tesi.
Quando la parabola tocca l'asse delle ascisse in un punto esiste un valore di t che annulla il polinomio, e questo accade nel caso limite in cui il discriminante è nullo. Per questo valore di t allora v+tw=0, cioè v=-tw, questo significa che v, w hanno la stessa direzione.

Dimostrazione della disuguaglianza triangolare e sue varianti

Abbiamo |v+w|²=(v+w). (v+w)= |v|²+2 v. w+ |w|² £
(per la disuguaglianza di Cauchy-Schwarz)
|v|²+2 |v| |w|+ |w|² =(|v|+|w|)² che equivale alla disuguaglianza triangolare. Vale l'uguaglianza esattamente quando vale l'uguaglianza nella disuguaglianza di Cauchy-Schwarz che abbiamo applicato (attenzione perchè non compare il valore assoluto, quindi v. w deve essere non negativo!). Questo conclude la dimostrazione.
Variazioni sul tema

|v-w| £ |v|+|w|
sostituendo -w al posto di w
| |v|-|w| | £|v+w|
infatti |v|=|(v+w)-w| £|v+w|+|w|

L'ultima disuguaglianza equivale al fatto geometrico che (la lunghezza di) un lato di un triangolo è maggiore o uguale della differenza degli altri due mentre la disuguaglianza triangolare equivale al fatto che (la lunghezza di) un lato è minore o uguale della somma degli altri due. Questa osservazione spiega l'origine dell'aggettivo "triangolare".

2. Le matrici

Una matrice mxn consiste di mn elementi a_ij disposti in m righe ed in n colonne. L'elemento a_ij si dice di posto (i,j) e può essere visto come il j-esimo elemento della riga i-esima oppure come il i-esimo elemento della colonna j-esima. Le definizioni di somma e di prodotto per uno scalare tra matrici sono analoghe a quelle viste per R ⁿ e si applicano componente per componente. Se A e B sono matrici mxn allora la somma A+B ha come elemento di posto (i,j) l'elemento a_ij+b_ij, mentre se c è un numero reale allora cA ha come elemento di posto (i,j) l'elemento ca_ij.
L'operazione di prodotto righe per colonne tra due matrici richiede invece un'attenzione particolare. È possibile moltiplicare una matrice mxn A con una matrice nxp B ed il risultato è una matrice mxp che indichiamo con AB. Se A è costituita dalle righe A₁...A_m e B è costituita dalle colonne B¹...B^p allora l'elemento di posto (i,j) è di AB è dato dal prodotto scalare A_iB^j, che si scrive in formula come S_k=1^ma_ikb_kj.
Sia e_i il vettore (colonna) che ha tutte le componenti nulle tranne la i-esima che è uguale a 1. Notiamo subito che per ogni vettore x nx1 vale x=x₁e₁+...+x_ne_n. Se A è una matrice mxn allora Ae_j è la j-esima colonna di A. Invece e_i^t A è la i-esima riga di A (a patto di considerare e_i^t con m componenti. Notiamo subito che il prodotto di due matrici quadrate nxn è ancora una matrice quadrata nxn. La matrice identità I che ha tutti 1 sulla diagonale e tutti 0 al di fuori è l'elemento neutro per questo prodotto. L'elemento di posto (i,j) della matrice identità è uguale a 1 se i=j ed è uguale a 0 se i ¹ j, si indica con d_ij e si chiama "simbolo di Kronecker". Vale quindi AI=IA=A per ogni matrice quadrata nxn A.
Definizione Una matrice quadrata A si dice invertibile se esiste una matrice B tale che AB=BA=I.
La matrice B, se esiste, si dice l'inversa di A e si indica con A^-1.

Vedremo che la definizione precedente può essere indebolita.

Una peculiarità del prodotto tra matrici è che esistono matrici non nulle che non sono invertibili. Questo concetto risulterà più chiaro con la corrispondenza tra matrici e applicazioni lineari.
Esercizio Due matrici non nulle A e B si dicono divisori dello zero se AB=0. Trovare due matrici 2x2 che sono divisori dello zero. Provare che un divisore dello zero non può essere invertibile.

3. L'algoritmo di Gauss ed i sistemi lineari

Sistemi lineari e scrittura matriciale

Un sistema lineare di m equazioni in n incognite ha la forma Ax=b dove A è una matrice mxn (che prende il nome di matrice del sistema), x=(x₁,...,x_n) è il vettore colonna delle incognite e b=(b₁,...,b_m) è il vettore colonna dei termini noti. Si noti che il prodotto righe per colonne di A (mxn) con x (nx1) ha per risultato una matrice mx1. Impareremo a risolvere completamente un sistema lineare. Questo vuol dire sapere riconoscere se un sistema ha o meno soluzioni, ed in caso affermativo saper calcolare tutte le soluzioni. L'insieme delle soluzioni di un sistema lineare ha una struttura semplice, vedremo che è sempre un traslato di un sottospazio vettoriale.

Un sistema lineare si dice omogeneo quando b=0, cioè quando ha la forma Ax=0. I sistemi lineari ammettono sempre la soluzione x=0.

EsercizioScrivere un sistema lineare che non ha soluzioni.

L'algoritmo di Gauss

Su una matrice possiamo eseguire le seguenti tre operazioni elementari su una matrice A.

Operazione elementare di tipo I: scambia tra loro due righe di A, cioè A_j viene sostituita da A_i e A_i viene sostituita da A_j .
Operazione elementare di tipo II: moltiplica una riga data per uno scalare non nullo, cioè A_j viene sostituita da cA_j con c ¹0.
Operazione elementare di tipo III: somma ad una riga un scalare di un'altra, cioèsostituisce alla riga A_j la riga A_j+ lA_i .

Mediante operazioni elementari di tipo I, III una qualunque matrice viene ricondotta ad una matrice a scalini.
La dimostrazione di questo fatto è costruttiva e può essere ottenuta per induzione sul numero delle righe. Infatti ogni matrice con una sola riga è a scalini. Adesso se A è una matrice qualunque, consideriamo la sua prima colonna non nulla. Con operazioni elementari di tipo I possiamo trasformare A in una nuova matrice (che per abuso di notazione chiameremo ancora con A) la cui prima colonna non nulla ha un elemento non nullo nella prima riga, che chiamiamo a_1i, questo è il primo pivot. Adesso con operazioni elementari di tipo III si trasforma A in una nuova matrice dove sono nulli tutti gli elementi sotto il pivot a_1i, quindi la prima colonna non nulla ha soltanto il primo elemento non nullo. Consideriamo adesso la sottomatrice A'ottenuta da A cancellando la prima riga e le prime i colonne. Per ipotesi induttiva A' può essere trasformata in una matrice a scalini conh operazioni elementari di tipo I e III. Queste operazioni permettono di ridurre a scalini A stessa. L'algoritmo che abbiamo appena descritto è la versione più semplice di quello che oggi è noto come algoritmo di Gauss. I pivot sono gli elementi che appaiono sulle estremità degli scalini e sono sempre non nulli. Può darsi che i pivot siano in numero minore rispetto alle righe perché le ultime righe della matrice potrebbero diventare identicamente nulle e quindi non contenere pivot.
In particolare mediante operazioni elementari di tipo I, III una qualunque matrice quadrata viene ricondotta ad una matrice a scalini che è triangolare. Se la matrice triangolare ha l'ultima riga diversa da zero allora ha tutti gli elementi diagonali diversi da zero e mediante successive operazioni elementari di tipo I, III viene ricondotta ad una matrice diagonale.

Le operazioni elementari di tipo II permettono di normalizzare tutti i pivot al valore 1. Quindi mediante operazioni elementari di tipo I, II, III una qualunque matrice viene ricondotta ad una matrice a scalini, dove i pivot valgono 1.
In particolare mediante operazioni elementari di tipo I, II, III una qualunque matrice quadrata viene ricondotta ad una matrice triangolare dove sulla diagonale appaiono soltanto 0,1.
L'algoritmo di Gauss si può applicare in particolare alle righe della matrice completa (A|b) di un sistema Ax=b. Ogni riga corrisponde ad una equazione. Quindi le operazioni elementari di tipo I si corrispondono a scambi di posto tra diverse equazioni. Le operazioni elementari di tipo II corrispondono alla moltiplicazione di una equazione per una costante. Le operazioni elementari di tipo III corrispondono a sommare ad una equazione un multiplo di un'altra (questo è noto talvolta come metodo di "addizione e sottrazione" per risolvere un sistema). È facile verificare che tutte le operazioni elementari sono invertibili e non alterano le soluzioni di un sistema.
L'algoritmo di Gauss permette quindi di ricondurre un sistema ad un sistema a scalini che ha le stesse soluzioni del sistema di partenza. Questa operazione &grave; conveniente perchè i sistemi a scalini sono facilmente risolubili. La risolubilità del sistema &egrave determinata dal seguente

Teorema (criterio di risolubilità per i sistemi lineari)
Il sistema Ax=b ammette almeno una soluzione se e solo se riducendo a scalini la matrice (A|b) non si trovano pivot nella ultima colonna.
Dimostrazione (costruttiva) Se c'è un pivot nell'ultima colonna, allora l'ultima equazione non nulla si legge 0=1, che è impossibile. Se invece ogni pivot è in una colonna precedente allora il sistema si può sempre risolvere. Infatti ogni variabile corrisponde ad una colonna della matrice ed in una matrice a scalini le variabili sono divise in modo naturale in due gruppi: quelle che corrispondono ai pivot (variabili dipendenti) e le altre (variabili libere). L'ultima equazione contiene una sola variabile dipendente che può quindi essere espressa in funzione delle variabili libere. Sostituendo questa espressione nella penultima equazione si ricava che anche la penultima variabile dipendente può essere espressa in funzione delle variabili libere. Continuando in questo modo si ottiene che tutte le variabili dipendenti possono essere espresse in funzione delle variabili libere. Dando valori arbitrari alle variabili libere si ricavano quindi soluzioni del sistema. Si trova in questo modo una parametrizzazione dello spazio delle soluzioni del sistema.
Osserviamo dalla dimostrazione del teorema precedente che l'algoritmo di Gauss permette di risolvere i sistemi lineari. Il numero dei parametri da cui dipendono le soluzioni di un sistema è al numero delle variabili libere, che è pari a numero delle incognite - numero dei pivot. Più avanti daremo il nome di rango al numero dei pivot.

4. Spazi vettoriali e funzioni lineari

Sottospazi vettoriali

DefinizioneUn sottoinsieme non vuoto W di uno spazio vettoriale V (in particolare di Rⁿ) si dice un sottospazio (vettoriale) se

per ogni l Î R e per ogni vÎ W si ha l v Î W
per ogni v, zÎ W si ha v+z Î W

Le due condizioni precedenti possono essere riassunte nella condizione

per ogni l, m Î R e per ogni v, zÎ W si ha l v+m z Î W

Proposizione Un sottospazio di uno spazio vettoriale contiene sempre l'origine.
Dimostrazione Basta porre l =0 nella definizione di sottospazio. Se wÎ W allora 0w=0Î W.

Ogni sottospazio vettoriale è in particolare uno spazio vettoriale.
Esercizio Provare che ogni sottospazio è in particolare un sottogruppo .
I sottospazi vettoriali di R ² sono dati da 0, dalle rette per l'origine e da R ² stesso.
Esercizio L'intersezione di due sottospazio vettoriali è ancora un sottospazio vettoriale.

Combinazioni lineari

Se v₁,...,v_k sono vettori di uno spazio vettoriale V e l₁,...,l _k Î R allora
S_i=1 ^k l_i v_i
si dice una combinazione lineare dei vettori v₁,...,v_k . In particolare l v è una combinazione lineare di v, l₁v₁+ l₂v₂ è una combinazione lineare di v₁, v₂.

Proposizione L'insieme delle combinazioni lineari di v₁,...,v_k è un sottospazio di V che viene indicato con <v₁,...,v_k >.
La dimostrazione della proposizione precedente segue dalla definizione e viene lasciata come esercizio.
Definizione Poniamo in Rⁿ e₁:=(1,0,...,0) e₂:=(0,1,...,0) e_n:=(0,0,...,1) Allora per ogni x=(x₁,...,x_n) ÎRⁿ si ha x=x₁e₁+x₂e₂+ ...+x_ne_n quindi ogni vettore di Rⁿ si può scrivere come combinazione lineare di e₁,...,e_n.
e₁,...,e_n si dice, per motivi che vedremo più avanti, la base standard di Rⁿ.

Osservazione Se A è una matrice di tipo nxm ed e_i &egrave un vettore colonna (matrice mx1) allora Ae_i è la i-esima colonna di A. Analogamente e_i ^t è la i-esima riga di A.

Funzioni lineari

Definizione Siano V, W due spazi vettoriali.Una funzione f: V ® W si dice lineare se per ogni v,zÎ V e per ogni per ogni l Î R si ha

f(v+z)=f(v)+f(z)
f(l v)=l f(v)

In particolare una funzione lineare è un omomorfismo di gruppi. Le due condizioni precedenti possono essere riassunte nella condizione equivalente:
per ogni v,zÎ V e per ogni per ogni l, m Î R

f( lv+m z)= lf(v)+ m f(z)

Lemma Se f è una funzione lineare allora f(0)=0.
Dimostrazione f(0)=f(0+0)=f(0)+f(0). Sommando ad ambo i membri -f(0) si ha la tesi.

Questa stessa dimostrazione mostra che ogni omomorfismo tra gruppi porta l'elemento neutro nell'elemento neutro. Ad esempio log(1)=0.

Osserviamo che se f è una funzione lineare allora f(-v)=-f(v).
Una funzione lineare da V a W conserva le combinazioni lineari.
Questo significa che se v₁,...,v_k sono vettori di V e l₁,...,l _k Î R allora f(S_i=1 ^k l_i v_i)= S_i=1 ^k l_if( v_i) Una dimostrazione formale di questo fatto segue dalla definizione di linearità per induzione su k.

Esempio di una funzione lineare che descrive una previsione elettorale.

Le rotazioni attorno all'origine in R² come funzioni lineari

Consideriamo in R² la rotazione di un angolo q in senso antiorario attorno all'origine. Chiamiamo r_q: R²® R² questa rotazione. Un punto di coordinate (r cos(a), r sen(a) ) viene portato da r_q nel punto (r cos(a+q), r sen(a+q) ).

Per le formule di addizione

cos(a+q)=cos(a)cos(q)-sen(a)sen(q)

sen(a+q)=cos(a)sen(q)+sen(a)cos(q)

La notazione matriciale ci pemette di separare il contributo di a (che varia da punto a punto) da quello di q (che è lo stesso per tutti i punti e dipende solo dalla rotazione). Precisamente abbiamo

æ
ç
ç
ç
è

cos(a+q)

sen(a+q)

ö
÷
÷
÷
ø

é
ê
ê
ê
ë

cos(q)

-sen(q)

sen(q)

cos(q)

ù
ú
ú
ú
û

æ
ç
ç
ç
è

cos(a)

sen(a)

ö
÷
÷
÷
ø

ed applicando questa formula alle coordinate dei punti

æ
ç
ç
ç
è

r cos(a+q)

r sen(a+q)

ö
÷
÷
÷
ø

é
ê
ê
ê
ë

cos(q)

-sen(q)

sen(q)

cos(q)

ù
ú
ú
ú
û

æ
ç
ç
ç
è

r cos(a)

r sen(a)

ö
÷
÷
÷
ø

Quindi le coordinate di

r_q

æ
ç
ç
ç
è

ö
÷
÷
÷
ø

sono date da

é
ê
ê
ê
ë

cos(q)

-sen(q)

sen(q)

cos(q)

ù
ú
ú
ú
û

æ
ç
ç
ç
è

ö
÷
÷
÷
ø

Adesso la matrice 2x2

A_q=

é
ê
ê
ê
ë

cos(q)

-sen(q)

sen(q)

cos(q)

ù
ú
ú
ú
û

descrive la rotazione e la scrittura matriciale della rotazione di un vettore v di R² visto come vettore colonna è r_q (v)=A_q v dove tra A_q e v viene eseguita la moltiplicazione tra matrici.

Da questa descrizione è evidente (proprietà distributive del prodotto tra matrici) che r_q è lineare.
Esercizio Provare la forma matriciale delle formule di addizione, cioè

A_q A_b = A_q+b

I precedenti esempi possono essere generalizzati associando ad una qualunque matrice una funzione lineare. Vedremo che questo è il modo in cui si costruiscono tutte le funzioni lineari.
Proposizione Se f: V ® W è una funzione lineare, v₁,...,v_k Î V , l₁,...,l _k Î R allora

f( S_i=1 ^k l_i v_i)= S_i=1 ^k l_i f( v_i)

Funzioni lineari associate a matrici

Teorema Se due funzioni lineari da R^m a R^m coincidono sulla base standard di R^m allora coincidono dappertutto.
Dimostrazione Siano f,g:R^m ® Rⁿ tali che per ipotesi f(e_i)=g(e_i) per i=1,...,n. Allora se x=x₁e₁+x₂e₂+ ...+x_ne_nÎRⁿ si ha f(x)=f(x₁e₁+x₂e₂+ ...+x_ne_n)= x₁f(e₁)+x₂f(e₂)+ ...+x_nf(e_n)= x₁g(e₁)+x₂g(e₂)+ ...+x_ng(e_n)= g(x₁e₁+x₂e₂+ ...+x_ne_n)=g(x) come volevamo dimostrare.

Sia A una matrice nxm. Associamo ad A la funzione f_A :R^m ® Rⁿ definita da f_A(x) := Ax dove x viene considerato come vettore colonna a m componenti. Le proprietà distributive del prodotto tra matrici implicano che f_A è lineare.
Infatti per ogni x, z Î R^m f_A(x+z) = A(x+z) = Ax+Az = f_A(x)+ f_A(z) mentre per ogni x Î R^m , l R f_A( lx)=A( lx)= l Ax= l f_A(x) Teorema Sia g :R^m ® Rⁿ una funzione lineare. Allora esiste una unica matrice A di tipo nxm tale che g=f_A
Dimostrazione Definiamo A come la matrice che per i-esima colonna ha g(e_i). Allora per costruzione g(e_i)=Ae_i= f_A(e_i) Quindi g e f_A coincidono sulla base standard e per il teorema precedente abbiamo la tesi. Per ottenere l'unicità basta osservare che calcolando f_A e f_B sulla base standard otteniamo che A e B hanno tutte le colonne uguali e quindi coincidono.

Esempio Se v è un vettore riga (matrice mx1) allora f_v(x)=v.x . Il teorema precedente quindi dice che per ogni funzione lineare f:R^m ® R esiste vÎ R^m tale che f(x)= v.x. Questo teorema vale anche nel caso di spazi di dimensione infinita (con una ipotesi di limitatezza) ed in questo contesto si chiama teorema di rappresentazione di Riesz. In particolare dal teorema segue che ogni funzione lineare
g:R^m ® R ha la forma g(x₁,x₂,..., x_n)=a₁x₁+ ...+a_nx_n per certi a_iÎ R.
Proposizione Sia A una matrice mxn, B una matrice nxp. Allora f_A·f_B =f_AB Dimostrazione Per ogni x ÎR^p vale
f_A·f_B(x)= f_A(Bx)=A(Bx)=(AB)x=f_AB(x).
La proposizione precedente applicata al caso in cui A=B è una matrice quadrata fornisce
(f_A)²=f_(A2₎
e più in generale (f_A)^k=f_(Ak₎ per ogni k ÎN. La formula precedente vale per ogni k ÎZ se A è invertibile.
Corollario Sia A una matrice quadrata. A è invertibile se e solo se f_A è invertibile. In questo caso (f_A)^-1=f_(A-1₎.
Dimostrazione Sia A invertibile. Allora f_(A-1₎· f_A=f_(A-1_)A=f_I=1
Viceversa se f_A è invertibile esiste un'inversa che per il teorema ha la forma f_B. Segue che f_AB=f_I e per l'unicità del teorema AB=I da cui B è l'inversa di A.
Un modello dove troviamo la potenza di una matrice

Teoria della dipendenza lineare, basi

Definizione Uno spazio vettoriale V si dice generato da v₁, ..., v_k se ogni vettore di V può essere espresso come combinazione lineare di v₁, ..., v_k.
In modo equivalente V è generato da v₁, ..., v_k se <v₁,...,v_k > =V.
Per questo motivo il sottospazio vettoriale <v₁,...,v_k > viene chiamato il sottospazio generato da v₁, ..., v_k che vengono detti generatori.

Esempio I vettori e₁, ..., e_n generano Rⁿ.

Esercizio Se un sottoinsieme di v₁, ..., v_k genera V allora v₁, ..., v_k genera V.

Definizione v₁, ..., v_k Î V si dicono (linearmente) dipendenti se esiste (a₁,a₂,..., a_n)¹0 tale che a₁v₁+ ...+a_nv_n=0
Si noti l'importanza del requisito (a₁,a₂,..., a_n)¹0 , senza questa richiesta tutti i vettori sarebbero dipendenti e la definizione perderebbe di significato!
Proposizione Le seguenti condizioni sono equivalenti

v₁, ..., v_k sono dipendenti
È possibile esprimere un vettore tra v₁, ..., v_k come combinazione lineare degli altri

Dimostrazione 1 Þ 2 Se a₁v₁+ ...+a_nv_n=0 con a_i¹0 allora v_i= -(a₁/a_i)v₁ -... -(a_i-1/a_i)v_i- -(a_i+1/a_i)v_i+1-... -(a_k/a_i)v_k
2 Þ 1 Se v_i = c₁v₁+... c_i-1v_i-1+ c_i+1v_i+1+... c_kv_k allora c₁v₁+... c_i-1v_i-1- v_i + c_i+1v_i+1+... c_kv_k=0

Vettori che non sono dipendenti si dicono indipendenti.

Proposizione Le seguenti condizioni sono equivalenti

v₁, ..., v_k sono indipendenti
Se a₁v₁+ ...+a_nv_n=0 allora (a₁,a₂,..., a_n)=0

Dimostrazione Immediata dalla definizione.

Esercizio Se v₁, ..., v_k sono indipendenti allora ogni sottoinsieme di {v₁, ..., v_k} è formato da vettori indipendenti.
Esercizio Provare che vettori indipendenti sono sempre non nulli.

Definizione Siano a₁,..., a_nÎ R. Il sottoinsieme H di Rⁿ costituito da tutti gli (x₁,...,x_n) tali che a₁x₁+ ...+a_nx_n=0 si dice un iperpiano di Rⁿ.

Gli iperpiani di R² sono le rette per l'origine. Gli iperpiani di R³ sono i piani per l'origine.
Ogni iperpiano è un sottospazio vettoriale. Per l'esempio del paragrafo precedente ogni iperpiano può essere visto come il luogo dei punti x tali che una funzione lineare h da Rⁿ a R si annulla, cioè H={x|h(x)=0}.
Proposizione Sia W un sottospazio di Rⁿ che contiene k vettori indipendenti e sia H un iperpiano. Allora WÇ H contiene k-1 vettori indipendenti.
Dimostrazione Siano w₁,...,w_k vettori di W indipendenti. Sia H={x|h(x)=0} l'iperpiano considerato. Se h(w_i)=0 per almeno k-1 valori dell'indice i allora w_i appartengono a WÇ H per questi valori e la tesi è dimostrata. Possiamo quindi supporre h(w_k)¹0. Poniamo m_i:=h(w_k)w_i -h(w_i)w_k per i=1,...,k-1. È immediato verificare che h(m_i)=0, quindi m_i Î H. Siccome W è un sottospazio abbiamo anche m_i Î W quindi m_i Î WÇ H . Affermo che m_i sono indipendenti. Consideriamo una combinazione lineare S_i=1 ^k a_i m_i=0 Vale
0=S_i=1 ^k a_i m_i= S_i=1 ^k a_i h(w_k)w_i - [S_i=1 ^k a_i h(w_i)]w_k
e quindi per l'indipendenza dei w_i segue a_i h(w_k)=0 per i=1,...,k-1.
Siccome h(w_k)¹0 segue a_i =0 per i=1,...,k-1 come volevamo dimostrare.
Se A è una matrice nxm allora l'equazione matriciale Ax=0 dove x=(x₁,...,x_m)^t Î R^m si dice un sistema lineare nelle m incognite x₁,...,x_m . Il sistema lineare è formato da n equazioni. Se a_ij è l'elemento di posto (i,j) di A allora la i-esima equazione è data da a_i1 x₁+ a_i2 x₂ + ...+a_im x_m=0 A si dice la matrice associata al sistema Ax=0. Ad esempio il sistema lineare

ì
ï
í
ï
î

3x₁+5x₂=0

-x₁+Ö2x₂=0

ha per matrice associata la matrice 2x2

é
ê
ê
ê
ë

-1

Ö2

ù
ú
ú
ú
û

Teorema Sia A una matrice nxm con n<m. Allora il sistema lineare Ax=0 ammette almeno una soluzione non nulla x Î R^m
Dimostrazione Definiamo H_i come l'iperpiano luogo dei punti x tali che a_i1 x₁+ a_i2 x₂ + ...+a_im x_m=0 Allora le soluzioni del sistema corrispondono a H₁ ÇH₂ Ç ...ÇH_n
R^m contiene m vettori indipendenti (ad esempio la base standard). Quindi per la proposizione H₁ contiene m-1 vettori indipendenti.
Sempre per la proposizione H₁ÇH₂ contiene m-2 vettori indipendenti.
Continuando in questo modo H₁ ÇH₂ Ç ...ÇH_n contiene m-n vettori indipendenti.
Per ipotesi m-n>0, quindi esiste almeno un vettore indipendente (in particolare non nullo) che è soluzione.

Teorema Sia V uno spazio vettoriale. Siano { v₁, ..., v_k} vettori indipendenti di V.
Siano { w₁, ..., w_s} vettori generatori di V.
Allora k £s.
Dimostrazione Per ipotesi per i=1,...,k si può si scrivere v_i=S_j=1 ^s a_ij w_j per certi coefficienti a_ij . Consideriamo la combinazione lineare S_i=1 ^k c_i v_i= S_i=1 ^k c_i S_j=1 ^s a_ij w_j= S_j=1 ^s w_j[S_i=1 ^k c_i a_ij ] Se per assurdo k>s allora il sistema lineare omogeneo S_i=1 ^k c_i a_ij =0 per j=1,...,s nelle incognite c_i ha una soluzione non nulla c'_i per il teorema precedente e quindi per tale soluzione sostituendo nella combinazione lineare precedente si ottiene S_i=1 ^k c'_i v_i=0 contraddicendo l'ipotesi per cui { v₁, ..., v_k} sono vettori indipendenti di V. Quindi k £s come volevamo.

Definizione Sia V uno spazio vettoriale. L'insieme { v₁, ..., v_k} di vettori di V si dice una base di V se

{ v₁, ..., v_k} sono generatori
{ v₁, ..., v_k} sono indipendenti

Teorema fondamentale della teoria della dimensione Due basi di uno spazio vettoriale hanno lo stesso numero di elementi.
Dimostrazione Siano { v₁, ..., v_k} , { w₁, ..., w_s} due basi di V. In particolare

{ v₁, ..., v_k} sono indipendenti
{ w₁, ..., w_s} sono generatori

e dal teorema k £s. Analogamente abbiamo anche che

{ v₁, ..., v_k} sono generatori
{ w₁, ..., w_s} sono indipendenti

e dal teorema s £k. Quindi s=k come volevamo.
Definizione La dimensione di uno spazio vettoriale V è il numero di elementi di una sua base, e viene indicata con dim V

Esempio dim Rⁿ =n infatti la base standard { e₁, ..., e_e} è una base costituita da n elementi.
Esercizi

Provare che se { v₁, ..., v_k} sono vettori indipendenti in uno spazio vettoriale V di dimensione n, allora k £n.
Provare che la dimensione di V coincide con il massimo numero di vettori indipendenti che si possono trovare in V.
Provare che se { v₁, ..., v_k} sono vettori generatori di uno spazio vettoriale V di dimensione n, allora k ³n.
Provare che la dimensione di V coincide con il minimo numero di vettori generatori che si possono trovare in V.
Provare che se v₁, ..., v_k sono vettori linearmente dipendenti in V e f: V® W è una funzione lineare allora f(v₁), ..., f(v_k) sono linearmente dipendenti . Dedurre che se f(v₁), ..., f(v_k) sono indipendenti allora v₁, ..., v_k sono indipendenti.
Provare, usando l'esercizio precedente, che se f: V® W è una funzione lineare e V' è un sottospazio di V allora f(V') è un sottospazio di W e vale dim V'³ dim f(V')

Proposizione (coordinate rispetto a una base)
Sia v₁, ..., v_n una base di V. Allora per ogni v in V esistono unici x₁, ..., n_n tali che v=x₁v₁+...+ x_nv_n.
L'esistenza segue dal fatto che v₁, ..., v_n sono generatori. L'unicità segue dal fatto che sono indipendenti.

Completamento di vettori indipendenti ad una base Dati { v₁, ..., v_k} vettori indipendenti in uno spazio vettoriale V di dimensione n, è sempre possibile trovare { v_k+1, ..., v_n} tali che { v₁, ..., v_n} formano una base. Infatti se { v₁, ..., v_k} non è già una base segue che < v₁, ..., v_k > è contenuto propriamente in V, scegliendo v_k+1 non contenuto in < v₁, ..., v_k > si ottiene che { v₁, ..., v_k, v_k+1} sono ancora indipendenti. Infatti data la combinazione lineare S_i=1 ^k+1 c_i v_i=0 otteniamo c_k+1=0, altrimenti v_k+1 sarebbe combinazione lineare dei precedenti. Quindi rimane S_i=1 ^k c_i v_i=0 e siccome { v₁, ..., v_k} sono indipendenti segue la tesi. Continuando in questo modo aggiungiamo eventualmente v_k+2, v_k+3, ...., fino a che non troviamo una base.
Estrazione di una base da vettori generatori Dati { v₁, ..., v_k} vettori generatori in uno spazio vettoriale V di dimensione n, è sempre possibile trovare un sottoinsieme di n elementi tra i precedenti che formano una base. Infatti se { v₁, ..., v_k} non è già una base, per la proposizione esiste un vettore dell'insieme { v₁, ..., v_k} che è combinazione lineare dei rimanenti. Allora i rimanenti sono ancora generatori. Infatti se per semplicità v_k è combinazione lineare di v₁,.., v_k-1, cioè se v_k=S_i=1 ^k-1 c_i v_i per certi c_i , ogni vettore v di V che si può scrivere come combinazione dei generatori v=S_i=1 ^k a_i v_i si pu&ograve anche scrivere come v=S_i=1 ^k-1 a_i v_i+ a_k v_k = S_i=1 ^k-1 a_i v_i+ a_k S_i=1 ^k-1 c_i v_i= =S_i=1 ^k-1 (a_i +a_k c_i) v_i e quindi è combinazione lineare di v₁,.., v_k-1 che sono ancora generatori.

Se A &egrave un sottospazio di uno spazio vettoriale B, allora dim A£ dim B
Se A &egrave un sottospazio di B tale che dim A = dim B, allora A=B.
Teorema Sia V uno spazio vettoriale di dimensione n. Se v₁,.., v_n sono vettori indipendenti di V allora formano una base.
Dimostrazione Si può completare {v₁,.., v_n} ad una base costituita da n elementi che quindi coincide con {v₁,.., v_n} .

Teorema Sia V uno spazio vettoriale di dimensione n. Se v₁,.., v_n sono vettori generatori di V allora formano una base.
Dimostrazione Si può estrarre da {v₁,.., v_n} una base costituita da n elementi che quindi coincide con {v₁,.., v_n} .

Esercizio Provare che se f: V ® W è una funzione lineare e V' è un sottospazio di V, allora f(V') è un sottospazio di W e vale dim f(V')£ dim V'

Matrice associata ad una funzione lineare

Sia f: V ® W una funzione lineare. Fissiamo u ={v₁...v_n} base di V e w ={w₁...w_m} base di W. Allora è definita una matrice M(f)_w,u mxn la cui j-esima colonna è data dalle coordinate di f(v_j) rispetto a {w₁...w_m}. In formula il coefficiente a_ij di M(f) è dato da f(v_j)= S_i=1^ma_ij. Se indichiamo con x le coordinate di v rispetto a u, allora le coordinate di f(v) rispetto a w sono date da M(f)_w,ux, come si verifica subito applicando f ai vettori della base v_j} che hanno coordinate date da e_j, infatti M(f)_w,ue_j è la j-esima colonna di M(f)_{w,u.Siano x le coordinate di v rispetto a w,u} si chiama matrice di cambiamento di coordinate.

Proposizione Con ovvie notazioni M(g)_y,wM(f)_w,u= M(gf)_y,u
Dimostrazione Siano x le coordinate di v rispetto a u, allora le coordinate di f(v) rispetto a w sono date da M(f)_w,ux e quindi le coordinate di gf(v) rispetto a y sono date da M(g)_y,w M(f)_w,u x come volevamo.

Corollario Sia f: V Î V una funzione lineare e siano u, w due basi di V.

M(1)_w,u =M(1)_u,w^-1
Posto C=M(1)_w,u allora M(f)_u,u=C^-1M(f)_w,wC

Il punto 2 del corollario precedente afferma che le matrice di una funzione lineare da V in se rispetto a basi diverse sono simili.

Nucleo e immagine

Consideriamo una funzione lineare f: V ® W .
Definizione Il nucleo di f è l'insieme {v Î V|f(v)=0} che viene indicato con Ker(f).
L'immagine di f viene indicata con Im(f).
Teorema Ker(f) è un sottospazio di V. Im(f) è un sottospazio di W.

EsercizioSia f: V ® V una funzione lineare. Provare che

Ker f²Ê Ker f
Im f² Í Im f

Teorema della dimensione Sia f: V ® W una funzione lineare. Allora dim Ker(f)+dim Im(f)=dim V Dimostrazione Poniamo k=dim Ker(f), n=dim V. Sia {v₁,.., v_k} una base di Ker(f), e completiamola con {v_k+1,.., v_n} ad una base di V. La tesi è dim Im(f)=n-k.
Quindi è sufficiente dimostrare che gli n-k vettori {f(v_k+1),.., f(v_n)} formano una base di Im(f).

{f(v_k+1),.., f(v_n)} generano Im(f).
Infatti se w appartiene a Im(f) esiste v in V tale che w=f(v). Siccome {v₁,.., v_n} è una base di V esistono coefficienti reali c_i tali che v=S_i=1 ⁿ c_i v_i. Pertanto w=f(v)=f(S_i=1 ⁿ a_i v_i)= S_i=1 ⁿ a_i f(v_i)= S_i=k+1 ⁿ a_i f(v_i)
come volevamo perchè f(v_i)=0 per i=1,...,k.
{f(v_k+1),.., f(v_n)} sono indipendenti.
ConsideriamoS_i=k+1 ⁿ a_i f(v_i)=0
Allora per linearità f(S_i=k+1 ⁿ a_i v_i)=0
e quindi S_i=k+1 ⁿ a_i v_i appartiene a Ker(f) e si può scrivere come combinazione lineare di {v₁,.., v_k} . Pertanto esistono coefficienti reali c_i tali che S_i=k+1 ⁿ a_i v_i =S_i=1 ^k c_i v_i Portando a primo membro S_i=1 ^k (-c_i) v_i+ S_i=k+1 ⁿ a_i v_i =0 da cui a_i =0 per i=k+1,...,n come volevamo.

Notazione Poniamo Ker A:=Ker f_A, Im A:=Im f_A Ker A corrisponde allo spazio delle soluzioni del sistema lineare omogeneo Ax=0.
Im A è lo spazio generato dalle colonne di A. Infatti se A è una matrice nxm con colonne A¹,...,A^m allora un elemento di Im A si scrive come f_A(x)= x₁ A¹+...+x_mA^m per qualche x=(x₁,...,x_m) ed è quindi combinazione lineare delle colonne di A.
Definizione Il rango di A (rango per colonne) è per definizione la dimensione di Im A, cioè è la dimensione dello spazio generato dalle colonne di A. Il rango si indica con la dicitura rk (dall'inglese rank). In formula rk(A):=dim Im A Esercizio Siano V, W spazi vettoriali dela stessa dimensione. Provare che f:V ® W è iniettiva se e solo se è suriettiva.
Teorema Sia A una matrice nxn. A è invertibile se e solo se rk(A)=n.
Dimostrazione A è invertibile se e solo se f_A è invertibile per il corollario. Dal teorema della dimensione segue che f_A è invertibile se e solo se f _A è suriettiva ( si veda l'esercizio precedente) e quindi se e solo se rk(A)=dim Im f_A=n.

Corollario Una matrice è invertibile se esiste B tale che AB=I. In questo caso vale anche BA=I.
Dimostrazione Se AB=I allora f_A è suriettiva perchè per ogni x vale f_A (f_B(x))=f_AB(x)=f_I(x)=x. Quindi per il teorema precedente f_A è invertibile. Inoltre B è iniettiva e per il teorema della dimensione è anche suriettiva e quindi invertibile. Sia C l'inversa di B. Allora C=IC=(AB)C=A(BC)=A e quindi BA=BC=I come volevamo.

Applicazioni ai sistemi lineari

Il sistema lineare omogeneo Ax=0 ha per soluzioni esattamente il sottospazio Ker A. Quindi l'insieme delle soluzioni di un sistema lineare omogeneo è sempre un sottospazio vettoriale che per il teorema della dimensione ha dimensione pari a numero delle incognite -rg(A).

Teorema di struttura Sia x' una soluzione del sistema Ax=b. Allora tutte le soluzioni di Ax=b hanno la forma z+x' con z in Ker A, si può scrivere che lo spazio delle soluzioni è pari a Ker A+x'.
Dimostrazione A(z+x')=Az+Ax'=0+b=b. Viceversa se Ay=b allora A(y-x')=Ay-Ax'=b-b=0 e quindi y-x' appartiene a Ker A. Segue che y appartiene a Ker A+x' come volevamo.

Esercizio Provare che le seguenti condizioni sono equivalenti per una matrice quadrata nxn A

rg(A)=n
Ax=0 ha solo la soluzione nulla
per ogni b Ax=b ammette una unica soluzione.

Teorema di Rouchè-Capelli Il sistema lineare Ax=b ammette soluzione se solo se rg(A)=rg(A|b).
Dimostrazione Siano A¹... Aⁿ le colonne di A. Il sistema lineare Ax=b ammette soluzione se e solo se esiste x tale che A¹x₁+... +Aⁿx_n=b se e solo se b è combinazione lineare delle colonne di A se e solo se gli spazi delle colonne di A e di (A|b) sono uguali.

5. Basi ortonormali e spazi ortogonali

Lemma Se {v₁,.., v_k} sono vettori di Rⁿ tali che v_i. v_j= d _ij allora sono linearmente indipendenti.
Dimostrazione Considero S_i=1 ^k c_i v_i=0 Moltiplicando scalarmente ambo i membri per v_j rimane c_j=0 come volevamo.
Definizione Una base ortonormale di un sottospazio W di Rⁿ è una base {v₁,.., v_k} di W tale che v_i. v_j= d _ij
Per il lemma, se dimW=k &egrave sufficiente trovare {v₁,.., v_k} vettori di W tali che v_i. v_j= d _ij ed otteniamo una base ortonormale.
Proposizione Siano {v₁,.., v_n} le colonne di una matrice quadrata nxn A. Allora le seguenti proprietà sono equivalenti:

{v₁,.., v_n} è una base ortonormale di Rⁿ
A è una matrice ortogonale.

La proprietà più importante delle basi ortonormali è data dal seguente
Teorema dei coefficienti di Fourier Sia {v₁,.., v_k} una base ortonormale di un sottospazio W di Rⁿ . Allora se w è un vettore di W vale w=S_i=1 ^k (w. v_i) v_i ed i coefficienti (w. v_i) della combinazione lineare con cui si esprime w come combinazione lineare della base ortonormale si dicono coefficienti di Fourier.
Dimostrazione Sia w=S_i=1 ^k c_i v_i con c_i da determinare.
Moltiplicando ambo i membri scalarmente per v_j otteniamo w. v_j= c_j come volevamo.

Teorema di Pitagora generalizzato Sia {v₁,.., v_k} una base ortonormale di un sottospazio W di Rⁿ . Allora se w è un vettore di W vale |w|²=S_i=1 ^k (w. v_i) ²
Data una base qualunque di un sottospazio di Rⁿ , si può sempre trovare una base ortonormale mediante l'algoritmo di Gram-Schmidt.
Perchè l'algoritmo di Gram-Schmidt funziona.
Per l'algoritmo di Gram-Schmidt è sempre possibile completare una base ortonormale di un sottospazio di Rⁿ ad una base ortonormale di Rⁿ stesso.
Definizione Sia W un sottospazio di Rⁿ . Poniamo W^{^}:= {v Î Rⁿ | v. w=0 "w Î W} W^{^} si dice lo spazio ortogonale a W.
Criterio di appartenenza all'ortogonale Sia {w₁,.., w_k} una base di W. Allora v Î W^{^} se solo se v. w_i=0 per i=1,...,k
Teorema (dimensione dell'ortogonale) W^{^} è un sottospazio di Rⁿ e vale dim W^{^} = n-dim W Dimostrazione

Pongo dim W=k e considero una base ortonormale {w₁,.., w_k} di W
Completo {w₁,.., w_k} ad una base {w₁,.., w_k,w_k+1,.., w_n} di Rⁿ .
Applico l'algoritmo di Gram-Schmidt alla base precedente ed ottengo {w₁,.., w_k,v_k+1,.., v_n} base ortonormale di Rⁿ (i primi k vettori sono rimasti invariati perchè erano una base ortonormale di W, infatti l'algoritmo di Gram-Schmidt permette di completare una base ortonormale di un sottospazio ad una base ortonormale di Rⁿ ).
Verifico che W^{^} è generato da {v_k+1,.., v_n}. Segue dalla costruzione che v_i Î W^{^} per i=k+1,...,n. Viceversa se w Î W^{^} possiamo scrivere w come combinazione lineare w=S_i=1 ^kc_iw_i+ S_j=k+1 ⁿc_jv_j Moltiplicando scalarmente ambo i membri dell'uguaglianza precedente per w_s per s=1,...,k otteniamo 0=c_s per s=1,...,k e quindi w=S_j=k+1 ⁿc_jv_j risulta combinazione lineare di {v_k+1,.., v_n}. Questi ultimi n-k vettori sono indipendenti e quindi dim W=n-k come volevamo.

Proposizione (W^{^})^{^}=W
Dimostrazione Se x Î W e y Î W^{^} allora x. y=0, quindi x Î (W^{^})^{^}, cioè WÍ (W^{^})^{^} Per il teorema precedente dim (W^{^})^{^}=n- dim W^{^} =dim W e quindi l'inclusione precedente è un'uguaglianza come volevamo.

Esercizio Provare che se AÍ B allora B^{^} Í A^{^}. Vale il viceversa?
Teorema fondamentale dell'algebra lineare Sia A una matrice nxm

(Ker A)^{^} =Im(^tA)
rk(A)=rk(^tA)

Il secondo punto del teorema fondamentale si esprime dicendo che la dimensione dello spazio delle colonne di A (rango per colonne) è uguale alla dimensione dello spazio delle righe di A (rango per righe).
Dimostrazione del teorema fondamentale dell'algebra lineare Prendo x Î Ker A e y Î Im(^tA). Quindi esiste z Î Rⁿ tale che y=^tAz.
Allora x. y= ^tyx=^t(^tAz)x= (^tzA)x=^tz(Ax)=^tz0=0
Quindi y Î Ker A ^{^} ed abbiamo provato l'inclusione (Ker A)^{^} ÊIm(^tA). Da questa inclusione segue la disuguaglianza rk(^tA)=dim Im(^tA) £dim (Ker A)^{^}=n-dim Ker A =dim Im(A)=rk(A) La disuguaglianza precedente vale per tutte le matrici A, quindi sostituendo ^tA al posto di A otteniamo rk(A)=rk[^t(^tA)]£rk(^tA) e questo dimostra il secondo punto. Ma anche il primo punto segue di conseguenza perchè (Ker A)^{^} e Im(^tA) sono due spazi uno contenuto nell'altro che hanno la stessa dimensione pari a rk(A) e quindi coincidono.
Commenti sul teorema fondamentale dell'algebra lineare.
Esercizio Provare che se A è una sottomatrice di B allora rk(A)£rk(B).
Esercizio Provare che se A è una matrice nxm allora 0£rk(A) £min(n,m).
Proposizione (rango=numero dei pivot) Sia A una matrice e sia S una sua riduzione a scalini mediante operazioni elementari di tipo I e III. Allora il rango di A è pari al numero dei pivot di S.
Dimostrazione Lo spazio delle righe rimane invariato per operazioni elementari, che sono tutte operazioni invertibili. Basta allora osservare che le righe (non nulle) di una matrice a scalini sono indipendenti, che è evidente dalla definizione.
L'algoritmo di Gauss, per la proposizione precedente, permette di calcolare il rango di una matrice.

6. Complementi: somma e somma diretta, la formula di Grassmann

Prodotto cartesiano di due spazi vettoriali

Il modo in cui si costruisce R² a partire da due copie di R (prima e seconda componente) ha la seguente utile generalizzazione.
Se V, W sono due spazi vettoriali, sul prodotto cartesiano VxW è definita una struttura naturale di spazio vettoriale con le operazioni

(v,w)+(v',w'):=(v+v',w+w') per ogni v,v' Î V, per ogni w,w' Î W.
c(v,w):=(cv,cw) per ogni v Î V, w Î W, c Î R.

Notiamo che in particolare (v,w)=(v,0)+(0,w) Da questa osservazione segue facilmente il
Teorema dim VxW=(dim V)+(dim W)
Dimostrazione Se {v₁,.., v_k} è una base di V e {w₁,.., w_m} è una base di W allora i k+m elementi (v_i,0), (0,w_j) Î VxW per i=1,...,k, j=1,...,m formano una base di VxW.
Esempio Rⁿ xR^m =R^n+m

Somma di due sottospazi

Se A, B sono due sottospazi di uno spazio vettoriale V, poniamo A+B:={a+b|a Î A, b Î B }
Proposizione A+B è un sottospazio di V che si dice sottospazio somma di A e B.
Esempio 1 Per ogni sottospazio W di Rⁿ abbiamo W + W^{^} = Rⁿ
Esempio 2 Per ogni sottospazio W di Rⁿ abbiamo W+W=W
I due esempi precedenti mostrano che la dimensione della somma di due sottospazi non dipende soltanto dalla dimensione di ciascuno. Precisamente vale il
Teorema (formula di Grassmann) Se A, B sono due sottospazi di uno spazio vettoriale V, vale dim(A+B)+dim (A Ç B)= dimA+dim B Dimostrazione Definisco le seguenti due funzioni lineari
f:AxB ® A+B g:A Ç B ® AxB dalle formule f(a,b):=a+b, g(a):=(a,-a). Affermo che

g è iniettiva, infatti Ker(g)=0
f è suriettiva (evidente)
Im(g)=Ker(f).
Dimostriamo che Im(g) è contenuto in Ker(f). Se (a,-a) è un elemento di Im(g) allora f(a,-a)=a-a=0 e quindi (a,-a) appartiene a Ker(f). Viceversa sia (a,b) un elemento di Ker(f). Quindi a+b=0, da cui a=-b e quindi a appartiene anche a B, pertanto appartiene a A Ç B. Quindi (a,b)=(a,-a) è l'immagine di a tramite g ed appartiene a Im(g).

Possiamo concludere applicando il teorema della dimensione. Infatti dim A+dim B=dim AxB=dim Im(f)+dim Ker (f)= dim (A+B)+ dim Im(g)= dim(A+B)+dim(A Ç B)-dim Ker(g)= dim(A+B)+dim(A Ç B) come volevamo.

7. Il determinante

Denotiamo con S_n il gruppo delle permutazioni sull'insieme di n elementi {1,2,¼n}. S_n contiene n! elementi. Per ogni p Î S_n denotiamo con e(p) il segno di p.

Sia A una matrice quadrata n×n e sia a_ij il suo elemento di posto (i,j).

Definizione Il determinante di A é dato dalla formula

det(A)=

å
p Î S_n

e(p)a_1p(1)a_2p(2)¼a_np(n)

Il determinante è una funzione det:M_n ® R. Il determinante è definito sugli n² coefficienti di A. Identificando M_n con R^n² il determinante può essere visto come una funzione di ^n² variabili det: R^n²® R. Il determinante non è una funzione lineare, ad esempio in generale det(A+B) è diverso da det(A)+det(B).

Esempio Se A é una matrice 1×1, contiene un unico elemento a. La sommatoria nella definizione di di determinante contiene un unico elemento (l'identitá) che ha segno 1. Quindi

det (a)=a

Questo è l'unico caso in cui il determinante è una funzione lineare.

Esempio Se A é una matrice 2×2, la sommatoria nella definizione di di determinante contiene due elementi: l'identitá che ha segno 1 per cui p(1)=1, p(2)=2 e la trasposizione che ha segno -1 per cui p(1)=2, p(2)=1. Quindi

det (A)=a₁₁a₂₂-a₁₂a₂₁

Proposizione Il determinante soddisfa le seguenti proprietá:

D1 det é lineare su ciascuna riga. Questa proprietà supplisce la mancanza di linearità del determinante. Infatti gli elementi della riga i-esima compaiono nell'espressione una volta in ciascun addendo sempre con grado 1.
D2 Sia A¢ ottenuta da A scambiando due righe (operazione elementare di tipo I). Allora det (A)=-det(A¢).
D3 det(I)=1

Lemma det(cA)=cⁿdet(A) per ogni scalare c. In particolare det(-A)=(-1)ⁿdet(A).
Dimostrazione Calcolando det(cA) dalla formula che definisce il determinante, ogni addendo ha la forma
e(p)(ca)_1p(1)(ca)_2p(2)¼(ca)_np(n)= cⁿe(p)a_1p(1)a_2p(2)¼a_np(n)

Teorema. Caratterizzazione del determinante Sia f: M_n®R una funzione che soddisfa le seguenti proprietá

D1f é lineare su ciascuna riga.
D2 Sia A¢ ottenuta da A scambiando due righe (operazione elementare di tipo I). Allora f (A¢)=-f (A).
D3 f(I)=1

Allora f=det. Quindi il determinante è l'unica funzione che soddisfa D1, D2, D3.

La dimostrazione sará svolta nei seguenti passi.

Lemma Sia f: M_n®R una funzione che soddisfa D1, D2, D3. Allora vale

D4 Se A é una matrice con due righe uguali allora f(A)=0. Dimostrazione
D5 Se A é una matrice con una riga nulla allora f(A)=0 Dimostrazione
D6 Se A¢ é ottenuta da A sostituendo alla riga A_j la riga A_j+cA_i per i ¹ j (operazione elementare di tipo III) allora f(A')=f(A) Dimostrazione
D7 Se D é una matrice diagonale con d₁...d_n elementi diagonali allora f(D)=d₁¼d_n. Dimostrazione

Dimostrazione del teorema

Sia A una matrice. Possiamo effettuare su A operazioni elementari di tipo I (scambio di righe) e di tipo III (somma di un multiplo di una riga ad un'altra) e ridurre A a forma a scalini T. Se A' é ottenuta da A mediante un' operazione elementare di tipo I abbiamo f(A')=-f(A) (D3) e det(A')=-det(A). Se A' é ottenuta da A mediante un'operazione elementare di tipo III allora f(A')=f(A) e det(A')=det(A) (D1 e D4). Distinguiamo due casi.

Se T ha l'ultima riga nulla allora da D1 f(T)=det(T)=0. Quindi dopo avere effettuato una successione di operazioni elementari di tipo I e III sia f e det coincidono su T, e quindi dovevano coincidere anche inizialmente su A, cioé f(A)=det(A)=0.
Se T non ha l'ultima riga nulla allora è triangolare con tutti gli elementi sulla diagonale diversi da zero e mediante operazioni elementari di tipo I e III si riconduce T a forma diagonale D. Quindi dopo avere effettuato una successione di operazioni elementari di tipo I e III sia f e det coincidono su D per D7, e quindi dovevano coincidere anche inizialmente su A, cioé f(A)=det(A)=0.

In entrambi i casi si ha f(A)=det(A) come volevamo.

In particolare riassumiamo le proprietá che abbiamo visto

D4 Se A é una matrice con due righe uguali allora det(A)=0
D5 Se A é una matrice con una riga nulla allora det(A)=0
D6 Se A¢ é ottenuta da A sostituendo alla riga A_j la riga A_j+cA_i per i ¹ j (operazione elementare di tipo III) allora
det(A')=det(A)
D7 Se D é una matrice diagonale allora det(D)=d₁¼d_n.
Aggiungiamo
D8 Se T é una matrice triangolare allora det(T)=d₁¼d_n.
Infatti se T ha l'ultima riga nulla il suo determinante vale zero. Altrimenti con operazioni elementari di tipo III T è equivalente ad una matrice diagonale con gli stessi elementi diagonali di T (annullo gli elementi sopra a ciascun elemento sulla diagonale, cominciando dall'ultima colonna).
D9 det(A)=det(^tA)
Dimostrazione

Ricordiamo che

det(A)=
å
p Î S_n
e(p) a_1p(1)¼a_np(n)

Se chiamo p(i)=j allora a_ip(i)=a_p^-1(j)j ed al variare di i da 1 a n anche j copre tutti i naturali da 1 a n. Quindi l'addendo a_1p(1)¼a_np(n) é uguale a a_p^-1(1)1¼a_p^-1(n)n . Inoltre e(p) = e(p^-1) perché gli scambi che danno p, composti in ordine inverso danno p^-1. Posto b_ij=a_ji (coefficienti della matrice trasposta) abbiamo

det(A)=
å
p Î S_n
e(p) a_1p(1)¼a_np(n) =
å
p Î S_n
e(p) b_1p^-1(1)¼b_np^-1(n)=

= -->
å
q Î S_n
e(q) a_1q(1)¼a_nq(n)= det
(^tA)

Queste proprietá portano ad un algoritmo pratico di calcolo del det: applica operazioni elementari di tipo I e III su A fino a che non si arriva a forma triangolare T e tieni conto che ogni tipo I (scambio) cambia il segno. Quindi det(A)=det(T) se il numero di scambi è pari e det(A)=-det(T) se il numero di scambi è dispari. Per calcolare det(T) si può usare D8.
D10 Sviluppo per la i-esima riga
Chiamo A_ij la sottomatrice ottenuta da A eliminando la riga i-esima e la colonna j-esima. Vale

det(A)= n
å
j=1
a_ijdet A_ij

Per la dimostrazione, utilizzando D2, possiamo ricondurci al caso i=1 (sviluppo lungo la prima riga). In questo caso possiamo dividere la sommatoria della definizione di determinante nelle seguenti n sommatorie

det
(A) =
å
p Î S_n, p(1)=1
e(p)a₁₁a_2p(2)¼a_np(n)+
å
p Î S_n, p(1)=2
e(p)a₁₂a_2p(2)¼a_np(n)+

¼+
å
p Î S_n, p(1)=n
e(p)a_1na_2p(2)¼a_np(n)=

a₁₁
å
p Î S_n, p(1)=1
e(p)a_2p(2)¼a_np(n)+¼+a_1n
å
p Î S_n, p(1)=n
e(p)a_2p(2)¼a_np(n)

Nell'ultima formula la prima sommatoria corrisponde a detA₁₁, la seconda a -detA₁₂, l'ultima a (-1)ⁿdetA_1n.

Teorema rk(A)=n se e solo se det(A) ¹ 0
Dimostrazione rk(A)=n se e solo se mediante operazioni elementari di tipo I, III si arriva a una matrice a scalini con tutti i pivot non nulli, quindi ad una matrice triangolare con tutti gli elementi diagonali diversi da zero. Solo in questo caso det é diverso da zero.

Corollario A é invertibile se e solo se det(A) ¹ 0

Formula di Cauchy-Binet

det(AB)=det(A)det(B)
Dimostrazione Se det(B)=0 allora f_B non é iniettiva, quindi f_AB = f_A·f_B non é iniettiva da cui det(AB)=0. Se det(B) ¹ 0 allora considera f(A):=det(AB)/det(B).
f soddisfa D1, D2, D3 e quindi f(A)=det(A) dalla caratterizzazione del determinante come volevamo.

Relazione tra rango e determinante

Proposizione Sia A una matrice mxn. Allora A ha rango maggiore o uguale a k se solo se esiste una sottomatrice kxk di A con determinante non nullo.

Dimostrazione Se A contiene k righe indipendenti allora la sottomatrice corrispondente kxn estratta ha spazio delle colonne di dimensione k e quindi si può estrarre ulteriormente una sottomatrice kxk di rango k, che quindi ha determinante non nullo. Viceversa se esiste una sottomatrice kxk di rango k allora la sottomatrice kxn corrispondente ha ancora rango k (guardando le colonne) e quindi le sue righe sono indipendenti ed il rango di A è maggiore o uguale a k.

Sistemi lineari omogenei nx(n+1)
Proposizione Sia A una matrice omogenea nx(n+1) di rango n. Indichiamo con A(i) il determinante della sottomatrice ottenuta cancellando da A la i-esima colonna. Il sistema lineare Ax=0 ha una base per le soluzioni costituita da x=(x₁, ...x_n+1) con x_i=(-1)ⁱA(i)
Dimostrazione Impiliamo sopra ad A la sua prima colonna ed otteniamo una matrice A' con due righe uguali che quindi ha determinante pari a zero. Sviluppando il determinante rispetto alla prima riga si ottiene che la soluzione data è soluzione della prima equazione. Considerando una nuova matrice A' dove la rige i-esima è ripetuta due volte e ragionando allo stesso modo si ottiene che la soluzione data è soluzione della i-esima equazione. Siccome lo spazio delle soluzioni ha dimensione 1 e per la proposizione precedente la soluzione data è non nulla segue la tesi.

8. Autovalori e autovettori. Il teorema spettrale.

Definizione Sia V uno spazio vettoriale e T:V ® V una applicazione lineare. Un vettore v Î V non nullo si dice autovettore di T con autovalore l se vale T(v)= l v Questo significa che v è portato da T in un multiplo di se stesso.
L'insieme degli autovalori di T si dice lo spettro di T.
Osserviamo subito che il requisito che l'autovettore v sia non nullo è essenziale, altrimenti tutti i numeri reali c sarebbero autovalori corrispondenti a v=0 perchè T(0)=c0 è una identità sempre soddisfatta.
Autovettori ed autovalori di una matrice quadrata A sono per definizione autovalori ed autovettori di f_A. Questo significa che v Î R ⁿ è un autovettore di A con autovalore l se vale Av= l v
Per semplicità tratteremo soprattutto il caso degli autovalori ed autovettori di una matrice, analogamente si potrebbe considerare il caso generale.

Esempi Ogni vettore non nullo è autovettore della matrice identità con autovalore 1, infatti Iv=1v per ogni v. Quindi lo spettro dell'identità è costituito da {1}. Generalizzando, per ogni numero reale c, ogni vettore non nullo è autovettore della matrice cI con autovalore c, infatti (cI)v=cv per ogni v. Quindi lo spettro di cI è costituito da {c}. Se c=0 otteniamo lo spettro della matrice zero.
Se D è una matrice diagonale con elementi sulla diagonale {c₁, ..., c_n} allora e_i è autovettore di D con autovalore c_i. Dimostreremo tra breve che non ci sono altri autovalori, cioè lo spettro di una matrice diagonale è costituito dagli elementi sulla diagonale. Le matrici diagonali si comportano quindi in modo molto semplice rispetto allo studio degli autovalori ed autovettori.

Definizione Il polinomio caratteristico di una matrice A è definito dall'espressione p_A(t):=det(A-tI) dove I è la matrice identità .
L'introduzione del polinomio caratteristico è motivata dal seguente
Lemma Lo spettro di A è costituito dalle radici (reali) del polinomio caratteristico di A.
Dimostrazione
Dobbiamo provare che l è un autovalore di A se e solo se p_A( l )=0. Infatti l è un autovalore di A se e solo se esiste v non nullo tale che Av= l v se e solo se esiste v non nullo tale che (A- l I)v=0 se e solo se Ker(A- l I) è diverso da zero se e solo se (A- l I) non è iniettiva se e solo se det(A- l I)=0

Osservazione Se v &egrave un autovettore di A con autovalore l allora è immediato verificare per ogni reale non nullo c che cv &egrave un autovettore di A con lo stesso autovalore l. Se v₁, v₂ sono autovettori di A con lo stesso autovalore l allora v₁+v₂ (se non è nullo) è ancora un autovettore di A con autovalore l . In generale l'insieme degli autovettori di A con autovalore l, unito al vettore zero, coincide con Ker(A- l I) che si dice autospazio di A relativo a l.
Definizione Due matrici A e B si dicono simili se esiste C invertibile tale che A=C^-1BC.
Esercizio Provare che la similitudine è una relazione di equivalenza.
Lemma Due matrici simili hanno lo stesso polinomio caratteristico.
Dimostrazione Siano A e B simili, quindi esiste C tale che A=C^-1BC.
Allora
p_A(t)=det(A-tI)=det(C^-1BC-tI)= det(C^-1(B-tI)C)=det(C^-1)det(B-tI)det(C)= det(B-tI)=p_B(t).

Esercizi

Provare che se A è una matrice 2x2 allora p_A(t)=t²-tr(A)t+det(A)
Provare che lo spettro di una matrice triangolare è costituito dagli elementi sulla diagonale.

Definizione Una matrice quadrata A si dice diagonalizzabile se è simile ad una matrice diagonale.
Teorema Una matrice A è diagonalizzabile se e solo se esiste una base di autovettori di A.
Dimostrazione Se A è diagonalizzabile allora esiste C invertibile tale che C^-1AC=D con D diagonale. Moltiplicando a sinistra per C si ottiene AC=CD Se Cⁱ è la i-esima colonna di C e l _i è l'i-esimo elemento diagonale di D l'equazione precedente equivale a ACⁱ = l _iCⁱ per ogni i e quindi le colonne di C formano la base richiesta di autovettori. Viceversa se esiste una base di autovettori per A, definiamo C la matrice che ha come colonna i-esima l'i-esimo autovettore Cⁱ . Allora vale ACⁱ = l _iCⁱ per ogni i da cui chiamando con D la matrice che ha l ₁,..., l _n sulla diagonale segue AC=CD da cui C^-1AC=D come volevamo.
Osservazione importante Il teorema precedente ammette una interpretazione a un livello più astratto. Infatti la matrice di f_A rispetto ad una base qualunque ha sempre la forma C^-1AC per una qualche matrice invertibile C (matrice di cambiamento di base dalla base canonica ad una base qualunque).
Sia {v₁,...,v_n} una base di autovettori per una applicazione lineare T:V ® V. Allora T(v_i)= l _iv_i In particolare T(v₁)= l ₁v₁+ 0 v₂+...0 v_n e quindi la prima colonna della matrice di T rispetto a {v₁,...,v_n} è data da

é
ê
ê
ê
ê
ê
ê
ê
ë

l₁

ù
ú
ú
ú
ú
ú
ú
ú
û

In questo modo si vede che la matrice di T rispetto a {v₁,...,v_n} è la matrice diagonale con elementi diagonali { l ₁,..., l _n}. Questo ragionamento è invertibile nel senso che se la matrice di T rispetto ad una certa base è diagonale allora tale base è composta da autovettori. Pertanto se A ammette una base di autovettori, il ragionamento precedente applicato a T=f_A mostra che per la matrice C di cambiamento di base C^-1AC è diagonale e quindi A è diagonalizzabile. Questa è una seconda dimostrazione del teorema precedente (o meglio una interpretazione da un punto di vista diverso della dimostrazione già vista).
Osservazione Se A diagonalizzabile è simile a D diagonale, allora sulla diagonale di D appaiono gli autovalori di A. Infatti A e D hanno lo steso polinomio caratteristico.
Il primo esempio di matrice non diagonalizzabile.
Osservazione facoltativa

Cⁿ è costituito per definizione da n-ple di numeri complessi. Per approfondimenti rimandiamo al libro di Abate. In Cⁿ sono definite le operazioni di somma e di prodotto per uno scalare (che in questo caso può essere un numero complesso e non soltanto reale). Cⁿ risulta uno spazio vettoriale sul campo C dei numeri complessi. Si possono definire matrici a coefficienti complessi, e le operazioni tra matrici si definiscono analogamente al caso reale. In particolare è ben definito il determinante di una matrice quadrata. Tutta la parte dell'algebra lineare che non fa uso di lunghezze e del concetto di ortogonalità si estende al caso complesso. In particolare una matrice quadrata a coefficienti complessi è invertibile se e solo se il suo determinante è non nullo.
L'insieme delle radici complesse del polinomio caratteristico di A si chiama lo spettro complesso di A. La dimostrazione precedente mostra che l ÎC è radice del polinomio caratteristico di A se e solo se esiste v ÎCⁿ tale che Av= l v. Un tale v si dice autovettore (complesso) di A con autovalore (complesso) = l .

Esercizi

Provare che una matrice 2x2 ha due autovalori reali se e solo se (tr A)²-4det(A) > 0.
Provare che una matrice 2x2 ha due autovalori distinti se e solo se (tr A)²-4det(A)¹ 0.
Provare che una matrice 2x2 simmetrica ha sempre autovalori reali. Il risultato è vero per matrici simmetriche nxn

Corollario Una matrice A ammette una base ortonormale di autovettori se e solo se esiste C ortogonale tale che C^-1AC è diagonale.
Dimostrazione Segue dalla dimostrazione del teorema, infatti le colonne di C costituiscono la base di autovettori, se tale base è ortonormale allora C è ortogonale per la proposizione.
Corollario Se una matrice A ammette una base ortonormale di autovettori allora è simmetrica.
Dimostrazione Ricordiamo che se C è ortogonale vale C^-1=^tC. Quindi da C^-1AC=D segue A=CDC^-1=CD^tC da cui ^tA=^t(CD^tC)= ^t(sup>tC)(^tD)^tC= CD^tC=A come volevamo.
Il teorema spettrale afferma che nel corollario precedente vale anche il viceversa.
Lemma Se una matrice A è simmetrica allora tutte le radici del suo polinomio caratteristico sono reali.
Dimostrazione (facoltativa)
Teorema spettrale Una matrice A è simmetrica se e solo se ammette una base ortonormale di autovettori. In particolare ogni matrice simmetrica è diagonalizzabile.
Dimostrazione Sia A simmetrica nxn. Per il corollario è sufficiente dimostrare che esiste C ortogonale tale che C^-1AC=D diagonale. Dimostriamo questa affermazione per induzione su n. Per n=1 l'enunciato è ovvio prendendo C=[1]. Sia vera l'affermazione per matrici simmetriche (n-1)x(n-1). Per il lemma precedente esiste l autovalore reale di A. Quindi esiste v₁ tale che Av₁ = l v₁ . Posso supporre v₁ di lunghezza 1 (dividendo per la sua lunghezza per l'osservazione. Completiamo v₁ ad una base di Rⁿ, applicando l'algoritmo di Gram-Schmidt trovo {v₁,..., v_n } base ortonormale di Rⁿ. Sia O la matrice ortogonale che ha v_i come i-esima colonna. Allora O e₁=v₁. Pertanto la prima colonna di O^-1AO è (O^-1AO)e₁= O^-1A(Oe₁)=O^-1(Av₁)= O^-1( l v₁)= l (O^-1 v₁)= l e₁ . Inoltre O^-1AO=^tOAO è simmetrica e quindi abbiamo

O^-1AO=

é
ê
ê
ê
ê
ê
ê
ê
ë

l₁

A¢

ù
ú
ú
ú
ú
ú
ú
ú
û

dove A' é una matrice simmetrica (n-1)x(n-1). Per ipotesi induttiva esiste C' ortogonale (n-1)x(n-1) tale che

(C¢)^-1A¢C¢=D¢ diagonale

e quindi posto

C¢¢: =

é
ê
ê
ê
ê
ê
ê
ê
ë

C¢

ù
ú
ú
ú
ú
ú
ú
ú
û

segue

(C¢¢)^-1O^-1AOC¢¢=

é
ê
ê
ê
ê
ê
ê
ê
ë

l₁

D¢

ù
ú
ú
ú
ú
ú
ú
ú
û

e quindi C:=OC¢¢ é la matrice ortogonale cercata.
Esercizio Provare che autovettori di una matrice simmetrica corrispondenti ad autovalori distinti sono ortogonali.

Affrontiamo adesso il problema della diagonalizzabilità di una matrice non necessariamente simmetrica.
Teorema Siano {v₁,...,v_n} autovettori di A corrispondenti ad autovalori distinti. Allora {v₁,...,v_n} sono indipendenti.
Dimostrazione Ragioniamo per induzione su n. Il caso n=1 è banale. Consideriamo la combinazione lineare a₁v₁+ ...+a_nv_n=0 &nbspace;(*) Moltiplicando per A segue a₁Av₁+ ...+a_nAv_n=0 da cui a₁ l₁ v₁+ ...+a_n l_n v_n=0 &nbspace;(**) Moltiplicando (*) per l₁ e sottraendo da (**) segue (l₂ -l₁)a₂v₂+ ...+ (l_n -l₁) a_nv_n=0 Per ipotesi induttiva {v₂,...,v_n} sono indipendenti. Quindi (l_i -l₁)a_i=0 per i=2,...,n. Siccome (l_i -l₁)Î 0 segue a_i=0 per i=2,...,n. Sostituendo in (*) si ottiene anche a₁=0 come volevamo.
Definizione La molteplicità algebrica di un autovalore di A è la sua molteplicità come radice del polinomio caratteristico p_A.
Definizione La molteplicità geometrica di un autovalore l è la dimensione dell'autospazio Ker(A-lI).
Teorema Per ogni autovalore la sua molteplicità geometrica è minore od uguale alla sua molteplicità algebrica .
Dimostrazione Sia k la molteplicità geometrica di l. Sia {v₁,...,v_k} una base di Ker(-lI). Completo ad una base di Rⁿ. La matrice di f_A rispetto a questa base è

é
ê
ê
ê
ë

lI_k

ù
ú
ú
ú
û

dove I_k è la matrice identità kxk. Tale matrice è simile ad A e quindi il suo polinomio caratteristico è uguale a quello di A. Sviluppando successivamente rispetto alle prime k colonne il determinante che definisce il polinomio caratteristico si ottiene che (l-t)^k divide p_A e quindi la tesi.
Criterio necessario e sufficiente di diagonalizzabilità Una matrice A &egrave diagonalizzabile se e solo se

Tutti gli autovalori di A sono reali
Per ogni autovalore la sua molteplicità geometrica è uguale alla sua molteplicità algebrica .

Traccia della dimostrazione (facoltativa) Se A è diagonalizzabile è facile verificare che le due condizioni sono soddisfatte (sulla sua forma diagonale). Viceversa supponiamo che le due condizioni siano soddisfatte e siano l₁,..., l_p gli autovalori di A nxn. Sia k(i) la molteplicità di l_i. Considero una base {v_i1,...,v_ik(i)} dell'autospazio Ker(A-l_iI). Affermo che l'unione di queste basi {v₁₁,...,v_1k(1),...,v_p1,...,v_pk(p)} è una base di autovettori di A. Il numero di questi autovettori è k(1)+...+k(p)=n (perchè la somma delle molteplicità algebriche delle radici è uguale al grado del polinomio). Quindi è sufficiente dimostrare che tali autovettori sono indipendenti. La verifica di questo fatto segue dal teorema ed è lasciata al lettore.
Corollario Una matrice nxn con n autovalori reali distinti è diagonalizzabile.
DimostrazioneLa molteplicità algebrica di ogni autovalore è 1. Quindi dal teorema abbiamo 0< molteplicità geometrica £ 1 da cui per ogni autovalore molteplicità geometrica = molteplicità algebrica =1 e dal teorema precedente segue la tesi.
Esercizio * Sia {l₁ , ..., l_n } lo spettro complesso di A nxn. Provare che traccia A=l₁+ ...+l_n det A=l₁ ...l_n Suggerimento: dato il polinomio xⁿ+a_n-1 x^n-1+...a₀ vale che a_n-1 è uguale a meno la somma delle radici, mentre a₀ è uguale a (-1)ⁿ per il prodotto delle radici.

Calcolo delle potenze di una matrice diagonalizzabile

Sia A una matrice diagonalizzabile. Pertanto se le colonne di C formano una base di autovettori, abbiamo A=CDC^-1. Segue A²=(CDC^-1)(CDC^-1)=CD(C^-1C)DC^-1= CD²C^-1 e più in generale si vede allo stesso modo che A^k = CD^kC^-1 Il calcolo di D^k è immediato, si tratta ancora di una matrice diagonale i cui elementi sono le potenze k-esime degli elementi di D.

Per illustrare questo calcolo concludiamo un esempio che era stato lasciato in sospeso.

Sia

é
ê
ê
ê
ë

1-q

1-p

ù
ú
ú
ú
û

Nell'esempio avevamo p=0,95, q=0,99. Ci proponiamo di calcolare le potenze A^k diagonalizzando A. Gli autovalori di A sono 1 e p+q-1 con autovettori corrispondenti rispettivamente

(

1-q

1-p

) e (

-1

)

. Posto

C =

é
ê
ê
ê
ë

1-q

1-p

-1

ù
ú
ú
ú
û

é
ê
ê
ê
ë

p+q-1

ù
ú
ú
ú
û

segue l'uguaglianza

A=CDC^-1

da cui

A^k=CD^kC^-1=

p+q-2

é
ê
ê
ê
ë

1-q

1-p

-1

ù
ú
ú
ú
û

é
ê
ê
ê
ë

(p+q-1)^k

ù
ú
ú
ú
û

é
ê
ê
ê
ë

-1

p-1

1-q

ù
ú
ú
ú
û

É significativo notare che quando k® +¥ allora A^k tende a

2-p-q

é
ê
ê
ê
ë

1-q

1-p

ù
ú
ú
ú
û

quindi un qualunque vettore colonna (a, b) tende se moltiplicato per A^k con k grande al vettore colonna

a+b

2-p-q

(1-q, 1-p)

che é un multiplo del primo autovettore. Questa distribuzione puó essere pensata come il punto di equilibrio del sistema dinamico. a+b rappresenta la popolazione totale che si distribuisce secondo le proporzioni 1-q e 1-p.

Appunti per il corso di Geometria I

Chiudere ogni finestra che che viene aperta prima di aprirne un'altra!

Questi appunti sono in costruzione, ogni commento è benvenuto! (spedire una mail a ottaviani@math.unifi.it)

0. Il linguaggio delle funzioni

1. Lo spazio Rn

I vettori applicati nell'origine e l'interpretazione geometrica delle operazioni.

La lunghezza di un vettore di Rn .

Angolo tra due vettori in R2 .

Il prodotto scalare in R2 .

Il prodotto scalare in Rn .

La disuguaglianza di Cauchy-Schwarz

Dimostrazione della disuguaglianza triangolare e sue varianti

2. Le matrici

3. L'algoritmo di Gauss ed i sistemi lineari

Sistemi lineari e scrittura matriciale

L'algoritmo di Gauss

4. Spazi vettoriali e funzioni lineari

Sottospazi vettoriali

Combinazioni lineari

Funzioni lineari

Le rotazioni attorno all'origine in R2 come funzioni lineari

Funzioni lineari associate a matrici

Teoria della dipendenza lineare, basi

Matrice associata ad una funzione lineare

Nucleo e immagine

Applicazioni ai sistemi lineari

5. Basi ortonormali e spazi ortogonali

6. Complementi: somma e somma diretta, la formula di Grassmann

Prodotto cartesiano di due spazi vettoriali

Somma di due sottospazi

7. Il determinante

Relazione tra rango e determinante

8. Autovalori e autovettori. Il teorema spettrale.

Calcolo delle potenze di una matrice diagonalizzabile

1. Lo spazio Rⁿ

La lunghezza di un vettore di Rⁿ .

Angolo tra due vettori in R² .

Il prodotto scalare in R² .

Il prodotto scalare in Rⁿ .

Le rotazioni attorno all'origine in R² come funzioni lineari