Rappresentazione intermedia Da 2-D a 3-D. Rappresentazione intermedia E’ un livello ipotizzato dell’elaborazione visiva E’ calcolata da processi basati

  • Published on
    02-May-2015

  • View
    212

  • Download
    0

Embed Size (px)

Transcript

<ul><li> Slide 1 </li> <li> Rappresentazione intermedia Da 2-D a 3-D </li> <li> Slide 2 </li> <li> Rappresentazione intermedia E un livello ipotizzato dellelaborazione visiva E calcolata da processi basati sullosservatore Rappresenta il mondo in modo generale: identificazione di superfici e oggetti (no riconoscimento) loro orientamento e distanza dallosservatore Sembra essere richiesta per alcuni processi percezione del movimento forme di stereopsi Il primo livello dellelaborazione i cui risultati sono accessibili a livello della coscienza (attenzione) </li> <li> Slide 3 </li> <li> Kanizsa (1979) </li> <li> Slide 4 </li> <li> Il cubo di Kanizsa (da Necker) </li> <li> Slide 5 </li> <li> Intermedia VS Alto livello Rotazione degli oggetti </li> <li> Slide 6 </li> <li> Estrazione dellinformazione a 3-D Tre fasi dellestrazione: segmentazione della scena in oggetti distinti determinare la posizione e lorientamento di ogni oggetto in relazione allosservatore determinare la forma di ogni oggetto </li> <li> Slide 7 </li> <li> 1. Segmentazione organizzazione della matrice di pixel in regioni che corrispondono a entit nella scena semanticamente significative output dello stadio iniziale della visione lo schema primario: individuazione (tramite i contorni) delle aree principali di diversa intensit contorni non rilevati a causa del basso contrasto contorni dovuti a rumore o ombre occorre mettere assieme gli elementi di un singolo oggetto in modo da poterlo confrontare con i modelli in memoria (riconoscimento) o da conoscerne la forma (presa) </li> <li> Slide 8 </li> <li> 2. Posizione e orientamento la posa delloggetto rispetto allosservatore (utile per manipolazione e navigazione) Z Y X P (X, Y, Z) P (x, y) O P n X Y Z </li> <li> Slide 9 </li> <li> 3. Forma La forma di un oggetto si mantiene anche quando la distanza e lorientamento di un oggetto cambiano a causa del movimento relativo osservatore/oggetto Definizione di forma: ci che rimane invariato rispetto a un qualche gruppo di trasformazioni (es. rotazioni, traslazioni) Forma di un oggetto e forma di una superficie rispetto al movimento Forma fondamentale per la presa di un oggetto e per il riconoscimento </li> <li> Slide 10 </li> <li> Questione fondamentale Dato che nella proiezione prospettiva tutti i punti lungo una stessa direzione nel mondo a 3-D sono stati appiattiti in un unico punto dellimmagine, come si fa a recuperare linformazione sulle 3-D? Si possono consultare degli indizi: profondit (stereopsi binoculare) tessitura movimento ombre contorni </li> <li> Slide 11 </li> <li> La profondit Stereopsi binoculare </li> <li> Slide 12 </li> <li> La stereopsi (visione stereoscopica) Differenti posizioni di osservazione risultano in viste 2D differenti della stessa scena a 3D. Esperimento dei pollici Immagine sinistra Immagine destra Oggetto percepito </li> <li> Slide 13 </li> <li> Il punto di fissazione cade sempre al centro di ciascuna retina, dove la massima densit di recettori. Gli altri punti proiettano su entrambe le retine: distanza e direzione dal centro sono determinate dai punti stessi. La profondit relativa di un punto si ricava con la trigonometria. Immagine del punto lontano Immagine del punto di fissazione Immagine del punto vicino Punto vicino P0P0 P Punto lontano La disparit binoculare Punto di fissazione </li> <li> Slide 14 </li> <li> Immagine del punto lontano Immagine del punto di fissazione Immagine del punto vicino Punto di fissazione Punto vicino Punto di fissazione P 0 : punto in cui gli assi ottici dei due occhi si intersecano Calcolo della disparit: disparit angolare in radianti - a P 0 0 - a P la disparit tra P L e P R, = /2 + /2 tan( /2) = b / 2 Z per angoli piccoli tan( )= /2 = b / 2 Z e, derivando rispetto a Z, /2 Z = -b/Z 2 P0P0 P Z b Punto lontano Z /2 PLPL PRPR La trigonometria b /2 </li> <li> Slide 15 </li> <li> Dati numerici i possono fare delle assunzioni plausibili sul funzionamento della geometria (della visione) si conosce lorientamento relativo degli occhi (presenza dei muscoli oculari comandati dal cervello) anche per le telecamere questo possibile negli umani, b=6 cm Per Z=100cm il pi piccolo rilevabile 2.42 x 10 -5 radianti ci corrisponde a Z di circa 0.4 mm Per Z=30 cm si arriva a un Z di circa 0.036 mm </li> <li> Slide 16 </li> <li> Il problema della corrispondenza Come si fa a mettere in corrispondenza (matching ) le proiezioni che nelle due immagini visive corrispondono a uno stesso punto della scena? si matchano le stesse posizioni sulle due retine (o immagini della telecamera): non utile a causa della disparit tra le due immagini processi top-down e bottom up </li> <li> Slide 17 </li> <li> Top-down e bottom -up top-down si identificano gli oggetti nella scena e si matchano le medesime parti degli oggetti nelle due immagini circolo vizioso: la visione stereoscopica serve a identificare la profondit e lorientamento delle superfici per poi identificare gli oggetti bottom-up si matchano i valori di intensit delle due matrici problema: le intensit dei punti corrispondenti possono essere diverse per i due occhi (esperimento lente affumicata davanti a un solo occhio) </li> <li> Slide 18 </li> <li> Come si fa? il problema top-down o bottom-up o entrambi nasce quando si desidera assegnare una struttura a dei dati secondo qualche principio top-down: si usano i principi per predire i dettagli dei dati (struttura degli oggetti per predire le disparit retiniche) bottom-up: si usano i dati per predire le strutture a livello pi alto (disparit retiniche per struttura oggetti) differenti modalit di predizione: qual la migliore? le sole considerazioni computazionali non permettono di decidere quale modalit adotta un sistema cognitivo necessit di prove empiriche bottom-up: il sistema funziona senza conoscenze di alto livello top-down: il sistema funziona quando i dati sono degradati </li> <li> Slide 19 </li> <li> Stereogrammi: evidenza per bottom-up stereoscopio: strumento che presenta agli occhi separatamente due immagini di una stessa scena stereogrammi su pagine opposte specchi uniti insieme </li> <li> Slide 20 </li> <li> il sistema visivo fonde le due immagini: losservatore vede una scena unica con una forte impressione di profondit Stereogrammi con figure geometriche (800) </li> <li> Slide 21 </li> <li> Stereogrammi a punti casuali di Julesz (anni 60) </li> <li> Slide 22 </li> <li> Autostereogrammi (1979) </li> <li> Slide 23 </li> <li> Implicazioni di Julesz la visione stereoscopica pu funzionare bottom-up non si possono vedere le immagini senza la stereopsi le conoscenze di alto livello non aiutano la stereopsi Frisby, Clatworthy: dire alle persone che cosa si dovrebbe vedere non rende pi veloce la percezione La visione stereoscopica potrebbe essere ampiamente indipendente da altri processi visivi essere un modulo separato del sistema visivo stesso </li> <li> Slide 24 </li> <li> Vincoli al matching stereoscopico due fatti relativi al mondo e cablati nel cervello che guidano il processo di matching vincolo di unicit: una cosa non pu essere allo stesso tempo in due posti diversi un punto di una immagine pu essere matchato con uno e un solo punto dellaltra immagine vincolo di continuit: poich le superfici degli oggetti sono di solito opache e lisce, la loro profondit varia lungo un continuum (non a balzi) punti adiacenti di unimmagine tenderanno a rappresentare punti della scena con profondit simile </li> <li> Slide 25 </li> <li> Vincoli di unicit e continuit un osservatore guarda un oggetto si considerano 3 punti adiacenti le linee ottiche si incrociano in 9 punti i 9 punti sono potenzialmente effettivi ma quali sono i 3 genuini? </li> <li> Slide 26 </li> <li> vincolo di unicit: non pi di un punto si trova su una linea ottica Profondit Possibile Profondit Non possibile Profondit Possibile </li> <li> Slide 27 </li> <li> Profondit Non possibile Profondit Possibile Profondit Possibile vincolo di continuit: le superfici degli oggetti variano gradualmente </li> <li> Slide 28 </li> <li> Implementazione dei vincoli punti di fusione rappresentati da una matrice mentale di processori (un processore per fusione) con grado di attivit = probabilit di fusione rappresentazione dei vincoli = collegamento adeguato dei processori vincolo di unicit: legami inibitori tra processori sulla stessa linea di vista ogni volta che un processore indica una possibile fusione, gli altri processori sulla stessa linea vengono inibiti vincolo di continuit: legami eccitatori tra processori alla stessa profondit rispetto allosservatore ogni volta che un processore indica una possibile fusione, gli altri processori alla stessa profondit vengono eccitati </li> <li> Slide 29 </li> <li> legami eccitatori legami inibitori Implementazione dei vincoli </li> <li> Slide 30 </li> <li> Stereogrammi a punti casuali: un programma programma per la visione stereoscopica basato su i vincoli di unicit e continuit (Marr e Poggio) funziona direttamente su elementi che rappresentano i punti casuali come si mettono in relazione i punti quando le profondit sono diverse (a causa della disparit) frammento di una riga della matrice sinistra frammento di una riga della matrice destra </li> <li> Slide 31 </li> <li> Il programma vasta matrice di processori che operano in parallelo (operazioni locali tra processori vicini) comportamento simile alle reti connessioniste cicli di attivit fino a valori stabili (rilassamento) operazione di rilassamento input iniziale: righe dalla coppia di stereogrammi la matrice elabora le fusioni possibili output: processori attivi (punto di fusione) o inerti la configurazione stabile rappresenta le corrispondenze appropriate nei due stereogrammi </li> <li> Slide 32 </li> <li> Matrice di fusione vincolo di unicit: i processori ricevono inibizione dai processori sulla stessa linea di vista vincolo di continuit: i processori ricevono eccitazione dai vicini sullo stesso piano di profondit legame eccitatorio legame inibitorio punto di fusione Profondit </li> <li> Slide 33 </li> <li> 3 - 3 0 3 0 3 0 3 0 3 0 3 0 Esempio di rilassamento bidimensionale </li> <li> Slide 34 </li> <li> Conclusioni sul programma il programma rende possibile lo svolgimento in parallelo di una grande quantit di operazioni ogni processore ha bisogno dellinformazione proveniente dai suoi vicini tuttavia, il processo richiede un gran numero di cicli le cellule nervose sono molto lente (1/100 di secondo) per ciclo questo programma non realistico per la visione veloce di un mammifero </li> <li> Slide 35 </li> <li> Come avviene in realt la visione stereoscopica qual linput della visione stereoscopica umana? dati di basso livello (matrici di pixel organizzate) solo qualche elemento deve essere matchato ma quali elementi vengono matchati? occorre lavorare sulle superfici (a cui si applica il vincolo di continuit) candidati pi ovvii i passaggi per zero si assegna un segno + se, da sx a dx, si passa da regione scura a regione chiara si assegna un segno - se, da sx a dx, si passa da regione chiara a regione scura </li> <li> Slide 36 </li> <li> Programma per la visione stereoscopica reale si parte con pochi passaggi per zero (sombrero di grandi dimensioni): minore probabilit di errori si matchano passaggi per zero dello stesso segno si procede punto per punto lungo i passaggi per zero (con tolleranza sulle posizioni) se un passaggio per zero ha due match possibili nellaltra immagine, questi ultimi corrisponderanno a elementi a profondit diversa si risolve lambiguit con corrispondenze sicure vicine si ripete il tutto con immagini filtrate da sombreri di dimensioni inferiori </li> <li> Slide 37 </li> <li> Conclusioni sulla profondit programma usato per analisi di fotografie aeree (profondit utile per scoprire le mimetizzazioni) sebbene psicologicamente plausibile, non detto che il sistema umano usi la stessa procedura sensibilit alla disparit dimostrata nella corteccia visiva i passaggi per zero forse non sono i candidati corretti in alcuni casi dimostrato che vengono matchati i picchi non sempre si matchano gli spigoli (tipici passaggi per zero) passaggi per zero solo rumore tra picchi e gole unici elementi certi della visione stereoscopica utilizza elementi di basso livello dello schema primario guidata da vincoli innati propri del mondo fisico </li> <li> Slide 38 </li> <li> La tessitura (texture) </li> <li> Slide 39 </li> <li> La tessitura propriet delle superfici associate con le qualit tattili che essi suggeriscono in visione, pattern ripetuto spazialmente su una superficie pattern periodici reali, o in senso statistico un gradiente di tessitura creato dalla presenza di oggetti o segni pi o meno della stessa forma o dimensione a intervalli regolari su una superficie Esempi: pattern di aperture (finestre e balconi) su un edificio macchie sulla pelle di un leopardo fili derba su un prato gente allo stadio </li> <li> Slide 40 </li> <li> Esempio Un pattern periodico </li> <li> Slide 41 </li> <li> Tessitura e superfici Quando i pattern sono regolari possibile scoprire lorientamento e la forma delle superfici da una singola immagine Come possibile? Gli elementi fondamentali della tessitura sono i tasselli La loro dimensione, forma e spaziatura sono abbastanza uniformi nella scena 3-D Invece la dimensione, la forma e la spaziatura variano nellimmagine (una volta proiettati) </li> <li> Slide 42 </li> <li> Esempi di tessitura </li> <li> Slide 43 </li> <li> Due cause per la variazione nellimmagine distanza dei singoli tasselli dallocchio (telecamera) in prospettiva, gli oggetti pi distanti appaiono pi piccoli il fattore di scala 1/Z rimpicciolimento della superficie esposta dei tasselli relativo allorientamento del tassello / linea di vista se il tassello perpendicolare, non vi rimpicciolimento il fattore di rimpicciolimento proporzionale al cos , dove langolo tra la normale alla superficie e la linea di vista O n Y Z X </li> <li> Slide 44 </li> <li> Gradiente di tessitura e orientamento gradienti di tessitura funzione della forma e dellorientamento di una superficie connessione tra profondit e orientamento data la profondit di ciascuna parte di una superficie rispetto allosservatore orientamento come il sistema visivo calcola linclinazione di una superficie fissa gli assi dellinclinazione in modo che siano perpendicolari alla direzione in cui la densit degli elementi varia di pi esistono dei programmi che utilizzano tale metodo, ma non si sa come il sistema umano interpreti i gradienti di tessitura </li> <li> Slide 45 </li> <li> Processo a due passi misurare i gradienti di tessitura stimare la forma della superficie, slant e tilt, che darebbero origine ai gradienti misurati </li> <li> Slide 46 </li> <li> Il movimento </li> <li> Slide 47 </li> <li> movimento e forma: la dimostrazione di Ullman si proiettano dei punti su uno schermo punti stazionari: losservatore vede soltanto una schermata di punti distribuiti in modo casuale punti in movimento: losservatore vede due cilindri che ruotano in direzioni opposte ma i cilindri n...</li></ul>