Benutzer-Werkzeuge

Webseiten-Werkzeuge


foveat

Modell für foveatisiertes Sehen

In diesem Text sollen mathematische Methoden behandelt werden, die notwendig oder geeignet sind, ein ähnlich der visuellen Wahrnehmung des Menschen wirkendes System zu konstruieren.

U.a. soll versucht werden, eine erklärung für das Szintillationsgitter zu finden, insbesondere auch für das Phänomen, daß das Auftreten des Effekts von der Geradheit der Linien abhängt.

Prämissen

Folgende Eigenschaften seien also gegeben:

  • Die Abbildung geschieht räumlich und zeitlich in diskreten Schritten.
  • Die räumliche Auflösung ist ungleichmäßig, es gibt einen Bereich höchster Sehschärfe in der Mitte des Sehfelds, die Foveola, außerhalb derer die Auflösung etwa logarithmisch abfällt.
  • Sehen ist ein aktiver Prozeß, bei dem Fixationen und Sakkaden vorkommen.
  • Die hauptsächliche Informationsquelle ist die Verteilung der Helligkeit (Luminanz).
  • Bei ausreichendem Licht ist eine 3dimensionale Farbwahrnehmung gegeben.
  • Bei zweiäugigem Sehen ist in bestimmten Bereichen eine Wahrnehmung der Sehdistanz möglich.
  • Es können weitere Materialeigenschaften erkannt werden (Textur), wie Glanz oder Durchsichtigkeit.
  • Aufgrund gemeinsamer Merkmale können räumliche Teilbereiche als Abbildungen von Gegenständen abgegrenzt werden (Sehobjekte).
  • Sehobjekte können im wesentlichen unabhängig von der Abbildungsgröße oder der Lage im Bild identifiziert werden.
  • Sehobjekte können als bewegt oder unbewegt wahrgenommen werden.
  • Objekte werden relativ zum Betrachter positioniert, so daß Handlungen wie Greifen des Objekts möglich werden.
  • Bei bewegten Objekten ist eine Vorausberechnung der Bewegung nach physikalischen Gesetzen möglich.

Es gibt physiologische Eigenschaften des Systems, die nicht für die Funktion wesentlich sind, aber doch behandelbar sein müssen:

  • Es gibt Skotome, mindestens den blinden Fleck, eine Fläche etwa 5° im Durchmesser, etwa 15° außerhalb der Fovea, an der keine Zapfen oder Stäbchen vorhanden sind.
  • Die Verteilung der Farbempfindlichkeit ist inhomogen, insbesondere befinden sich in der Foveola weder blauempfindliche S-Zapfen noch Stäbchen.

zu lösende Einzelaufgaben

  • Definition von Datenstrukturen für die Sehsensoren und die Verarbeitung (im Gehirn)
  • Algorithmen für diese Strukturen
  • (sakkadische Stabilität)
  • Metrisierung

räumliche Struktur

Um die räumliche Struktur des Sehorgans zu modellieren, wird ein Raster konstruiert, das für die Fläche der Foveola, bis zu 1° Durchmesser, gleichmäßig hexagonal, außerhalb davon, ebenfalls hexagonal, aber log-polar, organisiert ist. Im Übergangsbereich ist vorgesehen, daß die mittlere Sensordichte stetig bleiben soll. Die genaue Verteilung im Grenzbereich kann undefiniert bleiben, die Bereiche werden getrennt, aber überlappend, verarbeitet. Dies ist die gleichmäßigste Verteilung von Sensoren in der Ebene, die möglich ist, und in dieser Beziehung deutlich besser als ein Muster auf rechteckiger Grundlage. Im übrigen entsprechen die Sensoren im Modell nicht den Zapfen selbst, sondern den zugehörigen rezeptiven Feldern. Der Einfachheit halber wird angenommen, daß ein rezeptives Feld, außer im Bereich des Blauskotoms, den ganzen Farbraum gleichmäßig abbildet.

Auch auf einem räumlich inhomogenen Abtastraster gilt (lokal) das Shannon-Abtast-Theorem. An jedem Ort können nur Raum-Frequenzen repräsentiert sein, die für die nicht weiter als mit der Hälfte des Kehrwerts benachbart ein 2. Abtastwert vorliegt. Qualitativ führt dies dazu, daß die Fouriertransformation auf diesem Raster in etwa ähnlich gerastert abzutasten ist, d.h. mit einem dichten Raster für niedrige Frequenzen, die überall vorkommen, und einem logarithmisch ausgedünnten Raster für hohe Frequenzen, die nur in der Fovea vorkommen.

Auch wenn in einem solchen Modell eine eindeutige Lokalisierung der retinalen Position jedes Sensors gegeben ist, wird angemerkt, daß dies in der Physiologie nicht von vornherein gegeben ist, sondern erst durch eine geeignete neuronale Verschaltung im Lauf des Wachstumsprozesses oder des Gebrauchs des Sehsinns entwickelt werden muß.

Algorithmen für hexagonales Sampling

Vince /Zheng 2007

In diesem Artikel wird gezeigt, daß hexagonales Sampling effizient in den ebenfalls hexagonalen dualen Frequenzraum fouriertransformiert werden kann, nämlich mit 1dimensionaler FFT. Der in Theorem 4 angegebene Isomorphismus φ(j v1 + k v2 ) = j + k(n+1) (mod N) ist allerdings fehlerhaft, da dieser offenbar nur für n == 1 bijektiv ist. Experimentieren zeigt, daß zB φ(j v1 + k v2 ) = j n + k(n+1) (mod N) diesen Fehler behebt. Wenn es richtig ist, daß der Fehler bei Vince/Zheng in der letzten Zeile des Beweises aufgetreten ist (wg. n c = n j + k (n+1) (mod N) ), ist die richtige Form: φ(j v1 + k v2 ) = j - k(3n + 2) (mod N) .

rechteckiger Frequenzbereich

Ehrhardt 1993 oder Grigoryan 2002 haben haben Transformationen vom hexagonalen Raster in einen rechteckigen Frequenzbereich entwickelt. Diese Verfahren haben bzgl. der periodischen Fortsetzung anderes Verhalten als das obige. Sie sind auch nicht völlig symmetrisch hinsichtlich der Horizontal/Vertikal-Unterscheidung.

Ich gehe so vor: Das hexagonale Abtastraster besteht aus einer Überlagerung von 2 rechteckigen Rastern im Seitenverhältnis 1 : √3, die um eine Sechseckkante 0.5*(1,√3) gegeneinander verschoben sind. Die FFTs der beiden Teilmuster werden getrennt berechnet. Wenn man das zweite im Frequenzbereich mit der Phasenfunktion für die Verschiebung multipliziert, kann man die Summe und die Differenz bilden und aus diesen Matrizen durch Zusammenfügen eine neue bilden, die, evtl. mit Nullen auf quadratisches Format aufgefüllt, die gesuchte Fouriertransformierte ist. Die Auffüllung mit Nullen beseitigt die genannte Unsymmetrie.

Hermite- und Laguerre-Transformation

Statt der Fouriertransformation könnte es sich auch lohnen, die Bilder in anderen Orthogonalbasen zu untersuchen, entweder Hermite- oder Laguerre-Funktionen. Algorithmen für schnelle Transformationen sind entwickelt worden, müßten aber noch implementiert werden. In beiden Systemen entspricht die Foveatisierung der Beschränkung auf endlich viele Terme.

elliptische Koordinaten

Die Halbebene (genauer ein halber Streifen mit imaginärer Breite 2π) mit positivem Realteil wird auf die ganze Ebene abgebildet mittels komplexem cosh (Elliptische_Koordinaten). In diesem Koordinatensystem wird die Fouriertransformation durch eine gemischte Toeplitz- und Hankel-artige Faltung berechnet, mit Flächenelement

cosh^2(x) sin^2(y)+sinh^2(x) cos^2(y) = 1/2 (cosh(2 x)-cos(2 y))

und Kern exp (i/2 (cos(v+y)cosh(w-x)+cosh(w+x) cos(v-y)))

cosh(x) cos(y) cosh(w-x) cos(v-y)+sinh(x) sin(y) sinh(w-x) sin(v-y) = 1/2 (cos(v) cosh(w-2 x)+cosh(w) cos(v-2 y))

exp( 1i * cos(v+y)cosh(w-x)+cosh(w+x) cos(v-y)) = e^(cos(v-y) cosh(w+x)) cos(cos(v+y) cosh(w-x))+i e^(cos(v-y) cosh(w+x)) sin(cos(v+y) cosh(w-x)) = exp(cos(v-y) cosh( w+x)) *( exp(cos(v+y) cosh(w-x)))

Es ist unklar, ob man diese Faltung mittels FFT berechnen kann. Die Literatur gibt nur Ergebnisse für die additive Kombination von T. und H., nicht für die hier vorliegende multiplikative Kombination. Alternativ ist mögliche die Fouriertransformation über die orthogonalen Polynome nach Kaijser zu berechnen. Für die Orthogonalpolynome gibt es die übliche 2stufige Rekursionsformel, die einen FFT-schnellen Algorithmus ermöglicht.

Für den endlichen diskreten Fall spielen zwei unabhängige Designparameter eine Rolle, nämlich die Anzahl der Abtastwerte auf jeder Ellipse und der Abstand der beiden Brennpunkte. Die Dichte der Abtastwerte auf den Hyperbeln sollte so gewählt werden, daß in der Mitte zwischen den Brennpunkten im halben Abstand von der Verbindungsstrecke dieselbe Dichte wie auf den Ellipsen erreicht wird, die Zahl so, daß die höchste Frequenz an den Hyperbelenden zur Abtastdichte in der Mitte nach Shannon paßt.

sinh-polare Koordinaten

Statt mit konformen elliptischen Koordinaten kann ein ähnlicher Effekt mit der nicht-konformen Transformation x = sinh r * cos φ, y = sinh r * sin φ erreicht werden.

2dimensionale Interpolation

Die Transformation zwischen verschiedenen Abtastgittern erfordert Interpolation. I.a. wird dazu eine ad-hoc-Lösung gewählt, zB next neighbour, bilinear bei rechteckigen Gittern, baryzentrische Gewichte bei triangulierten Gittern. Diesen Verfahren ist gemeinsam, daß in Matrixschreibweise spasam besetzte Interpolationsmatrizen entstehen, mit Elementen zwischen 0 und 1, sowie konstanten Zeilensummen von 1. Die Matrizen für beide Richtungen eines Interpolationsproblems sind normalerweise keine Inversen, schon wegen der unterschiedlichen Anzahl der Gitterpunkte. Ohne besondere Vorkehrungen kann man allerdings auch nicht erwarten, daß diese Matrizen Pseudoinverse sind. Dies führt dazu, daß wiederholtes Wechseln des Abtastgitters zu einer Kontrastveränderung durch Mittelwertbildung führt. Im folgenden Text soll diskutiert, wie dieser Effekt minimiert werden kann.

Bei Betrachtung der Singulärwertzerlegung eines solchen pseudoinversen Paars ergibt sich, daß die Interpolationsmatrix dann als Produkt von zwei Rechtecksmatrizen darstellbar sein muß, von denen eine orthonormale Zeilen, die andere orthonormale Spalten enthält. Die Pseudoinverse ist die transponierte Matrix, alle von Null verschiedenen singulären Werte sind 1.

Die Berechnung der Pseudoinversen einer festen Matrix ist nicht besonders schwierig, insbesondere wenn eine brauchbare Approximation bereits bekannt ist, zB Methode von Ben-Israel und Cohen. Es stellt sich die Frage, ob man ein Paar von pseudoinversen spärlich besetzten Matrizen finden kann, welches zur 2dimensionalen Interpolation von Bildern geeignet ist. Offensichtlich ist dazu eine zusätzliche Bedingung erforderlich, die die Metrik der beiden Abtastgitter berücksichtigt. Wenn zB auf beiden Abtastgittern diskrete Laplaceoperatoren definiert sind, muß die Interpolation mit dem Laplaceoperator in einem geigneten Sinn vertauschbar sein.

Algebraisch verwendbare Gleichungen ergeben sich dadurch, daß die Anwendung der Interpolation auf die beiden Koordinaten wieder die Koordinaten des anderen Gitters ergeben müssen, außerdem als 3. Gleichung die Konstante 1 ebenfalls wieder zu 1 interpoliert wird. Wir suchen also, ausgehend von dem spärlich besetzten Ausgangspaar (das noch nicht pseudo-invers ist), durch wechselweise Iteration auf der gegebenen Matrixstruktur unter Beachtung der 3 Nebenbedingungen zu einem pseudo-inversen Paar von Interpolationsmatrizen zu kommen.

foveat.txt · Zuletzt geändert: 2023/05/11 09:13 von 127.0.0.1