- Artist/s
- Simone C. Niquille / Technoflesh
- Titel
- HOMESCHOOL
- Jahr
- 2024
- Medium / Material / Technik
- Video, Farbe, Ton
- Maße / Dauer
- 00:12:45
Die Grenzen meiner Sprache bedeuten die Grenzen meiner Welt.
Die Grenzen meiner Kategorien bedeuten die Grenzen meiner Welt.
Die Grenzen meiner Daten bedeuten die Grenzen meiner Welt.
Und ich bleibe mit einer Million Fragen zurück.
Die Sprache lässt mich im Stich.
Beschreibung
Haushaltsroboter verlassen sich auf Computer Vision, um sich in ihrer häuslichen Umgebung zurechtzufinden. Eine Kamera allein weiß jedoch nicht, was sie sieht. Um die Räume, Gegenstände und Dinge, auf die er trifft, zu erkennen und zu verstehen, muss der Roboter etwas über seine zukünftige Umgebung lernen. Zu diesem Zweck werden große Datensätze von 3D-Dateien virtuell zu Modellhäusern zusammengestellt. Diese Trainingsdatensätze stellen eine Reihe von Herausforderungen dar: Wo findet man repräsentative Daten über Zehntausende von Häusern, den privatesten Raum der Menschen? Wie lassen sich Objekte und Räume in Kategorien einordnen: Ist dies eine Vase, eine Schüssel oder eine Tasse? Jede Kategorie erfordert ein anderes Verhalten und einen anderen Kontext, Informationen, die für den Menschen weitgehend banal sind, aber unglaublich komplex, um sie einem Roboter beizubringen. Ein auf die verfügbaren Daten beschränkter Trainingsdatensatz wird kaum in der Lage sein, die gesamte „Realität“ abzubilden und letztlich alles, was nicht erfasst wird, zu reduzieren und wegzulassen. Diese Verwechslung zwischen Realitätsmodellen und der Realität selbst hat der Wissenschaftler und Philosoph Alfred Korzybski als „die Karte ist nicht das Gebiet“ bezeichnet. Wenn die Karte nicht das Gebiet ist, ist dann die Datenbank das Zuhause? Wenn die Datenbank nicht das Zuhause ist, was sind dann die architektonischen und körperlichen Konsequenzen des Zusammenlebens mit der Computer Vision?
Der Kurzfilm »HOMESCHOOL« ist in eine Szenografie eingebettet, die aus dem Inhalt eines der größten Trainingsdatensätze SceneNet RGB-D zusammengestellt wurde, und macht die Trainingsdaten sichtbar, die normalerweise in der Technologie versiegelt sind. Diese virtuelle Umgebung wird von einem unbekannten Ich-Erzähler erkundet, der durch Sehen lernt, um Verständnis ringt und in Unklarheiten verweilt.
Visuell erforscht der Film das computergestützte Sehen. Die in Grau- oder Orangeverläufen gerenderten Bilder verwenden das, was in der dreidimensionalen Bildgebung als Z-Tiefe bezeichnet wird. Bei der Z-Tiefe handelt es sich um die Darstellung von Entfernungen im virtuellen Raum, die grafisch durch einen rückläufigen Farbverlauf dargestellt wird. Für das menschliche Auge ist der Farbverlauf nur ein Effekt, für das Computerauge enthält er wichtige Entfernungsdaten. Diese Bilder sind im Allgemeinen nicht sichtbar und werden von den Bildverarbeitungsmechanismen des Computers intern verarbeitet, um die Orientierung zu erleichtern.
Eine andere Gruppe von Bildern erscheint unscharf, an manchen Stellen verwischt, an anderen scharf. Sie werden mit 3D-Software in einem einzigen Durchgang gerendert und anschließend mit einem künstlich intelligenten Entrauschungsfilter (Denoising) bearbeitet. Eine höhere Anzahl von Rendering-Durchgängen führt in der Regel zu einem klareren, weniger verrauschten Bild. Im Allgemeinen führt dies aber auch zu längeren Renderzeiten. Entrauschung ist der Prozess der Rauschreduzierung in gerenderten 3D-Bildern. Vor der Einführung der KI-Technologie zur Entrauschung wurden verschiedene Mechanismen zur Unschärfe und Farbanpassung von Pixeln verwendet. In »HOMESCHOOL« wurde ein Entrauschungsfilter auf verrauschte Renderings angewendet, die für das menschliche Auge kaum lesbar waren. Der verwendete Entrauschungsfilter basiert auf NVIDIAs OptiX AI-Accelerated Denoiser , der mit Zehntausenden von Bildern trainiert wurde, von denen viele ähnliche häusliche Szenen darstellen, wie sie im SceneNet RGB-D-Datensatz vorgeschlagen wurden. Der Denoiser approximiert die Informationen der verrauschten Bilder mit den Informationen, die er aus seinem Trainingsdatensatz gelernt hat. Das resultierende Bild ist das verrauschte Rendering, wie es durch die „Augen“ des Entrauschungsfilters gesehen wird: eine Verschmelzung von Trainingsdatensätzen, die das Computersehen auf Kosten der Informationsreduktion optimieren.
Trainingsdatensätze geben eine Welt wieder, in der nur das existiert, was benannt werden kann und erfasst wurde. Alles Unbekannte ist nicht existent. Sprache ist in diesem Fall kein Werkzeug zum Suchen und Beschreiben, sondern eher ein Werkzeug, um alles auszuschließen, was keinen Namen hat. »HOMESCHOOL« macht die Trainingsdaten sichtbar, die in der resultierenden Technologie versiegelt sind, und wirft Fragen zur Kategorisierung, kulturellen Voreingenommenheit und den Annahmen auf, die in diese digitalen häuslichen Umgebungen einfließen. Werden häusliche Räume durch die Objekte definiert, die sie enthalten, oder durch die Menschen, Rituale und Verhaltensweisen, die in ihnen leben?
Weiterführende Literatur
- „Dwelling in Ambiguity. Domestic Robots & the Politics of Computer Vision Training Datasets” in: The Floor is Uneven. Does it Slope?, ed. By Laura Herman & Henry Anderesen. Mousse Publishing 2019
- “Regarding the Pain of Spotmini”, in: Machine Landscapes: Architectures of the Post Anthropocene, ed. By Liam Young. AD Wiley 2018
Credits
- Recherche, Drehbuch & Animation: Simone C. Niquille
- Musik: Jeff Witscher (nach Pink Floyd 'Come in Number 51, Your Time Is Up', Zabriskie Point Soundtrack)
- Sprachaufnahmen: Kiara K
- Innenausstattung & Möbel: SceneNet-RGBD, Dyson Robotics Lab am Imperial College London
- Paraphrasierte Auszüge aus Ludwig Wittgensteins Schrift "Tractatus Logico-Philosophicus" von 1922 über Sprache und die Grenzen des Denkens, neu interpretiert für das Zeitalter der Computer-Vision-Systeme.