Die Robotik-Company: Helix 02 macht das Bett
Bild: Screenshot Figure.ai
Die nützlichsten Arbeiten in der realen Welt finden in gemeinsam genutzten Räumen statt: in Wohnungen, Lagerhallen, Fabriken und anderen Umgebungen, in denen sich Menschen, Gegenstände und andere Roboter ständig bewegen.
Das bedeutet, dass Roboter der Zukunft mehr als nur isolierte Fähigkeiten benötigen. Sie müssen in Situationen agieren, die von anderen Akteuren geprägt sind; sie müssen beobachten, was andere tun, in Echtzeit reagieren und sich auf die Handlungen der anderen verlassen, um einem gemeinsamen Ziel näherzukommen.
Im Februar 2025 zeigten wir zwei Figure-Roboter, die ein einziges, trainiertes Vision-Language-Action-System nutzten und koordiniert Lebensmittel wegstellten. Heute demonstrieren wir einen großen Schritt in diese Richtung.
Zwei mit Helix-02 ausgestattete Humanoide räumen ein Schlafzimmer in weniger als zwei Minuten auf: Sie öffnen Türen, hängen Kleidung auf, legen Kopfhörer weg, schließen ein Buch, bringen den Müll hinaus, schieben einen Stuhl unter einen Schreibtisch und arbeiten zusammen, um ein Bett zu machen.
Sie führen eine einzige gelernte Vision-Language-Action-Strategie aus. Es gibt keinen gemeinsamen Planer zwischen ihnen, keinen Nachrichtenaustausch, keinen zentralen Koordinator: Jeder Roboter erfasst den Raum über seine eigenen Kameras und leitet die Absicht seines Partners allein aus den Bewegungen ab, so wie es zwei Menschen tun, wenn sie ein Laken zusammenlegen.
Nach unserem Kenntnisstand ist dies die erste Demonstration eines einzigen gelernten neuronalen Netzwerks, das eine kollaborative Lokomanipulation mehrerer Humanoide durchführt – direkt von den Pixeln zu den Aktionen.
Wichtige Ergebnisse
In diesem Video sehen wir, wie Helix Verhaltensweisen ausführt, die die vollständige Integration von Fortbewegung, Geschicklichkeit und Wahrnehmung erfordern, indem lediglich neue Daten hinzugefügt werden.
Ohne Änderungen an seinem Kernalgorithmus lernte Helix-02:
Türen mit Ganzkörperkoordination zu öffnen: einen Türgriff zu lokalisieren, ihn zu betätigen, die Tür nach innen zu ziehen und dabei das Gleichgewicht zu halten sowie den Körper neu zu positionieren, während die Tür schwingt.
Möbel mithilfe von Standposition und Gleichgewicht zu schieben: Einen Bürostuhl mit beiden Händen zu greifen und ihn unter einen Schreibtisch zu schieben, wobei kontrollierte Kräfte durch die Fußstellung und Körperhaltung statt allein durch Armbewegungen erzeugt werden.
Kleidung über schmale Aufhängungen zu drapieren: Ein Kleidungsstück durch den Raum zu tragen und es mit beiden Händen an einen Kleiderständer zu hängen, wobei der Stoff so gehandhabt wird, dass er sich nicht über sich selbst faltet und die Kontaktpunkte verdeckt.
Objekte durch Neuausrichtung in der Hand platzieren: Nehmen Sie einen Kopfhörer in die Hand, richten Sie ihn in der Luft neu aus und setzen Sie den Kopfbügel auf einen schmalen vertikalen Ständer.
Ein Buch mit geschickter beidhändiger Kontrolle schließen: Nehmen Sie ein offenes Buch in die Hand und klappen Sie den Einband zu, wobei Sie ein Objekt mit Scharnier handhaben, dessen Seiten sich biegen und dessen Gewicht sich beim Zuklappen verlagert.
Betätigen eines Mülleimer-Fußpedals mit Einbeinbalance: Ein Stück Müll aufnehmen, das Gewicht auf ein Bein verlagern, das Fußpedal des Mülleimers mit dem anderen Fuß betätigen, um den Deckel zu öffnen, und den Gegenstand hineinwerfen, wobei der Fuß als Endeffektor dient, während das Gleichgewicht dynamisch gehalten wird.
Koordinieren zweier Humanoide um ein gemeinsames Objekt: Komplementäre Positionen auf gegenüberliegenden Seiten eines Bettes einnehmen und auf dasselbe große, verformbare Objekt einwirken, ohne sich gegenseitig zu behindern.
Bettwäsche mit beidhändigen Ganzkörperbewegungen bearbeiten: Eine Bettdecke anheben, entfalten, ausbreiten, falten und glätten, dabei Falten und zusammengezogene Kanten korrigieren, während sich der Stoff nach jedem Ziehen setzt.
Warum das schwierig ist
Drei Faktoren verstärken sich gegenseitig:
Zwei Humanoide in einem Raum sind mehr als zwei parallel laufende Einzelroboter-Probleme. Jede Aktion eines Roboters definiert das Problem neu, das der andere gerade löst. Jeder liest die Absicht seines Partners allein anhand der Bewegung in Echtzeit, während seine eigenen Aktionen gleichzeitig verändern, was der Partner sieht.
Das zentrale Objekt ist verformbar. Die Bettdecke hat keine feste Form, keine starre Geometrie, keinen kanonischen Griff. Es gibt keine natürliche Nahtstelle zwischen „deiner Hälfte“ und „meiner“.
Jeder Roboter muss sich auf einen Kontaktpunkt festlegen und gleichzeitig vorhersagen, was der andere tun wird, und dann beide Vorhersagen dutzende Male pro Sekunde aktualisieren, während sich der Stoff unter gemeinsamer Spannung faltet, drapiert und gleitet.
Die gesamte Sequenz dauert zwei Minuten. Diese Neugestaltung des Schlafzimmers erfordert eine raumweite Lokomanipulation: Der Roboter bewegt sich natürlich zwischen den Standorten, balanciert dynamisch auf einem Bein und wechselt zwischen starrer, verformbarer, gelenkiger und kollaborativer Manipulation, ohne vorprogrammierte Übergaben zwischen Teilaufgaben.
Bei der üblichen Entscheidungsfrequenz sind das Tausende aufeinanderfolgender korrekter Entscheidungen, von denen jede von einer sich schnell verändernden Szene abhängt, in der ein zweiter Humanoid unter denselben Einschränkungen agiert.
Warum dies wichtig ist
Wir halten dies für eine wichtige erste Demonstration einer Zukunft, von der wir hoffen, dass sie alltäglich wird: intelligente Humanoide, die sich miteinander abstimmen, um gemeinsame Ziele in menschlichen Umgebungen zu erreichen.
Helix bewältigt diese Situation ohne aufgabenspezifische Steuerungen. Es handelt sich um ein einziges lernendes System, das sich kontinuierlich erweitert, wenn wir weitere Daten hinzufügen. Derselbe zugrunde liegende Ansatz, der Logistikaufgaben, das Wäschefalten, das Aufräumen der Küche und das Aufräumen des Wohnzimmers gelernt hat, führt nun die kollaborative Aufräumung des Schlafzimmers durch.
(red.)

Die andere Seite