- Helix to wewnętrzny model Vision–Language–Action (VLA) firmy Figure, który zamienia piksele + słowa bezpośrednio w zręczne działania robota—sterując całym górnym ciałem humanoida z częstotliwością 200 Hz z 35 stopniami swobody: dłonie, nadgarstki, tułów, głowa. FigureAI
- W 2025 roku Figure zaprezentowało godzinne autonomiczne kursy logistyczne, a następnie wyczyny domowe: składanie prania (pierwszy raz dla humanoidów z wieloma palcami) oraz załadunek zmywarki—wszystko przy użyciu tego samego modelu, bez nowych algorytmów, tylko nowe dane. FigureAI
- Nowość na dziś (16 września 2025): Figure pozyskało ponad 1 mld USD w rundzie C przy wycenie 39 mld USD; CEO Brett Adcock mówi, że kapitał pozwoli „skalować naszą platformę AI Helix” oraz produkcję. Reuters
Czym jest Helix (VLA)?
Helix to uniwersalny model „od pikseli do działań”, który działa całkowicie na pokładzie humanoidalnych robotów Figure. Łączy percepcję, rozumienie języka i wyuczoną kontrolę, dzięki czemu robot może zobaczyć scenę, zrozumieć polecenie mówione/tekstowe i wykonywać zręczne ruchy oburącz w czasie rzeczywistym. Helix wykorzystuje dwuczęściową konstrukcję:
- System 2 (S2): wstępnie wytrenowany w internecie VLM (~7 mld parametrów), który „myśli wolno” z częstotliwością 7–9 Hz dla semantyki i języka.
- System 1 (S1): 80-milionowa polityka wizyjno-motoryczna, która „myśli szybko” z częstotliwością 200 Hz, zapewniając płynną, ciągłą kontrolę całego górnego ciała.
Oba działają jednocześnie na podwójnych wbudowanych GPU wewnątrz robota. FigureAI
„Helix to pierwszy tego typu VLA ‘System 1, System 2’ do szybkiej, zręcznej kontroli całego górnego ciała humanoida.” FigureAI
Dane treningowe i przepis. Figure raportuje około ~500 godzin wysokiej jakości teleoperacji na wielu robotach/operatorach. Instrukcje są automatycznie oznaczane przez VLM, który pisze „polecenia z perspektywy” dla każdego klipu (np. jakie polecenie wywołałoby to zachowanie?). Ten sam pojedynczy zestaw wag obejmuje wiele umiejętności; brak głów specyficznych dla zadania lub dostrajania pod konkretne zadania. FigureAI
Co Helix potrafi dziś (2025)
1) Zero‑shot manipulacja domowa
- Wspólne odkładanie zakupów: dwa roboty używają tych samych wag i koordynują przekazania za pomocą poleceń językowych.
- Podnieś cokolwiek: odporne zachowanie język‑do‑chwytu wśród tysięcy nowych obiektów. FigureAI
2) Logistyka (przenoszenie paczek na taśmach, ustawianie etykiet)
- Po początkowym wdrożeniu Figure zwiększył ilość danych i dodał pamięć wzrokową, historię stanów oraz sprzężenie siłowe („dotyk”). Wyniki: ~20% szybsza obsługa (≈ 4,05 s na paczkę) oraz ≈95% skuteczności ustawiania kodów kreskowych—zbliżając się do wydajności człowieka. FigureAI
3) Składanie prania (zręczność z obiektami podatnymi)
Figure nazywa to „pierwszy raz dla humanoidów” z wielopalcowymi dłońmi—wykonane przez tę samą architekturę Helix co w logistyce; bez zmian hiperparametrów, tylko nowy zbiór danych. Umiejętności obejmują śledzenie krawędzi, szczypanie rogów, wygładzanie, odzyskiwanie po poślizgach. FigureAI
„Pierwszy raz dla humanoidów… składanie prania w pełni autonomicznie przy użyciu sieci neuronowej end‑to‑end.” FigureAI
4) Załadunek zmywarki (oburęczny, precyzyjny)
Ta dokładnie ta sama Helix, która sortowała paczki i składała ręczniki, teraz ładuje naczynia—oddzielanie talerzy ze stosu, oburęczna zmiana orientacji szklanek, rozmieszczanie z tolerancją centymetrową oraz płynne odzyskiwanie po nieudanych chwytach. Figure podkreśla brak nowych algorytmów—„tylko nowe dane.” FigureAI
„Brak nowych algorytmów, brak inżynierii przypadków szczególnych, tylko nowe dane.” FigureAI
5) Chodzenie (osobny kontroler lokomocji)
Równolegle z Helix Figure wytrenował politykę chodzenia opartą na uczeniu ze wzmocnieniem w symulacji, która przenosi się zero‑shot na prawdziwe roboty dla naturalnego chodu; ostatnie testy badały odporność (np. ograniczona wizja). FigureAI
Harmonogram na 2025 w skrócie (najnowsze na początku)
- 16 wrz — Seria C powyżej 1 mld $ przy wycenie 39 mld $ po inwestycji; środki przeznaczone na skalowanie Helix, budowę infrastruktury obliczeniowej i przyspieszenie zbierania danych. „Ten kamień milowy jest kluczowy… skalowanie naszej platformy AI Helix i produkcji BotQ.” — Brett Adcock. Reuters
- 3 wrz — Helix ładuje zmywarkę (ten sam model; rozszerzenie tylko o dane). FigureAI
- 12 sie — Helix składa pranie (wielopalcowe, end‑to‑end). FigureAI
- 7 cze — Skalowanie Helix w logistyce: pamięć wzrokowa, historia stanów, czujniki siły; 4,05 s/paczka, ≈95% skuteczności odczytu kodów kreskowych. FigureAI
- 26 lut — Helix w logistyce; ulepszenia S1 obejmują stereo implicite, wieloskalową wizję, autokalibrację oraz „tryb sportowy”. FigureAI
- 20 lut — Wprowadzenie Helix; pierwszy VLA bezpośrednio sterujący całą górną częścią ciała humanoida, działający w całości na pokładzie na energooszczędnych GPU oraz współpraca wielu robotów z jednym modelem. FigureAI
Jak Helix wypada na tle innych VLA
Paradygmat VLA został spopularyzowany w 2023 roku przez Google DeepMind i RT‑2, który pokazał, że pre‑trening wizji‑języka na skalę internetu można dostroić do działań robotów. Helix podąża za tą samą ideą wizja→język→akcja, ale rozwija ciągłą, szybką, wielostopniową kontrolę humanoida oraz wdrożenie na pokładzie. Google DeepMind
- RT‑2/Gemini Robotics: silna generalizacja semantyczna; zazwyczaj zdyskretyzowane akcje lub konfiguracje o niższym stopniu swobody; Google ogłosiło Gemini Robotics jako szerszy stos ucieleśniony. The Verge
- Helix: end‑to‑end ciągła kontrola z częstotliwością 200 Hz nad dłońmi + tułowiem + głową, współpraca dwuręczna, obsługa wielu robotów; jeden zestaw wag dla wielu zachowań. FigureAI
Pod maską (dla technicznie ciekawych)
- Architektura: S2 (VLM, ~7B) emituje wektor celu latentnego; S1 (transformer wizyjno-motoryczny, 80M) łączy ten latent z wieloskalowymi cechami wizualnymi + stanem robota, aby generować ciągłe pozycje nadgarstka, ruchy palców, cele głowy/tułowia z częstotliwością 200 Hz. FigureAI
- Trenowanie: regresja end-to-end; gradienty przepływają z S1 do S2 przez latent; przesunięcie czasowe podczas treningu odzwierciedla asynchroniczne wnioskowanie (S2 wolne, S1 szybkie). FigureAI
- Wdrożenie: model równoległy na podwójnych wbudowanych GPU; S2 aktualizuje współdzielony latent w tle; S1 zamyka pętlę sterowania w czasie rzeczywistym. FigureAI
- Skalowanie (logistyka): dodano pamięć wizji, historię stanu, sprzężenie siłowe (dotyk), aby zwiększyć odporność i przepustowość przy większej ilości danych demonstracyjnych. FigureAI
Finansowanie, fabryka i droga do skalowania
- Kapitał dla Helix: Dzisiejsza runda podnosi Figure do wyceny $39 mld; środki przeznaczone na skalowanie Helix, infrastrukturę GPU i zbieranie danych na dużą skalę. Reuters
- Produkcja (BotQ): Zakład BotQ Figure celuje początkowo w do 12 000 humanoidów/rok; strategia obejmuje roboty budujące roboty, z Helix wspierającym zadania fabryczne. FigureAI
- Bateria (F.03): pakiet 2,3 kWh umożliwiający ~5 godzin pracy, szybkie ładowanie przy 2 kW i rygorystyczne cele bezpieczeństwa UL/UN—klucz do dłuższych sesji Helix. FigureAI
Kontekst strategiczny i debata
- Perspektywa CEO. Brett Adcock niedawno argumentował, że humanoidy zbliżają się do praktycznego zastosowania w domu i że Helix umożliwia teraz godzinną nieprzerwaną pracę z dotykiem i pamięcią krótkotrwałą—„zbliżając się do ludzkiej szybkości i wydajności.” Business Insider
- Pogląd sceptyków. Ekspertka AI Fei‑Fei Li ostrzega, że jeden ludzki kształt nie jest optymalny do wszystkich zadań: „wymagania… są tak szerokie, że… trzymanie się jednej formy jest nieefektywne energetycznie.” Business Insider
Cytaty ekspertów, których możesz użyć
„Helix to pierwszy w swoim rodzaju VLA ‘System 1, System 2’…” FigureAI
„Pierwszy raz dla humanoidów… składanie prania całkowicie autonomicznie…” FigureAI
„Brak nowych algorytmów… tylko nowe dane.” FigureAI
„Ten kamień milowy jest kluczowy do odblokowania kolejnego etapu wzrostu… skalowania naszej platformy AI Helix.” — Brett Adcock Reuters
„Posiadanie bardzo niewielu form… jest nieefektywne energetycznie.” — Fei‑Fei Li Business Insider
FAQ
Czy Helix to to samo co kontroler chodzenia?
Nie. Helix obsługuje wizja-język→zręczna manipulacja. Chodzenie wykorzystuje osobną politykę RL trenowaną w symulacji i przenoszoną na prawdziwe roboty. FigureAI
Czy Figure naprawdę zrezygnowało z OpenAI, by zbudować Helix?
Tak—Figure zakończyło współpracę z OpenAI na początku lutego 2025, ogłaszając „przełom” w end‑to‑end robot AI opracowanym wewnętrznie. Decrypt
Czym Helix wyróżnia się na tle wcześniejszych VLA?
Sterowanie ciągłe z dużą częstotliwością całym górnym ciałem humanoida na pokładzie, współpraca wielu robotów oraz udokumentowane osiągnięcia w logistyce + zadaniach domowych z rozszerzeniami opartymi wyłącznie na danych. FigureAI
Kiedy zobaczymy testy domowe?
Postać publicznie omawiała przyspieszone testy domowe po uruchomieniu Helix; nadal publikuje demonstracje zadań domowych przez lato 2025. Interesting Engineering
Źródła
- Raporty techniczne i aktualizacje Figure: Wprowadzenie Helix; logistyka; skalowanie; pranie; zmywarka; runda C; BotQ; bateria F.03; chodzenie RL. FigureAI
- Wiadomości i analizy: Reuters o finansowaniu; wywiad Business Insider; DeepMind RT‑2/Gemini Robotics dla kontekstu. The Verge, Reuters, Business Insider