780 tysięcy lekcji w 11 godzin: NVIDIA wprowadza model GR00T N1 dla robotów
Podczas konferencji GTC 2025 w Santa Clara, dyrektor generalny NVIDIA, Jensen Huang, zaprezentował projekt Isaac GR00T N1 – pierwszy otwarty model bazowy (foundation model) przeznaczony dla robotów humanoidalnych. Zespół badawczy pod kierownictwem Linxi "Jima" Fana i Yuke Zhu stworzył system, który pozwala maszynom nie tylko rozumieć polecenia językowe, ale przede wszystkim sprawnie poruszać się w nieprzewidywalnym, fizycznym świecie. Ten skok technologiczny opiera się na architekturze Vision-Language-Action (VLA), integrującej percepcję wizualną z planowaniem i bezpośrednią kontrolą silników.
Kluczem do sukcesu okazało się masowe generowanie danych syntetycznych w środowisku symulacyjnym Omniverse. Inżynierowie NVIDIA wytworzyli 780 000 trajektorii ruchu, co odpowiada 6500 godzinom ludzkich demonstracji, w zaledwie 11 godzin. Wykorzystanie platformy MuJoCo-Warp pozwoliło na ponad siedemdziesięciokrotne przyspieszenie symulacji w porównaniu do czasu rzeczywistego, skutecznie niwelując barierę między światem cyfrowym a fizycznym. Model GR00T N1 działa w oparciu o system dwuwarstwowy, inspirowany ludzką kognicją. System 1 odpowiada za szybkie, niemal instynktowne reakcje motoryczne (wykorzystując technikę diffusion transformer), natomiast System 2 analizuje otoczenie i planuje złożone zadania. Dzięki takiemu podejściu roboty uczą się nowych czynności, takich jak sortowanie przedmiotów czy obsługa narzędzi, na podstawie zaledwie 20–40 pokazowych nagrań wideo. Połączenie danych wirtualnych z rzeczywistymi poprawiło wydajność maszyn o 40% względem systemów trenowanych wyłącznie na fizycznych przykładach.
Rozwiązanie to usuwa dotychczasowe ograniczenie robotyki, jakim była konieczność programowania maszyn do każdego zadania z osobna. GR00T N1 umożliwia generalizację, czyli przenoszenie umiejętności między różnymi modelami robotów, co potwierdziły testy przeprowadzone we współpracy z firmami 1X Technologies, Boston Dynamics oraz Disney Research. Następnym etapem rozwoju był zapowiedziany na marzec 2026 roku model GR00T N2, który ma dwukrotnie lepiej radzić sobie w całkowicie nowych środowiskach. Według prognoz NVIDIA, dzięki demokratyzacji dostępu do modeli otwartoźródłowych poprzez platformę Hugging Face, do 2035 roku na świecie może pracować nawet miliard robotów napędzanych przez fizyczną sztuczną inteligencję.
Źródło: https://www.reddit.com/r/FunMachineLearning/comments/1sio84y/nvidias_new_ai_the_biggest_leap_in_robot_learning