Czy AI jest skazane na karty graficzne? NIVIDIA i długo nic... ale nadzieja w rywalach nie gaśnie

Rynek AI jest już w dużej mierze zajęty i poukładany. Nie oznacza to, że wszyscy są z tego zadowoleni i nie będzie prób wprowadzenia nowych (najchętniej tańszych) rozwiązań i zmiany układu sił.

Nvidia, która posiada około 95 proc. rynku chipów AI, przewiduje, że w ciągu dekady lat modele sztucznej inteligencji będą milion razy bardziej potężne niż ChatGPT. Taką opinię wygłosił szef firmy Jen-Hsun Huang, podczas prezentacji na GTC, dodając, że prawdziwe przełomy dopiero przed nami, a modele sztucznej inteligencji będą w stanie wykonywać jeszcze bardziej skomplikowane zadania, w tym przewidywanie zachowania ludzi i zwierząt, projektowanie nowych leków, materiałów i inne.

W tej chwili świat jest pod wielkim wrażeniem sukcesu i dominującej pozycji Nvidii na rynku uczenia maszynowego. Nvidia jest wyraźnym liderem na rynku chipów używanych do szkolenia systemów AI, ale, co warto pamiętać, stanowi to tylko około 10 do 20 proc. popytu na chipy obsługujące sztuczną inteligencję.

Obok kart graficznych (GPU) funkcjonuje większy rynek układów służących do obsługi procesu wnioskowania, które interpretują wyszkolone modele i odpowiadają na zapytania użytkowników. Żaden pojedynczy podmiot, w tym Nvidia, nie może mówić, że na nim dominuje. Wiele firm z sektora Big Tech korzysta w przetwarzaniu AI ze swoich indywidulanych i zastrzeżonych rozwiązań.

AWS z urządzeń znanych pod nazwą Inferentia a Google z opracowanych przez siebie jednostek TPU. Znaczna część obsługi systemów sztucznej inteligencji jest wciąż wykonywana na „zwykłych” procesorach CPU, zwłaszcza w sytuacji niedoboru układów GPU wysokiej klasy. Dominującym obecnie pytaniem w dziedzinie sztucznej inteligencji jest ilość mocy obliczeniowej potrzebnej do uruchomienia dużych modeli językowych (LLM), takich jak GPT, Bard lub Midjourney i Stable Diffusion. Poszukiwane są rozwiązania pozwalające na uruchomienie takiego modelu na jak najmniejszej mocy obliczeniowej. W tej mierze duże postępy osiągnęła społeczność open-source.

Obecnie przybliżone szacunki sugerują, że rynek „krzemu AI” rozkłada się tak: około 15 proc. mocy na szkolenie modeli, 45 proc. na wnioskowanie w centrach danych i 40 proc. na wnioskowanie brzegowe (edge), czyli przetwarzanie, analizowania i przechowywania danych bliżej miejsca, gdzie są generowane, co umożliwia szybką analizę i reakcję, niemalże w czasie rzeczywistym. Uważa się, że w bliższej perspektywie Nvidia utrzyma kontrolę nad rynkiem szkoleniowym. Rynek wnioskowania w centrach danych to już nie tylko Nvidia, ale także firmy AMD i Intel, a także rozwiązania specjalne, indywidualnej i specjalistyczne.

Nvidia nie jest więc osamotniona na tym rynku, ale ma dużą przewagę. Nvidia jest postrzegana jako dominująca siła na rynku sztucznej inteligencji, napędzana przez technologię GPU i oprogramowanie CUDA. Oczekuje się, że duże inwestycje Apple i Tesli w sieci neuronowe będą nadal wpływać na projektowanie sprzętu AI.

Przejęcie Annapurna Labs przez AWS pokazało, że potentaci mogą obniżyć koszty i poprawić wydajność, przenosząc projektowanie do siebie. Potencjał AWS lub innych gigantów do przejmowania startupów lub wprowadzania innowacji we własnym zakresie w celu konkurowania z Nvidią jest możliwy, ale w dającej się przewidzieć przyszłości będą one zależne od Nvidii.

Alternatywy dla drogich kart

O wiele mniej rozpowszechniony niż GPU Nvidii, ale znany w świecie AI, jest procesor Tensor Processing Unit (TPU). To układ scalony opracowany przez Google do uczenia maszynowego sieci neuronowych, wykorzystujący autorskie oprogramowanie Google TensorFlow. Google zaczął używać TPU (1) wewnętrznie w 2015 roku, a w 2018 roku udostępnił je do użytku innym, zarówno jako część swojej infrastruktury chmury, jak też oferując mniejszą wersję układu na sprzedaż.

1. Układ TPU Google

W porównaniu z procesorem graficznym, TPU są przeznaczone do dużych ilościowo obliczeń niskiej precyzji (np. zaledwie 8-bitowej) z większą liczbą operacji wejścia/wyjścia na dżul. TPU są dobrze przystosowane do neuronowych sieci konwolucyjnych (CNN). Między innymi miały być wykorzystane w szkoleniu algorytmu AlphaGo przed rozgrywką z arcymistrzem Lee Sedolem, a także w systemie AlphaZero, który produkował programy do gry w szachy. Google wykorzystał również TPU do przetwarzania tekstu w Google Street View. W usłudze Zdjęć Google pojedyncza TPU może przetwarzać ponad sto milionów zdjęć dziennie. Jest ona również wykorzystywana w algorytmie RankBrain, którego Google używa do dostarczania wyników wyszukiwania.

Konkurująca przez lata z sukcesem na rynku chipów zwłaszcza z Intelem, firma AMD, podejmuje od niedawna próby wejścia na większą skalę do świata AI. Zaprezentowała w styczniu 2023 r. procesory AMD Ryzen z serii 7040, które są pierwszymi jednostkami x86 z wbudowanym akceleratorem sztucznej inteligencji. Układy są produkowane w 4-nanometrowym procesie technologicznym, oferując najmocniejszy na świecie zintegrowany układ graficzny, bazujący na architekturze oznaczonej RDNA 3.

AMD w czerwcu 2023 ujawnił swój nowy układ AI - MI300X. MI300X to układ skrojony na miarę potrzeb AI. Zaprojektowany z myślą o efektywnej pracy z ogromnymi modelami jest wręcz stworzony do wykonywania zadań wymagających olbrzymiej mocy obliczeniowej. Pamięć to jedna z najważniejszych kart w rękawie AMD - aż do 192 GB. To wyjątkowo dużo, nawet jak na standardy branży, i to dzięki tej konfiguracji MI300X może poradzić sobie z modelami, które przekraczają możliwości innych układów. Jednak pamięć to nie wszystko - architektura MI300X została stworzona do płynnej obsługi generatywnych zadań AI. Lisa Su, prezes AMD, podkreśla, że najnowsze modele mogą bez problemu „zamieszkać” w 192 GB pamięci HBM3 (highbandwidth memory) MI300X. „Dzięki tej dodatkowej pojemności pamięci mamy przewagę przy dużych modelach językowych”, uważa Su, dodając, że użytkownicy potrzebować będą mniej układów GPU do wykonania tych samych zadań w krótszym czasie.

Wartość rynkowa NVIDIA przekroczyła bilion dolarów. AMD, z „zaledwie” 207 miliardami, ma jeszcze długą drogę do przebycia. AMD uruchomiło model Falcon 40B LLM na MI300X podczas prezentacji nowego układu. Według Su, to „pierwszy raz, kiedy model LLM tej wielkości może być uruchomiony całkowicie w pamięci”. Firma nie zamierza jednak zatrzymać się na hardware. AMD jednocześnie zaprezentowało ak-tualizację do RocM, czyli swojego oprogramowania do programowania GPU, które stanowi konkurencję dla języka CUDA od NVIDIA. Dzięki dużej przepustowości pamięci dostępnej z MI300X, firmy mogą decydować się na zakup mniejszej liczby układów GPU. To czyni AMD atrakcyjnym rozwiązaniem, szczególnie dla mniejszych przedsiębiorstw o średnich obciążeniach AI.

Idąc mniej więcej w tym samym kierunku, Apple, Nvidia i Intel także zapowiedziały budowę procesorów specjalnie dla AI tworzonymi rozwiązaniami wbudowanymi w tradycyjne procesory. Amazon dla swoich usług AWS tworzy nowy procesor Inferentia2. Te rozwiązania wciąż wykorzystują tradycyjną architekturę von Neumanna, zintegrowanej pamięci SRAM i zewnętrznej pamięci DRAM, wszystkie wymagają energii elektrycznej do przenoszenia danych do i z pamięci.

Opóźniony Intel

Intel podał w maju 2023 r. kilka nowych szczegółów na temat chipu do obliczeń sztucznej inteligencji (AI), który planuje wprowadzić w 2025 r., zmieniając strategię konkurowania z Nvidia i Advanced Micro Devices Inc (AMD). Na konferencji superkomputerowej w Niemczech w poniedziałek Intel powiedział, że jego nadchodzący chip „Falcon Shores” będzie miał 288 gigabajtów pamięci i będzie obsługiwał 8-bitowe obliczenia zmiennoprzecinkowe. Te specyfikacje techniczne są ważne, ponieważ modele sztucznej inteligencji podobne do usług takich jak ChatGPT eksplodowały, a firmy szukają mocniejszych chipów do ich obsługi.

Intel nie ma praktycznie żadnego udziału w rynku AI po tym, jak jego niedoszły konkurent Nvidii, chip o nazwie Ponte Vecchio, doznał wieloletnich opóźnień. Intel poinformował niedawno, że prawie zakończył dostawy superkomputera Aurora dla Argonne National Lab opartego na Ponte Vecchio, który według Intela ma lepszą wydajność niż najnowszy układ AI Nvidii, H100.

Kolejny chip Intela, Falcon Shores, trafi na rynek dopiero w 2025 roku, kiedy to Nvidia prawdopodobnie będzie miała już inny własny układ. Jeff McVeigh, wiceprezes korporacyjny grupy superkomputerów Intela, powiedział, że firma potrzebuje czasu na przerobienie chipu po rezygnacji z wcześniejszej strategii łączenia procesorów graficznych (GPU) z jednostkami centralnymi (CPU). Firma na targach Computex 2023 snuła wizje wykorzystania swojego „silnika AI”, Vision Processing Unit (VPU), zapowiadając, że procesory te będą dostępne w każdym układzie Meteor Lake, którego premiera zapowiadana jest tez na ten rok. Komponent ten ma obsługiwać zadania AI po stronie klienta poprzez znaczne zmniejszenie wymagań obliczeniowych związanych z wnioskowaniem AI.

Pomysł Intela jest taki - przenieść przetwarzanie sztucznej inteligencji, które już odbywa się na CPU i GPU, do specjalnego procesora tylko do AI. Według Intela ponad sto aplikacji wykorzystuje już sztuczną inteligencję na CPU lub GPU. To m.in. pakiet Adobe, Microsoft Teams, Avid Pro Tools, xSplit, Zoom i Unreal Engine. Jednostki VPU są nie tylko bardziej energooszczędne, ale także pozwalają na uruchamianie znacznie bardziej złożonych modeli AI. Jednocześnie Intel nie chce przenosić całej pracy na VPU. CPU i GPU nadal mają swoje miejsce. Według Intela, GPU jest nadal idealną opcją do zadań związanych z tworzeniem multimediów z wykorzystaniem sztucznej inteligencji, podczas gdy CPU może obsługiwać prostsze zadania AI.

Zazwyczaj większość obciążeń związanych z przetwarzaniem i obliczaniem na potrzeby sztucznej inteligencji jest obsługiwana w chmurze, co może skutkować zwiększonymi kosztami dla dostawców oprogramowania, ponieważ narzędzia te stają się bardziej zaawansowane i wymagające pod względem zasobów obliczeniowych. I tu swoją rolę do odegrania ma VPU, jednostka przetwarzania wizji na platformie Meteor Lake. Ten wyspecjalizowany procesor został specjalnie zaprojektowany do obsługi przetwarzania dla AI z większą wydajnością niż procesor ogólnego przeznaczenia, a nawet wydajny układ GPU. Jednostki VPU mają umożliwiać przetwarzanie tych obciążeń lokalnie na komputerze stacjonarnym lub laptopie.

Firma Intel przedstawiła przykład w postaci generacji obrazu przez Stable Diffusion w programie GIMP na platformie Meteor Lake. W tym scenariuszu system wygenerował złożony obraz na podstawie zapytania tekstowego i wykorzystał łącznie CPU, GPU i VPU. Proces ten trwał około 20 sekund. Dodatkowo, narzędzie Super Resolution, które może być zastosowane wyłącznie na VPU, dostarcza wersję obrazu o wyższej rozdzielczości w zaledwie kilka sekund.

Mobilne procesory AMD Ryzen 7000, które również posiadają procesor AI, nazwany Ryzen AI, powinny mieć podobne zastosowania jak VPU Intela, choć AMD nie wyszczególniła jeszcze jego możliwości.

Szukając własnej ścieżki

Meta buduje swój pierwszy niestandardowy chip specjalnie do uruchamiania modeli sztucznej inteligencji, ogłosiła firma w maju 2023. Nowy układ MTIA firmy Meta, będący skrótem od Meta Training and Inference Accelerator, jest „wewnętrzną, niestandardową rodziną układów akceleratorów ukierunkowanych na obciążenia związane z wnioskowaniem” napisał w poście na blogu wiceprezes firmy Meta i szef działu infrastruktury, Santosh Janardhan. Układ MTIA ma się pojawić dopiero w 2025 roku, donosił TechCrunch.

Oprócz MTIA, Meta wprowadza również nowy układ ASIC, który ma pomóc w transkodowaniu wideo, który nazywa „MSVP” lub Meta Scalable Video Processor. Został on zaprojektowany do obsługi zarówno „wysokiej jakości transkodowania potrzebnego do VOD, jak i niskiego opóźnienia i krótszych czasów przetwarzania, których wymaga transmisja na żywo”, informowała Meta w osobnym poście na blogu, a „w przyszłości” pomoże wprowadzić takie rzeczy, jak treści stworzone przez sztuczną inteligencję oraz treści specyficzne dla AR i VR do aplikacji Meta.

Także IBM zaprezentował nowy układ AI, który według niego może uruchamiać i trenować modele głębokiego uczenia się szybciej niż procesor ogólnego przeznaczenia. Prototypowy układ, IBM Research Artificial Intelligence Unit lub AIU, jest pierwszym kompletnym systemem na chipie zbudowanym specjalnie do głębokiego uczenia. Jest to półprzewodnik zaprojektowany w technologii nazywanej ASIC, który można zaprogramować do wykonywania dowolnego rodzaju zadań głębokiego uczenia, w tym przetwarzania języka mówionego lub słów i obrazów na ekranie.

Prototyp AIU ma 32 rdzenie przetwarzające i 23 miliardy tranzystorów. IBM AIU został również zaprojektowany tak, aby był tak prosty jak karta graficzna, którą można podłączyć do dowolnego komputera lub serwera ze slotem PCIe. Układ wykorzystuje technikę obliczeń przybliżonych IBM, aby zmniejszyć ilość obliczeń potrzebnych do wytrenowania i uruchomienia modelu sztucznej inteligencji, bez poświęcania dokładności. AIU wykorzystuje mniejsze formaty bitów do uruchamiania modelu AI w tempie wymagającym znacznie mniej pamięci. Jest to rozwinięta wersja już sprawdzonego akceleratora AI wbudowanego w układ Telum. Telum wykorzystuje tranzystory o rozmiarze 7 nm, podczas gdy AIU będzie wyposażony w szybsze, jeszcze mniejsze tranzystory 5 nm.

Dzięki technice zapoczątkowanej przez IBM, zwanej obliczeniami przybliżonymi, możemy zrezygnować z 32-bitowej arytmetyki zmiennoprzecinkowej na rzecz formatów bitowych przechowujących jedną czwartą informacji. Ten uproszczony format radykalnie zmniejsza ilość obliczeń potrzebnych do wytrenowania i uruchomienia modelu sztucznej inteligencji, bez poświęcania dokładności. Mniejsze formaty bitowe zmniejszają również inny czynnik wpływający na szybkość: przenoszenie danych do i z pamięci. AIU wykorzystuje szereg mniejszych formatów bitowych, w tym zarówno reprezentacje zmiennoprzecinkowe, jak i całkowite, dzięki czemu uruchamianie modelu AI jest znacznie mniej „pamięciochłonne”.

W powyższym przeglądzie mowa głównie o projektach kolosów rynkowych. Nie brakuje też startupów próbujących wykorzystać wielkie poruszenie związanie ze sztuczną inteligencją by zaproponować własne procesory. Warto wspomnieć także o takich firmach jak SambaNova, Graphcore czy Wave Computing. Stworzyć sprzęt, który przebije się przez szklany sufit, nad którym operują giganci, jest trudno, ale miejmy nadzieję, że nie jest to niemożliwe.

Mirosław Usidus