Snowflake łączy siły z Meta

Snowflake łączy siły z Meta, aby hostować i optymalizować nową flagową rodzinę modeli LLM w Snowflake Cortex AI.

Zespół badawczy AI Snowflake, we współpracy ze społecznością open source, uruchamia stos systemowy (system stack) do wnioskowania i dostrajania dużych modeli językowych (LLM). Firma wprowadza najnowocześniejsze rozwiązanie dla systemów wnioskowania i dostrajania open source dla modeli o setkach miliardów parametrów, takich jak Llama 3.1 405B.

Snowflake, dostawca Chmury Danych AI (AI Data Cloud), ogłosił, że będzie hostować zestaw wielojęzycznych dużych modeli językowych (LLM) open source Llama 3.1 w Snowflake Cortex AI. Będą one dostępne dla przedsiębiorstw w celu łatwego budowania i wykorzystania aplikacji AI o dużej skali. Wspólna oferta obejmuje największy i najbardziej zaawansowany duży model językowy firmy Meta, Llama 3.1 405B wraz ze stosem systemowym open source stworzonym przez Snowflake. Umożliwia ona wnioskowanie w czasie rzeczywistym o dużej przepustowości, w celu tworzenia potężnych aplikacji do przetwarzania i generowania języka naturalnego.

Wiodący w branży zespół badawczy Snowflake AI zoptymalizował Llama 3.1 405B zarówno na potrzeby wnioskowania, jak i dostrajania, wspierając potężne okno kontekstowe 128K. Jednocześnie umożliwia wnioskowanie w czasie rzeczywistym z opóźnieniem end-to-end, do 3 razy niższym i przepustowością 1,4 razy wyższą, niż istniejące rozwiązania open source. Ponadto, pozwala na dostrajanie potężnego modelu przy użyciu zaledwie jednego węzła GPU, eliminując koszty i poziom złożoności dla deweloperów i użytkowników.

W ramach współpracy z Meta, Snowflake zapewnia klientom łatwe, wydajne i zaufane metody płynnego dostępu, dostrajania i wdrażania najnowszych modeli Meta w chmurze danych AI, z kompleksowym podejściem do zaufania i bezpieczeństwa.

„Światowej klasy zespół badawczy AI firmy Snowflake wytycza nową ścieżkę dla przedsiębiorstw i społeczności open source w zakresie wykorzystania najnowocześniejszych modeli otwartych, takich jak Llama 3.1 405B, do wnioskowania i dostrajania w sposób maksymalizujący efektywność” – podkreśla Vivek Raghunathan, wiceprezes ds. inżynierii AI w Snowflake. „Dostarczamy naszym klientom nie tylko najnowocześniejsze modele Meta bezpośrednio poprzez Snowflake Cortex AI, ale także wyposażamy przedsiębiorstwa i społeczność AI w nowe badania i kod open source, który wspiera okna kontekstowe 128K, wnioskowanie wielowęzłowe, równoległość potoków, kwantyzację 8-bitową i wiele więcej, by rozwijać AI na potrzeby szerszego ekosystemu”.

Zespół Snowflake ds. badań nad sztuczną inteligencją osiąga najszybsze i najbardziej efektywne pod względem pamięci rozwiązania open source do inferencji i dostrajania modeli

Zespół Snowflake zajmujący się badaniami nad sztuczną inteligencją rozwija innowacje open source dzięki aktywnemu zaangażowaniu w społeczność AI oraz transparentności w budowaniu najnowocześniejszych technologii LLM. Wraz z premierą Llama 3.1 405B, zespół Snowflake ds. badań nad sztuczną inteligencją udostępnia swój stos optymalizacji (Optimization Stack) systemu wnioskowania i dopasowywania dużych modeli językowych (LLM) we współpracy z DeepSpeed, Hugging Face, vLLM oraz społecznością AI. To przełomowe osiągnięcie ustanawia nowy standard dla systemów inferencji i dostrajania open source dla modeli z wieloma setkami miliardów parametrów.

Potężna skala modelu i wymagania dotyczące pamięci stanowią istotne wyzwania dla użytkowników, którzy dążą do osiągnięcia niskiego poziomu opóźnień przy wnioskowaniu w czasie rzeczywistym o wysokiej przepustowości. Celem jest zwiększenie opłacalności oraz długoterminowe wsparcie kontekstowe dla różnych zastosowań generatywnej sztucznej inteligencji klasy korporacyjnej. Wymagania dotyczące pamięci do przechowywania stanów modelu i aktywacji sprawiają, że dostrajanie jest niezwykle trudne, ponieważ duże klastry GPU potrzebne do dopasowania stanów modelu podczas treningu są często niedostępne dla osób zajmujących się danymi.

System optymalizacji masowego wnioskowania i dostrajania dużych modeli językowych (LLM) firmy Snowflake rozwiązuje te wyzwania. Dzięki zastosowaniu zaawansowanych technik równoległości i optymalizacji pamięci, Snowflake umożliwia szybkie i wydajne przetwarzanie AI bez potrzeby korzystania ze skomplikowanej i kosztownej infrastruktury. Dla Llama 3.1 405B stos systemowy Snowflake zapewnia wydajność w czasie rzeczywistym i wysoką przepustowość na zaledwie jednym węźle GPU oraz obsługuje ogromne okna kontekstowe 128K w konfiguracjach wielowęzłowych.

Ta elastyczność obejmuje zarówno sprzęt nowej generacji, jak i starsze urządzenia, co sprawia, że jest dostępna dla szerszego grona firm. Ponadto naukowcy zajmujący się danymi mogą dostrajać Llama 3.1 405B za pomocą technik mieszanej precyzji na mniejszej liczbie GPU, eliminując potrzebę dużych klastrów GPU. W rezultacie organizacje mogą łatwo, efektywnie i bezpiecznie dostosowywać i wdrażać potężne aplikacje generatywnej AI klasy korporacyjnej.

Zespół badawczy AI Snowflake opracował również zoptymalizowaną infrastrukturę do dostrajania, obejmującą destylację modelu, mechanizmy ochronne, generowanie wspomagane wyszukiwaniem (RAG) oraz generowanie danych syntetycznych, aby przedsiębiorstwa mogły łatwo rozpocząć korzystanie z tych use case’ów w ramach Cortex AI.

Zobacz również

6 września 2024·2 min read

realme Pad 2: Moc większa niż kiedykolwiek już w Polsce

Snowflake Cortex AI umacnia zaangażowanie w zakresie dostarczania godnej zaufania, odpowiedzialnej sztucznej inteligencji

Bezpieczeństwo AI jest najwyższym priorytetem dla Snowflake oraz klientów firmy. W związku z tym, Snowflake udostępnia Snowflake Cortex Guard w wersji ogólnodostępnej, w celu dalszej ochrony przed szkodliwymi treściami dla każdego modelu LLM lub zasobu stworzonego w Cortex AI — korzystając z najnowszych modeli Meta lub LLM-ów dostępnych od innych czołowych dostawców, takich jak AI21 Labs, Google, Mistral AI, Reka oraz samego Snowflake. Cortex Guard wykorzystuje Llama Guard 2 od Meta, co jeszcze bardziej ułatwia przedsiębiorstwom korzystanie z zaufanej sztucznej inteligencji. Dzięki temu mogą mieć pewność, że używane przez nich modele są bezpieczne.

Obserwuj nas na Google News

ZOBACZ RÓWNIEŻ:

Źródło: Informacja prasowa: Snowflake

Autor zdjęć: Snowflake