Gemma – rodzina otwartych dużych modeli językowych Google DeepMind, udostępniana z otwartymi wagami i zbudowana w oparciu o badania i technologię stojące za zamkniętą rodziną modeli Gemini[1]. Nazwa pochodzi od łacińskiego słowa gemma oznaczającego klejnot. Oprócz głównej linii generacyjnej rodzina obejmuje warianty pochodne: CodeGemma (kod), RecurrentGemma (architektura rekurencyjna) oraz PaliGemma (model wizyjno-językowy)[2]. Modele są dystrybuowane między innymi przez Hugging Face, Kaggle i Vertex AI oraz mogą być uruchamiane lokalnie na sprzęcie konsumenckim.
Logo programu | |
| Autor | Google DeepMind |
|---|---|
| Pierwsze wydanie | 21 lutego 2024 |
| Aktualna wersja stabilna | Gemma 4 (31 marca 2026; około 3 miesiące temu) |
| Rodzaj | duży model językowy |
| Licencja | Apache 2.0 (Gemma 4); Gemma Terms of Use (wersje 1–3) |
| Strona internetowa | |
Historia wersji
edytujGemma 1
edytujPierwsza generacja, wydana 21 lutego 2024, obejmowała warianty 2B i 7B w wersji bazowej oraz dostrojonej instrukcyjnie. Model przyjmował i generował wyłącznie tekst, głównie w języku angielskim[1].
Gemma 2
edytujDruga generacja ukazała się 27 czerwca 2024 w wariantach 9B i 27B (2B dołączył 31 lipca 2024)[3]. Wprowadzono Grouped Query Attention oraz naprzemienne warstwy uwagi globalnej i lokalnej (sliding window). Model 27B trenowano od podstaw na około 13 bilionach tokenów, a warianty 2B i 9B powstały z destylacji wiedzy z większego modelu[4].
Gemma 3
edytujTrzecia generacja została zaprezentowana 10 marca 2025 w wariantach 1B, 4B, 12B i 27B (270M dołączył w sierpniu 2025)[3]. Modele od 4B wzwyż otrzymały koder wizyjny SigLIP umożliwiający przyjmowanie obrazu jako wejścia[5]. Okno kontekstu zwiększono do 128 tysięcy tokenów[5]. Nathan Lambert w analizie portalu Interconnects ocenił, że Gemma 3 27B była pierwszym otwartym modelem porównywalnym z Gemini 1.5 Pro[6].
Gemma 4
edytujCzwarta generacja została opublikowana 31 marca 2026 w czterech wariantach: Effective 2B (E2B), Effective 4B (E4B), 26B Mixture of Experts oraz 31B Dense[7]. Wszystkie warianty są multimodalne i przyjmują tekst, obraz oraz wideo, a modele E2B i E4B obsługują dodatkowo natywne wejście dźwiękowe[7]. Małe modele dysponują oknem kontekstu 128 tys. tokenów, a warianty 26B i 31B 256 tys.[7] Wraz z Gemmą 4 Google przeszedł z własnych Gemma Terms of Use na licencję Apache 2.0[8].
Warianty pochodne
edytujOprócz głównej linii generacyjnej Google DeepMind opublikował kilka modeli pochodnych opartych na Gemmie[2]:
- CodeGemma (9 kwietnia 2024, warianty 2B, 7B i 7B-IT) to model wyspecjalizowany w generowaniu i uzupełnianiu kodu, dotrenowany na 500 miliardach tokenów kodu źródłowego, danych matematycznych i tekstu[9].
- RecurrentGemma (9 kwietnia 2024, warianty 2B i 9B) opiera się na architekturze Griffin łączącej liniowe rekurencje z lokalną uwagą, dzięki czemu zużywa mniej pamięci i zachowuje stałą prędkość próbkowania niezależnie od długości kontekstu[10].
- PaliGemma (14 maja 2024, 3B) to model wizyjno-językowy łączący koder obrazu SigLIP-So400m z Gemmą 2B, przeznaczony do dostrajania na zadaniach takich jak podpisywanie obrazów, odpowiadanie na pytania wizualne i segmentacja[11].
- PaliGemma 2 (5 grudnia 2024, warianty 3B, 10B i 28B) wykorzystuje ten sam koder wizyjny SigLIP-So400m, ale jako komponent językowy stosuje Gemmę 2, osiągając po dostrojeniu najlepsze wyniki m.in. w OCR, rozpoznawaniu struktur tabelarycznych i generowaniu opisów radiogramów[12][13].
Architektura
edytujModele Gemma opierają się na dekoderach transformera. Począwszy od Gemmy 2 stosowane są Grouped Query Attention, RMSNorm, GeGLU oraz osadzenia pozycyjne RoPE[4]. W Gemmie 2 i 3 wprowadzono naprzemienne warstwy uwagi lokalnej i globalnej w proporcjach 1:1 oraz 5:1, co służy redukcji rozmiaru pamięci podręcznej kluczy i wartości przy długim kontekście[4][5]. W generacjach trzeciej i czwartej dodano ścieżkę przetwarzania obrazów opartą na koderze SigLIP, a w Gemmie 4 natywne wejścia wideo i audio dla mniejszych wariantów[7].
Cechy charakterystyczne Gemmy 4
edytujNajistotniejszą zmianą jest zastosowanie techniki MatFormer (ang. Matryoshka Transformer), rozszerzenia Matryoshka Representation Learning na pełny dekoderowy transformer[14]. W MatFormerze mniejsze warianty są strukturalnie zagnieżdżone w większych: wagi E2B stanowią ścisły podzbiór wag E4B, a te są podzbiorem wag wariantu 26B. Cała rodzina powstaje z jednego treningu, bez osobnej destylacji. Powiązany mechanizm Mix'n'Match pozwala łączyć w jednym modelu warstwy o różnych szerokościach, generując z jednego punktu kontrolnego setki podmodeli dopasowanych do różnych ograniczeń sprzętowych[15].
Wariant 26B opiera się na rzadkim Mixture of Experts ze 128 ekspertami i routingiem top-8, dzięki czemu w czasie wnioskowania aktywne pozostaje około 3,8 mld parametrów[7]. Warianty Effective 2B i 4B mają więcej parametrów fizycznych, ale dzięki technice osadzeń per warstwa (ang. Per-Layer Embeddings, PLE) ich efektywny ślad pamięciowy odpowiada modelom o nominalnej wielkości 2 i 4 mld[3]. Licencja Apache 2.0 jest pierwszą w historii rodziny licencją zatwierdzoną przez Open Source Initiative i znosi dotychczasowe ograniczenia treściowe oraz obowiązek dystrybucji pochodnych z polityką Google[16].
Odbiór
edytujGemma 4 31B osiągnęła wynik ELO około 1452 w rankingu LMArena, plasujący ją w okolicach trzeciego miejsca wśród otwartych modeli[7]. The Register, omawiając publikację Gemmy 4, ocenił, że zmiana licencji oraz rozszerzenie obsługi do ponad 140 języków stanowiły bezpośrednią reakcję Google na wzrost popularności otwartych modeli chińskich firm Moonshot AI i Alibaba[8].
Przypisy
edytuj- ↑ a b Gemma: Introducing new state-of-the-art open models [online], blog.google, 21 lutego 2024 [dostęp 2026-04-11].
- ↑ a b Gemma Family Expands with Models Tailored for Developers and Researchers [online], Google Developers Blog, 9 kwietnia 2024 [dostęp 2026-04-27].
- ↑ a b c Gemma releases [online], Google AI for Developers [dostęp 2026-04-11].
- ↑ a b c Gemma Team, Gemma 2: Improving Open Language Models at a Practical Size, „arXiv”, 2024, arXiv:2408.00118 [dostęp 2026-04-11].
- ↑ a b c Gemma Team, Gemma 3 Technical Report, „arXiv”, 2025, arXiv:2503.19786 [dostęp 2026-04-11].
- ↑ Nathan Lambert, Gemma 3, OLMo 2 32B, and the growing potential of open-source AI [online], Interconnects, marzec 2025 [dostęp 2026-04-11].
- ↑ a b c d e f Welcome Gemma 4: Frontier multimodal intelligence on device [online], Hugging Face, 2 kwietnia 2026 [dostęp 2026-04-11].
- ↑ a b Google battles Chinese open-weights models with Gemma 4 [online], The Register, 2 kwietnia 2026 [dostęp 2026-04-11].
- ↑ CodeGemma Team, CodeGemma: Open Code Models Based on Gemma, „arXiv”, 2024, arXiv:2406.11409 [dostęp 2026-04-27].
- ↑ Aleksandar Botev i inni, RecurrentGemma: Moving Past Transformers for Efficient Open Language Models, „arXiv”, 2024, arXiv:2404.07839 [dostęp 2026-04-27].
- ↑ PaliGemma: A versatile 3B VLM for transfer, „arXiv”, 2024, arXiv:2407.07726 [dostęp 2026-04-27].
- ↑ PaliGemma 2: A Family of Versatile VLMs for Transfer, „arXiv”, 2024, arXiv:2412.03555 [dostęp 2026-04-27].
- ↑ Introducing PaliGemma 2: Powerful Vision-Language Models, Simple Fine-Tuning [online], Google Developers Blog, 5 grudnia 2024 [dostęp 2026-04-27].
- ↑ MatFormer: Nested Transformer for Elastic Inference [online], NeurIPS 2023 ENLSP Workshop, 2023 [dostęp 2026-04-11].
- ↑ Maarten Grootendorst, A Visual Guide to Gemma 4 [online], newsletter.maartengrootendorst.com, 2026 [dostęp 2026-04-11].
- ↑ Gemma 4: Expanding the Gemmaverse with Apache 2.0 [online], Google Open Source Blog, marzec 2026 [dostęp 2026-04-11].