Meta zaprezentowała Muse Spark, pierwszy model sztucznej inteligencji wyprodukowany przez Meta Superintelligence Labs, nową jednostkę badawczą AI utworzoną w zeszłym roku, która wydała miliardy dolarów na personel i sprzęt.
Model, według testów porównawczych opublikowanych przez Meta, jest w wielu zadaniach konkurencyjny w stosunku do wiodących modeli AI firm OpenAI, Anthropic i Google, choć nie przewyższa ich pod względem ogólnym. Jeśli jednak wyniki testów porównawczych potwierdzą się w testach niezależnych ekspertów, wydaje się, że Muse Spark przywróci Meta do wyścigu AI po tym, jak jej ostatni model AI, Llama 4, który został wprowadzony na rynek w kwietniu 2025 r., został powszechnie skrytykowany jako porażka.
Jednak w przeszłości Meta została przyłapana na manipulowaniu opublikowanymi wynikami testów porównawczych modelu sztucznej inteligencji, aby sprawiał wrażenie bardziej wydajnych niż wersja dostępna dla większości użytkowników. Tak było w przypadku benchmarków Meta Llama 4, gdzie firma przyznała się później, że w celu poprawy wyników benchmarków w tych obszarach korzystała ze specjalistycznych, niepublikowanych wcześniej wersji modelu, dostosowanych do konkretnych zadań, w celu poprawy wyników benchmarków w tych obszarach, podczas gdy ogólna wersja dostępna dla wszystkich użytkowników nie radziła sobie tak dobrze.
I jest jeszcze jeden problem. Niewiele osób będzie mogło korzystać z nowego modelu Meta poza ekosystemem produktowym firmy. W przeciwieństwie do poprzednich modeli AI Meta, które były wydawane jako modele „otwarte”, co oznacza, że każdy mógł pobrać je za darmo i uruchomić na własnym komputerze, a także modyfikować i dostrajać według własnego uznania, Muse Spark jest, przynajmniej na razie, przede wszystkim wewnętrznym narzędziem Meta.
Obecnie model obsługuje asystenta Meta AI w samodzielnej aplikacji Meta AI firmy oraz w meta.ai. Firma poinformowała, że w nadchodzących tygodniach wprowadzi ją na WhatsApp, Instagram, Facebook, Messenger i okulary Meta Ray-Ban AI. Stwierdzono również, że będzie oferować model w „prywatnej wersji zapoznawczej”, aby wybierać partnerów za pośrednictwem interfejsu programowania aplikacji (API). To sprawia, że Muse Spark jest jeszcze bardziej autorski niż płatne, autorskie modele oferowane przez rywali Meta. (Meta napisała w poście na blogu, że ma nadzieję udostępnić przyszłe wersje modelu na zasadach open source).
Muse Spark to pierwszy model rozumowania Meta, co oznacza, że możesz pracować krok po kroku, stosując różne strategie, jeśli początkowe podejście nie zadziała. Wszystkie poprzednie modele firmy zostały zaprojektowane tak, aby zapewniać natychmiastową reakcję w oparciu o szkolenie modeli. Muse Spark to także model multimodalny, który może odbierać i generować tekst i obrazy. Jak wynika z technicznego wpisu na blogu opublikowanego przez Meta, model obsługuje także inne narzędzia programowe i może pomóc w koordynowaniu pracy wielu subagentów.
W swoim poście na blogu ogłaszającym nowy model Meta opisuje Muse Spark jako „mały i szybki z założenia, ale wystarczająco zdolny do rozwiązywania złożonych problemów z zakresu nauk ścisłych, matematyki i zdrowia”. Opisuje model jako pierwszy z serii nowych modeli, w których Muse Spark służy do walidacji architektury i reżimu szkoleniowego, z którego korzysta Meta, zanim firma rozszerzy go na większe i jeszcze wydajniejsze modele z tej samej rodziny.
Model posiada również tryb „kontemplacji” lub „myślenia”, w którym podagenci mogą równolegle zastanawiać się nad różnymi częściami zadania. Meta stwierdziła na blogu technicznym, który opublikowała na temat nowego modelu, że ten tryb pozwala Muse Spark „konkurować z ekstremalnymi trybami rozumowania najnowocześniejszych modeli, takich jak Gemini Deep Think i GPT Pro”.
Wyniki testów porównawczych opublikowane wraz z premierą obrazują obraz konkurencyjnego, ale nie dominującego modelu. Na przykład w teście GPQA Diamond, który ma testować zdolność rozumowania na poziomie doktora, Muse Spark uzyskał 89,5%, nieco za 94,3% Gemini 3.1 Pro oraz 92,7% i 92,8% odpowiednio Claude Opus 4.6 firmy Anthropic i GPT-5.4 OpenAI. W wiodącym teście zdrowia HealthBench Hard Muse Spark przewyższył wszystkie konkurencyjne modele z wynikiem 42,8%, czyli znacznie lepiej niż Opus 4.6 czy Gemini 3.1 Pro i nieco lepiej niż GPT-5.4.
Meta rozpoznała luki w wydajności. W technicznym poście na blogu znajduje się informacja, że firma w dalszym ciągu „inwestuje w obszary, w których występują luki w wydajności, w szczególności w długoterminowe systemy agentów i przepływy pracy związane z kodowaniem”.
Premiera Muse Spark jest najbardziej namacalnym produktem szeroko zakrojonej reorganizacji, którą Meta podjęła po fiasku Llama 4. W czerwcu 2025 r. Meta wydała 14,3 miliarda dolarów na nabycie 49% udziałów bez prawa głosu w Scale AI i zatrudniła swojego współzałożyciela i dyrektora generalnego, Alexandra Wanga, na stanowisko pierwszego dyrektora generalnego Meta ds. sztucznej inteligencji.
Wangowi powierzono zadanie kierowania nowo utworzoną jednostką Meta Superintelligence Labs. Wang i Zuckerberg wdali się w szał pozyskiwania talentów, oferując badaczom sztucznej inteligencji z konkurencyjnych laboratoriów AI pakiety wynagrodzeń, które podobno opiewały na setki milionów dolarów, po uwzględnieniu kapitału własnego. Firma przeznaczyła także setki miliardów dolarów na budowę infrastruktury obliczeniowej AI, aby wesprzeć swój nowy rozwój sztucznej inteligencji.
Od tego czasu nastąpiła dalsza reorganizacja, nawet gdy Muse Spark był w fazie rozwoju. W marcu 2026 r. Meta utworzyła nową organizację zajmującą się inżynierią stosowaną AI, na której czele stoi Maher Saba, wiceprezes, który wcześniej pracował w dziale rzeczywistości wirtualnej i rozszerzonej Reality Labs firmy Meta. Saba raportuje bezpośrednio do dyrektora technologicznego Meta, Andrew Boswortha. Jednostka Saby współpracuje z Wang Superintelligence Labs nad zbudowaniem czegoś, co w wewnętrznej notatce opisano jako „silnik danych, który pomaga naszym modelom działać lepiej i szybciej”. Posunięcie to zostało powszechnie zinterpretowane jako zabezpieczenie przez Zuckerberga swoich założeń i zapewnienie kontynuacji rozwoju sztucznej inteligencji ukierunkowanej na produkt, nawet jeśli Wang będzie prowadził długoterminowe badania nad superinteligencją.
W technicznym poście na blogu Meta informuje, że w ciągu ostatnich dziewięciu miesięcy jej zespół przebudował od podstaw stos sztucznej inteligencji, włączając ulepszenia architektury modelu, optymalizację i sprawdzanie danych. Firma twierdzi, że te udoskonalenia pozwalają jej osiągnąć te same możliwości przy „ponad rząd wielkości mniejszej mocy obliczeniowej” niż poprzedni model Meta, Llama 4 Maverick. Meta twierdzi również, że jej proces uczenia się przez wzmacnianie zapewnia obecnie „płynne i przewidywalne korzyści” oraz że Muse Spark stanowi pierwszy krok w zamierzonej „drabince skalowania”, w której każde pokolenie weryfikuje poprzednie, zanim firma wytrenuje większe modele.
Jeśli chodzi o bezpieczeństwo, Meta twierdzi, że Muse Spark przeszedł szeroko zakrojoną ocenę przed wdrożeniem, zgodnie ze zaktualizowanymi ramami bezpieczeństwa firmy. Model odnotowuje imponujące wyniki w zakresie bezpieczeństwa w zakresie inżynierii potencjalnej broni biologicznej: w jednym teście odrzucono 98% żądań, które według projektantów testów porównawczych mogłyby pomóc komuś w opracowaniu broni biologicznej.
Jednak w poście na blogu wskazano również, że niezależny tester Apollo Research odkrył, że Muse Spark wykazał najwyższy wskaźnik „świadomości oceny” spośród wszystkich modeli, jakie Apollo kiedykolwiek zaobserwował, często identyfikując scenariusze testowe jako „pułapki wyrównania”. Meta twierdzi, że jego własne badania uzupełniające znalazły wstępne dowody na to, że świadomość ta może wpływać na zachowanie modelu w niewielkim podzbiorze ocen dopasowania, ale doszedł do wniosku, że „nie był to problem blokujący uwalnianie”.
W 2001 roku magazyn Fortune po raz pierwszy zwołał „Najmądrzejszych ludzi, jakich znamy”, skupiając dyrektorów generalnych i założycieli, konstruktorów i inwestorów, myślicieli i przedsiębiorców. Od tego czasu Fortune Brainstorm Tech jest miejscem zderzenia odważnych pomysłów. W dniach 8-10 czerwca powrócimy do Aspen, gdzie wszystko się zaczęło, aby uczcić 25-lecie Brainstorm. Zarejestruj się teraz.

