ElevenLabs przeszedł metamorfozę z prostego narzędzia do zamiany tekstu na mowę z kompletną platformę konwersacyjną. Teraz to nie tylko generowanie głosu, ale prawdziwe rozmowy z AI, które potrafią zmieniać ton, przełączać się między postaciami i prowadzić naturalne dialogi.
Oczywiście na razie znajdziemy tam kilka niedoskonałości – ale jest naprawdę nieźle!
Audio tagi zmieniają wszystko
Eleven v3 wprowadza system audio tagów, który pozwala kontrolować każdy aspekt wypowiedzi. Zamiast nadziei, że AI samo się domyśli, teraz można napisać: [whispers] To jest tajemnica [excited] ale muszę ci powiedzieć!
.
Dostępnych jest ponad 70 tagów emocjonalnych i stylistycznych: [laughs]
, [angry]
, [sighs]
, [dramatic tone]
, [pause]
. Każdy tag działa jak instrukcja reżyserska dla głosu AI.
Prawdziwe konwersacje dwóch osób
Największą nowością jest możliwość tworzenia naturalnych dialogów między różnymi postaciami. System potrafi symulować przerywanie sobie, nakładanie się głosów i spontaniczne reakcje.
Przykład napisany przeze mnie:
Jessica: Hej, Geral! Dostałam zlecenie na stworzenie nowego chatbota AI. [hesitantly] Dobrze płacą, ale mam pewne obawy!
Chris: [curiously] Obawy? Jakie dokładnie, demony z sieci? [whispering] Czy może ludzie, którzy będą go używać?
Jessica: [excited] Trochę jedno, trochę drugie. [whispering] Boję się, że jeśli go dobrze nie zaprojektuję, zacznie działać… samodzielnie?!
Chris: [giggling] Brzmi znajomo. Stworzysz coś potężnego, a potem ludzie zaczynają to wykorzystywać w głupi sposób. [heartily laugh] Ha ha ha!
Jessica: [delighted] Czyli… co byś zrobił na moim miejscu?!
Chris: [enthusiastically] Wziąłbym zlecenie! [sarcastically] Ale dodał kilka run ochronnych… albo ich cyfrowych odpowiedników. [deep voice] I zawsze miałbym rękę na klawiaturze.
Jessica: [amazed] Dzięki, Geral! Z tobą nawet kodowanie brzmi jak polowanie na potwory!
Chris: [wanting] Bo czasem to jedno i to samoEFEKT:
To nie jest sztuczne odtwarzanie kolejnych linijek, ale prawdziwa konwersacja z wszystkimi jej niedoskonałościami.
Kontrola nad każdym słowem
Eleven v3 pozwala na zmianę tonu, tempa i emocji w trakcie jednego nagrania. Możesz zacząć spokojnie, przejść do podekscytowania, a skończyć szeptem – wszystko w jednym wygenerowanym pliku.
System rozumie kontekst i wie, kiedy zastosować pauzę dla dramatycznego efektu, a kiedy przyspieszyć tempo dla budowania napięcia.
Akcenty i charakteryzacja
Nowe audio tagi umożliwiają też zmianę akcentów w trakcie mówienia. Możesz przełączać się między brytyjskim, amerykańskim, francuskim czy australijskim akcentem używając tagów typu [British accent]
czy [Australian accent]
.
To otwiera możliwości dla twórców treści, którzy mogą teraz tworzyć wielopostaciowe historie lub materiały edukacyjne bez potrzeby angażowania kilku lektorów.
Asystent, który faktycznie coś robi
Najnowszy produkt ElevenLabs, wykorzystuje protokół MCP (Model Context Protocol) do połączenia z prawdziwymi narzędziami. To znaczy, że można mu powiedzieć: “Sprawdź mój kalendarz na piątek i dodaj spotkanie z klientem” – i faktycznie to zrobi.
System łączy się z Gmail, Slack, Google Calendar, Perplexity i dziesiątkami innych aplikacji. W przeciwieństwie do tradycyjnych asystentów głosowych, 11.ai nie tylko odpowiada na pytania, ale wykonuje konkretne akcje.
Bezpieczeństwo i kontrola
Architektura MCP zapewnia, że AI ma dostęp tylko do tych funkcji, które użytkownik jawnie autoryzuje. Każda integracja może być skonfigurowana z odpowiednimi uprawnieniami.
Dla twórców treści
Dla biznesu
Dla edukacji
Profesjonalne klony głosu
Eleven v3 nie jest jeszcze w pełni zoptymalizowany pod kątem profesjonalnych klonów głosu. Jakość może być niższa niż w przypadku wcześniejszych modeli. ElevenLabs zaleca na razie używanie Instant Voice Clone dla projektów wymagających v3.
Wymagania dotyczące promptów
Model v3 jest bardziej wymagający co do jakości promptów. Krótkie teksty (poniżej 250 znaków) mogą dawać niespójne rezultaty. Najlepiej działa z dłuższymi, bardziej kontekstowymi tekstami.
ElevenLabs nie poprzestaje na obecnych osiągnięciach. Firma planuje rozszerzenie działalności o nowe huby w Paryżu, Singapurze, Brazylii i Meksyku w ciągu najbliższych pięciu lat.
Rynek głosowego AI rośnie w tempie 30,7% rocznie i ma osiągnąć wartość 54,5 miliarda dolarów do 2033 roku. ElevenLabs, z obecną wyceną 3,3 miliarda dolarów, jest jednym z głównych beneficjentów tego trendu.
Konwersacje z AI stają się coraz bardziej naturalne. Za kilka lat różnica między rozmową z człowiekiem a sztuczną inteligencją może być praktycznie nierozpoznawalna. ElevenLabs właśnie pokazał, że ta przyszłość jest bliżej niż myślimy.