Jakie LLM-y są obsługiwane?

Każdy LLM, który generuje tekst. SDK ma wbudowaną obsługę streamowania dla OpenAI (Responses API i Chat Completions API), Anthropic Messages API i Google Gemini API. Dla innych dostawców wystarczy przekazać zwykły string lub asynchroniczny iterable fragmentów tekstu.

Czym różni się Speech Engine od ElevenAgents?

ElevenAgents to w pełni hostowana platforma, gdzie ElevenLabs dostarcza LLM, bazę wiedzy i narzędzia. Speech Engine jest dla deweloperów, którzy chcą użyć własnego LLM i mieć pełną kontrolę nad logiką rozmowy na swoim serwerze.

Jakie frameworki serwerowe są obsługiwane?

W TypeScript możesz podłączyć Speech Engine do dowolnego serwera Node.js (Express, Fastify lub zwykły http.createServer()), albo uruchomić osobny serwer WebSocket. W Pythonie SDK daje osobny serwer przez engine.serve(), albo możesz zintegrować z FastAPI, Starlette lub dowolnym frameworkiem ASGI przez engine.create_session().

Poznaj Speech Engine

Zmień swojego agenta czatu w agenta głosowego

Zacznij Napisz do działu sprzedaży

Dodaj ludzki głos do swojego agenta czatu jednym promptem. My zajmiemy się głosem. LLM, RAG i architektura twojego agenta zostają bez zmian.

Dodaj warstwę głosu do swojego systemu

Zacznij

Speech Engine działa na twoim obecnym systemie. Nic nie trzeba przebudowywać, a agent tekstowy działa jak dotąd.

Pełna warstwa głosu w jednej integracji

Speech Engine łączy nasze modele mowy, transkrypcji i orkiestracji głosu w jednym pipeline – wszystko stworzone, by działać razem jak najlepiej.

Speech Engine

Speech to Text

Turn Detection

Interrupt Detection

Text to Speech

Audio Orchestration

Dodaj głos do swojego chatbota

Głos to najszybszy i najbogatszy sposób wymiany informacji – ułatwia korzystanie z produktów i usług.

Płynna rozmowa

Nasze modele głosu są zoptymalizowane pod rozmowy i działają z minimalnym opóźnieniem w prawdziwych warunkach.

Obsługa przerw i zmiany kolejności mówienia

Dedykowane modele obsługują nakładające się wypowiedzi i zmiany w trakcie zdania – bez dodatkowej logiki po twojej stronie.

Obsługa ponad 70 języków na całym świecie

Naturalne, wyraziste głosy AI z pełną gamą emocji w wielu językach.

Technologia głosu sprawdzona w milionach rozmów

Każdy element zbudowany i zoptymalizowany, by działać najlepiej razem.

Speech to Text

Nasz model transkrypcji dokładnie rozpoznaje mowę w rozmowach i zapisuje ją z opóźnieniem tylko 80 ms.

Text to Speech

Wyraziste, naturalne głosy w ponad 70 językach. Wybierz z naszej biblioteki ponad 11 000 głosów lub stwórz własny dzięki Voice Cloning.

Wykrywanie zmiany mówcy

Rozpoznaje, kiedy użytkownik skończył mówić, a kiedy tylko robi pauzę – dokładnie kontroluje, kiedy transkrypcja trafia do twojego LLM.

Obsługa przerwań

Nasłuchuje głosu użytkownika, gdy agent mówi. Zatrzymuje odtwarzanie i natychmiast wraca, gdy użytkownik się wtrąci.

Wykrywanie aktywności głosowej

Filtruje głos od szumów w tle już na wejściu, więc do modelu transkrypcji trafia tylko czysty dźwięk.

Zarządzanie dźwiękiem

Zarządza całym cyklem głosu – od nagrania użytkownika po odpowiedź agenta.

Dodaj Speech Engine do agenta jednym promptem

Zainstaluj jednym poleceniem dzięki naszej skillce. Skill ustawia wszystko za ciebie – przechodzisz z czatu do głosu w jednej komendzie.

Server SDK

Podłącz Speech Engine do swojego serwera. Odbieraj transkrypcje, przekazuj je do LLM i odsyłaj odpowiedź – wszystko w kilku linijkach.

import { ElevenLabsClient } from "@elevenlabs/elevenlabs-js";
import "dotenv/config";
const elevenlabs = new ElevenLabsClient({
  apiKey: process.env.ELEVENLABS_API_KEY,
});
const engine = await elevenlabs.speechEngine.create({
  name: "My Speech Engine",
  speechEngine: {
    // Note we use the wss protocol instead of https
    wsUrl: "wss://abc123.ngrok.io/ws",
  },
});
console.log("Speech Engine ID:", engine.engineId);

Interfejs ElevenLabs

Dodaj gotowe komponenty UI – orby agenta, wykresy fal i widgety czatu – albo zbuduj własne na tym samym SDK.

Zobacz ElevenLabs UI

Chat interface with options for customer support and text input field. "Yes, for John Johnson please" visible.

Client SDK

Rozpocznij sesję rozmowy z przeglądarki lub aplikacji mobilnej w trzech linijkach. To ta sama integracja co w ElevenAgents, więc późniejsza zmiana nie wymaga poprawek.

import express from "express";
import { ElevenLabsClient } from "@elevenlabs/elevenlabs-js";
import "dotenv/config";

const app = express();
const elevenlabs = new ElevenLabsClient({ apiKey: process.env.ELEVENLABS_API_KEY });
const speechEngineId = "seng_8k3m9xr4hjnfg983brhmhkd98n6";

app.get("/api/token", async (req, res) => {
  const { token } = await elevenlabs.conversationalAi.conversations.getWebrtcToken({ agentId: speechEngineId });
  res.json({ token });
});

app.listen(3002, () => console.log("Token server listening on port 3002"));

Zabezpieczenia na poziomie firmowym

Nasza platforma jest gotowa na wdrożenia na dużą skalę i chroni dane na poziomie enterprise, w tym zgodność z SOC 2, HIPAA i RODO. Możesz wybrać przechowywanie danych w UE i tryb Zero Retention dla pełnej kontroli.

Dowiedz się więcej