Gerçek Zamanlı Streaming TTS: Rehber ve Kullanım Durumları
Toplu TTS önceden kaydedilmiş içerik için uygundur. Sesli asistanlar, etkileşimli anlatım ve canlı çeviri için streaming gerekir.
Streaming Neden Önemli
Toplu TTS ile 30 saniyelik ses üretmek 3 saniye sürer. Sohbet UX'i için kabul edilemez. Streaming TTS ilk ses parçasını 100-300ms içinde döndürür.
Streaming Mimarisi
İstemci -> WebSocket -> Speeko
|
+-> İlk parça @ 150ms
+-> Sonraki parçalar her 40msÖrnek Kod
const ws = new WebSocket('wss://api.speekoapp.com/v1/tts/stream');
ws.onopen = () => {
ws.send(JSON.stringify({
text: "Bu gerçek zamanlı akıyor.",
voice: "af_heart",
format: "mp3"
}));
};
ws.onmessage = (event) => {
const chunk = new Uint8Array(event.data);
audioBuffer.append(chunk);
audioElement.play();
};Parçalı Ses Oynatma
Tarayıcıda MediaSource Extensions (MSE) kullanın:
const mediaSource = new MediaSource();
audioElement.src = URL.createObjectURL(mediaSource);
mediaSource.addEventListener('sourceopen', () => {
const buffer = mediaSource.addSourceBuffer('audio/mpeg');
ws.onmessage = (e) => buffer.appendBuffer(e.data);
});Kullanım Durumları
Sesli asistanlar: Streaming TTS'i streaming LLM çıktısıyla eşleştirin. LLM token üretirken TTS'e akıtın. Toplam gecikme 500ms altında kalır.
Canlı çeviri: AI ile konferans tercümesi. Konuşmacının sözleri yakalanır, çevrilir, sentezlenir, teslim edilir — hepsi saniye altında.
Etkileşimli kurgu: Dinleyici seçimlerine dayalı dallanan ses anlatıları.
Erişilebilirlik araçları: Robotik değil, duyarlı hissettiren ekran okuyucular.
Dikkat Edilmesi Gerekenler
Streaming Speeko'da toplu olandan %20 daha pahalı. Düşük gecikmeli parçalar sunma altyapısı pahalıdır. Önceden kaydedilmiş içerik için toplu kalın.
İnşa Etmeye Başlayın
Streaming API erişimi alın ve sesli ürünlerin yeni neslini inşa edin.