Gerçek Zamanlı Streaming TTS: Rehber ve Kullanım Durumları

Toplu TTS önceden kaydedilmiş içerik için uygundur. Sesli asistanlar, etkileşimli anlatım ve canlı çeviri için streaming gerekir.

Streaming Neden Önemli

Toplu TTS ile 30 saniyelik ses üretmek 3 saniye sürer. Sohbet UX'i için kabul edilemez. Streaming TTS ilk ses parçasını 100-300ms içinde döndürür.

Streaming Mimarisi

İstemci -> WebSocket -> Speeko
            |
            +-> İlk parça @ 150ms
            +-> Sonraki parçalar her 40ms

Örnek Kod

const ws = new WebSocket('wss://api.speekoapp.com/v1/tts/stream');

ws.onopen = () => {
  ws.send(JSON.stringify({
    text: "Bu gerçek zamanlı akıyor.",
    voice: "af_heart",
    format: "mp3"
  }));
};

ws.onmessage = (event) => {
  const chunk = new Uint8Array(event.data);
  audioBuffer.append(chunk);
  audioElement.play();
};

Parçalı Ses Oynatma

Tarayıcıda MediaSource Extensions (MSE) kullanın:

const mediaSource = new MediaSource();
audioElement.src = URL.createObjectURL(mediaSource);

mediaSource.addEventListener('sourceopen', () => {
  const buffer = mediaSource.addSourceBuffer('audio/mpeg');
  ws.onmessage = (e) => buffer.appendBuffer(e.data);
});

Kullanım Durumları

Sesli asistanlar: Streaming TTS'i streaming LLM çıktısıyla eşleştirin. LLM token üretirken TTS'e akıtın. Toplam gecikme 500ms altında kalır.

Canlı çeviri: AI ile konferans tercümesi. Konuşmacının sözleri yakalanır, çevrilir, sentezlenir, teslim edilir — hepsi saniye altında.

Etkileşimli kurgu: Dinleyici seçimlerine dayalı dallanan ses anlatıları.

Erişilebilirlik araçları: Robotik değil, duyarlı hissettiren ekran okuyucular.

Dikkat Edilmesi Gerekenler

Streaming Speeko'da toplu olandan %20 daha pahalı. Düşük gecikmeli parçalar sunma altyapısı pahalıdır. Önceden kaydedilmiş içerik için toplu kalın.

İnşa Etmeye Başlayın

Streaming API erişimi alın ve sesli ürünlerin yeni neslini inşa edin.