Bulbul Stream v3 - SLNG Documentation

Authorizations

Authorization

string

header

required

API key issued by SLNG. Pass as Authorization: Bearer <token>.

Headers

X-World-Part-Override

enum<string>

Target world part override. Auto-selected if not provided.

Available options:

ap

Body

application/json

Sarvam AI Bulbul streaming TTS request.

text

string

required

Text to synthesize. Supports code-mixed text (English and Indic languages).

Required string length: 1 - 3500

target_language_code

enum<string>

default:en-IN

Language code in BCP-47 format for text normalization.

Available options:

bn-IN,

en-IN,

gu-IN,

hi-IN,

kn-IN,

ml-IN,

mr-IN,

od-IN,

pa-IN,

ta-IN,

te-IN

speaker

enum<string>

default:shubh

Speaker voice for the output audio.

Available options:

shubh,

aditya,

ritu,

priya,

neha,

rahul,

pooja,

rohan,

simran,

kavya,

amit,

dev,

ishita,

shreya,

ratan,

varun,

manan,

sumit,

roopa,

kabir,

aayan,

ashutosh,

advait,

amelia,

sophia,

anand,

tanya,

tarun,

sunny,

mani,

gokul,

vijay,

shruti,

suhani,

mohit,

kavitha,

rehan,

soham,

rupali

model

enum<string>

default:bulbul:v3

Sarvam TTS model identifier.

Available options:

bulbul:v3

output_audio_codec

enum<string>

default:mp3

Output audio codec. Determines the response Content-Type.

Available options:

mp3,

wav,

aac,

opus,

flac,

linear16,

mulaw,

alaw

output_audio_bitrate

enum<string>

default:128k

Output audio bitrate.

Available options:

32k,

64k,

128k,

192k,

256k

pace

number

default:1

Speech speed (0.5 to 2.0).

Required range: 0.5 <= x <= 2

speech_sample_rate

integer

default:22050

Output sample rate in Hz.

temperature

number

default:0.6

Controls expressiveness (0.01 to 1.0).

Required range: 0.01 <= x <= 1

enable_preprocessing

boolean

default:false

Normalize English words and numbers before synthesis.

Response

Synthesis successful. Returns binary audio in the codec specified by output_audio_codec (chunked stream).

Binary audio data.