OpenAI lanserar gpt-realtime – den mest avancerade och billigare röstmodellen hittills

Smartare röstdetektering med stöd för flera språk och lägre kostnad

openai gpt realtime promo 2025

OpenAI tar nästa steg i utvecklingen av röstsamtal mellan människa och AI. Den nya modellen gpt-realtime bygger vidare på Realtime API som släpptes i oktober 2024, men erbjuder högre precision, naturligare röster och fler funktioner – samtidigt som priset faktiskt sänks.

Viktigt att veta

  • gpt-realtime är OpenAIs mest avancerade tal-till-tal-modell hittills.
  • Förstår och följer komplexa instruktioner bättre än tidigare versioner.
  • Nya röster introduceras: Marin och Cedar, samtidigt som de gamla förbättrats.
  • Modellen har högre noggrannhet i tester: 82,8 % på Big Bench Audio jämfört med 65,6 % för föregångaren.
  • Realtime API får nya funktioner som stöd för bilder, SIP-telefonsamtal och återanvändbara prompts.
  • Priset har sänkts med 20 %, vilket gör tekniken mer tillgänglig för utvecklare.

Vad är gpt-realtime?

Den nya modellen är tränad för verkliga situationer som kundtjänst, utbildning och personliga assistenter. Till skillnad från traditionella lösningar där tal omvandlas till text, bearbetas och sedan åter omvandlas till tal, hanterar gpt-realtime hela processen i en och samma modell. Det gör att svaren blir mer naturliga, snabbare och bättre på att behålla nyanser i rösten.

Förbättrad röstkvalitet

Rösten låter mer mänsklig och kan anpassas efter instruktioner. Exempelvis kan modellen tala ”snabbt och professionellt” eller ”empatiskt på franska”. Två nya röster, Marin och Cedar, läggs till, och de sex tidigare rösterna har förbättrats för att låta mer naturliga.

Bättre förståelse

En stor skillnad är modellens förmåga att tolka och förstå ljuddata. Den kan nu hantera skratt, byta språk mitt i en mening och läsa upp komplicerade tecken som telefonnummer eller registreringsnummer med högre precision. I tester visar den tydliga framsteg jämfört med tidigare generationer.

  • Big Bench Audio: 82,8 % (tidigare 65,6 %)
  • MultiChallenge: 30,5 % (tidigare 20,6 %)
  • ComplexFuncBench: 66,5 % (tidigare 49,7 %)

Nya API-funktioner

För utvecklare kommer flera nyheter i Realtime API:

  • Bildstöd: nu kan användaren ladda upp en bild eller skärmdump för att diskutera innehållet direkt i konversationen.
  • SIP-samtal: koppla AI-agenten direkt till telefonnät, växlar eller skrivbordstelefoner.
  • MCP-servrar: enklare integration med externa verktyg.
  • Återanvändbara prompts: spara instruktioner och återanvänd i flera sessioner.

Lägre pris

Trots de stora förbättringarna blir tjänsten billigare. gpt-realtime är 20 % billigare än föregångaren gpt-4o-realtime-preview.

Kostnaden ligger på 32 dollar per 1 miljon ljud-inmatningstokens och 64 dollar per 1 miljon ljud-utmatningstokens.

FAQ

Vad kan jag använda gpt-realtime till?

Den är byggd för appar och tjänster som behöver naturliga röstsamtal: kundtjänst, undervisning, personliga assistenter, röststyrda verktyg och spel.

Är rösten verkligen mer naturlig än tidigare?

Ja. Modellen kan lägga till tonfall, pauser och känslor som gör att den låter mer mänsklig. Dessutom kan du instruera hur den ska låta i olika situationer.

Kan jag använda gpt-realtime på svenska?

Ja, modellen är tränad för att förstå och växla mellan flera språk, även mitt i en mening.

Hur fungerar bildstödet i API:t?

Du kan ladda upp en bild eller skärmdump som en del av konversationen. Modellen kan då läsa text i bilden eller beskriva vad den ser.

Är det billigare än tidigare?

Ja, priset har sänkts med 20 %. Det gör tekniken mer tillgänglig för fler utvecklare och företag.

Är användningen säker?

Ja, OpenAI har infört flera skydd mot missbruk. Dessutom är API:t anpassat för EU:s dataskydd med stöd för datalagring inom EU.

Mikael Anderberg är en veteran inom teknikvärlden med stor kännedom kring tillverkare, nya tekniker och produkter. Har mångårig erfarenhet från blogg- och it-världen vilken bidrar till utvecklingen av Tekniksmart tillsammans med andra entusiaster. Mikael har i grunden expertis inom fotografering och kamerautrustning, copywriter och content editing, och SEO. Läs mer om mig här.