Serverless GPU-platforms: RunPod, Modal en Beam vergeleken

Modal Labs sluit $87 miljoen Series B af tegen een waardering van $1,1 miljard (september 2025). RunPod haalt $20 miljoen op voor Europese/Aziatische expansie. Baseten sluit $150 miljoen Series D af. Cold starts teruggebracht van 30-60 seconden naar minder dan een seconde via container caching. Serverless GPU wordt de standaard voor burst-achtige inferentie zonder dedicated infrastructuur.

Blake Crosley

Mar 19, 2026 7 min read Disclaimer

Serverless GPU-platforms: RunPod, Modal en Beam vergeleken

Bijgewerkt op 11 december 2025

Update december 2025: Modal Labs sluit $87 miljoen Series B af tegen een waardering van $1,1 miljard (september 2025). RunPod haalt $20 miljoen op voor Europese/Aziatische expansie. Baseten sluit $150 miljoen Series D af. Cold starts teruggebracht van 30-60 seconden naar minder dan een seconde via container caching. Serverless GPU wordt de standaard voor burst-achtige inferentie zonder dedicated infrastructuur.

Modal Labs sloot in september 2025 een Series B van $87 miljoen af, waarmee het bedrijf gewaardeerd werd op $1,1 miljard.¹ Drie maanden eerder haalde RunPod $20 miljoen op om zijn wereldwijde datacenteraanwezigheid in Europa en Azië uit te breiden.² De financiering bevestigt wat ontwikkelaars al wisten: serverless GPU-platforms zijn de standaardkeuze geworden voor AI-inferentieworkloads die geen dedicated infrastructuur rechtvaardigen. Het begrijpen van de afwegingen tussen RunPod, Modal, Beam en concurrenten helpt organisaties platforms te kiezen die passen bij hun workloadkenmerken.

Serverless GPU-prijzen elimineren de fundamentele spanning van dedicated compute—betalen voor GPU's die stilstaan tussen verzoeken. Het model werkt uitstekend voor burst-achtige inferentieworkloads waarbij verkeer onvoorspelbaar piekt, maar de economie keert om voor scenario's met aanhoudend hoog gebruik. Het kiezen van het juiste platform vereist het matchen van workloadpatronen met prijsmodellen, cold start-tolerantie en functievereisten.

Het serverless GPU-landschap

Serverless GPU-platforms abstraheren infrastructuurbeheer terwijl ze on-demand toegang bieden tot versnelde compute. Het model verschilt fundamenteel van traditionele cloud GPU-instances:

Traditionele cloud GPU's: Reserveer instances per uur. Betaal ongeacht gebruik. Beheer containers, schaling en infrastructuur zelf.

Serverless GPU's: Betaal per seconde daadwerkelijke uitvoering. Platform regelt containerorkestratie, autoscaling en infrastructuur. Resources schalen naar nul wanneer inactief.

De afweging draait om controle versus gemak. Serverless platforms rekenen premium tarieven per seconde, maar elimineren infrastructuuroverhead en inactieve kosten. Organisaties die continue workloads met hoog gebruik draaien, betalen meer; die met variabele vraag betalen minder.

Marktontwikkeling

De serverless GPU-markt is in 2025 aanzienlijk gerijpt:

Financieringsactiviteit: Modal's waardering van $1,1 miljard, RunPod's expansiefinanciering en Baseten's Series D van $150 miljoen tonen het vertrouwen van investeerders in het model.³

Cold start-verbeteringen: Platforms hebben cold starts teruggebracht van 30-60 seconden naar minder dan een seconde door container caching en pre-warming strategieën.

GPU-variëteit: Aanbieders bieden nu alles van T4's voor $0,40/uur tot H100's voor $4,50/uur tot B200's voor $6,25/uur tegen serverless prijzen.⁴

Enterprise-adoptie: Functies zoals VPC-peering, SOC 2-compliance en dedicated capaciteitscontracten trokken enterprise-klanten aan die verder gaan dan ontwikkelaarsexperimenten.

Platformverdiepingen

RunPod: De prijsleider

RunPod heeft zijn reputatie opgebouwd met agressieve prijzen en GPU-variëteit. Het platform biedt serverless endpoints naast traditionele pod-verhuur, waardoor gebruikers deployment-modellen kunnen kiezen op basis van workloadkenmerken.

Prijsstructuur:

RunPod's serverless pricing werkt met twee workertypes:⁵

Flex Workers: On-demand workers die naar nul schalen. Betaal alleen tijdens actieve verzoekverwerking. Ideaal voor variabele workloads en kostenoptimalisatie.

Active Workers: Altijd-aan workers met 20-30% korting versus flex-prijzen. Continu in rekening gebracht ongeacht gebruik. Het beste voor consistente workloads die onmiddellijke respons vereisen.

Representatieve serverless tarieven (december 2025): - T4: $0,40/uur - A100 40GB: $1,89/uur - A100 80GB: $2,17/uur - H100 80GB: $4,47/uur - H200 SXM: $3,99/uur

Cold start-prestaties:

RunPod claimt dat 48% van de serverless cold starts binnen 200ms voltooid wordt via FlashBoot-technologie.⁶ Pre-warmed instances elimineren cold starts volledig voor latentiegevoelige applicaties. Echter, custom modeldeployments zonder optimalisatie kunnen cold starts van meer dan 60 seconden ervaren voor grote containers.

Belangrijkste functies:

31 wereldwijde regio's in Noord-Amerika, Europa en Azië
Geen ingress/egress-kosten (ongebruikelijk bij cloudproviders)
GitHub deployment-integratie met one-click launches
Instant rollback naar eerdere containerversies
Network volumes voor gedeelde opslag over workers

Het beste voor: Budgetbewuste deployments, variabele workloads, teams die kosten boven latentieconsistentie prioriteren.

Modal Labs heeft zijn platform ontworpen rond Python-native workflows, waarbij YAML-configuratie en REST API-complexiteit die traditionele ML-deployment kenmerken, worden geëlimineerd.

Programmeermodel:

Modal transformeert Python-functies naar cloud workloads via decorators:

import modal

app = modal.App()

@app.function(gpu="A100")
def run_inference(prompt: str) -> str:
    # Je inferentiecode
    return result

# Voer remote uit
result = run_inference.remote("Hello world")

De aanpak elimineert containerconfiguratie voor de meeste use cases. Modal bouwt automatisch containers van lokale omgevingen, plant uitvoering op gespecificeerde hardware en streamt logs in realtime terug.⁷

Prijsstructuur:

Modal rekent per CPU-cyclus waarbij GPU-tijd per seconde wordt gefactureerd. Representatieve tarieven: - A10G: ~$1,10/uur - A100 40GB: ~$2,78/uur - A100 80GB: ~$3,72/uur - H100: ~$4,76/uur - B200: $6,25/uur⁸

Het platform omvat CPU- en geheugenkosten naast GPU-kosten, die concurrenten soms scheiden.

Cold start-prestaties:

Modal heeft zijn containersysteem vanaf nul in Rust gebouwd specifiek voor snelle cold starts. Het platform bereikt spin-ups van minder dan een seconde voor de meeste workloads, schalend van nul naar duizenden GPU's in seconden.⁹

Belangrijkste functies:

Cold starts van minder dan een seconde door Rust-gebaseerd containersysteem
Pure Python deployment—geen YAML of Dockerfiles vereist
Ingebouwd secrets management, cron scheduling en web endpoints
Oracle Cloud Infrastructure-partnerschap voor concurrerende GPU-prijzen
AWS Marketplace-integratie voor committed spend-toepassing

Het beste voor: Python-centrische teams, snelle iteratiecycli, ontwikkelaars die ervaring boven maximale kostenoptimalisatie prioriteren.

Beam: Het open-source alternatief

Beam differentieert zich door open-source flexibiliteit. Het platform heeft zijn core runtime (beta9) open-sourced, waardoor self-hosting mogelijk is terwijl managed cloud als gemaksoptie wordt aangeboden.

Architectuur:

Beam biedt serverless infrastructuur expliciet ontworpen voor generatieve AI:¹⁰

Serverless REST API deployment
Geplande cron jobs
Task queues voor async verwerking
Ondersteuning voor training workloads

Het platform benadrukt ontwikkelaarservaring met Python SDK, hot-reloading tijdens ontwikkeling en deployment vanuit GitHub Actions.

Prijsstructuur:

Beam gebruikt pay-per-second pricing zonder voorafgaande kosten of verplichtingen. Specifieke GPU-tarieven vereisen direct overleg, aangezien het platform zich richt op custom configuraties in plaats van gepubliceerde tariefkaarten.

Cold start-prestaties:

Beam bereikt cold starts van 2-3 seconden voor de meeste functies, met warm starts zo snel als 50ms.¹¹ Het platform claimt "grenzeloze horizontale schaling" voor workloads die snelle uitbreiding vereisen.

Belangrijkste functies:

Open-source runtime (beta9) beschikbaar voor self-hosting
Dezelfde CLI-ervaring over cloud, on-prem en hybride deployments
Portable workloads—geen vendor lock-in
Snelle cloud storage-integratie
Lokaal debuggen met cloud deployment

Het beste voor: Teams die self-hosting opties nodig hebben, hybride cloud deployments, organisaties die portabiliteit boven managed gemak prioriteren.

Baseten: Het enterprise inferentieplatform

Baseten positioneert zich als een productie-klaar inferentieplatform in plaats van general-purpose serverless compute. De focus op model serving maakt gespecialiseerde optimalisaties mogelijk.

Architectuur:

Baseten abstraheert model deployment naar HTTP endpoints met ingebouwde autoscaling, dashboards en alerting. Gebruikers uploaden modellen en het platform regelt de serving-infrastructuur.¹²

Prijsstructuur:

Baseten factureert per minuut waarbij kosten stoppen tijdens inactiviteit. Plannen variëren van gratis tier (5 replica's) tot Pro en Enterprise met onbeperkte schaling.¹³

GPU-opties variëren van T4 tot A100, H100 en de nieuwe NVIDIA HGX B200 via Google Cloud-partnerschap. Specifieke per-GPU tarieven vereisen accountcreatie.

Cold start-prestaties:

Baseten bereikt cold starts van 5-10 seconden door container caching—een verbetering van 30-60x ten opzichte van eerdere oplossingen volgens het bedrijf.¹⁴ Cold starts van minder dan een seconde zijn beschikbaar via pre-warming strategieën.

Belangrijkste functies:

99,99% uptime SLA
Forward-deployed engineering support
225% betere kosten-prestatieverhouding op A4 VM's voor high-throughput inferentie¹⁵
Training credits (20% terug voor Dedicated Deployments)
Volumekortingen voor grote uitgaven

Het beste voor: Productie-inferentie die enterprise SLA's vereist, teams die model serving-abstractie willen, organisaties die al op Google Cloud zitten.

Replicate: De model marketplace

Replicate kiest een andere aanpak—in plaats van custom infrastructuur te deployen, krijgen gebruikers toegang tot vooraf gehoste open-source modellen via eenvoudige API-aanroepen.

Programmeermodel:

Replicate abstraheert GPU-selectie volledig voor gehoste modellen:

import replicate

output = replicate.run(
    "stability-ai/sdxl:39ed52f2...",
    input={"prompt": "An astronaut riding a horse"}
)

Gebruikers specificeren modellen op naam; het platform regelt GPU-allocatie, schaling en optimalisatie.¹⁶

Prijsstructuur:

Replicate gebruikt metered billing per seconde gebaseerd op hardwarevereisten: - T4 (gratis tier): Beschikbaar voor experimenten - A100: ~$8,28/uur - Multi-GPU configuraties: Beschikbaar met committed spend-contracten¹⁷

Sommige modellen factureren per input/output tokens in plaats van tijd, wat kostenverwachting voor taalmodellen vereenvoudigt.

Cold start-prestaties:

Vooraf gehoste modellen profiteren van Replicate's optimalisatie en pre-warming, wat low-latency inferentie levert zonder cold start-zorgen. Custom model deployments hebben standaard container-opstarttijden.

Belangrijkste functies:

Uitgebreide bibliotheek van voorgetrainde modellen klaar voor gebruik
Ondersteuning voor model fine-tuning
Ingebouwde versioning en async verwerking
Overgenomen door Cloudflare in 2025, wat edge-mogelijkheden uitbreidt¹⁸
Sterke developer SDK en API-ontwerp

Het beste voor: Snel prototypen met bestaande modellen, MVP's en demo's, teams die gemak boven maatwerk prioriteren.

Vergelijkingsmatrix

Functie	RunPod	Modal	Beam	Baseten	Replicate
Prijsmodel	Per seconde, flex/active	Per seconde + CPU/geheugen	Per seconde	Per minuut	Per seconde of per token
Cold starts	<200ms (FlashBoot)	<1 seconde (Rust)	2-3 seconden	5-10 seconden	Laag (vooraf gehost)
GPU-bereik	T4 tot H200	T4 tot B200	Varieert	T4 tot B200	T4 tot H100
H100-prijs	~$4,47/uur	~$4,76/uur	Custom	Custom	Custom
Self-hosting	Nee	Nee	Ja (beta9)	Nee	Nee
Regio's	31 wereldwijd	Meerdere	Meerdere	GCP-regio's	Meerdere
Egress-kosten	Geen	Standaard	Varieert	Standaard	Standaard
Het beste voor	Kostenoptimalisatie	Ontwikkelaarservaring	Portabiliteit	Enterprise inferentie	Model marketplace

Workloadselectiegids

High-variability inferentie

Kenmerken: Verkeer piekt onvoorspelbaar. Gemiddeld gebruik onder 30%. Kostengevoeligheid hoog.

Aanbevolen: RunPod Flex Workers of Modal

Serverless blinkt uit voor variabele workloads. Pay-per-second billing betekent nul kosten tijdens rustige periodes. RunPod's agressieve prijzen maken het aantrekkelijk voor kostengevoelige deployments; Modal's ontwikkelaarservaring versnelt iteratie.

Voorbeeld: Klantenservice chatbot met verkeerspieken tijdens kantooruren en bijna nul 's nachts.

Latentiekritische productie

Kenmerken:

[Inhoud afgekapt voor vertaling]

Serverless GPU-platforms: RunPod, Modal en Beam vergeleken

Het serverless GPU-landschap

Marktontwikkeling

Platformverdiepingen

RunPod: De prijsleider

Modal: De leider in ontwikkelaarservaring

Beam: Het open-source alternatief

Baseten: Het enterprise inferentieplatform

Replicate: De model marketplace

Vergelijkingsmatrix

Workloadselectiegids

High-variability inferentie

Latentiekritische productie

You Might Also Like

Kabelmanagementsystemen: Glasvezelpaden en High-Density Rout...

AI-datapijplijnarchitectuur: Petabyte-schaal training voeden...

AI-infrastructuur capaciteitsplanning: GPU-behoeften voorspe...

Offerte aanvragen_

Aanvraag Ontvangen_