Hvilken hardware kræver det at køre en lokal AI-model?

Det afhænger af modelstørrelse og krav til svartid. Mindre modeller (7B-13B parametre) kan køre på en server med 16-32 GB RAM og en standard GPU. Større modeller kræver dedikeret GPU-kapacitet. Ollama gør det relativt enkelt at komme i gang på eksisterende server-hardware.

Er åbne modeller som Llama gode nok til erhvervsbrug?

For mange brug: ja. Tekstopsummering, intern vidensøgning, klassificering og struktureret dataudtræk løses tilfredsstillende af moderne åbne modeller. Til opgaver der kræver avanceret ræsonnering eller bred verdensviden er de bedste cloud-modeller fortsat stærkere.

Hvad er GGUF og kvantisering?

GGUF er et filformat der pakker en AI-model effektivt til lokal inferens. Kvantisering reducerer præcisionen i modelens vægte (fx fra 32-bit til 4-bit tal), hvilket halverer eller mere hukommelsesbehovet med begrænset kvalitetstab for de fleste opgaver.

Hvornår er lokal model det forkerte valg?

Lokal model passer typisk dårligt til prototyper og tests, til opgaver der kræver de stærkeste ræsonneringsmodeller, eller når I ikke har kapacitet til at drifte og opdatere modellen internt.

Lokale AI-modeller: self-hosted LLM og privatliv

Kort svar

Hvad er en lokal AI-model, og hvad adskiller den fra et cloud-API som ChatGPT?

En lokal AI-model kører på jeres egen server eller computer. Ingen data sendes til en ekstern tjeneste, og I kontrollerer hvilken model I bruger og hvordan den opdateres. Cloud-API'er som ChatGPT kører på udbyderens servere og betales pr. token. Lokal hosting kræver hardware-investering, men eliminerer løbende API-udgifter og datatransfer til tredjeparter.

Det vigtigste

Lokal inferens kræver hardware (CPU/GPU/RAM) og et runtime-lag som Ollama, men data forlader aldrig jeres infrastruktur.
Modeller i GGUF-format kan kvantiseres til at køre på standard server-hardware uden specialiserede GPU'er, dog med lavere ydeevne.
Kvalitetsgabet mellem lokale åbne modeller og de bedste cloud-modeller er indsnævret de seneste år. Mange use cases løses tilfredsstillende lokalt.
Privatliv er ikke automatisk løst ved lokal model: adgangskontrol, logning og opdateringer er jeres eget ansvar.

Tal med os om lokal AI til jeres setup

Spørgsmål om lokale AI-modeller

Det afhænger af modelstørrelse og krav til svartid. Mindre modeller (7B-13B parametre) kan køre på en server med 16-32 GB RAM og en standard GPU. Større modeller kræver dedikeret GPU-kapacitet. Ollama gør det relativt enkelt at komme i gang på eksisterende server-hardware.
For mange brug: ja. Tekstopsummering, intern vidensøgning, klassificering og struktureret dataudtræk løses tilfredsstillende af moderne åbne modeller. Til opgaver der kræver avanceret ræsonnering eller bred verdensviden er de bedste cloud-modeller fortsat stærkere.
GGUF er et filformat der pakker en AI-model effektivt til lokal inferens. Kvantisering reducerer præcisionen i modelens vægte (fx fra 32-bit til 4-bit tal), hvilket halverer eller mere hukommelsesbehovet med begrænset kvalitetstab for de fleste opgaver.
Lokal model passer typisk dårligt til prototyper og tests, til opgaver der kræver de stærkeste ræsonneringsmodeller, eller når I ikke har kapacitet til at drifte og opdatere modellen internt.

Grundlag

Hvad er lokale AI-modeller - og hvornår er de det rigtige valg?

Lokale AI-modeller betyder typisk, at I kører en lokal sprogmodel på egen hardware eller i et miljø, I selv kontrollerer, så prompts og dokumenter ikke sendes til en ekstern sky-API som standard. Det giver en klar privatlivsgrænse: I kan designe for, at følsom tekst forbliver internt, mens I stadig får generativ funktionalitet. Det er ikke magi: I skal stadig styre netværk, adgang, logging og opdateringer, ellers kan data stadig slippe ud eller gemmes forkert.

Hvad er lokale AI-modeller - og hvornår er de det rigtige valg?

En lokal AI-model er i praksis den samme type sprogmodel som bag en sky-tjeneste, men inference sker hos jer: modellen ligger som filer eller artefakter, og en runtime loader den og svarer på jeres forespørgsler. Forskel til en sky-API er primært kontrol og dataflow: ved en API sender I typisk tekst til en tredjepart, mens lokal inference kan begrænse den eksterne eksponering, fordi kernen kører internt.

Valget giver særligt mening, når dataklassen er høj, når politikker kræver korte dataveje, eller når I vil undgå vendor lock-in på prompt-niveau. Omvendt er sky ofte nemmere at skalere og kan give nyere modeller uden egen drift. Lokale AI-modeller er derfor et arkitekturvalg: I bygger et kontrolleret rum omkring modellen og accepterer mere egen drift til gengæld for bedre kontrol over data og grænseflader.

Features

Fire praktiske rammer omkring lokal inference

Korte punkter I kan bruge, når I taler internt om scope, risiko og drift. Sådan bygger vi det i produktion.

Data bliver hos jer

Følsom tekst kører på infrastruktur I styrer og forlader ikke jeres miljø. Vi kører Llama lokalt via Ollama på 127.0.0.1 i produktion, intet kundeindhold sendes til et SaaS-lag. Logs, backup og integrationer skal stadig styres.

Læs om teknologi-stack

Runtime og modelformat

GGUF og kvantisering er almindelige valg, når modellen skal matche tilgængelig GPU- eller CPU-kapacitet. Ollama loader vægten og eksponerer et internt API til jeres applikationer.

Se lokal AI-infrastruktur

Den rigtige model til opgaven

Lette lokale modeller løser opsummering, intern søgning og klassificering hvor privatliv og økonomi afgør. Til tungt ræsonnement vælger vi en tung model. Ingen leverandørlås, valget følger opgaven.

Sammenlign lokal og cloud

Compliance er stadig relevant

Intern drift fjerner ikke dokumentations- og kontrolkrav alene. Vi koder reglerne ind som grænser systemet ikke kan bryde og kobler dem til jeres faktiske brugsscenarie, ikke som eftermontering.

AI, sikkerhed og GDPR

Oversigt

Fra modelvægt til drift i praksis

Skift fokus mellem teknisk runtime, performance og typiske compliance-faldgruber.

Lokal inference starter med en modelvægt i et format, jeres runtime forstår. I open source-miljøer ser man ofte formater som GGUF sammen med kvantisering, så modellen kan køre på realistisk GPU- eller CPU-kapacitet uden at være fuld præcision på alle lag. Runtime-laget (for eksempel et self-hosted LLM-setup) står for at loade modellen, håndtere kontekstvindue, batching og streaming af tokens, og at eksponere et API til jeres applikationer.

Drift handler derefter om det kedelige, men afgørende: versionering af modeller, rollback, miljøer (test/produktion), backup af konfiguration og hemmeligheder, samt netværkssegmentering så inference ikke utilsigtet bliver et internt åbent endpoint. For enterprise LLM on-prem er containerisering almindeligt, fordi det gør reproducerbare builds og letter patch-cykler. Air-gapped AI er en skærpet variant, hvor netværket bevidst isoleres, men så skal I også have en plan for sikker modeldistribution og signering.

Pilot der kan måles

Start småt med ét scenarie og klare succeskriterier.

Start med en afgrænset pilot: ét brugsscenarie, ét miljø, klare succeskriterier for kvalitet og latency, og en simpel governance-pakke (roller, nøgler, logning). Vi kører Llama lokalt via Ollama, og i pilotfasen sænker det friktion for udviklere, men det løser ikke enterprise-krav til miljøseparation, observability og politikker af sig selv.

Ét scenarie og ét miljø i første omgang
Mål kvalitet og latency eksplicit, og vælg den rigtige model til opgaven
Governance: roller, nøgler og logning fra dag ét

Gå til teknologi-hub

Illustration af pilotforløb for lokal AI

Når piloten holder

Skær miljøer til, og gør drift målbar.

Når piloten holder, flytter I mod kontrolleret drift: segregerede netværk, secrets management, metrics og tracing på inference, samt faste processer for modelvalidering og opdatering. Hver ændring verificeres før og efter og kan rulles tilbage, så det ikke knækker i produktion. Det er sådan vi driver vores egen lokale stack.

Segreger netværk og hemmeligheder, så data bliver internt
Sæt observability på inference
Fastlæg validering og versionering med rollback

Find næste skridt

Illustration af kontrolleret drift efter pilot

Navigationskort til næste læsning

Hold hub-indhold adskilt fra dybdegennemgang.

Brug denne side til at forstå model- og runtime-detaljer i teknologi-klyngen. Når I skal vælge mellem lokal og cloud eller beslutte infrastruktur, peger vi på den rigtige model til opgaven: lette lokale modeller hvor privatliv og økonomi afgør, tunge modeller hvor ræsonnement afgør. Ingen leverandørlås.

Én side, én primær vinkel
Linker ud til sammenligning og infrastruktur
Reducer overlap og vedligehold dobbelt indhold

Åbn teknologi-hubben

Illustration af linket indholdsøkosystem

Playbook

Praktisk playbook: pilot, Ollama/self-hosted stack og hvad I gør derefter

Start med en afgrænset pilot: ét brugsscenarie, ét miljø, klare succeskriterier for kvalitet og latency, og en simpel governance-pakke (roller, nøgler, logning). Ollama kan fungere som et praktisk runtime- og komfortlag til lokale modeller i pilotfasen, fordi det sænker friktion for udviklere, men det løser ikke automatisk enterprise-krav til miljøseparation, observability og politikker.

Når piloten holder, flytter I typisk mod mere kontrolleret drift: segregerede netværk, secrets management, metrics og tracing på inference, samt faste processer for modelvalidering og opdatering. Herfra linker I naturligt videre til jeres bredere teknologiside for overblik og til dedikerede sider for sammenligning og infrastruktur, når læseren er klar til næste beslutning.

Modelartefakter og format

Vælg et format runtime forstår, og dokumentér version, checksum og hvor vægten må ligge. Modelfilen behandles som et aktiv med høj værdi.

Netværkszoner og eksponering

Lokal inferens kører på infrastruktur I styrer, fx 127.0.0.1, ikke som et bredt internt endpoint. Segmentér og begræns adgang efter behov, så data ikke siver via integrationer.

Nøgler og konfiguration

Behandl secrets som produktionsdata: rotation, backup og adskilte miljøer for test og prod. Konfiguration versioneres så ændringer kan rulles tilbage.

Observability

Mål latency, fejl og ressourceforbrug, så I kan forklare drift og finde regressions hurtigt. Hver ændring verificeres før og efter.

Governance og ansvar

Kobl brugsscenarie til dokumentation og kontrol: roller, logning og retention skal kunne forklares som grænser, ikke som standardindstillinger I arvede.

Features

Hurtige afklaringer før I lover "100% internt"

Brug kortene som tjekliste i workshoppen med juridisk, IT-sikkerhed og produkt. Lokal inferens er udgangspunktet, men hele kæden skal sidde rigtigt.

Dataforløb end-to-end

Lokal model holder følsom tekst internt og fjerner sky-API-eksponeringen, vi kører selv Llama via Ollama på 127.0.0.1 i produktion. Men integrationer, logs og backup kan stadig skabe dataforløb der skal styres.

Logning og backup

Prompts og svar kan stadig logges eller replikeres, hvis I ikke styrer retention. Definer eksplicit hvad der gemmes og hvor længe.

Regulatorisk ansvar

Intern drift ændrer ikke automatisk dokumentations- og kontrolkrav. Reglerne kodes ind som grænser knyttet til det konkrete scenarie, ikke antaget løst af modelplaceringen.

Modelaktiv som aktiv

Store modelfiler skal beskyttes som værdifulde aktiver, inklusive adgang og opbevaring. En vægt kan indeholde rester af træningsdata.

Historik

En typisk rejse fra pilot til fast drift

Ikke en garanti for jeres program, men et mønster enterprise-team ofte følger.

Uge 1-2

Afgræns pilot

Vælg ét scenarie, definer kvalitetskrav og mål latency i et kontrolleret miljø.

Uge 3-6

Kør og mål

Kør modellen med realistisk datavolumen, og dokumentér fejl, omkostninger og flaskehalse.

Måned 2-3

Hærd drift

Indfør segregering, secrets management og observability, så drift kan gentages og auditeres.

Løbende

Versionering og opdatering

Fastlæg hvordan modeller opdateres, rulles tilbage og testes før produktion.

Runtime

Loader modelvægt, håndterer kontekst og streaming til jeres apps

Kvantisering

Mindre præcision på nogle lag kan give stor gevinst på hastighed og hardwarekrav

Trade-offs

Lokalt vs sky handler om drift, kapital og kontrol - ikke kun modelkvalitet

Kæde

Privatliv er identitet, netværk, logs og retention - ikke kun modelplacering

FAQ

Lokale AI-modeller i virksomheder

Korte svar I kan bruge i sikkerheds- og arkitekturmøder.

Betyder "lokal model" automatisk at ingen data forlader virksomheden?

Nej. Lokal inference fjerner ikke alle dataflows; den ændrer typisk den mest synlige eksponering mod eksterne model-API'er. Data kan stadig sendes til andre interne systemer, gemmes i logs, replikeres i backup eller tilgås af administratorer. Derfor skal I styre adgang, netværkszoner, retention og logning bevidst. Brug mindst privilegium, krypter transport hvor det giver mening, og definér hvad der må gemmes og hvor længe.

Forsvinder GDPR-krav, fordi modellen kører internt?

Ikke automatisk. Krav afhænger af behandling, formål og risiko. Intern drift kan reducere nogle tredjepartsrisici, men dokumentation, kontrol og korrekt behandling kan stadig være nødvendig. Kobl altid compliance til det konkrete brugsscenarie og jeres dataflows, ikke kun til hvor modellen ligger.

Hvad er den største sikkerhedsfejl ved lokale modeller?

At undervurdere beskyttelsen af selve modellaget. En stor modelfil kan indeholde rester af træningsdata og skal beskyttes som andre aktiver med høj værdi, inklusive adgangskontrol og backupstrategi.

Er Ollama nok i enterprise?

Ollama kan sænke friktion i en pilot, men enterprise kræver typisk mere: miljøseparation, observability, politikker for nøgler og en plan for opdateringer. Brug piloten til at bevise værdi, og budgetter derefter til kontrolleret drift.

Relateret viden: sammenligning, infrastruktur og compliance

Tre dybe sider plus teknologi-hubben, så I kan linke i stedet for at duplikere indhold.

Viden

Lokal AI vs cloud AI

Når I skal sammenligne arkitekturvalg, dataflow og omkostningsmodeller mellem lokalt og sky.

Læs mere

Løsninger

Lokal AI-infrastruktur

Når runtime, hosting og enterprise-krav skal omsættes til konkret setup og drift.

Læs mere

Teknologi

AI, sikkerhed og GDPR

Når I skal koble dokumentation, kontrol og regulatoriske krav til jeres AI-brug.

Læs mere

Hub

Teknologi-hub

Overblik over enterprise AI-stack og næste skridt, når læseren er klar til at zoome ud.

Læs mere

Korte updates om arkitektur, sikkerhed og drift - uden hype og uden fyld.

Vi sender en bekræftelses-e-mail. Du kan altid afmelde dig igen.

Vi bruger kun mailen til nyhedsbrevet. Afmeld når som helst.

Klar til at designe jeres lokale inference trygt?

Følsom tekst behøver ikke forlade jeres miljø. Vi bygger og driver lokal inferens på infrastruktur I styrer, fx Llama via Ollama, med den rigtige model til opgaven og compliance kodet ind fra start. Vi bruger det selv i produktion.

Gå til teknologi

Hvad er en lokal AI-model, og hvad adskiller den fra et cloud-API som ChatGPT?

Spørgsmål om lokale AI-modeller

Hvad er lokale AI-modeller - og hvornår er de det rigtige valg?

Fire praktiske rammer omkring lokal inference

Data bliver hos jer

Runtime og modelformat

Den rigtige model til opgaven

Compliance er stadig relevant

Fra modelvægt til drift i praksis

Pilot der kan måles

Når piloten holder

Navigationskort til næste læsning

Praktisk playbook: pilot, Ollama/self-hosted stack og hvad I gør derefter

Modelartefakter og format

Netværkszoner og eksponering

Nøgler og konfiguration

Observability

Governance og ansvar

Hurtige afklaringer før I lover "100% internt"

Dataforløb end-to-end

Logning og backup

Regulatorisk ansvar

Modelaktiv som aktiv

En typisk rejse fra pilot til fast drift

Afgræns pilot

Kør og mål

Hærd drift

Versionering og opdatering

Lokale AI-modeller i virksomheder

Relateret viden: sammenligning, infrastruktur og compliance

Lokal AI vs cloud AI

Lokal AI-infrastruktur

AI, sikkerhed og GDPR

Teknologi-hub

Få flere tekniske afklaringer om enterprise AI

Klar til at designe jeres lokale inference trygt?