OneLineAI · Financial LLM

금융 업무에 최적화된
차세대 한국어 LLM.

Thinking Mode와 Test-Time Scaling으로 14B가 70B급 추론에 도달합니다. 32K 컨텍스트, On-Prem 배포, 4주 내 도입까지.

Hugging Face 바로가기

Why OLAF

범용 LLM으로는 넘을 수 없는 세 가지 벽.

금융사가 AI를 들이지 못하는 이유는 기능이 아니라 제약입니다.

PAIN 01

외부 LLM은 망을 넘지 못한다

감사·DRM·망분리 요건 앞에서 클라우드 API는 멈춥니다.

PAIN 02

한국어·금융 정합성이 약하다

일반 모델은 숫자, 용어, 문체에서 실무 기준을 비껴갑니다.

PAIN 03

큰 모델은 인프라가 감당 못 한다

70B급은 GPU 비용과 응답 지연이 도입의 벽이 됩니다.

Three pillars

OLAF가 선택되는 세 가지 이유.

01 · THINKING MODE

생각하는 두뇌, 빠른 두뇌

복잡한 추론은 Thinking, 즉답은 Non-Thinking. 한 모델 안에서 전환합니다.

02 · TEST-TIME SCALING

작은 모델을 더 똑똑하게

추론 시점 컴퓨트를 키워 14B가 70B급 성능에 도달합니다.

03 · ON-PREM 4주

받아서 4주 안에 운영까지

내부망 GPU 서버에 단독 배포. 도입부터 운영 연결까지 4주.

Benchmark

숫자로 증명합니다.

HRM8K 기준, OLAF2-14B Thinking Mode가 Llama-3.1-70B와 Qwen2.5-32B를 앞섭니다. 1.5B Mini도 Thinking Mode에서 38.0.

출처: OneLineAI · solution/olaf & research blog. 공개 한국어 벤치마크 기준.

HRM8K higher is better

OLAF2-14B · Thinking

45.8

Llama-3.1-70B

45.6

Qwen2.5-32B

44.4

OLAF2-14B · Non-Thinking

43.8

EXAONE-3.5-32B

41.4

Test-Time Scaling

컴퓨트를 더 줄수록, 점수가 따라옵니다.

OLAF2-14B는 추론 시점 컴퓨트를 키우면 GPT-4o를 넘어섭니다. OMNI-MATH·GSM8K 두 벤치마크에서 확인된 결과입니다.

OLAF2-14B · OMNI-MATH with Test-Time Scaling

36.20Benchmark Score

Scaling 2Scaling 1

OLAF2-14B · GSM8K with Test-Time Scaling

91.96Benchmark Score

Scaling 2Scaling 1

출처: OneLineAI Research · Test-Time Scaling. Scaling 2는 추론 컴퓨트 확장 모드, 가로축은 log scale.

Model specs

스펙 한 장.

Base: Qwen2.5-14B-Instruct
Params: 14B · 1.5B Mini
Context: 32,768 tokens
License: Apache 2.0
Format: Safetensors · F32
Modes: Thinking · Non-Thinking
Deployment: On-Prem · Cloud · 4주 도입
Runtime: Transformers · vLLM 호환

# Quick start
from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained(
    "OLAResearch/OLAF2-14B",
    torch_dtype="auto",
    device_map="auto",
)
tokenizer = AutoTokenizer.from_pretrained("OLAResearch/OLAF2-14B")

messages = [
    {"role": "system",
     "content": "You are OLAF, specializing in Korean finance."},
    {"role": "user", "content": "DART 공시 요약해줘"},
]

Thinking mode

같은 모델, 두 가지 두뇌.

NON-THINKING

즉답 · 요약 · 추출

뉴스 요약 · 번역 · 용어 설명 · 간단 검색 · 일정 정리 · 이메일 초안.

THINKING

수리 · 복합 추론

수학 문제 · 논리 퍼즐 · 다단계 계산 · 비교 분석 · 코드 디버깅 · 시나리오 추론.

Deployment & use

받는 방식도, 쓰는 방식도 분명합니다.

배포 옵션

Hugging Face 오픈 다운로드 (Apache 2.0)
On-Prem GPU 서버 단독 배포
내부망 RAG 파이프라인 연동
1.5B Mini · 저사양/에지 환경

금융 실무 적용

공시·리포트 Q&A (32K RAG)
내규·정책 검색
리서치 초안·요약
리스크·컴플라이언스 사전 검토
콜센터 상담 보조

OLAF를 내부망에 올려 보십시오.

모델은 Hugging Face에서 바로 받을 수 있고, 도입 과정은 상담으로 이어갑니다.

Hugging Face 바로가기

페이지를 불러오는 중입니다…

금융 업무에 최적화된차세대 한국어 LLM.

범용 LLM으로는 넘을 수 없는 세 가지 벽.

외부 LLM은 망을 넘지 못한다

한국어·금융 정합성이 약하다

큰 모델은 인프라가 감당 못 한다

OLAF가 선택되는 세 가지 이유.

생각하는 두뇌, 빠른 두뇌

작은 모델을 더 똑똑하게

받아서 4주 안에 운영까지

숫자로 증명합니다.

컴퓨트를 더 줄수록, 점수가 따라옵니다.

스펙 한 장.

같은 모델, 두 가지 두뇌.

즉답 · 요약 · 추출

수리 · 복합 추론

받는 방식도, 쓰는 방식도 분명합니다.

배포 옵션

금융 실무 적용

OLAF를 내부망에 올려 보십시오.

금융 업무에 최적화된차세대 한국어 LLM.

범용 LLM으로는 넘을 수 없는 세 가지 벽.

외부 LLM은 망을 넘지 못한다

한국어·금융 정합성이 약하다

큰 모델은 인프라가 감당 못 한다

OLAF가 선택되는 세 가지 이유.

생각하는 두뇌, 빠른 두뇌

작은 모델을 더 똑똑하게

받아서 4주 안에 운영까지

숫자로 증명합니다.

컴퓨트를 더 줄수록, 점수가 따라옵니다.

스펙 한 장.

같은 모델, 두 가지 두뇌.

즉답 · 요약 · 추출

수리 · 복합 추론

받는 방식도, 쓰는 방식도 분명합니다.

배포 옵션

금융 실무 적용

OLAF를 내부망에 올려 보십시오.

금융 업무에 최적화된
차세대 한국어 LLM.

금융 업무에 최적화된
차세대 한국어 LLM.