OneLineAI · Financial LLM금융 업무에 최적화된
차세대 한국어 LLM.
Thinking Mode와 Test-Time Scaling으로 14B가 70B급 추론에 도달합니다. 32K 컨텍스트, On-Prem 배포, 4주 내 도입까지.
Why OLAF범용 LLM으로는 넘을 수 없는 세 가지 벽.
금융사가 AI를 들이지 못하는 이유는 기능이 아니라 제약입니다.
PAIN 01
외부 LLM은 망을 넘지 못한다
감사·DRM·망분리 요건 앞에서 클라우드 API는 멈춥니다.
PAIN 02
한국어·금융 정합성이 약하다
일반 모델은 숫자, 용어, 문체에서 실무 기준을 비껴갑니다.
PAIN 03
큰 모델은 인프라가 감당 못 한다
70B급은 GPU 비용과 응답 지연이 도입의 벽이 됩니다.
Three pillarsOLAF가 선택되는 세 가지 이유.
01 · THINKING MODE
생각하는 두뇌, 빠른 두뇌
복잡한 추론은 Thinking, 즉답은 Non-Thinking. 한 모델 안에서 전환합니다.
02 · TEST-TIME SCALING
작은 모델을 더 똑똑하게
추론 시점 컴퓨트를 키워 14B가 70B급 성능에 도달합니다.
03 · ON-PREM 4주
받아서 4주 안에 운영까지
내부망 GPU 서버에 단독 배포. 도입부터 운영 연결까지 4주.
Benchmark숫자로 증명합니다.
HRM8K 기준, OLAF2-14B Thinking Mode가 Llama-3.1-70B와 Qwen2.5-32B를 앞섭니다. 1.5B Mini도 Thinking Mode에서 38.0.
출처: OneLineAI · solution/olaf & research blog. 공개 한국어 벤치마크 기준.
HRM8K higher is better
OLAF2-14B · Non-Thinking
43.8
Test-Time Scaling컴퓨트를 더 줄수록, 점수가 따라옵니다.
OLAF2-14B는 추론 시점 컴퓨트를 키우면 GPT-4o를 넘어섭니다. OMNI-MATH·GSM8K 두 벤치마크에서 확인된 결과입니다.
OLAF2-14B · OMNI-MATH with Test-Time Scaling
36.20Benchmark Score
Scaling 2Scaling 1
OLAF2-14B · GSM8K with Test-Time Scaling
91.96Benchmark Score
Scaling 2Scaling 1
출처: OneLineAI Research · Test-Time Scaling. Scaling 2는 추론 컴퓨트 확장 모드, 가로축은 log scale.
Model specs스펙 한 장.
- Base
- Qwen2.5-14B-Instruct
- Params
- 14B · 1.5B Mini
- Context
- 32,768 tokens
- License
- Apache 2.0
- Format
- Safetensors · F32
- Modes
- Thinking · Non-Thinking
- Deployment
- On-Prem · Cloud · 4주 도입
- Runtime
- Transformers · vLLM 호환
# Quick start
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained(
"OLAResearch/OLAF2-14B",
torch_dtype="auto",
device_map="auto",
)
tokenizer = AutoTokenizer.from_pretrained("OLAResearch/OLAF2-14B")
messages = [
{"role": "system",
"content": "You are OLAF, specializing in Korean finance."},
{"role": "user", "content": "DART 공시 요약해줘"},
] Thinking mode같은 모델, 두 가지 두뇌.
NON-THINKING
즉답 · 요약 · 추출
뉴스 요약 · 번역 · 용어 설명 · 간단 검색 · 일정 정리 · 이메일 초안.
THINKING
수리 · 복합 추론
수학 문제 · 논리 퍼즐 · 다단계 계산 · 비교 분석 · 코드 디버깅 · 시나리오 추론.
Deployment & use받는 방식도, 쓰는 방식도 분명합니다.
배포 옵션
- Hugging Face 오픈 다운로드 (Apache 2.0)
- On-Prem GPU 서버 단독 배포
- 내부망 RAG 파이프라인 연동
- 1.5B Mini · 저사양/에지 환경
금융 실무 적용
- 공시·리포트 Q&A (32K RAG)
- 내규·정책 검색
- 리서치 초안·요약
- 리스크·컴플라이언스 사전 검토
- 콜센터 상담 보조
OLAF를 내부망에 올려 보십시오.
모델은 Hugging Face에서 바로 받을 수 있고, 도입 과정은 상담으로 이어갑니다.