ollama

ollama Cloud oss120B급 병렬 분석 효율 분석: 1개 vs 8개 워커 비교

ilikeafrica

08 Mar 2026 — 2 min read

대규모 학술 논문 아카이브 KOINEU.com의 V3 파이프라인 구축 과정에서 얻은 데이터 분석 속도 최적화 사례를 공유합니다. 25만 건의 방대한 논문을 분석하기 위해 Ollama Cloud의 oss120b 모델을 어떻게 효율적으로 활용했는지에 대한 기술 리포트입니다..

1. 실험 개요

초거대 모델(120B)은 압도적인 분석 능력을 자랑하지만, 단일 요청 시 처리 시간이 길다는 단점이 있습니다. 우리는 Mac Studio 환경에서 클라우드 API를 호출할 때, 워커(Worker)의 개수를 조절하며 전체 시스템의 처리 효율(Throughput)이 어떻게 변화하는지 측정했습니다.

2. 분석 결과 비교

설정	평균 처리 시간 (1건당)	시간당 처리량 (예상)	비고
단일 워커 (1개)	200.26초	약 18건	초기 최적화 전
8개 워커 (병렬)	37.45초	약 769건	약 42.7배 향상

3. 주요 인사이트

네트워크 대기 시간의 마스킹: 클라우드 API 방식은 실제 연산이 서버에서 이루어지므로, 로컬의 다수 워커가 요청을 동시에 던질 때 대기 시간을 획기적으로 줄일 수 있습니다.
개별 응답 속도의 향상: 8개로 늘렸음에도 1건당 응답 속도가 오히려 200초에서 37초로 단축된 것은, 클라우드 인프라의 동시 처리 능력과 로컬 파이프라인의 비동기 최적화가 결합된 결과입니다.
안정성 확보: 8개 워커 체제에서도 Mac Studio의 자원 점유율은 안정적으로 유지되었으며, Ollama Cloud의 120B 모델은 오류 없이 고품질(Grade A) 리포트를 생산해냈습니다.

이러한 최적화를 통해 KOINEU.com은 당초 40일 이상 소요될 것으로 예상되었던 25만 건 분석 일정을 20일 이내로 단축하는 데 성공했습니다.

Chandra OCR — Mac Studio M1 Max 64GB에서 실행하기 (CUDA vs Metal MPS 비교)

4B 파라미터 Vision-Language OCR 모델 Chandra를 Mac Studio M1 Max 64GB에서 실행하는 방법과 CUDA 환경과의 성능 비교를 정리합니다.

다이소 겨자잎,루꼴라 5일차

하루가 다르게 커가는 겨자잎과 루꼴라. 근데 어떤게 겨자잎이고 어떤게 루꼴라인지 벌써 모르겠다. 이래서 처음에 표시를 해 둔다는게 또 깜빡했다. 이젠 나도 모르겠다. 그냥 먹을때쯤 알게 됬겠지. 오전오후엔 햇살로...저녁엔 인공LED광으로.... 예전에도 이렇게 빨리 컷나 싶은데 재밌다.

다이소 겨자잎, 루꼴라 씨앗 발아 3일차

역시 씨앗은 한번 발아하면 참 놀랍도록 빠르다. 타임랩스를 찍어보고 싶었는데 이젠 그럴 만한 디바이스가 없다. 모조리 당근행 해버린 관계로 집에 남아있는게 별로 없다. ㅋㅋ 언제 떠날지 또 미지수인 관계로 그 날까지는 뭔가 즐길거리를 찾아야 한다. 겨자잎에 삼겹살 한번이라도 싸먹고 나가게 될까... 겨자잎 안먹어도 좋으니 언능 정리되고 배낭 싸고 싶다..

도시 농부 겨자잎, 루꼴라 키우기

오피스텔 책상 한켠에 마련해둔 겨자잎 과 루꼴라 공장.. 알리에서 구매했던 인공조명LED를 그냥 두기도 아깝고 겸사 겸사 생수통 3개에 다이소에서 천원씩에 구매한 겨자잎과 루꼴라 씨를 뿌리고 만들어봤다. 배양토에 파종한지 2일만에 싹이 돋아난다. 부랴 부랴 재활용품 모아둔곳에서 적당한 박스 하나 사서 LED 조명을 대충 붙이고, 전원은 사용하지 않고 있던 휴대용 배터리로 간편하게