ollama Cloud oss120B급 병렬 분석 효율 분석: 1개 vs 8개 워커 비교
대규모 학술 논문 아카이브 KOINEU.com의 V3 파이프라인 구축 과정에서 얻은 데이터 분석 속도 최적화 사례를 공유합니다. 25만 건의 방대한 논문을 분석하기 위해 Ollama Cloud의 oss120b 모델을 어떻게 효율적으로 활용했는지에 대한 기술 리포트입니다.
1. 실험 개요
초거대 모델(120B)은 압도적인 분석 능력을 자랑하지만, 단일 요청 시 처리 시간이 길다는 단점이 있습니다. 우리는 Mac Studio 환경에서 클라우드 API를 호출할 때, 워커(Worker)의 개수를 조절하며 전체 시스템의 처리 효율(Throughput)이 어떻게 변화하는지 측정했습니다.
2. 분석 결과 비교
| 설정 | 평균 처리 시간 (1건당) | 시간당 처리량 (예상) | 비고 |
|---|---|---|---|
| 단일 워커 (1개) | 200.26초 | 약 18건 | 초기 최적화 전 |
| 8개 워커 (병렬) | 37.45초 | 약 769건 | 약 42.7배 향상 |
3. 주요 인사이트
- 네트워크 대기 시간의 마스킹: 클라우드 API 방식은 실제 연산이 서버에서 이루어지므로, 로컬의 다수 워커가 요청을 동시에 던질 때 대기 시간을 획기적으로 줄일 수 있습니다.
- 개별 응답 속도의 향상: 8개로 늘렸음에도 1건당 응답 속도가 오히려 200초에서 37초로 단축된 것은, 클라우드 인프라의 동시 처리 능력과 로컬 파이프라인의 비동기 최적화가 결합된 결과입니다.
- 안정성 확보: 8개 워커 체제에서도 Mac Studio의 자원 점유율은 안정적으로 유지되었으며, Ollama Cloud의 120B 모델은 오류 없이 고품질(Grade A) 리포트를 생산해냈습니다.
이러한 최적화를 통해 KOINEU.com은 당초 40일 이상 소요될 것으로 예상되었던 25만 건 분석 일정을 20일 이내로 단축하는 데 성공했습니다.