Koineu AI Search Engine: 30만 건의 ArXiv 논문 지능형 아카이브 구축
프로젝트명: Koineu AI (ArXiv Semantic Search & Summary Pipeline)
핵심 목표: 30만 건 이상의 ArXiv 논문 데이터를 기반으로 로컬 LLM 및 벡터 DB를 활용한 고성능 검색 엔진 구축
1. 하드웨어 아키텍처 및 자원 할당 전략
효율적인 데이터 처리를 위해 Dual-GPU와 대용량 RAM Disk를 활용한 분산 처리 구조를 설계했습니다.
![이미지: 듀얼 GPU 서버 아키텍처 - RTX 3060(전처리) 및 RTX 5060(인텔리전스) 역할 분담도]
- GPU 0 (RTX 3060 12GB): 전처리 및 비전(Vision) 작업 전담.
Surya모델을 이용한 레이아웃 분석 및 이미지 추출 워커를 실행하며, 향후 5060의 부하를 분산하는 서브 검색 엔진 역할을 수행합니다. - GPU 1 (RTX 5060 16GB - 예정): 메인 인텔리전스 담당.
Qwen2.5-14B등 고성능 모델을 상주시켜 복잡한 검색 질의, 논문 요약 및 한글 번역을 수행합니다. - Memory (128GB): 64GB를 RAM Disk로 할당하여 ChromaDB 및 SQLite DB를 구동, I/O 병목 현상을 원천 차단했습니다.
2. 램디스크(RAM Disk) 도입에 따른 성능 혁신
이번 프로젝트의 핵심 신의 한 수는 64GB 램디스크 도입입니다. 데이터베이스 파일 자체를 메모리에 상주시킴으로써 물리적 디스크의 한계를 극복했습니다.
저장 매체별 예상 소요 시간 비교 (22만 건 임베딩 기준)
| 항목 | HDD (8TB) | NVMe SSD | RAM Disk (64GB) |
| I/O 처리 속도 | 약 150 MB/s | 약 3,500 MB/s | 약 20,000+ MB/s |
| 임베딩 예상 시간 | 약 12~15시간 (Seek Time 병목) | 약 3~4시간 | 약 37분 (초당 80건 처리) |
| 검색 응답 속도 | 2~3초 (지연 발생) | 0.5초 이내 | 0.1초 미만 (즉시 응답) |
Sheets로 내보내기
- 실제 사례: 기존 SSD 환경에서는 수만 건의 벡터를 저장할 때 인덱싱 과정에서 I/O Wait이 발생하며 시스템이 느려졌으나, 램디스크 도입 후 22만 건의 임베딩을 단 37분 만에 완료하는 기염을 토했습니다.
3. 소프트웨어 파이프라인: 람다 아키텍처(Lambda Architecture)
데이터 수집과 서비스 개시 사이의 간극을 줄이기 위해 Two-Track 파이프라인을 도입했습니다.
Track 1: Fast Track (텍스트 중심)
- 메타데이터 수집:
metadata_backfill_safe.py를 통해 S2ORC 및 ArXiv API에서 JSON 데이터를 우선 확보합니다. - 임베딩: 확보된 텍스트 데이터를 즉시 벡터화하여 ChromaDB에 저장합니다. 현재 약 22만 건(71.8%)의 검색 인덱싱이 완료된 상태입니다.
Track 2: Slow Track (비주얼 중심)
- 이미지 추출:
image_worker_fast_multi.py가 PDF 레이아웃을 분석하여 도표와 그림을 추출합니다. - 업데이트: 추출된 이미지는 Hugo 정적 사이트의 게시물 하단 갤러리에 자동으로 포함됩니다.
4. 현시점 운영 상태 및 트러블슈팅
데이터 확보 현황 (2026-01-04 기준)
- 메타데이터(JSON): 전체 307,283건 중 220,744건(71.8%) 확보 완료.
- 임베딩(Vector DB): 확보된 데이터에 대해 100% 임베딩을 완료하여 시맨틱 검색이 즉시 가능합니다.
안정성 확보를 위한 기술적 결정
- VRAM OOM 해결: 초기 워커 3개 가동 시 VRAM 점유율이 97%에 달해 에러가 발생했으나, 2개 워커로 최적화하여 62%의 안정적인 점유율(7.6GB 사용)을 확보했습니다.
- DB 동시성 제어: 다수의 워커가 동시 접근할 때 발생하는 잠금 에러를 방지하기 위해 SQLite의 WAL(Write-Ahead Logging) 모드를 적용했습니다.
5. RTX 5060 도입 후 가속 시나리오
2일 뒤 하드웨어 업그레이드 시, 처리 속도는 비약적으로 향상될 예정입니다.
![이미지: 5060 도입 전후 이미지 추출 속도 비교 차트]
- 이미지 추출 가속: * 현재 (3060 단독): 워커 2~3개 운영 시 건당 약 5초 소요, 잔여 물량 처리까지 약 13일 예상.
- 이후 (Dual GPU): 3060(3워커) + 5060(5~6워커) 총 8개 이상의 워커 투입 시 처리 속도가 4배 이상 향상되어 3~4일 내에 모든 전처리가 완료될 전망입니다.
- 서비스 고도화: 5060의 16GB VRAM을 활용하여
Qwen2.5-14B모델을 통한 고품질 한국어 요약 및 번역 서비스를 본격 가동합니다.
결론: Koineu 프로젝트는 현재 램디스크를 통한 압도적인 I/O 성능과 RTX 3060의 안정적 운영을 통해 기초 데이터를 완벽히 다졌습니다. 2일 뒤 RTX 5060이 가세하면, 30만 건의 논문 데이터를 자유자재로 다루는 진정한 나만의 로컬 AI 연구소를 가지게 될것 같다.
#LLM #로컬AI #RAG #검색엔진 #ChromaDB #벡터데이터베이스 #ArXiv #데이터엔지니어링 #Qwen2_5 #Llama3