Koineu AI Search Engine: 30만 건의 ArXiv 논문 지능형 아카이브 구축

프로젝트명: Koineu AI (ArXiv Semantic Search & Summary Pipeline)

핵심 목표: 30만 건 이상의 ArXiv 논문 데이터를 기반으로 로컬 LLM 및 벡터 DB를 활용한 고성능 검색 엔진 구축 


1. 하드웨어 아키텍처 및 자원 할당 전략

효율적인 데이터 처리를 위해 Dual-GPU와 대용량 RAM Disk를 활용한 분산 처리 구조를 설계했습니다.

![이미지: 듀얼 GPU 서버 아키텍처 - RTX 3060(전처리) 및 RTX 5060(인텔리전스) 역할 분담도]

  • GPU 0 (RTX 3060 12GB): 전처리 및 비전(Vision) 작업 전담. Surya 모델을 이용한 레이아웃 분석 및 이미지 추출 워커를 실행하며, 향후 5060의 부하를 분산하는 서브 검색 엔진 역할을 수행합니다.
  • GPU 1 (RTX 5060 16GB - 예정): 메인 인텔리전스 담당. Qwen2.5-14B 등 고성능 모델을 상주시켜 복잡한 검색 질의, 논문 요약 및 한글 번역을 수행합니다.
  • Memory (128GB): 64GB를 RAM Disk로 할당하여 ChromaDB 및 SQLite DB를 구동, I/O 병목 현상을 원천 차단했습니다.

2. 램디스크(RAM Disk) 도입에 따른 성능 혁신

이번 프로젝트의 핵심 신의 한 수는 64GB 램디스크 도입입니다. 데이터베이스 파일 자체를 메모리에 상주시킴으로써 물리적 디스크의 한계를 극복했습니다.

저장 매체별 예상 소요 시간 비교 (22만 건 임베딩 기준)

항목HDD (8TB)NVMe SSDRAM Disk (64GB)
I/O 처리 속도약 150 MB/s약 3,500 MB/s약 20,000+ MB/s
임베딩 예상 시간약 12~15시간 (Seek Time 병목)약 3~4시간

약 37분 (초당 80건 처리) 

검색 응답 속도2~3초 (지연 발생)0.5초 이내0.1초 미만 (즉시 응답)

Sheets로 내보내기

  • 실제 사례: 기존 SSD 환경에서는 수만 건의 벡터를 저장할 때 인덱싱 과정에서 I/O Wait이 발생하며 시스템이 느려졌으나, 램디스크 도입 후 22만 건의 임베딩을 단 37분 만에 완료하는 기염을 토했습니다.

3. 소프트웨어 파이프라인: 람다 아키텍처(Lambda Architecture)

데이터 수집과 서비스 개시 사이의 간극을 줄이기 위해 Two-Track 파이프라인을 도입했습니다.

Track 1: Fast Track (텍스트 중심)

  • 메타데이터 수집: metadata_backfill_safe.py를 통해 S2ORC 및 ArXiv API에서 JSON 데이터를 우선 확보합니다.
  • 임베딩: 확보된 텍스트 데이터를 즉시 벡터화하여 ChromaDB에 저장합니다. 현재 약 22만 건(71.8%)의 검색 인덱싱이 완료된 상태입니다.

Track 2: Slow Track (비주얼 중심)

  • 이미지 추출: image_worker_fast_multi.py가 PDF 레이아웃을 분석하여 도표와 그림을 추출합니다.
  • 업데이트: 추출된 이미지는 Hugo 정적 사이트의 게시물 하단 갤러리에 자동으로 포함됩니다.

4. 현시점 운영 상태 및 트러블슈팅

데이터 확보 현황 (2026-01-04 기준)

  • 메타데이터(JSON): 전체 307,283건 중 220,744건(71.8%) 확보 완료.
  • 임베딩(Vector DB): 확보된 데이터에 대해 100% 임베딩을 완료하여 시맨틱 검색이 즉시 가능합니다.

안정성 확보를 위한 기술적 결정

  • VRAM OOM 해결: 초기 워커 3개 가동 시 VRAM 점유율이 97%에 달해 에러가 발생했으나, 2개 워커로 최적화하여 62%의 안정적인 점유율(7.6GB 사용)을 확보했습니다.
  • DB 동시성 제어: 다수의 워커가 동시 접근할 때 발생하는 잠금 에러를 방지하기 위해 SQLite의 WAL(Write-Ahead Logging) 모드를 적용했습니다.

5. RTX 5060 도입 후 가속 시나리오

2일 뒤 하드웨어 업그레이드 시, 처리 속도는 비약적으로 향상될 예정입니다.

![이미지: 5060 도입 전후 이미지 추출 속도 비교 차트]

  • 이미지 추출 가속: * 현재 (3060 단독): 워커 2~3개 운영 시 건당 약 5초 소요, 잔여 물량 처리까지 약 13일 예상.
    • 이후 (Dual GPU): 3060(3워커) + 5060(5~6워커) 총 8개 이상의 워커 투입 시 처리 속도가 4배 이상 향상되어 3~4일 내에 모든 전처리가 완료될 전망입니다.
  • 서비스 고도화: 5060의 16GB VRAM을 활용하여 Qwen2.5-14B 모델을 통한 고품질 한국어 요약 및 번역 서비스를 본격 가동합니다.

결론: Koineu 프로젝트는 현재 램디스크를 통한 압도적인 I/O 성능과 RTX 3060의 안정적 운영을 통해 기초 데이터를 완벽히 다졌습니다. 2일 뒤 RTX 5060이 가세하면, 30만 건의 논문 데이터를 자유자재로 다루는 진정한 나만의 로컬 AI 연구소를 가지게 될것 같다.

#LLM #로컬AI #RAG #검색엔진 #ChromaDB #벡터데이터베이스 #ArXiv #데이터엔지니어링 #Qwen2_5 #Llama3

Read more

블록체인 + 그리드 + AI는 현실적인가?

AI, 블록체인, 그리드 컴퓨팅. 각각만 놓고 보면 이미 검증된 기술들이다. 그런데 이 세 가지를 묶은 조합이 종종 등장한다. “블록체인으로 신뢰를 확보하고, 그리드 컴퓨팅으로 연산을 모으고, AI로 지능을 만든다면?” 겉으로 보면 꽤 완벽한 미래 기술 조합처럼 보인다. 과연 이 조합은 현실적인 선택일까, 아니면 기술적 환상일까? ⸻ 1. 왜 이 조합이 매력적으로 보일까?

By ilikeafrica

국가 단위로 개인 PC를 강제 동원하면 AI 패권이 바뀔까?

인공지능(AI) 경쟁이 국가 전략의 핵심이 되면서 이런 질문이 종종 등장한다. “만약 국가가 전 국민의 개인용 컴퓨터를 동원해 AI 연산에 사용한다면, 미국이나 빅테크가 독점한 AI 패권을 뒤집을 수 있지 않을까?” 과거 SETI@home, Folding@home처럼 개인 PC를 모아 슈퍼컴퓨터급 성능을 냈던 사례를 떠올리면, 이 질문은 꽤 그럴듯해 보인다. 하지만 결론부터

By ilikeafrica

2주택이라 양도세 폭탄인 줄 알았는데… 신고하고 보니 0원이었다

양도소득세 0원… 그날 나는 홈택스 앞에서 심장이 쪼그라들었다 부동산을 팔아본 사람은 안다. 집은 팔아도 마음은 못 판다. 특히 ‘양도소득세’라는 네 글자를 보는 순간, 심장이 먼저 반응한다. 모든 불안의 시작 2020년 3월 20일. 나는 용인 상하동의 한 아파트를 1억 8천9백만 원에 샀다. 그리고 2020년 9월 25일, 드디어 입주. “여긴 우리

By ilikeafrica
마지막 비닐하우스 설치

마지막 비닐하우스 설치

양평집이 팔리면 언제 또 쳐볼지 모르는 비닐하우스를 설치했다. 하지만 몇가지 어설픈 곳이 있다. 그 어설픈게 아주 큰 실수로 곧 다가올지도 모르겠다. 비닐하우스를 치다보니 박스에 적혀있다. "외부용으로는 0.06mm 이상 두께를 사용하세요!" 하지만 내가 구입한 비닐의 두께는 0.05mm ㅋㅋㅋㅋㅋ 이것의 결과가 어떻게 다가올지는 이미 비닐하우스 만드는 과정에 발생하는

By ilikeafrica