한글과컴퓨터(이하 한컴)가 바둑이사이트-온라인홀덤-인디고홀덤 오픈소스 전문 업체 듀얼랩(Duallab)과 협력해 오픈소스 기반 PDF 데이터 추출 기술 개발에 나선다. 한컴은 듀얼랩과 ‘오픈 PDF 데이터 로더(Open PDF Data Loader)’ 공동 개발 및 사업 협력을 위한 양해각서(MOU)를 체결하고, AI 기술 기업으로의 전환을 가속화한다고 밝혔다.
이번 협약은 바둑이사이트-온라인홀덤-인디고홀덤 2025년 7월부터 시작된 기술 협력의 구체적 실행 계획을 양사가 공유하고 프로젝트의 공식 출범을 알리기 위한 목적이다. 최근 AI 호스팅 플랫폼 허깅페이스(Hugging Face)에 등록된 AI 모델 수가 100만 건을 돌파하면서 오픈소스 기반 AI 생태계는 빠르게 확장 중이다. 한컴은 이 같은 흐름에 맞춰 자사의 PDF 데이터 추출 기술을 오픈소스로 공개하고 전 세계 개발자와 협업을 강화하는 동시에 기술 경쟁력도 확보할 계획이다.
양사가 공동 개발하는 오픈 PDF 데이터 로더는 PDF 문서에서 데이터를 빠르고 정확하게 추출하도록 지원하는 소프트웨어 개발 도구(SDK)다. 한컴은 AI 모델과의 연동이 유연한 구조를 강점으로 내세워 글로벌 개발자 커뮤니티와의 협업을 적극적으로 확대할 예정이다.
이번 협력의 파트너인 듀얼랩은 PDF 기술 표준을 관장하는 ‘PDF 협회(PDF Association)’의 정회원이며, PDF/A 유효성 검사 도구인 ‘베라PF(veraPDF)’의 오픈소스 기술 개발을 주도했다. 듀얼랩은 축적된 오픈소스 개발 경험과 글로벌 네트워크를 바탕으로 프로젝트의 시장 안착과 기술적 신뢰성을 높이는 데 기여할 전망이다.
한컴은 자체 개발한 AI 기반 문서 분석 솔루션 ‘한컴 데이터 로더’를 통해 이미 관련 기술력을 입증한 바 있다. 이 솔루션은 PDF를 비롯해 HWPX, 워드, 파워포인트 등 다양한 형식의 문서에서 텍스트는 물론, 표와 이미지 같은 객체를 추출해 RAG 기반 AI 학습을 지원한다. 이번 프로젝트는 듀얼랩의 PDF 전문성과 한컴의 AI 기술을 결합한 오픈소스 PDF 데이터 로더를 선보이려는 전략의 일환이다.
한컴은 ‘오픈 코어(Open Core)’ 전략을 채택해 누구나 자유롭게 사용할 수 있도록 핵심 SDK를 공개하고, OCR 정밀도 향상, 표·수식·차트 인식 등 고급 기능은 별도 상용 애드온 형태로 제공한다. 이를 통해 지속 가능한 비즈니스 모델을 구축하겠다는 계획이다. 또한 국내외 오픈소스 관련 행사에 적극 참여하고 개발자 커뮤니티와 긴밀히 소통하며 기술 지원 및 맞춤형 개발과 같은 새로운 사업 기회를 모색해 글로벌 오픈소스 브랜드로 성장해 나갈 방침이다.
한컴 김연수 대표는 “이번 듀얼랩과의 협력은 한컴이 축적해 온 문서 기술력과 최신 AI, 오픈소스 트렌드를 결합해 글로벌 시장에 본격 진출하는 중요한 전환점”이라며 “단순한 제품 출시를 넘어 개방과 협력의 가치를 바탕으로 전 세계 개발자와 함께 성장하는 기술 생태계를 구축하고, 이를 통해 한컴이 글로벌 AI 서비스 기업으로 도약하는 기반을 마련하겠다”라고 말했다.