본문으로 건너뛰기

데이터 인제스천

데이터 인제스천은 PDF, DOCX, HWP 등 다양한 비정형 문서를 GenD 플랫폼에 업로드하고, AI 검색 및 RAG(Retrieval-Augmented Generation)에 활용할 수 있도록 처리하는 기능입니다. 업로드된 문서는 텍스트 추출, 청킹(chunking), 임베딩 변환을 거쳐 벡터 데이터베이스에 저장됩니다.

데이터 인제스천

화면 구성

파일 업로드 영역

파일을 드래그 앤 드롭하거나 파일 선택 버튼을 클릭하여 문서를 업로드합니다. 업로드 시 다음 설정을 지정할 수 있습니다.

설정설명
청킹 정책문서를 분할하는 방식 (고정 크기, 문단 단위, 의미 단위)
보안 등급문서의 보안 분류 (Public, Internal, Confidential, Restricted)
카탈로그 분류문서가 속하는 카탈로그 또는 프로젝트
태그검색 및 분류를 위한 키워드 태그

인제스천 상태

업로드된 문서의 처리 상태를 실시간으로 확인할 수 있습니다.

  • Uploading — 파일 업로드 진행 중
  • Processing — 텍스트 추출 및 청킹 처리 중
  • Embedding — 벡터 임베딩 변환 중
  • Completed — 인제스천 완료, AI 검색 가능
  • Failed — 처리 실패 (에러 메시지 확인 가능)

지원 파일 형식

GenD는 다양한 비정형 데이터 형식을 지원합니다.

카테고리형식설명
문서PDF, DOCX, HWP보고서, 매뉴얼, 기술 문서
스프레드시트XLSX, CSV표 형태 데이터, 통계 자료
이미지PNG, JPEG, TIFFOCR을 통한 텍스트 추출
오디오MP3, WAVSTT(Speech-to-Text)를 통한 텍스트 변환

청킹 정책

문서를 AI 검색에 최적화된 크기로 분할하는 전략입니다.

정책청크 크기오버랩적합한 문서
고정 크기512 토큰50 토큰일반 문서, 매뉴얼
문단 단위가변1 문장보고서, 논문
의미 단위가변가변기술 문서, 법률 문서

청킹된 각 조각은 임베딩 모델을 통해 벡터로 변환되어 Weaviate 벡터 데이터베이스에 저장됩니다.

보안 등급 설정

업로드 문서에 보안 등급을 지정하여 접근 제어를 적용합니다.

등급설명접근 범위
Public공개 문서모든 사용자
Internal내부 문서인증된 사용자
Confidential기밀 문서지정된 팀/역할
Restricted제한 문서명시적 승인 필요

주요 기능

  • 멀티포맷 지원 — PDF, DOCX, HWP, 이미지, 오디오 등 다양한 형식 처리
  • 자동 청킹 — 문서를 AI 검색에 최적화된 크기로 자동 분할
  • 벡터 저장 — 임베딩 벡터를 Weaviate에 저장하여 의미 기반 검색 지원
  • 보안 등급 관리 — 문서별 접근 수준을 ABAC(속성 기반 접근 제어)와 연동
  • 처리 상태 추적 — 업로드부터 벡터화 완료까지 실시간 상태 확인

관련 링크