데이터 인제스천

데이터 인제스천은 PDF, DOCX, HWP 등 다양한 비정형 문서를 GenD 플랫폼에 업로드하고, AI 검색 및 RAG(Retrieval-Augmented Generation)에 활용할 수 있도록 처리하는 기능입니다. 업로드된 문서는 텍스트 추출, 청킹(chunking), 임베딩 변환을 거쳐 벡터 데이터베이스에 저장됩니다.

데이터 인제스천

화면 구성

파일 업로드 영역

파일을 드래그 앤 드롭하거나 파일 선택 버튼을 클릭하여 문서를 업로드합니다. 업로드 시 다음 설정을 지정할 수 있습니다.

설정	설명
청킹 정책	문서를 분할하는 방식 (고정 크기, 문단 단위, 의미 단위)
보안 등급	문서의 보안 분류 (Public, Internal, Confidential, Restricted)
카탈로그 분류	문서가 속하는 카탈로그 또는 프로젝트
태그	검색 및 분류를 위한 키워드 태그

인제스천 상태

업로드된 문서의 처리 상태를 실시간으로 확인할 수 있습니다.

Uploading — 파일 업로드 진행 중
Processing — 텍스트 추출 및 청킹 처리 중
Embedding — 벡터 임베딩 변환 중
Completed — 인제스천 완료, AI 검색 가능
Failed — 처리 실패 (에러 메시지 확인 가능)

지원 파일 형식

GenD는 다양한 비정형 데이터 형식을 지원합니다.

카테고리	형식	설명
문서	PDF, DOCX, HWP	보고서, 매뉴얼, 기술 문서
스프레드시트	XLSX, CSV	표 형태 데이터, 통계 자료
이미지	PNG, JPEG, TIFF	OCR을 통한 텍스트 추출
오디오	MP3, WAV	STT(Speech-to-Text)를 통한 텍스트 변환

청킹 정책

문서를 AI 검색에 최적화된 크기로 분할하는 전략입니다.

정책	청크 크기	오버랩	적합한 문서
고정 크기	512 토큰	50 토큰	일반 문서, 매뉴얼
문단 단위	가변	1 문장	보고서, 논문
의미 단위	가변	가변	기술 문서, 법률 문서

청킹된 각 조각은 임베딩 모델을 통해 벡터로 변환되어 Weaviate 벡터 데이터베이스에 저장됩니다.

보안 등급 설정

업로드 문서에 보안 등급을 지정하여 접근 제어를 적용합니다.

등급	설명	접근 범위
Public	공개 문서	모든 사용자
Internal	내부 문서	인증된 사용자
Confidential	기밀 문서	지정된 팀/역할
Restricted	제한 문서	명시적 승인 필요

주요 기능

멀티포맷 지원 — PDF, DOCX, HWP, 이미지, 오디오 등 다양한 형식 처리
자동 청킹 — 문서를 AI 검색에 최적화된 크기로 자동 분할
벡터 저장 — 임베딩 벡터를 Weaviate에 저장하여 의미 기반 검색 지원
보안 등급 관리 — 문서별 접근 수준을 ABAC(속성 기반 접근 제어)와 연동
처리 상태 추적 — 업로드부터 벡터화 완료까지 실시간 상태 확인

화면 구성​

파일 업로드 영역​

인제스천 상태​

지원 파일 형식​

청킹 정책​

보안 등급 설정​

주요 기능​

관련 링크​