데이터 인제스천
데이터 인제스천은 PDF, DOCX, HWP 등 다양한 비정형 문서를 GenD 플랫폼에 업로드하고, AI 검색 및 RAG(Retrieval-Augmented Generation)에 활용할 수 있도록 처리하는 기능입니다. 업로드된 문서는 텍스트 추출, 청킹(chunking), 임베딩 변환을 거쳐 벡터 데이터베이스에 저장됩니다.

화면 구성
파일 업로드 영역
파일을 드래그 앤 드롭하거나 파일 선택 버튼을 클릭하여 문서를 업로드합니다. 업로드 시 다음 설정을 지정할 수 있습니다.
| 설정 | 설명 |
|---|---|
| 청킹 정책 | 문서를 분할하는 방식 (고정 크기, 문단 단위, 의미 단위) |
| 보안 등급 | 문서의 보안 분류 (Public, Internal, Confidential, Restricted) |
| 카탈로그 분류 | 문서가 속하는 카탈로그 또는 프로젝트 |
| 태그 | 검색 및 분류를 위한 키워드 태그 |
인제스천 상태
업로드된 문서의 처리 상태를 실시간으로 확인할 수 있습니다.
- Uploading — 파일 업로드 진행 중
- Processing — 텍스트 추출 및 청킹 처리 중
- Embedding — 벡터 임베딩 변환 중
- Completed — 인제스천 완료, AI 검색 가능
- Failed — 처리 실패 (에러 메시지 확인 가능)
지원 파일 형식
GenD는 다양한 비정형 데이터 형식을 지원합니다.
| 카테고리 | 형식 | 설명 |
|---|---|---|
| 문서 | PDF, DOCX, HWP | 보고서, 매뉴얼, 기술 문서 |
| 스프레드시트 | XLSX, CSV | 표 형태 데이터, 통계 자료 |
| 이미지 | PNG, JPEG, TIFF | OCR을 통한 텍스트 추출 |
| 오디오 | MP3, WAV | STT(Speech-to-Text)를 통한 텍스트 변환 |
청킹 정책
문서를 AI 검색에 최적화된 크기로 분할하는 전략입니다.
| 정책 | 청크 크기 | 오버랩 | 적합한 문서 |
|---|---|---|---|
| 고정 크기 | 512 토큰 | 50 토큰 | 일반 문서, 매뉴얼 |
| 문단 단위 | 가변 | 1 문장 | 보고서, 논문 |
| 의미 단위 | 가변 | 가변 | 기술 문서, 법률 문서 |
청킹된 각 조각은 임베딩 모델을 통해 벡터로 변환되어 Weaviate 벡터 데이터베이스에 저장됩니다.
보안 등급 설정
업로드 문서에 보안 등급을 지정하여 접근 제어를 적용합니다.
| 등급 | 설명 | 접근 범위 |
|---|---|---|
| Public | 공개 문서 | 모든 사용자 |
| Internal | 내부 문서 | 인증된 사용자 |
| Confidential | 기밀 문서 | 지정된 팀/역할 |
| Restricted | 제한 문서 | 명시적 승인 필요 |
주요 기능
- 멀티포맷 지원 — PDF, DOCX, HWP, 이미지, 오디오 등 다양한 형식 처리
- 자동 청킹 — 문서를 AI 검색에 최적화된 크기로 자동 분할
- 벡터 저장 — 임베딩 벡터를 Weaviate에 저장하여 의미 기반 검색 지원
- 보안 등급 관리 — 문서별 접근 수준을 ABAC(속성 기반 접근 제어)와 연동
- 처리 상태 추적 — 업로드부터 벡터화 완료까지 실시간 상태 확인