파싱 (Parsing)
PDF·이미지 문서를 업로드하면, 안에 있는 텍스트·표·레이아웃을 자동으로 읽어서 정리된 데이터로 만들어 줍니다.
파싱이 필요한 순간
- 스캔된 PDF나 사진 파일에서 텍스트를 긁어야 하는데 복사가 안 될 때
- 표가 많은 문서를 엑셀이나 데이터베이스에 옮겨야 할 때
- 문서를 검색하거나 AI 모델에 입력할 수 있는 형태로 변환하고 싶을 때
- 여러 페이지 보고서를 구조화된 데이터로 저장하고 싶을 때
기존 OCR과 무엇이 다른가요?
기존 OCR 도구는 문서에 있는 글자만 읽어냅니다. DVLM 파싱은 VLM(Vision Language Model) 기반으로, 글자뿐 아니라 문서의 구조 자체를 이해합니다. 표가 어디서 시작하고 끝나는지, 다단 레이아웃에서 읽어야 할 순서가 어떻게 되는지까지 파악합니다.
| 기능 | 기존 OCR | DVLM 파싱 |
|---|---|---|
| 텍스트 추출 | ✅ | ✅ |
| 표 구조 인식 | ❌ | ✅ |
| 다단 레이아웃 분석 | ❌ | ✅ |
| 읽기 순서 자동 보정 | ❌ | ✅ |
| 이미지 인식 | ❌ | ✅ |
| 출력 형식 | 텍스트만 | JSON · Markdown |
파싱 vs 추출, 어떻게 다른가요?
| 파싱 | 추출 | |
|---|---|---|
| 목적 | 문서 전체를 정리된 데이터로 변환 | 원하는 항목만 골라서 꺼내기 |
| 출력 결과 | 문서 전체 내용 (JSON · Markdown) | 지정한 항목만 담긴 JSON |
| 사전 설정 필요 여부 | 없음 — 바로 실행 가능 | 있음 — 꺼낼 항목 목록 설정 필요 |
| 이런 분께 적합 | 문서 변환·저장·검색이 목적 | 특정 데이터 자동 추출이 목적 |
💡 어떤 걸 써야 할지 모르겠다면?
"이 문서의 내용 전체가 필요하다" → 파싱
"이 문서에서 금액과 날짜만 뽑으면 된다" → 추출
Playground에서 직접 해보기
- 좌측 메뉴에서 [Playground → 파싱] 을 클릭합니다.
- 파일을 드래그하거나 [샘플 파일] 을 클릭합니다.
- 필요하다면 옵션을 선택합니다.
- [파싱 시작] 버튼을 클릭합니다.
- 결과 화면에서 Markdown 또는 JSON 탭으로 전환하며 결과를 확인합니다.
- 결과를 복사하거나 파일로 다운로드합니다.
💡 처음이라면
[샘플 파일] 로 먼저 결과를 확인해 보세요.
직접 파일을 올리기 전에 어떤 결과가 나오는지 미리 볼 수 있습니다.