파싱 (Parsing)

PDF·이미지 문서를 업로드하면, 안에 있는 텍스트·표·레이아웃을 자동으로 읽어서 정리된 데이터로 만들어 줍니다.

파싱이 필요한 순간

스캔된 PDF나 사진 파일에서 텍스트를 긁어야 하는데 복사가 안 될 때
표가 많은 문서를 엑셀이나 데이터베이스에 옮겨야 할 때
문서를 검색하거나 AI 모델에 입력할 수 있는 형태로 변환하고 싶을 때
여러 페이지 보고서를 구조화된 데이터로 저장하고 싶을 때

기존 OCR과 무엇이 다른가요?

기존 OCR 도구는 문서에 있는 글자만 읽어냅니다. DVLM 파싱은 VLM(Vision Language Model) 기반으로, 글자뿐 아니라 문서의 구조 자체를 이해합니다. 표가 어디서 시작하고 끝나는지, 다단 레이아웃에서 읽어야 할 순서가 어떻게 되는지까지 파악합니다.

기능	기존 OCR	DVLM 파싱
텍스트 추출	✅	✅
표 구조 인식	❌	✅
다단 레이아웃 분석	❌	✅
읽기 순서 자동 보정	❌	✅
이미지 인식	❌	✅
출력 형식	텍스트만	JSON · Markdown

파싱 vs 추출, 어떻게 다른가요?

	파싱	추출
목적	문서 전체를 정리된 데이터로 변환	원하는 항목만 골라서 꺼내기
출력 결과	문서 전체 내용 (JSON · Markdown)	지정한 항목만 담긴 JSON
사전 설정 필요 여부	없음 — 바로 실행 가능	있음 — 꺼낼 항목 목록 설정 필요
이런 분께 적합	문서 변환·저장·검색이 목적	특정 데이터 자동 추출이 목적

💡 어떤 걸 써야 할지 모르겠다면?

"이 문서의 내용 전체가 필요하다" → 파싱

"이 문서에서 금액과 날짜만 뽑으면 된다" → 추출

Playground에서 직접 해보기

좌측 메뉴에서 [Playground → 파싱] 을 클릭합니다.
파일을 드래그하거나 [샘플 파일] 을 클릭합니다.
필요하다면 옵션을 선택합니다.
[파싱 시작] 버튼을 클릭합니다.
결과 화면에서 Markdown 또는 JSON 탭으로 전환하며 결과를 확인합니다.
결과를 복사하거나 파일로 다운로드합니다.

💡 처음이라면

[샘플 파일] 로 먼저 결과를 확인해 보세요.

직접 파일을 올리기 전에 어떤 결과가 나오는지 미리 볼 수 있습니다.

파싱이 필요한 순간​

기존 OCR과 무엇이 다른가요?​

파싱 vs 추출, 어떻게 다른가요?​

Playground에서 직접 해보기​

파싱이 필요한 순간

기존 OCR과 무엇이 다른가요?

파싱 vs 추출, 어떻게 다른가요?

Playground에서 직접 해보기