본문으로 건너뛰기

파싱 (Parsing)

PDF·이미지 문서를 업로드하면, 안에 있는 텍스트·표·레이아웃을 자동으로 읽어서 정리된 데이터로 만들어 줍니다.


파싱이 필요한 순간

  • 스캔된 PDF나 사진 파일에서 텍스트를 긁어야 하는데 복사가 안 될 때
  • 표가 많은 문서를 엑셀이나 데이터베이스에 옮겨야 할 때
  • 문서를 검색하거나 AI 모델에 입력할 수 있는 형태로 변환하고 싶을 때
  • 여러 페이지 보고서를 구조화된 데이터로 저장하고 싶을 때

기존 OCR과 무엇이 다른가요?

기존 OCR 도구는 문서에 있는 글자만 읽어냅니다. DVLM 파싱은 VLM(Vision Language Model) 기반으로, 글자뿐 아니라 문서의 구조 자체를 이해합니다. 표가 어디서 시작하고 끝나는지, 다단 레이아웃에서 읽어야 할 순서가 어떻게 되는지까지 파악합니다.

기능기존 OCRDVLM 파싱
텍스트 추출
표 구조 인식
다단 레이아웃 분석
읽기 순서 자동 보정
이미지 인식
출력 형식텍스트만JSON · Markdown

파싱 vs 추출, 어떻게 다른가요?

파싱추출
목적문서 전체를 정리된 데이터로 변환원하는 항목만 골라서 꺼내기
출력 결과문서 전체 내용 (JSON · Markdown)지정한 항목만 담긴 JSON
사전 설정 필요 여부없음 — 바로 실행 가능있음 — 꺼낼 항목 목록 설정 필요
이런 분께 적합문서 변환·저장·검색이 목적특정 데이터 자동 추출이 목적

💡 어떤 걸 써야 할지 모르겠다면?

  • "이 문서의 내용 전체가 필요하다" → 파싱

  • "이 문서에서 금액과 날짜만 뽑으면 된다" → 추출


Playground에서 직접 해보기

  1. 좌측 메뉴에서 [Playground → 파싱] 을 클릭합니다.
  2. 파일을 드래그하거나 [샘플 파일] 을 클릭합니다.
  3. 필요하다면 옵션을 선택합니다.
  4. [파싱 시작] 버튼을 클릭합니다.
  5. 결과 화면에서 Markdown 또는 JSON 탭으로 전환하며 결과를 확인합니다.
  6. 결과를 복사하거나 파일로 다운로드합니다.

💡 처음이라면

  • [샘플 파일] 로 먼저 결과를 확인해 보세요.

  • 직접 파일을 올리기 전에 어떤 결과가 나오는지 미리 볼 수 있습니다.