AI & 코딩

AI가 당신의 글을 읽지 못한다면? 디지털 생존을 위한 'AI-friendly Formats' 가이드

디지털가드너 (Digital Gardener) 2026. 2. 15. 12:20

우리가 작성한 문서는 이제 두 종류의 독자를 마주합니다. 하나는 사람이고, 다른 하나는 인공지능(AI)입니다. 과거에는 검색 엔진 최적화(SEO)를 통해 구글 봇에게 잘 보이려 노력했다면, 이제는 거대 언어 모델(LLM)이 내 글을 정확하게 이해하고 학습하도록 만드는 **'AI 친화적 포맷(AI-friendly Formats)'**이 필수적인 역량이 되었습니다.

아무리 훌륭한 인사이트가 담긴 보고서나 블로그 글이라도, AI가 그 구조를 파악하지 못하면 데이터의 바다에서 실종되고 맙니다. 챗GPT, 클로드, 퍼플렉시티 같은 AI 검색 엔진이 답변을 생성할 때 당신의 콘텐츠를 인용하게 만들고 싶나요? 혹은 사내 데이터를 AI에 학습시켜 업무 효율을 높이고 싶나요? 그렇다면 이제 '형식'을 바꿔야 할 때입니다.

오늘은 AI와 소통하는 가장 강력한 문법, AI-friendly formats의 세계를 심층적으로 분석해 봅니다.


1. 보는 문서에서 '읽히는 데이터'로의 전환

우리는 그동안 '보기에 좋은 문서'를 만드는 데 집착했습니다. 워드프로세서로 자간을 조정하고, 화려한 글꼴을 쓰고, 표의 셀을 보기 좋게 병합했습니다. 하지만 인간의 눈에 아름다운 이 레이아웃이 AI에게는 해독 불가능한 암호일 수 있습니다.

AI, 특히 LLM은 텍스트를 시각 정보가 아닌 토큰(Token) 단위의 수열로 인식합니다. 화려한 디자인 뒤에 숨겨진 복잡한 서식 코드는 AI의 연산을 방해하는 노이즈가 됩니다. AI-friendly formats의 핵심은 **"디자인을 걷어내고 구조(Structure)와 의미(Semantics)만 남기는 것"**입니다.

이것이 왜 중요할까요? 기업들이 도입하고 있는 RAG(검색 증강 생성) 기술을 예로 들어보겠습니다. 사내 매뉴얼을 AI에 학습시켰는데, 직원이 질문하면 엉뚱한 대답을 내놓는 경우가 많습니다. 원인을 파헤쳐보면 대부분 원본 문서가 PDF 이미지 통파일이거나, 구조가 깨진 표로 되어 있어 AI가 문맥을 끊어서 이해했기 때문입니다. 형식이 콘텐츠의 질을 결정짓는 순간입니다.

2. AI가 사랑하는 표준어: 마크다운(Markdown)

현존하는 포맷 중 AI가 가장 완벽하게, 그리고 가장 효율적으로 이해하는 형식은 단연 **마크다운(Markdown)**입니다.

많은 개발자와 테크 라이터들이 마크다운을 선호하는 이유는 단순히 쓰기 편해서가 아닙니다. 마크다운은 문서의 뼈대를 명확한 기호로 정의하기 때문입니다.

  • 위계의 명확성: # 하나는 대제목, ## 두 개는 중제목입니다. AI는 이 기호를 보는 순간 문서의 논리적 계층 구조(Hierarchy)를 완벽하게 파악합니다. 워드에서 글자 크기만 키운 제목과는 차원이 다른 구조적 이해를 제공합니다.
  • 토큰 효율성: 불필요한 HTML 태그나 서식 코드가 없습니다. 같은 내용을 담아도 파일 크기가 훨씬 작고, AI가 처리해야 할 토큰 수가 줄어듭니다. 이는 곧 AI의 처리 속도 향상과 비용 절감으로 이어집니다.
  • 코드와 텍스트의 분리: 백틱(```)을 사용해 코드 블록을 감싸면, AI는 "이 부분은 실행 가능한 코드이고, 바깥 부분은 설명 텍스트구나"라고 정확히 구분합니다.

지금 중요한 문서를 작성 중이라면, 화려한 워드 서식 대신 마크다운 기반의 글쓰기 도구(Notion, Obsidian 등)를 고려해야 하는 이유가 여기에 있습니다.

3. 표(Table)와 데이터: 엑셀의 배신

"데이터는 엑셀에 정리했으니 완벽해"라고 생각했다면 오산입니다. 우리가 흔히 쓰는 엑셀 파일(.xlsx)은 AI에게 의외로 불친절할 때가 많습니다.

가장 큰 적은 **'셀 병합(Merged Cells)'**입니다. 사람이 보기엔 "A열의 1행부터 5행까지가 '서울' 지역이구나"라고 직관적으로 알 수 있지만, 기계적인 데이터 처리 과정에서 병합된 셀은 데이터의 결측치(Null)나 구조적 오류로 인식되기 쉽습니다.

AI 친화적인 데이터 포맷은 다음과 같은 특징을 가집니다:

  1. 플랫(Flat)한 구조: 셀 병합 없이 모든 행(Row)에 데이터가 채워져 있어야 합니다.
  2. CSV 혹은 JSON: 엑셀보다는 콤마로 구분된 CSV, 혹은 키-값(Key-Value) 쌍으로 이루어진 JSON 형식이 AI가 오해 없이 데이터를 섭취하기에 가장 좋습니다.
  3. 명시적 헤더: "1/4분기"라고 쓰는 것보다 "2024_Q1_Revenue"처럼 컬럼명에 구체적인 의미를 담아야 AI가 데이터의 성격을 정확히 추론합니다.

특히 JSON 포맷은 AI 에이전트가 외부 API와 통신할 때 사용하는 표준 언어입니다. 데이터를 JSON 구조로 정리해두면, AI가 별도의 복잡한 전처리 없이 즉시 데이터를 분석하고 활용할 수 있습니다.

4. 죽은 문서 'PDF' vs 살아있는 문서 '웹 표준'

관공서나 기업의 보도자료는 대부분 PDF로 배포됩니다. 하지만 데이터 전문가들 사이에서 PDF는 '데이터의 무덤'이라고 불립니다.

PDF는 인쇄를 위해 텍스트의 위치 좌표를 고정시킨 포맷입니다. 이를 텍스트로 추출해보면 문단 순서가 뒤섞이거나, 표가 깨져서 텍스트 덩어리로 뭉개지는 일이 다반사입니다. AI가 이 문서를 읽으려면 OCR(광학 문자 인식) 과정을 거쳐야 하는데, 이 과정에서 오타가 발생하고 문맥이 끊깁니다.

AI 시대를 준비한다면 PDF는 '최종 열람용'으로만 남겨두고, 원본 정보는 반드시 웹 HTML이나 텍스트 파일 형태로 병행 제공해야 합니다. 검색 엔진의 AI 봇은 PDF 파일을 굳이 힘들게 긁어가는 것보다, 텍스트가 긁어지는 웹페이지를 훨씬 더 신뢰하고 우선순위에 둡니다.

5. AI를 위한 글쓰기 전략: 청킹(Chunking)과 문맥 독립성

포맷뿐만 아니라 글을 쓰는 방식(Writing Style)도 변화가 필요합니다. RAG 시스템이나 AI 검색 엔진은 긴 문서를 통째로 읽기보다, 의미 단위로 쪼개서(Chunking) 벡터 데이터베이스에 저장합니다.

사용자가 질문을 던지면 AI는 저장된 수많은 조각 중 가장 관련성 높은 조각을 찾아내어 답변을 구성합니다. 이때 AI-friendly한 글쓰기 전략이 빛을 발합니다.

  • 문맥의 독립성(Contextual Independence): "앞서 말한 그것은~" 식의 대명사 사용을 자제해야 합니다. 문서가 쪼개졌을 때, "그것"이 무엇인지 알 수 없는 조각은 AI에게 쓸모없는 데이터가 됩니다. 각 문단이나 챕터가 그 자체로 완결된 정보를 담고 있어야 검색될 확률이 높아집니다.
  • 두괄식 구성: AI는 텍스트의 앞부분에 더 높은 가중치(Attention)를 두는 경향이 있습니다. 핵심 결론과 정의를 문단 앞머리에 명확히 배치하세요.
  • 질문-답변 구조: ### AI 포맷이란 무엇인가?라는 제목 아래에 정의를 서술하는 식의 구조는, 사용자가 비슷한 질문을 했을 때 AI가 해당 구간을 정답으로 채택할 확률을 비약적으로 높여줍니다.

6. 결론: AI 친화적인 것이 곧 인간 친화적인 것

흥미로운 사실은 AI가 읽기 좋게 다듬어진 문서는 결국 사람이 읽기에도 훌륭한 문서가 된다는 점입니다.

불필요한 미사여구 없이 구조가 명확한 마크다운 문서, 셀 병합 없이 데이터가 꽉 찬 표, 모바일에서도 텍스트가 긁어지는 웹 문서는 인간 독자에게도 높은 가독성과 편의성을 제공합니다. 즉, AI-friendly Formats를 도입하는 과정은 단순히 기계를 위한 작업이 아니라, 정보의 본질을 군더더기 없이 정제하는 '정보 디자인의 혁신' 과정입니다.

지금 당신의 블로그, 회사의 보고서, 팀의 위키 페이지를 점검해 보십시오. 기계가 읽지 못하는 정보는 점차 고립될 것입니다. 이제 화려한 치장을 버리고, 구조와 본질에 집중할 때입니다. 그것이 AI와 공존하는 시대에 당신의 콘텐츠가 살아남고, 더 널리 퍼지게 만드는 유일한 길입니다.