박톰슨 (@parkthomson075)
2025-12-05 | ❤️ 164 | 🔁 36
장편소설을 LLM으로 작성하는 것은 상당히 어렵다. 이것은 현재 우리가 주로 사용하는 텍스트 기반 AI 모델인 LLM의 기술적 한계와 직접적으로 관련이 있는데 오늘 그 이유를 알려준다.
LLM은 기본적으로 다음 단어를 맞추는 것에 특화되어 있는 기계이다. 수십억 문장의 텍스트를 때려 넣어서, 문장의 중간을 가리고 “이 자리에는 어떤 단어가 올 확률이 가장 높아 보여?” 라고 초거대 사이즈로 학습시킨 결과물이 지금의 LLM이다. LLM의 입력 데이터는 앞에 나온 단어들(엄밀히는, 토큰)이며 출력은 그 다음에 올 단어(엄밀히는, 토큰)의 확률 분포에 기반한다. 이 구조는 짧은 문장, 짧은 글, 조금 무리하면 수천 단어 정도의 글까지는 꽤 잘 작동한다. 그러나 작가들이 쓰는 장편소설과 같이 수십만~수백만 토큰 규모의 텍스트를 처리하려고 하면 본질적인 제약이 드러나게 된다. 그 제약의 핵심은 바로 LLM의 ‘컨텍스트 윈도우(context window)’ 에 있다.
컨텍스트 윈도우를 알아보기 전에 우리는 토큰이 무엇인지 알아볼 필요가 있다. 수많은 사람들이 토큰에 대해 이야기하지만 사실 많은 일반인들은 여전히 토큰이 무엇인지 정확히 알고 있지 못하다. 토큰이란 LLM이 텍스트를 처리하는 최소 단위다. 그것은 문자 1개 일수도 있고, 단어일수도 있고, 단어의 조각(subword)일 수도 있고, 기호 하나 일수도 있다. 가령 “한국어는 어렵다.” 라는 문장을 우리가 입력하면 LLM은 모델에 따라 [“한국”, “어는”, “어렵”, “다”, ”.“] 혹은 [“한국”, “어”, “는”, “어렵”, “다”, ”.“] 라는 식으로 텍스트를 쪼개서 받아들인다. 첫번째 방식은 토큰 5개, 두번째 방식은 토큰이 6개라고 보면 된다. 따라서 토큰의 처리량이 곧 AI의 처리량이고, 그것이 곧 사용량과 동일한 개념이라고 이해할 수 있다. LLM 기반 AI 모델의 API를 사용할 경우 우리가 입력하는 토큰의 개수와 출력되는 토큰의 개수에 따라 과금 되는 구조를 대부분 지니고 있는 이유가 바로 여기에 있다. 토크나이저마다, 그리고 언어의 종류마다 입출력되는 텍스트 데이터가 정확히 ‘몇 토큰’인지는 약간씩 상이하지만, 가령 OpenAI의 토크나이저를 기반으로 대략 토큰 개수를 확인하고 싶다면 https://t.co/3aru3A6S4k 사이트에 접속하여 모델을 선택한 후 텍스트를 입력하면 해당 텍스트 데이터가 몇 토큰 정도 되는지를 알려주기도 한다.
그렇다면 컨텍스트 윈도우란 무엇인가? 컨텍스트 윈도우란 “LLM이 한 번에 머릿속에 올려둘 수 있는 토큰 분량의 한계치” 다. LLM은 토큰 데이터를 무한대로 기억하지 못한다. 모델마다 한 번에 볼 수 있는 텍스트 길이가 정해져 있는데, 우리는 이것을 컨텍스트 윈도우라고 부른다. 어떤 모델은 수만 토큰, 최근 공개되는 모델은 수십만 토큰까지도 본다고 광고하지만 어쨌든 유한한 양의 토큰을 보는 것이기 때문에 모델의 처리량은 한계가 있다. 물론 A4 1페이지가 보통 400700토큰 정도라고 치면 100페이지 정도 분량이 4만7만 토큰 정도 되기 때문에, 이론상으로는 128k 정도의 컨텍스트 윈도우를 지원하는 모델의 경우 100페이지 정도 분량의 PDF파일을 한 번에 다 읽고 모델이 유저 질문에 답변하는 것도 가능하다. 그러나 긴 컨텍스트를 한 번에 넣게 되면 계산량 증가로 모델 제공 업체가 소요하는 비용 또한 증가하며, 동시에 속도가 저하되고, 컨텍스트 끝부분으로 갈수록 모델이 앞부분을 활용한 능력 또한 완벽하게 선형적으로 유지되지 않기 때문에 실제 서비스들은 윈도우가 길더라도 무작정 다 때려 넣기보다는 좀 더 효율적으로 이를 처리하기 위해 청킹, 임베딩, 요약의 요약, RAG 등의 방법들을 같이 쓴다. 이로이 또한 이코노믹한 관점에서 본다면 ” 비용 ” 의 문제라고 볼 수 있다.
어쨌거나 LLM은 이렇게 바로 앞서 있었던 유한한 토큰을 기준으로 다음 문장이 자연스러워 보이게 만드는 데에만 최적화되어 있기 때문에 국소적으로는 그럴듯한 문장을 잘 쓰지만 전체 1,000페이지짜리 구조를 한 번에 고려하여 짜 내려가는 능력은 애초에 설계상 부족할 수밖에 없다. 때문에 현재의 LLM을 활용하여 장편 텍스트를 뽑아내면 초반에는 훌륭한 세계관과 인물이 등장하지만 중반부터 설정이 조금씩 잊혀지고, 이름이 바뀌거나, 캐릭터 특성이 흔들리고, 후반부로 가면 초반의 질문이나 갈등이 어정쩡하게 봉합되거나 갑자기 다른 장르로 미끄러지는 등 AI 특유의 구조적 피로가 나타나게 된다. 인간 작가가 장편을 쓰는 과정을 생각해보면 장편소설을 쓰는 작업은 사실 단순한 생성이 아니라 프로젝트 관리와 유사하다고 볼 수 있다. 세계관과 등장인물, 주요 갈등, 그리고 결말의 방향을 설정하고 기획하며 초고를 작성하고, 이후 여러 단계로 퇴고한 후 전체 스토리를 하나의 주제나 테마 아래 통제한다. 그러나 LLM은 기본적으로 한 번에 왼쪽→오른쪽으로 흘러가며 토해내는 기계에 불과하므로 자기가 쓴 30만~100만 토큰짜리 초고를 다시 읽고 구조를 완전히 바꾸고, 필요 없는 장을 삭제하고, 새로운 복선을 넣는 식의 자기 편집 루프가 존재하기 어렵다. 물론 사람이 계속 “이제 2부를 다시 써줘”, “1장에서 A가 했던 말을 17장에서 회수하도록 바꿔줘” 라며 계속 조정하면 그럭저럭 내용이 다뤄지기도 하지만 이마저도 실제로 시도해 보면 모델의 ” 비용 ” 을 통제하는 (우리가 다 알 수 없는) 모델 자체 알고리즘에 의해 충분히 만족할만한 수준의 토큰 입출력이 이뤄지는 것은 경험하기 상당히 어렵다.
이러한 관점에서 우리가 흔히 이야기하는 AGI에 대해 살펴보자면, 일리야 수츠케버가 현재의 LLM 모델의 구조적 방식으로 우리가 원하는 AGI까지 도달하기란 상당히 어렵다고 이야기하는 이유 또한 바로 여기에 있다고 이해해 볼 수 있다. 그는 “LLM 모델을 100배 더 키우면 좋아지긴 하겠지만 모든 것을 뒤집는 변혁은 아니다 ” 라고 이야기 하며 “다시 연구의 시대로 돌아가야 한다” 고 주장한다. 튜링상 수상자인 얀 르쿤 또한 LLM의 근본적 한계에 대해 지적하는데, 그는 “LLM은 언어 패턴을 모방할 뿐 세계를 이해하지 못하고 인과관계를 파악하지 못한다” 고 이야기 하며 “언어는 인간 지능의 부산물이지, 핵심 메커니즘이 아니다” 라고 말하고 있다. 구글 딥마인드의 데미스 하사비스 또한 LLM 모델에만 집중하는 것이 아니라 해당 팀만의 방식으로 AI 알고리즘을 여러 도메인에서 테스트하며, ” 지능 ” 그 자체에 대한 탐구를 끊임없이 이어가고 있다. LLM이 지금 단계에서 언어 능력 하나만 놓고 본다면 꽤나 AGI에 근접해 보일 수 있지만, 실제로 장기적인 목표를 세우고, 환경과 상호작용하며, 스스로 계획·수정·학습을 이어가는 시스템이 되려면 그것이 과연 소위 ” 스케일링 법칙 ” 만으로 해결 가능한 것일지는 여러가지 점에서 아직도 미지수가 존재하는 것으로 보인다. 물론 더 긴 컨텍스트 윈도우와 외부 메모리, 그리고 에이전트와 도구 사용 능력의 강화(상위 수준의 루프), 월드 모델과 시뮬레이션 능력 등이 보완 된다면 언젠가는 ” 그럴듯한 장편소설을 스스로 기획하고 완성하는 시스템 ” 까지도 도달할 수 있겠다. 하지만 현재의 LLM부터 AGI가 만들어지는 그 사이의 미래가 그렇게 쉽게 만들어질 수 있는 것이 아닐 수도 있다는 점을 우리는 언제나 기억할 필요가 있다.
- parkthomson -