100만개 토큰 컨텍스트창을 가진 LLM으로 무엇을 할수 있을까?

Jinyoung Kim
5 min readApr 8, 2024
출처 : 구글 블로그

Claude3 Opus버전의 평가가 좋아 유료버전을 사용해 보았는데 나는 잘 체감이 되지 않는다. GPTs를 포함해 다양한 크롬 확장이 있어 여전히 나의 사용 환경에는 GPT-4가 잘 맞는 것 같다. 모델의 성능도 중요하지만 워크플로우에 녹아들어야 한다는 생각이 점점 더 굳어진다.

요즘 새롭게 많이 사용하는 모델은 최대 100만개의 토큰 컨텍스트창을 가진 Gemini 1.5이다. 이 정도 컨텍스트창이면 “1시간 분량의 영상, 11시간 분량의 음성, 3만줄 이상의 코드 및 70만개가 넘는 단어”라고 한다.

내가 LLM을 가장 많이 사용하는 케이스는 텍스트 요약인데, 얼마전 부터 GPT-4가 파일을 첨부한 후 태스크를 실행하면 굉장히 게을러져서 스트레스를 받고 있던 차라 사용빈도가 많이 늘었다.

현재 Gemini 1.5는 베타기간이라 따로 신청을 해야 한다. (신청 링크)

Gemini는 (요즘에는 표준이 되어 버린 것 같은) mixture-of-experts(MOE)아키텍처를 사용한 중형 모델(파라미터수 기준) 이지만 대형 모델인 Gemini 1.0 Ultra와 거의 비슷한 성능을 내고 무엇보다 100만개의 컨텍스트창이 킬러기능이라고 생각한다.

비디오

약 5분 정도 되는 비디오(27MB 정도)를 첨부하니 약 85,000 토큰 정도가 된다.

비디오 첨부 스크린샷

API사용을 제외한 서비스 레벨 사용에서 이 정도의 토큰 크기를 감당하는 모델은 현재 없다. 더구나 영상 첨부가 가능한 모델도 없다.

영상을 인식하는 기술이 궁금해서 Gemini 1.5관련 공식 자료들을 찾아보니

Gemini 1.5블로그 게시글

Gemini 1.5 Pro는 최대 1시간 분량의 동영상도 추론할 수 있습니다. 동영상을 첨부하면 Google AI 스튜디오가 오디오 없이 수천 개의 프레임으로 분류한 다음, Gemini 모델은 멀티모달이므로 고도로 정교한 추론 및 문제 해결 작업을 수행할 수 있습니다.

Gemini 1.5 기술 보고서에 따르면

45분 분량의 버스터 키튼 영화 “셜록 주니어”(1924)(1FPS에서 2,674 프레임, 684k 토큰)를 입력하면 Gemini 1.5 Pro는 특정 프레임에서 텍스트 정보를 검색하고 추출하여 해당 타임스탬프를 제공합니다.

684k 토큰/2674(프레임) = 256토큰. 즉,각 프레임당 256개의 토큰으로 처리가 된다. (참고)

내가 첨부한 영상은 84,949토큰 / 256 = 331초 = 약 5.53분 (실제 5.23분)이므로 유사하다고 볼 수 있다.

영상의 프레임을 프레임화여 처리하는 방법에 대해서 명시적인 언급은 없지만, Gemini 논문에서 언급된 아래 논문에서 힌트를 얻을 수 있다.

매우 단순하게 요약을 해보면, 영상의 각 프레임(이미지)를 “패치”로 분할하고 벡터화하여 고차원 임베딩 공간에 저장, 위치 인코딩을 추가하고 최종적으로 트랜스포머 같은 아키텍쳐를 통해 처리 된다.

문서

소설 ‘파우스트’(약 500페이지 분량)의 텍스트 파일을 첨부하니 약 73,000 토큰 정도 된다. 약 100만-150만 정도의 단어로 구성되었다고 가정하면 납득이 가는 토큰 수 이다.

페이지 요약 프롬프트를 실행한다.

아무래도 토큰수가 많은 계산 집약적인 작업이라 답변이 완성되는 속도가 느리다. 약 7만 토큰 기준으로 약 50초 정리 걸린다.

처음에는 추론속도가 더 느리고 스트리밍도 지원이 안됐는데, 얼마전 부터 속도가 빨라지고 스트리밍이 지원되어서 사용성이 좋아졌다.

아웃풋 토큰수 제한은 8092이므로 소설의 전체 내용을 요약하긴 무리지만 각 챕터별 요약을 생성하는데는 문제가 없다.

코드

백만개의 토큰이면 왠만한 입출력 컨텍스트는는 다 소화하지 않을까 싶다.

내 입장에서 아쉬운 점은, 비개발자이다 보니 코드 작성 자체 보다는 프로젝트의 구조를 이해하거나 특정 로직을 찾는 니즈가 많은데, ChaptGPT처럼ZIP파일을 첨부하여 사용이 불가하다는 점이다. 아직 베타버전이니 나중에 지원되는 것을 기대해 보겠다. (코드자체 레벨에서 사용 예시는 여기서 확인)

실사용 사례

나는 주로 매우 긴 유튜브 영상을 요약하는데 Gemini 1.5를 사용한다.

긴 영상을 넣으면 첨부하는데 굉장히 시간이 오래 걸려 비효율적이다.

테스트 영상은 Lex Fridman과 Zuckerberg의 2시간 짜리 팟캐스트 영상이다.

Youtube Summary 확장을 이용하여 오른쪽 상단에 있는 버튼으로 스크립트를 카피 한다.

3시간 짜리 영상+ 요약이 3만개의 토큰으로 요약된다.

개인적으로는 요약을 훑어 본 후 관심 있는 주제의 섹션을 더 자세히 살펴본다.

Gemini 1.5가 가지는 의미는 단순히 컨텍스트창의 증가뿐이 아니라 텍스트, 이미지, 코드에 비디오까지 더해져 LLM과 커뮤니케이션을 하는 수단이 늘어난 것이다. 앞으로 어떤 분야에서, 어떤 방식을 통해 활용할 수 있을지 기대가 된다.

--

--

Jinyoung Kim

Founder of YOLO Inc (R.I.P), Product Manager/Growth Hacker. I Love Hiphop/R&B, Museum.