By WILL KNIGHT, WIRED US
제롬 페센티(Jerome Pesenti)에게는 메타의 강력한 오픈소스 대규모 언어 모델인 Llama 3 배포를 결정을 기뻐할 만한 이유가 있다. Llama 3가 오픈소스로 출시된 덕분에 누구나 다운로드가 가능하며, Llama 3를 바탕으로 다양한 툴을 개발하는 것도 가능하다.
과거, 메타 인공지능(AI) 사업부 부사장이었던 페센티는 종종 메타가 타인의 사용과 개발 작업이 가능하도록 기술을 공개하는 방안을 고려해야 한다고 주장했다. 하지만 페센티가 Llama 3 오픈소스 공개 사실에 기뻐하는 주된 이유는 자신이 설립한 스타트업이 오픈AI의 업계 최고 수준인 텍스트 생성 모델인 GPT-4와 매우 가까운 역량을 갖춘 AI 모델에 접근할 수 있기 때문이다. 게다가 Llama 3가 오픈소스로 공개된 덕분에 운영 비용이 매우 저렴하면서도 감독과 관리에서 벗어나 더 개방적이라는 장점도 있다.
페센티는 “Llama 3 출시 소식이 획기적인 변화를 불러올 기회라고 느꼈다”라고 말했다. 페센티가 설립한 AI 튜터 서비스 기업 시즐(Sizzle)은 현재 GPT-4를 포함한 복수 AI 모델을 사용하여 학생에게 도움이 될 다양한 문제와 교과 과정을 만든다. 시즐 엔지니어는 Llama 3가 다양한 사례에서 GPT-4를 대체할 수 있는가 평가하고자 한다.
시즐의 사례는 AI 권력 균형 전환의 조짐이 될 수도 있다. 오픈AI는 챗GPT로 세계를 뒤바꾸고, AI 투자 열풍을 조성했다. 오픈AI의 클라우드 API의 개발자 수는 200만 명을 돌파했다. 그러나 오픈소스 모델인 Llama 3가 경쟁력을 입증한다면, 개발자와 기업가 모두 오픈AI나 구글의 최신 모델 접근 비용을 부담하지 않고, Llama 3나 새로이 등장하는 강력한 오픈소스 모델을 선택할 수 있다.
페센티는 Llama 3와 같은 오픈소스 모델과 GPT-4, 구글 제미니 등 비공개 AI 모델 간의 경쟁을 언급하며, “흥미진진한 경쟁이 될 것이다”라고 말했다.
메타가 앞서 공개한 대규모 언어 모델인 Llama 2는 이미 영향력을 입증했으나 메타는 고급 훈련 데이터 주입량을 늘리면서 더 강력한 모델로 Llama 3를 개발했다고 전했다. Llama 3는 불필요하거나 질적으로 완성도가 낮은 콘텐츠는 제거하고, 사용하기 가장 좋은 데이터세트 조합을 선정하는 새로운 기법을 택하여 개발했다.
페센티는 Llama 3를 Fireworks.ai와 같은 클라우드 플랫폼에서 운영할 때 부담하는 비용이 API를 통한 GPT-4 사용료의 1/20 수준이라고 말했다. Llama 3가 질문을 입력하는 즉시 답변을 전달할 수 있다고 덧붙였다. 시즐처럼 다양한 공급사의 모델에 접촉하는 방식에 의존하는 기업의 개발자가 고려하는 핵심 조건이다. 페센티는 “지연성과 비용, 정확도를 종합하여 고려해야 한다”라고 말했다.
오픈소스 AI 모델이 매우 빠른 속도로 등장했다. 필자는 불과 몇 주 전 스타트업 데이터브릭스(Databricks)가 당시 일시적으로 최고의 오픈소스 AI 모델이 된 AI 모델을 바탕으로 개발한 언어 모델인 DBRX 개발 마무리 단계에서 노력하는 과정을 직접 취재했다. 이제는 Llama 3가 최고의 오픈소스 AI 모델 자리를 차지했다. 데이터브릭스 CEO 알리 고시(Ali Ghodsi)도 Llama 3가 AI 언어 모델 경쟁의 판도를 바꿀 만한 모델이라고 언급하며, 오픈소스와 비공개 대규모 언어 모델이 서로 경쟁할 수 있는 수준으로 GPT-4의 수준과 가까워졌다고 평가했다.
Llama 3는 AI 모델의 규모 축소 가능성을 보여주었다. 최고 성능이 아닌 하드웨어로도 언어 모델을 운영할 수 있다는 의미이다. 메타는 최신 언어 모델 두 가지 버전을 공개했다. 하나는 훈련 데이터로 학습할 때 사용하는 변수 700억 개를 바탕으로 개발된 모델이며, 나머지 하나는 80억 개의 변수를 바탕으로 훈련된 모델이다. 변수 80억 개를 훈련 데이터에 포함한 모델은 노트북에서도 실행할 수 있을 정도로 용량이 작다. 하지만 적어도 와이어드의 테스트만을 기준으로 이야기하자면, 성능 자체는 매우 뛰어나다.
메타가 Llama 3를 공개하기 이틀 전, 메타에 재직할 당시 프레센티의 동료가 창립한 프랑스 AI 기업 미스트랄(Mistral)이 자체 개발 언어 모델인 믹스트랄 8x22B(Mixtral 8x22B)를 오픈소스로 공개했다. 총 1,410억 가지 변수로 훈련받았으나 한 번에 최대 390억 가지 변수만 사용한다. 다양한 전문 데이터 혼합을 위해 의도한 설계이다. 이 덕분에 믹스트랄 8x22B는 훨씬 더 규모가 큰 타사의 일부 언어 모델보다 더 뛰어난 편이다.
테크 업계 대기업 중 메타 이외에도 오픈소스 AI를 배포한 기업을 찾아볼 수 있다. 2024년 4월, 마이크로소프트는 Phi-3-mini를, 애플은 오픈ELM(OpenELM)을 공개했다. 두 가지 모델은 용량이 작지만, 스마트폰에서 자유롭게 실행할 수 있다.
앞으로 몇 달 동안 Llama 3를 포함한 다른 오픈소스 AI 모델이 실제로 소수 개발자를 위한 GPT-4를 비롯한 고급 AI 모델을 대체할 가능성을 입증할 수 있을 것이다. 메타는 4,000억 가지 변수를 적용한 대규모 Llama 3 버전을 개발 중이다. 바로 최고 AI 과학자 얀 르쿤(Yann LeCun)이 세계 최고 수준의 언어 모델 중 하나가 되어야 한다고 말한 AI 언어 모델 버전이다.
물론, 누구나 사용하도록 무료로 공개된 것이 순수한 이타주의에서 비롯된 결정은 아니다. 메타 CEO 마크 저커버그는 메타의 AI 모델 개발이 메타가 의존하는 기술 비용을 낮추는 방식으로 메타에 득이 될 것이라고 전했다. 메타가 직접 사용할 수 있는 호환 툴과 서비스 확산을 그 예시로 언급할 수 있다. 저커버그는 오픈AI나 마이크로소프트, 구글 등이 생성형 AI 시장을 장악하지 못하도록 막는 것이 메타에 득이 될 것인지는 말하지 않았다.
** 위 기사는 와이어드US(WIRED.com)에 게재된 것을 와이어드코리아(WIRED.kr)가 번역한 것입니다. (번역 : 고다솔 에디터)
<기사원문>
Meta’s Open Source Llama 3 Is Already Nipping at OpenAI’s Heels
제롬 페센티(Jerome Pesenti)에게는 메타의 강력한 오픈소스 대규모 언어 모델인 Llama 3 배포를 결정을 기뻐할 만한 이유가 있다. Llama 3가 오픈소스로 출시된 덕분에 누구나 다운로드가 가능하며, Llama 3를 바탕으로 다양한 툴을 개발하는 것도 가능하다.
과거, 메타 인공지능(AI) 사업부 부사장이었던 페센티는 종종 메타가 타인의 사용과 개발 작업이 가능하도록 기술을 공개하는 방안을 고려해야 한다고 주장했다. 하지만 페센티가 Llama 3 오픈소스 공개 사실에 기뻐하는 주된 이유는 자신이 설립한 스타트업이 오픈AI의 업계 최고 수준인 텍스트 생성 모델인 GPT-4와 매우 가까운 역량을 갖춘 AI 모델에 접근할 수 있기 때문이다. 게다가 Llama 3가 오픈소스로 공개된 덕분에 운영 비용이 매우 저렴하면서도 감독과 관리에서 벗어나 더 개방적이라는 장점도 있다.
페센티는 “Llama 3 출시 소식이 획기적인 변화를 불러올 기회라고 느꼈다”라고 말했다. 페센티가 설립한 AI 튜터 서비스 기업 시즐(Sizzle)은 현재 GPT-4를 포함한 복수 AI 모델을 사용하여 학생에게 도움이 될 다양한 문제와 교과 과정을 만든다. 시즐 엔지니어는 Llama 3가 다양한 사례에서 GPT-4를 대체할 수 있는가 평가하고자 한다.
시즐의 사례는 AI 권력 균형 전환의 조짐이 될 수도 있다. 오픈AI는 챗GPT로 세계를 뒤바꾸고, AI 투자 열풍을 조성했다. 오픈AI의 클라우드 API의 개발자 수는 200만 명을 돌파했다. 그러나 오픈소스 모델인 Llama 3가 경쟁력을 입증한다면, 개발자와 기업가 모두 오픈AI나 구글의 최신 모델 접근 비용을 부담하지 않고, Llama 3나 새로이 등장하는 강력한 오픈소스 모델을 선택할 수 있다.
페센티는 Llama 3와 같은 오픈소스 모델과 GPT-4, 구글 제미니 등 비공개 AI 모델 간의 경쟁을 언급하며, “흥미진진한 경쟁이 될 것이다”라고 말했다.
메타가 앞서 공개한 대규모 언어 모델인 Llama 2는 이미 영향력을 입증했으나 메타는 고급 훈련 데이터 주입량을 늘리면서 더 강력한 모델로 Llama 3를 개발했다고 전했다. Llama 3는 불필요하거나 질적으로 완성도가 낮은 콘텐츠는 제거하고, 사용하기 가장 좋은 데이터세트 조합을 선정하는 새로운 기법을 택하여 개발했다.
페센티는 Llama 3를 Fireworks.ai와 같은 클라우드 플랫폼에서 운영할 때 부담하는 비용이 API를 통한 GPT-4 사용료의 1/20 수준이라고 말했다. Llama 3가 질문을 입력하는 즉시 답변을 전달할 수 있다고 덧붙였다. 시즐처럼 다양한 공급사의 모델에 접촉하는 방식에 의존하는 기업의 개발자가 고려하는 핵심 조건이다. 페센티는 “지연성과 비용, 정확도를 종합하여 고려해야 한다”라고 말했다.
오픈소스 AI 모델이 매우 빠른 속도로 등장했다. 필자는 불과 몇 주 전 스타트업 데이터브릭스(Databricks)가 당시 일시적으로 최고의 오픈소스 AI 모델이 된 AI 모델을 바탕으로 개발한 언어 모델인 DBRX 개발 마무리 단계에서 노력하는 과정을 직접 취재했다. 이제는 Llama 3가 최고의 오픈소스 AI 모델 자리를 차지했다. 데이터브릭스 CEO 알리 고시(Ali Ghodsi)도 Llama 3가 AI 언어 모델 경쟁의 판도를 바꿀 만한 모델이라고 언급하며, 오픈소스와 비공개 대규모 언어 모델이 서로 경쟁할 수 있는 수준으로 GPT-4의 수준과 가까워졌다고 평가했다.
Llama 3는 AI 모델의 규모 축소 가능성을 보여주었다. 최고 성능이 아닌 하드웨어로도 언어 모델을 운영할 수 있다는 의미이다. 메타는 최신 언어 모델 두 가지 버전을 공개했다. 하나는 훈련 데이터로 학습할 때 사용하는 변수 700억 개를 바탕으로 개발된 모델이며, 나머지 하나는 80억 개의 변수를 바탕으로 훈련된 모델이다. 변수 80억 개를 훈련 데이터에 포함한 모델은 노트북에서도 실행할 수 있을 정도로 용량이 작다. 하지만 적어도 와이어드의 테스트만을 기준으로 이야기하자면, 성능 자체는 매우 뛰어나다.
메타가 Llama 3를 공개하기 이틀 전, 메타에 재직할 당시 프레센티의 동료가 창립한 프랑스 AI 기업 미스트랄(Mistral)이 자체 개발 언어 모델인 믹스트랄 8x22B(Mixtral 8x22B)를 오픈소스로 공개했다. 총 1,410억 가지 변수로 훈련받았으나 한 번에 최대 390억 가지 변수만 사용한다. 다양한 전문 데이터 혼합을 위해 의도한 설계이다. 이 덕분에 믹스트랄 8x22B는 훨씬 더 규모가 큰 타사의 일부 언어 모델보다 더 뛰어난 편이다.
테크 업계 대기업 중 메타 이외에도 오픈소스 AI를 배포한 기업을 찾아볼 수 있다. 2024년 4월, 마이크로소프트는 Phi-3-mini를, 애플은 오픈ELM(OpenELM)을 공개했다. 두 가지 모델은 용량이 작지만, 스마트폰에서 자유롭게 실행할 수 있다.
앞으로 몇 달 동안 Llama 3를 포함한 다른 오픈소스 AI 모델이 실제로 소수 개발자를 위한 GPT-4를 비롯한 고급 AI 모델을 대체할 가능성을 입증할 수 있을 것이다. 메타는 4,000억 가지 변수를 적용한 대규모 Llama 3 버전을 개발 중이다. 바로 최고 AI 과학자 얀 르쿤(Yann LeCun)이 세계 최고 수준의 언어 모델 중 하나가 되어야 한다고 말한 AI 언어 모델 버전이다.
물론, 누구나 사용하도록 무료로 공개된 것이 순수한 이타주의에서 비롯된 결정은 아니다. 메타 CEO 마크 저커버그는 메타의 AI 모델 개발이 메타가 의존하는 기술 비용을 낮추는 방식으로 메타에 득이 될 것이라고 전했다. 메타가 직접 사용할 수 있는 호환 툴과 서비스 확산을 그 예시로 언급할 수 있다. 저커버그는 오픈AI나 마이크로소프트, 구글 등이 생성형 AI 시장을 장악하지 못하도록 막는 것이 메타에 득이 될 것인지는 말하지 않았다.
** 위 기사는 와이어드US(WIRED.com)에 게재된 것을 와이어드코리아(WIRED.kr)가 번역한 것입니다. (번역 : 고다솔 에디터)
<기사원문>
Meta’s Open Source Llama 3 Is Already Nipping at OpenAI’s Heels
저작권자 © WIRED Korea 무단전재 및 재배포 금지
저작권자 © WIRED Korea 무단전재 및 재배포 금지
이 기사를 공유합니다