코드 라마(Code Llama)는 메타가 2023년 7월 18일 출시한 차세대 대규모 오픈소스 언어 모델 ‘라마 2’를 코드 작성 및 리뷰용으로 최적화한 코딩 전용 AI 모델이다. 라마2가 박식한 지식인이라면, 코드라마는 코딩 실력에 집중하는 코딩 전문가입니다. 다시 말하지만, 이는 누구나 연구 및 상업적 목적으로 무료로 사용할 수 있는 오픈 소스입니다.
Meta가 선보인 Code Rama는 Rama 2를 코딩에 적합하도록 학습시킨 코딩 전용 대규모 언어 모델입니다. Coderama, Coderama – Python 및 Coderama 지침의 세 가지 모델이 오픈 소스로 출시되었습니다. (데이터: 메타)
Code Llama는 세 가지 모델로 구성됩니다. 기본 모델인 Code Llama; Code Llama – Python은 이름에서 알 수 있듯이 Python 전용 모델입니다. 자연어 명령에 대한 이해를 향상시키기 위해 미세 조정된 Code Llama – Instruct. 여러 모델로 제공됩니다. 라마2를 코딩에 특화된 모델로 진화시켰으며, 더욱 다듬어 재능과 능력을 향상시켰습니다.
Code Rama는 Rama 2에서 코드 및 자연어 처리를 위한 추가 코드별 데이터 세트를 훈련하고 장기간에 걸쳐 동일한 데이터 세트에서 더 많은 데이터를 샘플링하는 과정을 통해 만들어졌습니다. Coderama에는 매개변수의 크기에 따라 70억개, 130억개, 340억개의 매개변수를 갖는 3가지 모델이 있으며, 각 모델은 5000억 개의 코드 토큰과 코드 관련 데이터로 학습되었습니다.
지원되는 코딩 언어에는 Python, C++, Java, PHP, Typescript(Javascript), C# 및 Bash를 포함하여 현재 가장 많이 사용되는 프로그래밍 언어가 포함됩니다. ‘피보나치 수열을 출력하는 함수 작성’ 등 자연어로 코드를 작성할 수도 있고, 직접 코딩 작업이나 디버깅에 활용할 수도 있습니다.
Coderama – Python은 1,000억 개의 Python 코드 토큰으로 Python 코딩 기술을 향상시킵니다. Coderama – Instruct는 자연어로 코딩 작업을 수행할 때 보다 유용하고 효율적인 답변을 제공하기 위해 미세 조정 및 훈련된 모델입니다. 이를 통해 연구, 산업, 오픈소스 프로젝트, NGO, 비즈니스 등 다양한 분야의 소프트웨어 엔지니어를 지원하는 것이 Coderama의 목표입니다.
Mehta는 “우리는 AI 모델, 특히 코딩을 위한 LLM이 혁신과 안전 측면에서 개방형 접근 방식으로부터 가장 큰 이점을 얻을 것이라고 믿습니다.”라고 말했습니다. “Coderama와 같은 코딩 전용 대규모 언어 모델을 출시함으로써 전체 커뮤니티는 기능을 평가하고 문제를 식별하며 취약점을 수정할 수 있습니다.” ciokr@idg.co.kr