엔비디아(www.nvidia.co.kr)는 새로운 소프트웨어인 엔비디아 텐서RT-LLM을 출시했다고 밝혔다.
대규모 언어 모델이 발전함에 따라 TensorRT-LLM은 오픈 소스 모듈식 Python API를 통해 유용성과 확장성을 향상시키고 쉽게 사용자 정의할 수 있습니다. Python API는 새로운 아키텍처와 향상된 기능을 정의, 최적화 및 구현할 수 있습니다. 예를 들어, mosaicML은 TensorRT-LLM 위에 필요한 특정 기능을 원활하게 추가하고 이를 추론 서비스에 통합했습니다.
H100만으로도 A100보다 4배 빠른 속도를 보여준다. 기내 일괄 처리 등 TensorRT-LLM의 성능을 추가하면 속도가 총 8배 증가하여 최고의 처리량을 제공합니다. Meta가 최근 출시한 언어 모델 Llama 2는 생성 AI 통합을 모색하는 많은 조직에서 널리 사용됩니다. 사용되고 있습니다. 이 Llama 2에서 TensorRT-LLM은 A100 GPU에 비해 추론 성능을 4.6배 가속화할 수 있습니다.
Rama 2와 같은 최신 대규모 언어 모델에서는 700억 개의 매개변수를 사용하더라도 고객은 A100 표준에 비해 4.6배의 성능 속도 향상을 실현합니다. 이를 통해 총 소유 비용을 3배, 에너지 소비량을 3.2배 줄일 수 있습니다.
TensorRT-LLM은 개별 가중치 행렬을 여러 장치에 분할하는 모델 병렬 처리 유형인 Tensor 병렬 처리를 사용합니다. 이를 통해 개발자 개입이나 모델 변경 없이 NVLink를 통해 연결된 여러 GPU와 서버에서 각 모델을 병렬로 실행하여 대규모 추론을 효율적으로 수행할 수 있습니다.
TensorRT-LLM에는 오늘날 프로덕션 환경에서 널리 사용되는 많은 대규모 언어 모델의 최적화되고 즉시 실행 가능한 버전도 포함되어 있습니다. 여기에는 Meta의 Rama 2, OpenAI의 GPT-2 및 GPT-3, Falcon, mosaic MPT 및 BLOOM을 포함하여 12개가 포함되며 모두 TensorRT를 사용하기 쉽습니다. -LLM은 Python API로 구현할 수 있습니다.
이러한 기능을 통해 개발자는 거의 모든 업계의 요구 사항을 충족하는 사용자 정의 대규모 언어 모델을 보다 빠르고 정확하게 만들 수 있습니다.
진행 중인 일괄 처리를 사용하면 다음 요청 세트로 이동하기 전에 전체 요청이 완료될 때까지 기다리지 않고 TensorRT-LLM 런타임은 일괄 처리에서 완료된 시퀀스를 즉시 제거합니다. 그런 다음 다른 요청이 아직 전송 중인 동안 새 요청을 실행합니다. 비행 중 일괄 처리 및 추가 커널 수준 최적화는 H100 Tensor Core GPU의 실제 대규모 언어 모델 요청 벤치마크에서 GPU 사용량과 처리량을 두 배 이상 향상시켜 총 소유 비용을 최소화하고 에너지 비용을 절감합니다.
TensorRT-LLM과 함께 NVIDIA H100 GPU를 사용하면 모델 가중치를 새로운 FP8 형식으로 쉽게 변환하고 모델을 자동으로 컴파일하여 최적화된 FP8 커널을 활용할 수 있습니다. 이는 Hopper Transformer Engine 기술을 통해 가능하며, 별도로 모델 코드를 변경할 필요가 없습니다.
H100에 도입된 FP8 데이터 형식을 사용하면 개발자는 모델 정확도를 저하시키지 않으면서 모델을 정량화하고 메모리 소비를 획기적으로 향상시킬 수 있습니다. FP8 양자화는 INT8 또는 INT4와 같은 다른 데이터 형식에 비해 높은 정확도를 유지하면서 가장 빠른 성능을 달성하고 가장 간단한 구현을 제공합니다.
TensorRT-LLM은 추론을 위한 대규모 언어 모델을 정의, 최적화 및 실행하기 위해 TensorRT의 딥 러닝 컴파일러, 최적화된 커널, 사전 및 사후 처리, 다중 GPU/다중 노드 통신을 간단한 오픈 소스 Python API와 결합합니다. 생산 환경. 그것은 다음과 같이 구성됩니다
NVIDIA TensorRT-LLM은 현재 초기 액세스 버전으로 제공됩니다. 또한 보안, 안정성, 관리 효율성 및 지원을 갖춘 엔터프라이즈급 AI 소프트웨어 플랫폼인 NVIDIA AI Enterprise의 일부인 NVIDIA NEMO 프레임워크에 통합됩니다. 개발자와 연구원은 NGC의 Nemo 프레임워크 또는 GitHub의 소스 저장소를 통해 TensorRT-LLM에 액세스할 수 있습니다.
조기 액세스 릴리스를 신청하려면 NVIDIA 개발자 프로그램에 등록해야 합니다. 또한 비즈니스 이메일 주소로 로그인해야 합니다. Gmail, Yahoo, QQ 또는 기타 개인 이메일 계정을 사용하는 계정에서는 신청서를 수락할 수 없습니다.