GeekNews (@GeekNewsHada)
2025-08-12 | ❤️ 15 | 🔁 5
GPT-OSS-120B를 NVIDIA GPU에서 초당 500 토큰 속도로 실행하는 법
- OpenAI의 오픈소스 LLM인 GPT-OSS-120B를 NVIDIA GPU 환경에서 초당 500개 이상 토큰 처리 성능으로 최적화함
- TensorRT-LLM, vLLM, SGLang 등 다양한 추론 프레임워크를 병렬 테스트하며 Hopper와… https://news.hada.io/topic?id=22458