📚 세현's Vault

🌍 도메인

🔮3D-Vision
🎨Rendering
🤖Robotics
🧠LLM
👁️VLM
🎬GenAI
🥽XR
🎮Simulation
🛠️Dev-Tools
💰Crypto
📈Finance
📋Productivity
📦기타

📄 Papers

📚전체 논문172

❯

❯

GPT OSS 120B 500TPS 추론 최적화

GPT-OSS-120B 500TPS 추론 최적화

2025년 8월 12일1 min read

LLM
Inference-Optimization

GeekNews (@GeekNewsHada)

2025-08-12 | ❤️ 15 | 🔁 5

GPT-OSS-120B를 NVIDIA GPU에서 초당 500 토큰 속도로 실행하는 법

OpenAI의 오픈소스 LLM인 GPT-OSS-120B를 NVIDIA GPU 환경에서 초당 500개 이상 토큰 처리 성능으로 최적화함
TensorRT-LLM, vLLM, SGLang 등 다양한 추론 프레임워크를 병렬 테스트하며 Hopper와… https://news.hada.io/topic?id=22458

Tags

그래프 뷰

GeekNews (@GeekNewsHada)
Tags

백링크

domain-LLM

Created with Quartz v4.5.2 © 2026

GitHub
Sehyeon Park