vllm-omni

[Performance]: Uniproc executor has much better performance at higher concurrency on Qwen3-TTS (Single GPU)

#2603 · Apr 8, 2026

Medium

[Bug]: Fish Speech S2 Pro: FileNotFoundError: [Errno 2] No such file or directory: '/tmp/fish_ref_vwbsa8u2.npy' ONLY when server is launched on multiple GPUs.

#2602 · Apr 8, 2026

Medium

bug

[Bug]: Qwen-Image generation fails with tensor shape error for extremely small image sizes (e.g., 15x15)

#2601 · Apr 8, 2026

Medium

bug

[Bug]: qwen3-tts

#2597 · Apr 8, 2026

Medium

bug

[Bug]: Qwen3 TTS max_model_len is greater than the derived max_model_len

#2595 · Apr 8, 2026

Medium

bug

[New Model]: VoxCPM2

#2594 · Apr 8, 2026

Medium

help wanted good first issue new model

[RFC]: support DiT MM online FP8 quantization on NPU

#2592 · Apr 8, 2026

Medium

[New Model]: happyhorse-1

#2591 · Apr 8, 2026

Medium

new model

[Bug]: AttributeError: 'types.SimpleNamespace' object has no attribute '_custom_output' in tests/diffusion/test_stage_diffusion_proc.py

#2588 · Apr 8, 2026

Medium

bug ci-failure

[Bug]: Fix: Enforce --max-generated-image-size limit in image generation requests

#2586 · Apr 8, 2026

Medium

bug

[Bug]: FastAPI server shutdown raises AttributeError: 'FastAPI' object has no attribute 'state'

#2580 · Apr 8, 2026

Medium

[Bug]: ignore_eos not taking effect for benchmarks / OpenAI requests

#2578 · Apr 8, 2026

Medium

bug

[RFC]: vLLM-Omni XPU 2026 Q2 Roadmap

#2570 · Apr 7, 2026

Medium

help wanted Hardware Plugin roadmap

[Bug]: Diffusion stage configs contain non-OmniDiffusionConfig engine_args fields

#2563 · Apr 7, 2026

Medium

bug

[Feature]: Fish Speech S2 Pro: Is there a way to register a voice once, and use it multiple times for cloning?

#2561 · Apr 7, 2026

Medium

[Bug]: Fish Speech S2 Pro: How to achieve voice consistency, without cloning.

#2552 · Apr 7, 2026

Medium

bug

[Bug]: "AttributeError: 'FastAPI' object has no attribute 'state'" after instance is shut down

#2550 · Apr 7, 2026

Medium

bug help wanted

[Tracking] Follow-ups for Omni Sleep Mode (#2022)

#2545 · Apr 7, 2026

Medium

[Feature]: Support LoRA-based inference acceleration for CosyVoice3 in vLLM-Omni

#2543 · Apr 7, 2026

Medium

[Bug]: --distributed-executor-backend option is ignored for diffusion models

#2539 · Apr 7, 2026

Medium

bug

[RFC]: CacheDiT Refactor

#2535 · Apr 7, 2026

Medium

[Bug]: SD3 Doesn't Handle Dtypes Correctly

#2525 · Apr 6, 2026

Medium

bug

[Bug]: Diffusion stage initialization fails with TimeoutError and user `stage_init_timeout` is ignored

#2518 · Apr 6, 2026

Medium

bug

Custom voice upload accepted but fails at inference with mistral_common tokenizer

#2479 · Apr 4, 2026

Medium

bug

[RFC]: Refactoring audio_in_video implementation

#2469 · Apr 3, 2026

Medium

[RFC]: Optimize the HY-Video1.5 performance

#2468 · Apr 3, 2026

Medium

[Feature]: TP MistralEncoder for FLUX.2

#2464 · Apr 2, 2026

Medium

[New Model]: LongCat-AudioDiT (Meituan) — Waveform Latent Space Diffusion TTS

#2462 · Apr 2, 2026

Medium

help wanted good first issue new model tts

[Feature]: Supports audio stream output using the Ogg container format with Opus encoding.

#2461 · Apr 2, 2026

Medium

[New Model]: Gemma 4 from Google Deepmind

#2460 · Apr 2, 2026

Easy

new model

[Bug]:shm_broadcast.py raise 'cancelled' error on serving BAGEL-7B-MoT

#2440 · Apr 2, 2026

Easy

bug

[Bug]: QWen3-TTS, 0.6B-Custom generate audio with some noise in the audio.

#2439 · Apr 2, 2026

Easy

bug

[RFC]: Continuous Quantization Support for NPU

#2438 · Apr 2, 2026

Medium

help wanted good first issue NPU high priority diffusion

[RFC]: Unify Rotary Position Embedding Implementations Across Models

#2436 · Apr 2, 2026

Easy

help wanted

[CI Failure]: Diffusion Model Test with L4, tests/e2e/online_serving/test_zimage_expansion.py::test_zimage[parallel_hsdp], OOM

#2435 · Apr 2, 2026

Easy

bug ci-failure

[Doc]: commit id `d781902ce9` of vllm-ascend does not exist

#2434 · Apr 2, 2026

Easy

documentation

[Feature]: Establish baseline and profile fish-speech's performance

#2432 · Apr 1, 2026

Easy

help wanted good first issue tts

[Bug]: 从v0.16.0开始Qwen3-Omni 无法 TP=8运行了

#2421 · Apr 1, 2026

Easy

bug

[CI Failure]: tests/e2e/offline_inference/test_bagel_img2img.py::test_bagel_img2img_shared_memory_connector - AssertionError: Pixel mismatch at (100, 100): expected (157, 172, 217), got (139, 155, 185)

#2416 · Apr 1, 2026

Easy

bug ci-failure

[CI failure]: nightly Omni model test with H100 fails due to missing keywords

#2415 · Apr 1, 2026

Easy

bug

[RFC]: vLLM-Omni ROCm 2026 Q2 Roadmap

#2413 · Apr 1, 2026

Easy

ROCm Hardware Plugin

[Feature]: Trigger Model-Specific Performance Tests via Tags in vLLM-Omni

#2410 · Apr 1, 2026

Easy

help wanted

[Bug]: vLLM model crashes when using runai_streamer (qwen-tts)

#2408 · Apr 1, 2026

Easy

bug

[RFC]: Diffusers Backend Integration for Extended Model Coverage

#2403 · Apr 1, 2026

Easy

[Bug]: Qwen3-omni, When an invalid speaker is entered, no prompt message about the voice range is shown, and the default voice is used directly.

#2395 · Apr 1, 2026

Easy

bug

[RFC]: Unified failure semantics and request isolation for async generation

#2392 · Apr 1, 2026

Easy

[CI Failure]: Omni Model Perf Test，when sending 100 requests, an occasional single request fails.

#2389 · Apr 1, 2026

Easy

bug ci-failure

Voxtral-4B-TTS-2603 fails to load with acoustic_transformer not found in MistralForCausalLM

#2388 · Apr 1, 2026

Easy

bug

[Bug]: Qwen3-TTS: RuntimeError: expected mat1 and mat2 to have the same dtype, but got: float != c10::Half

#2385 · Mar 31, 2026

Easy

bug

[RFC]: Single-Node D2D Transfer - CUDA IPC Connector

#2379 · Mar 31, 2026

Easy

[Performance]: Enable torch.compile for Qwen3-TTS code_predictor on Intel XPU

#2374 · Mar 31, 2026

Easy

[RFC]: Support Multi-branch CFG in TeaCache Hook

#2371 · Mar 31, 2026

Easy

[RFC]: L5 Reliability Test

#2366 · Mar 31, 2026

Easy

[RFC]: Add support for Pipeline Parallel

#2363 · Mar 31, 2026

Easy

[Feature]: Generate the video and then save it to S3 object storage

#2361 · Mar 31, 2026

Easy

[Performance]: Inference Qwen3 TTS on NPU, stream=true, high inference performance latency

#2356 · Mar 31, 2026

Easy

[Feature]: The benchmark of Qwen3-TTS-12Hz-0.6B-Base is expected.

#2348 · Mar 31, 2026

Medium

[Roadmap][Feature] Support Moore Threads (MUSA) GPUs

#2347 · Mar 31, 2026

Easy

Hardware Plugin

[RFC][Draft]: Large-Scale Multi-Stage Serving Architecture for vLLM-Omni

#2336 · Mar 30, 2026

Easy

[RFC]: diffusion engine clean up

#2335 · Mar 30, 2026

Easy

help wanted high priority

[RFC]: How to properly run Wan2.2-T2V-A14B-Diffusers with vllm-omni v0.18.0 via Helm/PVC

#2333 · Mar 30, 2026

Easy

bug

[RFC]: Improving Qwen3-TTS Performance on NPU

#2328 · Mar 30, 2026

Easy

NPU

[Bug]: OOM during video generation causes client hang and state corruption for subsequent requests (Wan2.2)

#2327 · Mar 30, 2026

Easy

bug

[New Model] Add support for VibeVoice TTS family (Realtime-0.5B and TTS-1.5B)

#2319 · Mar 30, 2026

Easy

help wanted good first issue new model tts

[Bug]: 22GB VRAM usage for 0.6B Qwen3-TTS model (2-stage architecture overhead)

#2318 · Mar 30, 2026

Medium

bug

[Bug]: Worker processes persist after docker rm -f, holding GPU memory indefinitely

#2317 · Mar 30, 2026

Medium

bug

[Bug]: Orchestrator thread crashes under concurrent Qwen3-TTS requests with constrained VRAM

#2316 · Mar 30, 2026

Easy

bug

[RFC]: PagedAttention and KV Cache for Autoregressive Diffusion

#2305 · Mar 28, 2026

Medium

[Bug]: Case-sensitivity issue in qwen3_tts_talker.py leads to ValueError for speaker names

#2304 · Mar 28, 2026

Medium

bug

[RFC]: Restructure vLLM-Omni Test Layout, Fixture Scope, and Support Modules

#2299 · Mar 28, 2026

Medium

help wanted high priority roadmap

[Bug]: 负载请求Qwen3-TTS online service会崩溃

#2295 · Mar 28, 2026

Medium

bug

[RFC]: Omni-modality model accuracy benchmark

#2284 · Mar 28, 2026

Medium

[Bug]: run HunyuanImage3 AR raise value error: Model architectures ['HunyuanImage3ForCausalMM'] failed to be inspected.

#2283 · Mar 28, 2026

Medium

bug

[Bug]: Hunyuanimage run with text_to_image.py and return Orchestrator initialization failed: Stage 0 requires 8 devices, but only 4 devices are visible

#2282 · Mar 28, 2026

Medium

bug

[RFC]: Pipeline Parallelism & Stream Batch for Real-Time Video Generation

#2280 · Mar 27, 2026

Medium

good first issue

[Feature]: Auto-syncing example/*/*/README.md to docs/user_guide/examples/*/*.md

#2269 · Mar 27, 2026

Medium

[Bug]: Qwen3-Omni benchmark fails

#2253 · Mar 27, 2026

Medium

bug

[Bug]: start failed with vllm-align branch

#2238 · Mar 26, 2026

Medium

bug

[RFC]: vLLM-Omni support online mxFP8 quantization for FA

#2236 · Mar 26, 2026

Medium

[Bug]: Client disconnects prematurely and output MP4 is saved to /tmp/storage instead of target path (vllm-omni 0.18.0rc1)

#2234 · Mar 26, 2026

Medium

bug NPU

[RFC]: Plugin-based Sparse Attention Interface for DiT Modules

#2233 · Mar 26, 2026

Medium

[Bug]: "MISSING params from checkpoint" warning during initialization and potential accuracy degradation on Ascend NPU (vllm-omni v0.18.0rc1)

#2229 · Mar 26, 2026

Medium

bug NPU

[RFC]: vLLM-Omni Diffusion Module — Q2 2026 Roadmap

#2226 · Mar 26, 2026

Medium

diffusion

[RFC]: vLLM-Omni NPU 2026 Q2 Roadmap

#2223 · Mar 26, 2026

Medium

NPU

[Bug]: GLM-Image tensor size error for 512x512 and 1280x1280 input/output images

#2222 · Mar 26, 2026

Easy

bug

[Bug]:Noise in output when both USP and layerwise offloading enabled

#2218 · Mar 26, 2026

Medium

bug

[RFC]: TurboQuant — Sub-4-bit KV Cache Quantization for Long-Context Omni Models

#2215 · Mar 26, 2026

Easy

enhancement

[RFC] Streaming Video Input for Omni-Modal Real-Time Interaction

#2201 · Mar 25, 2026

Easy

[Performance]: Redundant LoRA file I/O in multi-GPU diffusion inference

#2198 · Mar 25, 2026

Medium

[Bug]: Cache Refresh Requires num_inference_steps

#2194 · Mar 25, 2026

Medium

bug

[RFC]: Add Diffusion Pipeline Protocol / Base Class

#2189 · Mar 25, 2026

Easy

[Bug]: NPU OOM Error During Offline Wan2.2 Inference in vLLM-Omni Framework

#2186 · Mar 25, 2026

Medium

bug

[Feature]: To be able to use vllm-omni with tritonserver

#2177 · Mar 25, 2026

Medium

[Bug]: pydantic_core._pydantic_core.ValidationError: 1 validation error for ModelConfig (APIServer pid=835044) ERROR 03-25 14:16:11 [async_omni_engine.py:525]

#2170 · Mar 25, 2026

Medium

bug

[Feature]: support sleep/wake HTTP api

#2169 · Mar 25, 2026

Easy

[Bug]: torch.AcceleratorError: CUDA error: device-side assert triggered for Qwen2.5 model

#2168 · Mar 25, 2026

Medium

bug

[Bug] FP8 quantization and HSDP cannot be enabled simultaneously for Diffusion models (dynamic_scaled_fp8_quant called on CPU tensor)

#2159 · Mar 25, 2026

Medium

bug

[Bug]: Failed to inference Qwen3-Omni-30B-A3B-Instruct on NPU

#2157 · Mar 25, 2026

Medium

bug

[RFC]: LyCORIS Adapter Support for Diffusion Models (LoKr, LoHa, and beyond)

#2150 · Mar 24, 2026

Medium

[RFC]: Multi-LoRA Composition for Diffusion Models

#2149 · Mar 24, 2026

Medium

[RFC]: Weight key remapping interface for quantization backends with non-standard checkpoint naming

#2146 · Mar 24, 2026

Medium

[Bug]: black-forest-labs/FLUX.2-klein-9B image generation n=2 sometimes hangs

#2144 · Mar 24, 2026

Medium

bug

[New Model] PrismAudio (Video-to-Audio Generation)

#2140 · Mar 24, 2026

Medium

help wanted good first issue new model

[Bug]: HunyuanImage-3.0-Instruct raises ValueError on weight loading check when tensor_parallel=2

#2139 · Mar 24, 2026

Medium

bug

[Bug] [HunyuanImage3.0]: Text2Image quality regression after rebasing

#2127 · Mar 24, 2026

Medium

bug

[Bug]:Orchestrator fails to initialize with local model path: expects HuggingFace repo format in dreamid

#2123 · Mar 24, 2026

Medium

bug

[RFC]: TTS Development Roadmap - Q2 2026

#2115 · Mar 24, 2026

Medium

help wanted good first issue high priority

[Bug]: started wrong stages of GLM-Image

#2113 · Mar 24, 2026

Medium

bug

[RFC]: Support Wan2.2-I2V-A14B Model in vllm-omni Multimodal Generation Framework

#2093 · Mar 23, 2026

Medium

help wanted

[New Model]: GAIR/daVinci-MagiHuman

#2084 · Mar 23, 2026

Medium

new model

[New Model]: MOVA from OpenMOSS

#2079 · Mar 23, 2026

Medium

new model

[Diffusion] Refactor LTX2 to use unified CFG parallel framework and enable per_request_scheduler

#2078 · Mar 22, 2026

Medium

[Feature]: Resolve security vulnerability from the dependancy `gradio`

#2064 · Mar 21, 2026

Medium

[Bug]: cannot run Cosyvoice3 offline with ValueError: This model does not support generation

#2043 · Mar 20, 2026

Medium

bug

[Bug]: [Qwen3-Omni] When using mix-modalities, the image description is incorrect

#1990 · Mar 19, 2026

Medium

bug

[Question]: Why does the demo of hunyuan_image3 take so long to run once?

#1989 · Mar 19, 2026

Medium

bug

[New Model]: nvidia comos predict、transfer、reason

#1747 · Mar 9, 2026

Medium

new model

[Bug]: Failed with GLM-Image Online serving

#1745 · Mar 9, 2026

Medium

bug

[Bug] Inconsistent image generation when enabling cfg-parallel acceleration (Qwen-Image-2512)

#1740 · Mar 9, 2026

Medium

bug

[Bug]: LongCat-Image ValueError: Following weights were not initialized from checkpoint: {'transformer.transformer_blocks.15.ff_context.w_in.weight'...}

#1738 · Mar 9, 2026

Medium

bug

[Bug]: wan2.2-14B benchmark sends requests, but the serve does not respond.

#1736 · Mar 9, 2026

Medium

bug

Beginner-Friendly Issues 121