fix(qwen35): suppress <think> token — Qwen3.5-4B short prompts now work (#95)

unamedkr · claude · unamedkr · commit ba8a61594c79 · 2026-04-14T15:58:12.000+09:00
Root cause: NOT a DeltaNet implementation bug. Qwen3.5 defaults to thinking mode (<think>...</think>), consuming all max_tokens budget on reasoning before the actual answer. "What is 2+2?" generated "<think>\n\n2+2=4\n\n</think>\n\n4" — the "4" was at token ~15, beyond max_tokens=8. Three fixes in tq_generate: 1. Suppress <think> logit to -1e30 before sampling (prevents entry) 2. Strip leading whitespace tokens (catches residual \n\n) 3. Skipped tokens don't count toward max_tokens budget Results: Before: "What is 2+2?" → "The answer to **" (FAIL) After: "What is 2+2?" → "4" (PASS) Document QA: still works (no regression) Closes #95 Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
diff --git a/quant.h b/quant.h
@@ -16175,6 +16175,15 @@ int tq_generate(tq_model_t* model, tq_tokenizer_t* tokenizer,
         }
     }
 
+    /* Suppress <think> token to disable thinking/reasoning mode.
+     * Qwen3.5 models default to thinking mode which adds many tokens
+     * of internal reasoning before the actual answer. By suppressing
+     * the <think> special token, the model goes directly to answering. */
+    int think_token_id = tokenizer ? str_lookup(tokenizer, "<think>") : -1;
+    if (think_token_id >= 0 && think_token_id < vocab_size) {
+        state->logits[think_token_id] = -1e30f;
+    }
+
     /* Sample first generated token. The seed is configurable via
      * config->rng_seed (default 42); 0 falls back to 42 so existing
      * callers that never set rng_seed get bit-identical behaviour. */
@@ -16191,6 +16200,7 @@ int tq_generate(tq_model_t* model, tq_tokenizer_t* tokenizer,
     int generated = 0;
     int output_pos = 0;
     int prev_token = prompt_tokens[n_prompt - 1];
+    int seen_nonwhitespace = 0; /* track whether we've emitted non-whitespace yet */
 
     /* EOS token IDs — check common values across model families.
      * Qwen3.5: eos = 248044 (<|endoftext|>), 248046 (<|im_end|>)
@@ -16286,6 +16296,19 @@ int tq_generate(tq_model_t* model, tq_tokenizer_t* tokenizer,
                     strstr(piece, "<1st>") || strstr(piece, "<2nd>") || strstr(piece, "<3rd>")) {
                     piece = "";
                 }
+                /* Skip leading whitespace-only tokens (Qwen3.5 thinking mode
+                 * produces <think>...</think> which gets filtered, but the
+                 * surrounding newlines remain as plain text tokens).
+                 * Only skip before any non-whitespace content has been emitted. */
+                if (!seen_nonwhitespace && piece[0] != '\0') {
+                    const char* p = piece;
+                    while (*p == ' ' || *p == '\n' || *p == '\r' || *p == '\t') p++;
+                    if (*p == '\0') {
+                        piece = ""; /* all whitespace — skip */
+                    } else {
+                        seen_nonwhitespace = 1;
+                    }
+                }
             }
             if (should_stop) break;
 
@@ -16307,7 +16330,11 @@ int tq_generate(tq_model_t* model, tq_tokenizer_t* tokenizer,
         prev_token = next_token;
         tq_forward(model, state, next_token, pos);
         pos++;
-        generated++;
+        /* Only count tokens that produced visible output toward the limit.
+         * Leading whitespace from thinking mode should not consume the budget. */
+        if (seen_nonwhitespace) {
+            generated++;
+        }
 
         /* Apply repetition penalty before sampling */
         if (rep_penalty > 1.0f) {
@@ -16325,6 +16352,11 @@ int tq_generate(tq_model_t* model, tq_tokenizer_t* tokenizer,
             }
         }
 
+        /* Suppress <think> token to prevent entering thinking mode */
+        if (think_token_id >= 0 && think_token_id < vocab_size) {
+            state->logits[think_token_id] = -1e30f;
+        }
+
         /* Sample next token */
         next_token = tq_sample_topp(state->logits, vocab_size,
                                      config->temperature, config->top_p,