support qwen-3.5

binary-husky · binary-husky · commit 67e809291bb4 · 2026-03-17T14:42:42.000+08:00
diff --git a/ajet/default_config/ajet_default.py b/ajet/default_config/ajet_default.py
@@ -28,7 +28,7 @@ class AjetData:
 @dataclass
 class AjetRollout:
     user_workflow: str = "tutorial.example_appworld.appworld->ExampleAgentScopeWorkflow"
-    n_vllm_engine: int = 1
+    n_vllm_engine: int = 1  # this argument is NOT effective when NOT using trinity
     tensor_model_parallel_size: int = 1
     num_repeat: int = 8
 
diff --git a/ajet/default_config/verl/verl_default.yaml b/ajet/default_config/verl/verl_default.yaml
@@ -166,7 +166,7 @@ actor_rollout_ref:
     use_torch_compile: ${oc.select:actor_rollout_ref.actor.use_torch_compile,true}
     log_prob_micro_batch_size: null
     log_prob_micro_batch_size_per_gpu: null
-    log_prob_use_dynamic_bsz: ${oc.select:actor_rollout_ref.actor.use_dynamic_bsz,false}
+    log_prob_use_dynamic_bsz: true
     log_prob_max_token_len_per_gpu: ${oc.select:actor_rollout_ref.actor.ppo_max_token_len_per_gpu,16384}
     profiler:
       _target_: verl.utils.profiler.ProfilerConfig
@@ -248,7 +248,7 @@ actor_rollout_ref:
     dtype: bfloat16
     gpu_memory_utilization: 0.80
     ignore_eos: false
-    enforce_eager: false
+    enforce_eager: true
     cudagraph_capture_sizes: null
     free_cache_engine: true
     tensor_model_parallel_size: 1
@@ -265,7 +265,7 @@ actor_rollout_ref:
     load_format: dummy
     log_prob_micro_batch_size: null
     log_prob_micro_batch_size_per_gpu: 1
-    log_prob_use_dynamic_bsz: ${oc.select:actor_rollout_ref.actor.use_dynamic_bsz,false}
+    log_prob_use_dynamic_bsz: true
     log_prob_max_token_len_per_gpu: ${oc.select:actor_rollout_ref.actor.ppo_max_token_len_per_gpu,16384}
     disable_log_stats: true
     do_sample: true
@@ -508,7 +508,7 @@ critic:
   ppo_mini_batch_size: ${oc.select:actor_rollout_ref.actor.ppo_mini_batch_size,256}
   ppo_micro_batch_size: null
   ppo_micro_batch_size_per_gpu: ${oc.select:.ppo_micro_batch_size,null}
-  use_dynamic_bsz: ${oc.select:actor_rollout_ref.actor.use_dynamic_bsz,false}
+  use_dynamic_bsz: true
   ppo_max_token_len_per_gpu: 32768
   forward_max_token_len_per_gpu: ${.ppo_max_token_len_per_gpu}
   ppo_epochs: ${oc.select:actor_rollout_ref.actor.ppo_epochs,1}
diff --git a/ajet/task_runner/base_runner.py b/ajet/task_runner/base_runner.py
@@ -82,12 +82,12 @@ async def wrapper_type_asyncio(self, workflow_cls: Type[Workflow], workflow_task
         # malloc garbage collection
         del user_workflow
 
-        # run gc in a thread-safe way
-        if gc_lock.acquire(blocking=False):
-            try:
-                gc.collect()
-            finally:
-                gc_lock.release()
+        # # run gc in a thread-safe way
+        # if gc_lock.acquire(blocking=False):
+        #     try:
+        #         gc.collect()
+        #     finally:
+        #         gc_lock.release()
         return result
 
 
diff --git a/scripts/download_model.py b/scripts/download_model.py
@@ -4,9 +4,9 @@
     from loguru import logger
     from modelscope import snapshot_download
 
-    cache_dir = input("model path (./modelscope_cache): ").strip()
+    cache_dir = input("model path (/mnt/data_cpfs/model_cache/modelscope/hub/Qwen): ").strip()
     if not cache_dir:
-        cache_dir = "./modelscope_cache"
+        cache_dir = "/mnt/data_cpfs/model_cache/modelscope/hub/Qwen"
     res = snapshot_download(input("model name: ").strip(), cache_dir=cache_dir)
     logger.success(res)
 
diff --git a/tests/bench/benchmark_math/benchmark_math.yaml b/tests/bench/benchmark_math/benchmark_math.yaml
@@ -14,7 +14,8 @@ ajet:
 
   model:
     # ✨✨✨✨ 设置待训练的模型
-    path: /mnt/data_cpfs/model_cache/modelscope/hub/Qwen/Qwen/Qwen2___5-7B-Instruct
+    # path: /mnt/data_cpfs/model_cache/modelscope/hub/Qwen/Qwen/Qwen2___5-7B-Instruct
+    path: /mnt/data_cpfs/model_cache/modelscope/hub/Qwen/Qwen/Qwen3.5-9B
 
   rollout:
     user_workflow: "tutorial.example_math_agent.math_agent->ExampleMathLearn" # ✨✨✨✨ 编写并选择Agent
@@ -31,7 +32,6 @@ ajet:
       - "wrong_toolcall"
     max_response_length_in_one_turn: 1024
     max_model_len: 10000
-    n_vllm_engine: 2
 
   data:
     train_batch_size: 100
@@ -48,7 +48,7 @@ ajet:
     total_epochs: 100
     logger: swanlab
     nnodes: 1
-    n_gpus_per_node: 4
+    n_gpus_per_node: 8