WWWjiahui

Jiahui WWWjiahui

Achievements

THUDM/slime THUDM/slime Public

slime is an LLM post-training framework for RL Scaling.

Python 5.8k 842
Infini-AI-Lab/astraflow Infini-AI-Lab/astraflow Public

Dataflow-Oriented Reinforcement Learning for (Multi-)Agentic LLMs

Python 76 10