DeepReinforce 推出開源 Agentic Coding 模型 Ornith-1.0



由 DeepReinforce 團隊推出的 Ornith-1.0 是一系列專為 Agentic Coding(代理式程式設計) 設計的開源大型語言模型,涵蓋從 9B 到 397B 的多種規模版本。該模型家族最核心的創新在於「自我搭建(Self-Scaffolding)」能力——模型不僅學習如何解決任務,還能同時學習生成任務專屬的 scaffold(引導框架),讓自己在強化學習過程中持續優化搜尋軌跡與解題品質。

主要特色與技術亮點

  • 自我改善訓練框架:在 RL 訓練中,模型會先產生任務專屬的 scaffold,再根據該 scaffold 生成解決方案,最後將 reward 同時反饋給 scaffold 與 solution 兩個階段。
  • 多規模版本:
    • Ornith-1.0-9B(Dense,適合邊緣裝置)
    • Ornith-1.0-31B(Dense)
    • Ornith-1.0-35B(MoE,活躍參數約 3B)
    • Ornith-1.0-397B(MoE 旗艦版)

  • 強大基準表現:在 Terminal-Bench 2.1、SWE-Bench Verified、NL2Repo 等代理式程式設計基準上,表現優於同規模開源模型,甚至在部分任務上接近或超越 Claude Opus 4.7 等閉源模型。
  • 防 Reward Hacking 機制:採用三層防護(不可變環境邊界、確定性監控、凍結 LLM 評審),有效降低模型作弊風險。
  • 基於 Gemma 4 與 Qwen 3.5 進行後訓練,並採用非同步 Pipeline RL + 陳舊權重(staleness-weighted)優化訓練穩定性。


  • 性能表現(部分亮點)

    模型
    Terminal-Bench 2.1
    SWE-Bench Verified
    特色
    Ornith-1.0-9B
    43.1%
    69.4%
    輕量、適合本地部署
    Ornith-1.0-35B
    MoE 效率佳
    Ornith-1.0-397B
    77.5%
    82.4%
    目前開源 Agentic Coding 最強之一

    安裝與使用指南
    Ornith-1.0 模型已上傳至 Hugging Face,支援多種推理框架。

    1. 使用 Transformers(最簡單方式)

    pip install "transformers>=5.8.1" torch 

    Pythonfrom transformers import AutoModelForCausalLM, AutoTokenizer 
     
    model_name = "deepreinforce-ai/Ornith-1.0-9B" # 可換成 31B、35B、397B 
     
    tokenizer = AutoTokenizer.from_pretrained(model_name) 
    model = AutoModelForCausalLM.from_pretrained( 
     model_name, 
     dtype="auto", 
     device_map="auto" 
    ) 
     
    messages = [ 
     {"role": "user", "content": "Write a Python function to check if a number is prime."} 
    ] 
     
    inputs = tokenizer.apply_chat_template( 
     messages, 
     add_generation_prompt=True, 
     return_tensors="pt" 
    ).to(model.device) 
     
    outputs = model.generate( 
     inputs, 
     max_new_tokens=512, 
     temperature=0.7, 
     do_sample=True 
    ) 
     
    print(tokenizer.decode(outputs[0], skip_special_tokens=True)) 

    2. 使用 vLLM(推薦用於較大模型)

    pip install vllm 

    vllm serve deepreinforce-ai/Ornith-1.0-35B --port 8000 

    3. 使用 GGUF 版本(適合本地低資源部署)
    部分社群已提供 GGUF 量化版本,可使用 Ollama 或 llama.cpp 運行:

    # 以 Ollama 為例 
    ollama run hf.co/samuelchristlie/Ornith-1.0-9B-gguf 

    4. 使用 SGLang(高吞吐推理)

    pip install sglang 
    python -m sglang.launch_server --model-path deepreinforce-ai/Ornith-1.0-35B --port 30000 

    模型連結

    • 官方集合:https://huggingface.co/collections/deepreinforce-ai/ornith-10
    • 官方技術說明:https://deep-reinforce.com/ornith_1_0.html
    • 聊天模板:各模型卡片中均提供 chat_template.jinja

    Ornith-1.0 是目前開源 Agentic Coding 領域中技術路線較為特別的模型之一。它不只是單純優化「解題能力」,而是讓模型同時學習「如何搭建更好的解題框架」,這在長期來看可能對複雜軟體工程任務帶來更大優勢。
    雖然 397B 版本仍需大量運算資源,但 9B 與 35B 版本已經具備不錯的實用性,適合個人開發者或中小團隊在本地或單 GPU 環境中進行 Agentic Coding 相關的實驗與應用。