Sử dụng model AI LLM host trong nước

Hiện FPT đang khuyến mãi 100$ để sử dụng một số model LLM do hãng host. Nếu bạn đã đăng ký tài khoản, sau đây là cách tích hợp vào agent AI. Mình chỉ dùng Crush nên chỉ có hướng dẫn cho nó:

Mở file ~/.config/crush/crush.json và thêm một điểm mục vào trường "providers" như sau:

{
  "$schema": "https://charm.land/crush.json",
  "providers": {
    "fpt-ai-factory": {
      "name": "FPT AI Factory",
      "type": "openai-compat",
      "base_url": "https://mkp-api.fptcloud.com",
      "api_key": "sk-key-cua-ban",
      "models": [
        {
          "id": "Nemotron-3-Super-120B-A12B",
          "name": "Nemotron 3 Super 120B-A12B",
          "context_window": 1000000,
          "default_max_tokens": 16000,
          "cost_per_1m_in": 0.44,
          "cost_per_1m_out": 0.88
        },
        {
          "id": "Qwen3-32B",
          "name": "Qwen3 32B",
          "context_window": 128000,
          "default_max_tokens": 33000,
          "cost_per_1m_in": 0.165,
          "cost_per_1m_out": 0.187
        },
        {
          "id": "GLM-4.7",
          "name": "GLM 4.7",
          "context_window": 128000,
          "default_max_tokens": 8000,
          "cost_per_1m_in": 0.495,
          "cost_per_1m_out": 2.2
        }
      ]
    },
  }
}

Sau đó mở Crush lên, bấm "Ctrl + m" rồi gõ "FTP" để tìm đến nhà cung cấp FPT trong danh sách:

providers

Rồi bắt đầu sai AI agent làm việc như thường lệ:

glm-fpt

Mình chỉ mới thử nghiệm ba mô hình này, trong đó "GLM 4.7" chạy ổn, mô hình Qwen 3 do FPT host thì ít tham số (32B) nên xài hơi chán, dùng vào việc sửa lỗi tiếng Anh thì được. Mô hình "Nemotron 3" thì chẳng khá hơn "Qwen 3 32B" là mấy.