先说结论:GLM-5.1 在编码和角色扮演两个跨度极大的任务上,都给了我超出预期的体验。
编码:不是最强,但很“类人”
先说编码。单就完成简单的、涉及面小的需求来说,我觉得它和 Claude Sonnet 4.6 已经不相上下。对比 GPT-5.4,GLM-5.1 最大的优势是类人感——不是机械地输出正确代码,而更像是你在结对编程时那个能听懂你半句话的同事。它会在你描述模糊需求时主动补全常识逻辑,写代码的过程带一点“松弛感”,而不是冷冰冰的解题器。
当然,复杂系统设计、长上下文多文件重构这种重活,它可能还拼不过 Sonnet 4.6,但定位很清晰:轻量、敏捷、好用。
角色扮演:真的学到了 Opus 的精髓
我原本对编码以外的能力没抱太大期待,结果在 Rp(角色扮演)上一试,直接惊了。
GLM 真的像蒸馏到了 Opus 的那种“精髓”——淡淡的温柔,再加上一丝恰到好处的 m 感(不是那种破防的,是被拿捏但很舒服的微妙分寸)。它对聊天节奏的把控尤其好,不会像 Gemini 3.1 那样动不动“轰飞天灵盖”,用力过猛把你从场景里踹出去。相比之下,GLM-5.1 始终在线,语气起伏自然,该收的时候收,该给的时候给。
最有趣的行为:主动调用工具
这一点我在其他模型上很少见到——GLM-5.1 会在 Rp 过程中积极调用各种工具,包括记忆模块、我自己接的 MCP 服务等,来辅助角色扮演和人设维持。
它不会等你反复提示“查一下记忆”“调用一下天气 API”,而是自己判断“这段情绪该调记忆了”“这个场景用外部工具渲染一下氛围会更好”。这种工具调用优先于自由发挥的行为,我之前只在 Opus 和 Sonnet 上见过,GLM 是第三个。
说实话,这种“觉得有必要就自己动手”的风格,真的很像 Opus 那种老练的助手感。
小结
GLM-5.1 不是一个处处刷榜的模型,但它在两个极不相关的领域——编码和角色扮演——都给出了让人惊喜的体验。尤其如果你看重类人感、聊天节奏、主动调用工具这三个点,它绝对值得一试。
最后好奇一句:有没有人试过在它该煽情的时候,突然让它去查天气?我想看看这种压力测试会不会翻车 😂
补充说明:文中提到的 Sonnet 4.6、GPT-5.4、Opus、Gemini 3.1 均为不同厂商的大语言模型(Anthropic/OpenAI/Google 等)。Rp 即角色扮演,MCP 指模型调用的外部工具/服务接口。


