澳大利亚 · Aug.12.2025
配置说明使用的服务器为一台4核4G内存,运行在ESXi宿主机内的Debian 12机器。从机器装好空白系统开始记录,整个过程主要有安装Docker和安装AFFiNE两部分。 Docker安装在开始之前,需要更新一下软件仓库: 12apt update...
论文原文 One Token to Fool LLM-as-a-Judge 论文摘要 生成式奖励模型 (也称为 LLM-as-Judge ),即使用大语言模型(LLMs)来评估答案质量的模型,正越来越多地被应用于具有可验证奖励的强化学习 (RLVR...