Motif

Motif 是一个基于 PyTorch 的项目,通过从 LLM(大型语言模型)的偏好中获取奖励函数,训练 AI 代理在 NetHack 上进行。它可以生成与人类行为直觉一致的行为,并且可以通过提示修改进行引导。

打开网站

Motif 是一个基于 PyTorch 的项目,通过从 LLM(大型语言模型)的偏好中获取奖励函数,训练 AI 代理在 NetHack 上进行。它可以生成与人类行为直觉一致的行为,并且可以通过提示修改进行引导。

需求人群: "Motif 可以用于训练 AI 代理在开放式且程序生成的游戏中获取内在动机。" 使用场景示例: 使用 Motif 训练 AI 代理在 NetHack 游戏中获取内在动机使用 Motif 生成与人类行为直觉一致的行为使用 Motif 通过提示修改来引导 AI 代理的行为 产品特色: 使用 LLM 的偏好创建一组注释对的注释数据集使用交叉熵将 LLM 的偏好转化为奖励函数使用强化学习训练代理