RLHF
DPO重磅炸弹:LLM训练成本崩塌,PPO凉凉!

DPO重磅炸弹:LLM训练成本崩塌,PPO凉凉!

2025-12-31
PPO算法:LLM炼成神器的秘密,防作弊,速增效!

PPO算法:LLM炼成神器的秘密,防作弊,速增效!

2025-12-27
AI模型升级!千条数据微调,性能远超预训练!

AI模型升级!千条数据微调,性能远超预训练!

2025-11-25
DPO大模型调优:30分钟极速搞定AI效果翻倍!

DPO大模型调优:30分钟极速搞定AI效果翻倍!

2025-11-13