RLHF
PPO算法:LLM炼成神器的秘密,防作弊,速增效!

PPO算法:LLM炼成神器的秘密,防作弊,速增效!

2025-12-27
AI模型升级!千条数据微调,性能远超预训练!

AI模型升级!千条数据微调,性能远超预训练!

2025-11-25
DPO大模型调优:30分钟极速搞定AI效果翻倍!

DPO大模型调优:30分钟极速搞定AI效果翻倍!

2025-11-13