AI相关
- AIGC
- ChatGPT
- DeepSeek
- Dify
- LlamaFactory
- Ollama
- RAG
- Sora
- 大模型基础
- 提示词工程
- 机器学习

Web3相关
- MetaMask
- 以太坊
- 区块链

业务相关
- 优惠券业务
- 广告业务
- 推荐业务
- 用户增长

中间件
- Dubbo
- Elasticsearch
- Netty
- Solr
- ZooKeeper

代码整洁
- CodeReview
- Redis开发规范
- 代码重构

公众号文章
- AI文章
  - AI大模型如何提高上下文长度
  - AI大模型的Token到底指什么
  - AI提示词万能公式
  - DeepSeekV3低成本做出顶级AI
  - 为什么AI大模型训练离不开GPU
  - 免费开源模型大超市HuggingFace
  - 如何给AI大模型喂数据
  - 简单解释什么是AI智能体
- Disruptor框架
- ElasticSearch深度分页
- KAFKA高可用
- MySQL锁表
- Redis延时队列
- RocketMQ事务消息
- RocketMQ延时消息
- RocketMQ消息重试
- RocketMQ负载均衡
- RocketMQ顺序消息
- Tomcat线程池
- Web实时通信
- 动态代理
- 幂等性设计
- 架构设计之CQRS
- 正则表达式
- 泛型策略模式
- 缓存一致性
- 缓存常见问题
- 领域设计之仓储模式
- 领域设计之聚合

前端相关
- CSS
- React
- Vue
- 小程序

基础知识
- JVM
- 分布式
- 并发编程
- 爬虫知识
- 设计模式

大数据相关
- DataX
- DolphinScheduler
- Doris
- Flink
- Hadoop
- Hive
- SQOOP
- Spark
- 大数据基础

学习专栏
- 22讲通关Go语言
- 23讲搞定后台架构实战
- RPC实战与核心原理
- 从0开始学大数据
- 从0开始学架构
- 代码之丑
- 大厂晋升指南
- 如何成为学习高手
- 如何设计一个秒杀系统
- 架构设计面试精讲
- 程序员工作法
- 给程序员的职场情商课
- 高并发架构实战课

学习书籍
- 人物书籍
  - 我在北京送快递
- 历史书籍
  - 孙子兵法
  - 明朝那些事儿
- 心理书籍
  - 认知觉醒
- 技能书籍
  - 英语魔法师之语法俱乐部
  - 高效能人士的七个习惯
- 文学书籍
  - 你当像鸟飞往你的山
  - 当下的力量
  - 活着
- 编程书籍
  - Effective Java
  - HBase不睡觉书
  - Java并发编程实战
  - Java并发编程的艺术
  - Java开发手册
  - MySQL技术内幕
  - Redis设计与实现
  - 人月神话
  - 亿级流量网站架构核心技术
  - 从零开始读懂Web3
  - 代码整洁之道
  - 大型网站技术架构
  - 大型网站系统
  - 深入理解Java虚拟机
  - 程序员修炼之道
  - 程序员必读之软件架构
  - 重构改善既有代码的设计

实战相关
- CompletableFuture
- Spring Event
- Spring

工作相关
- 公司相关
- 远程工作

工具相关
- Anki
- PlantUML
- 实用工具
- 开发工具

成长相关
- 工作相关
- 技术学习
- 旅游相关
- 理财相关
- 电影推荐
- 纪录片推荐
- 面试相关

数据库
- ClickHouse
- DRDS
- HBase
- MongoDB
- MySQL
- Redis
- SQLite
- TIDB

文章学习
- 大厂文章

服务器
- Docker
- Nginx
- Tomcat
- 运维知识

架构相关
- DDD
- 架构图
- 架构学习
- 系统保障
- 系统性能
- 系统设计

框架相关
- Antlr4
- Apollo
- Aviator
- Caffeine
- Canal
- Drools
- Eureka
- Feign
- Guava
- Hystrix
- JWT
- LiteFlow
- MyBatis
- Nacos
- RPC框架
- Redisson
- Seata
- Sentinel
- ShardingSphere
- Spring
- SpringCloud
- Thrift
- TransmittableThreadLocal
- WebRTC
- XXLJOB
- 开源框架

消息队列
- KAFKA
- RabbitMQ
- RocketMQ

源码相关
- KAFKA
- RocketMQ
- SpringBoot
- Spring

算法相关
- LeetCode
- 剑指OFFER
- 算法知识
- 面试算法

系统设计
- 12306系统
- 广告系统
- 推荐系统
- 榜单系统
- 消息队列
- 登录系统
- 短链系统
- 社区系统
- 秒杀系统
- 红包系统
- 订单系统

编程语言
- Go基础
- Java基础
- Python基础

英语相关
- 老友记
  - 第一季
  - 第三季
  - 第五季
- 雅思
  - 剑桥雅思听力真题15
  - 剑桥雅思听力真题16
  - 剑桥雅思听力真题18
  - 剑桥雅思听力真题4

计算机基础
- Linux
- 操作系统
- 数据结构
- 网络基础

认知相关
- 保持人间清醒
- 停止比较
- 利己心态
- 告别胡思乱想
- 如何自律
- 学习冥想
- 摆脱内耗
- 缓解负面情绪
- 走出孤独

资料分享
- 其他书籍
- 工具破解
- 编程书籍
- 编程课程

面试题相关
- JVM面试真题
- MySQL面试真题
- Redis面试真题
- 并发编程面试真题
- 操作系统面试真题
- 数据结构面试真题
- 计算机网络面试真题

LlamaFactory

月伴飞鱼 2025-01-29 00:47:52

AI相关

赏

支付宝打赏

微信打赏

如果文章对你有帮助，欢迎点击上方按钮打赏作者！

大模型技术发展到现在，企业想要真正利用大模型做些事情，一定需要懂得大模型微调的过程。

LLaMA-Factory是一个在GitHub上开源的，专为大模型训练设计的平台。

官方文档：https://github.com/hiyouga/LLaMA-Factory/blob/main/README_zh.md

模型训练阶段

Pre-Training（预训练阶段）：

这个阶段是用来训练基础模型的，是最消耗算力的阶段，也是大模型诞生的起始阶段。

Supervised Finetuning（SFT）（指令微调/监督微调阶段）：

和预训练阶段相比，这个阶段最大的变化就是训练数据由量多质低变为量少质高，训练数据主要由人工进行筛选或生成。

这个阶段完成后其实已经能获得一个可以上线的大模型了

基于人类反馈的强化学习（Rainforcement Learning from Human Feedback，RLHF）

可以分成两个环节：

奖励建模阶段（Reward Modeling）：

在这一阶段，模型学习和输出的内容发生了根本性的改变。

前面的两个阶段，预训练和微调，模型的输出是符合预期的文本内容。

奖励建模阶段的输出不仅包含预测内容，还包含奖励值或者说评分值，数值越高，意味着模型的预测结果越好。

这个阶段输出的评分，并不是给最终的用户，而是在强化学习阶段发挥重大作用。

强化学习阶段（Reinforcement Learning）：

这个阶段非常聪明的整合了前面的成果：

针对特定的输入文本，通过 SFT 模型获得多个输出文本。

基于 RM 模型对多个输出文本的质量进行打分，这个打分实际上已经符合人类的期望了。

基于这个打分，为多个输出文本结果加入权重，这个权重其实会体现在每个输出 Token 中。

将加权结果反向传播，对 SFT 模型参数进行调整，就是所谓的强化学习。

常见的强化学习策略包括PPO与DPO。

DPO主要用于分布式训练，适合大规模并行处理的场景，PPO通常指的是单机上的算法就可以了。

赏

支付宝打赏

微信打赏

如果文章对你有帮助，欢迎点击上方按钮打赏作者！