'Rope' 前言 学习deepseek的MLA(Multi-Head Latent Attention)时候,涉及到了rope(Rotary Position Embedding),之间只知道sin/cos绝对位置编码,所以决定弄清楚旋转位置编码的具体过程 为什么需要位置编码 Transformer架构的核心就是attention机制,而attention中的重点就是计算注意力分score,即Q K 矩阵 2025-03-29
深度学习踩坑记录 配置环境,解决环境冲突就能花费我一下午的时间,有必要记录一些踩过的坑 1. 相关包的安装 为了避免不必要的麻烦,每次安装新的包后要重启jupyter内核,至少在vscode这样做能避免很多问题 trl 要用pip安装,用conda走清华源会要求安装cpu版本的pytorch2.5,挺莫名其妙的 1pip install trl==0.14 peft 也要用pip安装 总之,官方没提供conda 2025-03-19
PPO PPO算法详解 看了两天总算弄明白了PPO算法的来龙去脉 1. PG策略 PG策略是最大化下面这个目标函数 Rˉθ=Eτ∼Pθ(τ)[R(τ)P(τ∣θ)]\bar{R}_{\theta} = E_{\tau \sim P ^{\theta} (\tau)} [ R(\tau)P(\tau \mid \theta) ] Rˉθ=Eτ∼Pθ(τ)[R(τ)P(τ∣θ)] 对目标函数求导可得到 2025-03-06 #强化学习
'deepseek学习笔记' Deepseek学习笔记 记录目的 为了记录自己每日的学习成功,检验自己的输入效果,觉得对每日的学习内容进行记录。 强化学习 我第一次在大模型领域听到强化学习这个词,先对强化学习有个大概的认知 强化学习概述 基本概念 强化学习有5个基本概念: agent state environment action reward agent会根据当前environment的state做出相应的action 2025-02-27 #人工智能
从零开始部署深度学习环境 搭建深度学习环境 9.9租了一天的云服务,结果发现里面没有搭好深度环境,想放弃使用该云服务器了,但转念一想,正好写一篇如何搭建深度学习环境的blog 1. 安装显卡驱动 没有安装nvidia驱动就无法使用nvidia-smi 查询显卡的型号 1lspci | grep -i nvidia 若出现上图所示,没有明确写明显卡名称,可以将最后的数字(此处为2684)输入到该网 2025-01-09 深度学习 #环境部署
docker封装node项目 通过docker封装node项目 项目架构 项目根目录创建Dockfile 12345678910111213141516171819# 使用官方 Node.js 镜像作为基础镜像FROM node:18# 设置工作目录WORKDIR /app# 复制 package.json 和 package-lock.json 并安装依赖COPY package.json package-loc 2024-10-15 docker
docker快速入门 Docker快速入门 1. 使用镜像 拉取镜像 1docker pull image 镜像默认保存在 /var/lib/docker/overlay2 运行镜像 以上面的 ubuntu:18.04 为例,如果我们打算启动里面的 bash 并且进行交互式操作的话,可以执行下面的命令。 1docker run -it --rm ubuntu:18.04 bash 通过 exit 退出这 2024-10-14 docker
虚拟机的不同网络模式 1. 桥接模式 桥接模式下的虚拟机使用的网卡就是宿主机的物理网卡,该虚拟机下的ip地址的网段要和宿主机相同 2. NAT模式 NAT模式下,虚拟机的网段和宿主机不同,通过虚拟网卡链接宿主机的物理网卡 图解: 注意事项: 同一网段的设备能相互通信,如虚拟机A、物理机A、物理机B之间可以相互ping通 下一级的网段能够访问上一级的网段,如虚拟机B能够向上访问虚拟机A、物理机A、物理机B,反之, 2024-10-06 #计算机网络
网络常识 1. ip地址和子网掩码 ip地址:用于标识网络中的不同设备,包括网段号和主机号两部分 子网掩码:用于划分ip地址中的网段号和主机号, 也可以直接指定网段号的位数 2. 网关 什么时候需要网关? 不同网段之间的设备的通信需要网关,网关是软件层面的路由器 在windows中测试访问某个ip需要经过哪些网关 1tracert -d <ip地址> 2024-10-06 #计算机网络