不如一夜星空

'Rope'

前言学习deepseek的MLA(Multi-Head Latent Attention)时候，涉及到了rope（Rotary Position Embedding），之间只知道sin/cos绝对位置编码，所以决定弄清楚旋转位置编码的具体过程为什么需要位置编码 Transformer架构的核心就是attention机制，而attention中的重点就是计算注意力分score，即Q K 矩阵

2025-03-29

深度学习踩坑记录

配置环境，解决环境冲突就能花费我一下午的时间，有必要记录一些踩过的坑 1. 相关包的安装为了避免不必要的麻烦，每次安装新的包后要重启jupyter内核，至少在vscode这样做能避免很多问题 trl 要用pip安装，用conda走清华源会要求安装cpu版本的pytorch2.5，挺莫名其妙的 1pip install trl==0.14 peft 也要用pip安装总之，官方没提供conda

2025-03-19

PPO

PPO算法详解看了两天总算弄明白了PPO算法的来龙去脉 1. PG策略 PG策略是最大化下面这个目标函数 Rˉθ=Eτ∼Pθ(τ)[R(τ)P(τ∣θ)]\bar{R}_{\theta} = E_{\tau \sim P ^{\theta} (\tau)} [ R(\tau)P(\tau \mid \theta) ] Rˉθ=Eτ∼Pθ(τ)[R(τ)P(τ∣θ)] 对目标函数求导可得到

2025-03-06

#强化学习

'deepseek学习笔记'

Deepseek学习笔记记录目的为了记录自己每日的学习成功，检验自己的输入效果，觉得对每日的学习内容进行记录。强化学习我第一次在大模型领域听到强化学习这个词，先对强化学习有个大概的认知强化学习概述基本概念强化学习有5个基本概念： agent state environment action reward agent会根据当前environment的state做出相应的action

2025-02-27

#人工智能

从零开始部署深度学习环境

搭建深度学习环境 9.9租了一天的云服务，结果发现里面没有搭好深度环境，想放弃使用该云服务器了，但转念一想，正好写一篇如何搭建深度学习环境的blog 1. 安装显卡驱动没有安装nvidia驱动就无法使用nvidia-smi 查询显卡的型号 1lspci | grep -i nvidia 若出现上图所示，没有明确写明显卡名称，可以将最后的数字（此处为2684）输入到该网

2025-01-09

深度学习

#环境部署

docker封装node项目

通过docker封装node项目项目架构项目根目录创建Dockfile 12345678910111213141516171819# 使用官方 Node.js 镜像作为基础镜像FROM node:18# 设置工作目录WORKDIR /app# 复制 package.json 和 package-lock.json 并安装依赖COPY package.json package-loc

2024-10-15

docker

docker快速入门

Docker快速入门 1. 使用镜像拉取镜像 1docker pull image 镜像默认保存在 /var/lib/docker/overlay2 运行镜像以上面的 ubuntu:18.04 为例，如果我们打算启动里面的 bash 并且进行交互式操作的话，可以执行下面的命令。 1docker run -it --rm ubuntu:18.04 bash 通过 exit 退出这

2024-10-14

docker

虚拟机的不同网络模式

1. 桥接模式桥接模式下的虚拟机使用的网卡就是宿主机的物理网卡，该虚拟机下的ip地址的网段要和宿主机相同 2. NAT模式 NAT模式下，虚拟机的网段和宿主机不同，通过虚拟网卡链接宿主机的物理网卡图解：注意事项：同一网段的设备能相互通信，如虚拟机A、物理机A、物理机B之间可以相互ping通下一级的网段能够访问上一级的网段，如虚拟机B能够向上访问虚拟机A、物理机A、物理机B，反之，

2024-10-06

#计算机网络

网络常识

1. ip地址和子网掩码 ip地址：用于标识网络中的不同设备，包括网段号和主机号两部分子网掩码：用于划分ip地址中的网段号和主机号, 也可以直接指定网段号的位数 2. 网关什么时候需要网关？不同网段之间的设备的通信需要网关，网关是软件层面的路由器在windows中测试访问某个ip需要经过哪些网关 1tracert -d <ip地址>

2024-10-06

#计算机网络

hexo发布文章

在hexo文件夹中打开git bash 创建文章 1hexo n 'title' 编辑文章发布 1hexo d -g

2024-10-06