horizon86的博客
  • 首页
  • 实用工具
  • 归档
  • 分类
  • 标签
  • 关于

Spigot屏蔽版本过旧的提示

启动命令中加入: -DIReallyKnowWhatIAmDoingISwear 也就是 1java -DIReallyKnowWhatIAmDoingISwear -jar xxx.jar
2024-11-07
游戏 > Minecraft

激活函数和GLU

LLaMA系列用的FFN层现在是SwishGLU,这里Swish是个激活函数,GLU是个线性单元,二者合起来是SwishGLU。 FFN Transformer中原始的FFN长这样: \[ FFN(x) = ReLU(xW_1+b_1)W_2+b_2 \] 两个线性层中间夹了个relu激活函数 写成模型代码就是: 123x = up_proj(x)x = relu(x)x = do
2024-10-29
AI

如果python的类变量和实例变量名字一样会如何?

python中类变量是属于类的,不属于具体的对象,所有对象共享一个类变量。类变量可以通过类名.变量名访问,也可以通过实例化后的对象.变量名访问。那么,如果我给对象的变量起的名字和类变量同名会如何?我们写代码测试一下: 12345678910111213141516171819202122class Foo: name = "hello" # <- 类变量 d
2024-10-21
python

openssh key格式转换

在使用Openssh > 7.8版本生成私钥时,默认的私钥格式是OPENSSH格式,而低版本是RSA格式,这导致部分旧版的ssh应用无法识别新的私钥。 OPENSSH格式开头: -----BEGIN OPENSSH PRIVATE KEY----- 旧版的RSA格式开头: -----BEGIN RSA PRIVATE KEY----- 我遇到这个问题是因为,在maven中使用wa
2024-10-04
学开发 > java

优化器:从SGD到Adam到AdamW

1. SGD 随机梯度下降(stochastic gradient descent,SGD) 输入数据为(x, y)组成的pair,模型参数是\(W\),随机选择一批样本组成一个batch,输入模型计算loss:\(L=f(X, Y;W)\),并求出梯度,更新参数时: \(W=W-lr*\frac{\partial L}{\partial W}\) 这就是随机梯度下降。 2. Adam
2024-09-29
AI

使用docker运行anyconnect

某司的专用虚拟网络是用的思科公司的anyconnect,我在docker中安装他,以免干扰我的环境。 步骤: 拉取docker镜像 1docker pull ubuntu 运行docker容器 1docker exec -itd --cap-add NET_ADMIN --privileged --name vpn ubuntu bash 进入docker容器,安装必要的依赖包
2024-09-08
linux

似然(likelihood)和NLLLoss

博主在学习的过程中,一直看到负对数似然函数(NLLLoss,negative log likelihood loss),虽然知道怎么计算,但是一直不清楚为什么叫似然。今天通过学习对似然和机器学习模型训练有了全新的理解,故记录在此。 本文主要参考:似然(likelihood)和概率(probability)的区别与联系 1. 交叉熵(CrossEntropyLoss)和NLLLoss的联系
2024-09-03
AI

deepspeed从入门到放弃

本文并不讲解deepspeed的原理以及用法,只是澄清几个deepspeed中的技术细节。 启动deepspeed训练可以通过运行deepspeed --nproc-per-node 4 xxx.py ...,这样就会启动4个进程来运行xxx.py deepspeed启动进程后如何知道是几号进程? 答:deepspeed启动进程会自动传入一个参数--local_rank=<ra
2024-09-01

让你的ubuntu像windows一样丝滑的小工具们

本人使用的系统是Ubuntu 20.04,如果是22.04会更加丝滑 1. 终端复制粘贴 Ubuntu默认的复制粘贴是Ctrl+Shift+C,而我习惯了Ctrl+C,同时windows的终端是支持鼠标右键复制粘贴的,非常方便。 对于后者,鼠标右键单击复制/粘贴,在Ubuntu 更新版本的终端中已经内置了,但是20.04还没有这个功能,想用只能自己修改并编译代码,因此放弃。 对于前者,在
2024-08-15
linux

剑指offer刷题记录

秋招在即,在此记录本人的刷题记录,记录一下基本解题思路,希望评论区的各位仅聚焦题目内容本身讨论 不要讨论其他问题,尤其是某些人不要透漏我的个人信息。 剑指offer problem set在leetcode cn版已经下架,因此题目列表参考已经被GitCode1开源社区收录的力扣【剑指offer】题目汇总与总结 数组 2024/8/3 (1)剑指offer03.数组中重复的数字
2024-08-04
力扣
12345…17

搜索

Hexo Fluid