horizon86的博客
  • 首页
  • 实用工具
  • 归档
  • 分类
  • 标签
  • 关于

torch.nn.CrossEntropyLoss

交叉熵损失,会自动给输出的logits做softmax,然后和真是标签计算交叉熵,然后再取相反数 https://zhuanlan.zhihu.com/p/383044774 CrossEntropyLoss(y_hat, y_truth) = -sum(y_truth_one_hot * log(softmax(y_hat))) 输入的y_hat是(n, C),n是样本数,C是类别数,
2022-05-17
AI

优秀博客list

pytorch如何保存与加载训练模型 - 简书 Pytorch冻结部分层的参数 - 简书 剪枝 (论文 + 代码)_看不见我呀的博客-CSDN博客_剪枝代码 Pytorch 剪枝操作实现 - 虾野百鹤 - 博客园 pytorch官方的剪枝教程(推荐,简单明了,比看别人的博客好的多) Pruning Tutorial — PyTorch Tutorials 1.11.0+cu10
2022-05-16
AI

bert细节解读和记录

Q&A: Q:BERT输如和输出是什么? A:输入是句子,每个句子由n个单词组成,也就是输入的形状是[batch_size, sentence_len]。这里每个单词用一个整数来表示,输入后对每个单词进行embbding,之后的维度是[batch_size, sentence_len, emb_dim],这里每个单词用一个emd_dim维的向量来表示。 输出是[batch
2022-05-16
AI

词嵌入 - word2vector

推荐一篇文章:通俗理解word2vec - 简书 认真读完上文后会理解word2vec 本文做点重点解释: word2vec的输入是一个单词上下文中的 \(C\) 个单词one-hot编码,你语料库有几个单词这个one-hot向量就是几维的。假定语料库有 \(V\) 个单词,每个单词的ont-hot编码就是\(1 \times V\)的。 image 对于语料库中的
2022-05-15
AI

transformer笔记

由于老是忘记transformer的细节,今天整个笔记记一下,免得又忘了 一个batch 有batch_size句话,一句话有n个单词,不够就pad到n,超出就截断 嵌入层嵌入后,输出维度是[batchsize, n, d_model] 也就是每个单词的嵌入是一个(1, d_model)的向量 进入到self-attention。先计算q, k, v,每个单词都有一个q, k,
2022-05-13
AI

linux ps命令详解

网上的实在是解释的各种混乱错误,写一份新的,内容基于ps --help 123456789101112Usage: ps [options]Basic options: -A, -e all processes -a all with tty, except session leaders a
2022-05-11
linux

WPS 任务栏预览很多窗口并且必须选一个才能打开解决办法

wps打开多个文件后,本来是同一个窗口多个标签页,但是在任务栏点WPS图标并不能默认打开最小化时打开 的标签页,而是预览很多标签页,必须选择一个。 解决方案: 将以下内容保存为xxx.reg,导入到注册表 1234Windows Registry Editor Version 5.00[HKEY_CURRENT_USER\Software\kingsoft\Office\6.0\wpsof
2022-05-06
windows

[]在集合论中的意思

https://math.stackexchange.com/a/4139609 [a]可能表示的是不超过a的整数组成的集合 论文《Patient Knowledge Distillation for BERT Model Compression》的第3.1章也提到了一下这种写法 image
2022-04-04

linux ssh意外断开账号未注销

1pkill -kill -t pts/15 注销登陆的会话。会话名字用who查看
2022-03-24
linux

windows设置socks代理和http代理

windows10默认设置是http代理,直接输入ip,就是http代理 image 如果要设置socks代理,输入socks=127.0.0.1,点击保存后会自动变成http://socks=127.0.0.1,不能手动输入http:// image
2022-02-21
windows
1…1112131415…17

搜索

Hexo Fluid