好急好急的Hexo博客

发表于2025-09-17

发表于2025-07-17|LLM

这是25年春CS336的课堂笔记和作业，课程网站为Stanford CS336 | Language Modeling from Scratch，课程视频可在哔哩哔哩上观看：斯坦福CS336：大模型从0到1。此课程内容涵盖分词、模型架构、系统优化、数据处理和模型对齐等方面，通过从零开始构建语言模型，深入理解NLP和AI的核心技术。我的作业备份仓库：zlh123123/CS336_spring2025: CS336的作业与课程笔记 Tokenization 什么是分词（Tokenization）分词是将**字符串（文本）转换为令牌（tokens，通常是整数索引）**的过程，以便语言模型处理。反过来，也需要将令牌解码回字符串。分词器（Tokenizer）需要实现以下两个方法： encode：将字符串编码为整数序列（tokens）。 decode：将整数序列解码回字符串。 123string = "Hello, 🌍! 你好!"indices = [15496, 11, 995, 0] 分词评估指标词汇表大小（Vocabulary...

排序算法

发表于2025-07-09|基础课夏令营

半小时速通十大排序算法，核心原理 +...

网络空间安全及法律法规

发表于2025-06-13|基础课夏令营

Teruteru的学习笔记第一章网络空间安全概述第一节...

N2备考计划

发表于2025-06-12|日语

N2考试题型 N2日语能力考试JLPT 题型详细说明能力考考试攻略_哔哩哔哩_bilibili N1考试题型日语能力考JLPT N1考试详细说明_哔哩哔哩_bilibili 语法首先是hero老师的： N5蓝宝书：12.5h 蓝宝书N4：8.5h N3蓝宝书：18.5h N2蓝宝书 part1、N2蓝宝书 part2、N2蓝宝書 part3：4.5h+30h+11h N1蓝宝书：70h 还有搜罗到的考前急救系列（似乎每年考前都会更新）：25年7月N2急救系列词汇【日语|无敌绿宝书N2词汇】无例句精简版|读两遍(持更)_哔哩哔哩_bilibili 配合无敌绿宝书新日语能力考试 N2词汇 | 李晓东, 沈英莉 | download on...

操作系统安全技术

发表于2025-04-10|基础课

概述安全等级《可信计算机系统评估标准》将操作系统、网络组件和可信应用程序所提供的安全保护等级分为4大类，7小类，从高到低为： A1、B3、B2、B1、C2、C1、D。目前尚没有任何操作系统满足A1等级；仅有很少一部分操作系统满足B等级；C2等级被认为针对通用操作系统来说已经足够安全的了。（目前的Windows、MAC、IOS等系统均是C2等级） D级，最低保护（Minimal Protection）没有通过其他安全等级测试项目的系统即属于该级，如DOS、Windows 9x系统 C级，自主访问控制（Discretionary Protection）系统客体（被访问的，如文件、目录）可由系统主体（能够发起行为的，如用户、应用程序）自主定义访问权。例如：管理员可以决定系统中任意文件的权限。客体的权限是可以自主决定的。 B级，强制访问控制（Mandatory Protection）由系统强制对客体进行安全保护，每个系统客体（如文件、目录等资源）及主体（如系统管理员、用户、应用程序）都有自己的安全标签（Security...

论文复现：通过双向transformer改进现实世界的密码猜测攻击

发表于2025-02-13|密码学论文Transformer

原文章链接：[Improving Real-world Password Guessing Attacks via Bi-directional Transformers](Improving Real-world Password Guessing Attacks via Bi-directional Transformers | USENIX) 概述密码猜测攻击可视为对文本令牌概率分布的近似建模。自然语言处理（NLP）中的双向Transformer因其能利用双向上下文捕捉文本细微特征的能力，为密码猜测提供了新思路。本文提出了一种基于双向Transformer的密码猜测框架PassBERT，采用“预训练-微调”范式，首先生成预训练密码模型以学习通用密码分布，随后针对以下三类现实攻击场景设计微调方法：条件密码猜测（CPG）：基于已知的密码策略或用户行为规律生成猜测列表，利用规则缩小搜索范围。场景：某公司密码策略要求“8位以上，包含大写字母和数字”。攻击方法：生成 Pass1234、Hello2023...