CS336
这是25年春CS336的课堂笔记和作业,课程网站为Stanford CS336 | Language Modeling from Scratch,课程视频可在哔哩哔哩上观看:斯坦福CS336:大模型从0到1。 此课程内容涵盖分词、模型架构、系统优化、数据处理和模型对齐等方面,通过从零开始构建语言模型,深入理解NLP和AI的核心技术。 我的作业备份仓库:zlh123123/CS336_spring2025: CS336的作业与课程笔记 Tokenization 什么是分词(Tokenization) 分词是将**字符串(文本)转换为令牌(tokens,通常是整数索引)**的过程,以便语言模型处理。反过来,也需要将令牌解码回字符串。分词器(Tokenizer)需要实现以下两个方法: encode:将字符串编码为整数序列(tokens)。 decode:将整数序列解码回字符串。 123string = "Hello, 🌍! 你好!"indices = [15496, 11, 995, 0] 分词评估指标 词汇表大小(Vocabulary...
排序算法
半小时速通十大排序算法,核心原理 +...
网络空间安全及法律法规
Teruteru的学习笔记 第一章 网络空间安全概述 第一节...
N2备考计划
N2考试题型 N2日语能力考试JLPT 题型详细说明 能力考考试攻略_哔哩哔哩_bilibili 语法 首先是hero老师的: N5蓝宝书:12.5h 蓝宝书N4:8.5h N3蓝宝书:18.5h N2蓝宝书 part1、N2蓝宝书 part2、N2蓝宝書 part3:4.5h+30h+11h 还有搜罗到的考前急救系列(似乎每年考前都会更新):25年7月N2急救系列 词汇 【日语|无敌绿宝书N2词汇】无例句精简版|读两遍(持更)_哔哩哔哩_bilibili 配合无敌绿宝书 新日语能力考试 N2词汇 | 李晓东, 沈英莉 | download on...
操作系统安全技术
概述 安全等级 《可信计算机系统评估标准》将操作系统、网络组件和可信应用程序所提供的安全保护等级分为4大类,7小类,从高到低为: A1、B3、B2、B1、C2、C1、D。 目前尚没有任何操作系统满足A1等级;仅有很少一部分操作系统满足B等级;C2等级被认为针对通用操作系统来说已经足够安全的了。(目前的Windows、MAC、IOS等系统均是C2等级) D级,最低保护(Minimal Protection) 没有通过其他安全等级测试项目的系统即属于该级,如DOS、Windows 9x系统 C级,自主访问控制(Discretionary Protection) 系统客体(被访问的,如文件、目录)可由系统主体(能够发起行为的,如用户、应用程序)自主定义访问权。例如:管理员可以决定系统中任意文件的权限。 客体的权限是可以自主决定的。 B级,强制访问控制(Mandatory Protection) 由系统强制对客体进行安全保护,每个系统客体(如文件、目录等资源)及主体(如系统管理员、用户、应用程序)都有自己的安全标签(Security...
论文复现:通过双向transformer改进现实世界的密码猜测攻击
原文章链接:[Improving Real-world Password Guessing Attacks via Bi-directional Transformers](Improving Real-world Password Guessing Attacks via Bi-directional Transformers | USENIX) 概述 密码猜测攻击可视为对文本令牌概率分布的近似建模。自然语言处理(NLP)中的双向Transformer因其能利用双向上下文捕捉文本细微特征的能力,为密码猜测提供了新思路。本文提出了一种基于双向Transformer的密码猜测框架PassBERT,采用“预训练-微调”范式,首先生成预训练密码模型以学习通用密码分布,随后针对以下三类现实攻击场景设计微调方法: 条件密码猜测(CPG):基于已知的密码策略或用户行为规律生成猜测列表,利用规则缩小搜索范围。 场景:某公司密码策略要求“8位以上,包含大写字母和数字”。 攻击方法:生成 Pass1234、Hello2023...
机器学习与深度学习基础
基于李宏毅机器学习课程(22年春)所写的课程笔记 课程主页:ML 2022 Spring 此外,李老师在25年春开设新机器学习课程,主要内容为LLM及相关技术,课程主页为ML 2025...
系统软件安全
...
数据库原理
...
密码学
...