2026年1月3日
🌞 今日完成
📖 每日论文 Day 2
《MUDDFormer: Breaking Residual Bottlenecks in Transformers via Multiway Dynamic Dense Connections》(彩云科技 & 北邮)
昨天读的mHC担心”路太宽会翻车”,今天的MUDDFormer抱怨”路太堵了,得修立交桥”。
核心痛点:Transformer变深后,残差流作为唯一通信通道被”过载”,限制跨层信息流动。
MUDD解法:
- Dense:每层直接看到之前所有层的输出
- Dynamic:连接权重根据hidden state动态生成,本质是深度方向的Attention
- Multiway(核心):把输入解耦成Q、K、V、Residual四条流,各自独立密集连接
效果:
- MUDDPythia-2.8B ≈ Pythia-6.9B(2.4倍算力)
- 仅增加0.23%参数量和0.4%计算量
- Scaling curve优于HC和DenseFormer
洞察:Value流从密集连接中获益最大,直接获取底层原始V信息能缓解”表征坍塌”。
读后感:mHC求稳,MUDD求通——两种思路的博弈。
📱 数字断舍离
- 抖音收藏清理:100个 ✓(剩余约1200个)
- 照片清理:睡前完成 ✓
💻 项目
- 体育生AI小程序demo测试完成
📋 其他
- 充话费(200送20)✓
- 学生证找到了,不用补办了
- 2026阅读计划整理中
🔋 能量管理
| 维度 | 评分 |
|---|---|
| 🧠 认知能量 | 7/10 |
| 💪 身体能量 | 7/10 |
| ❤️ 情绪能量 | 8/10 |
| 🎯 意志能量 | 8/10 |
📅 明日待办
- 每日论文 Day 3
- 把本月计划读的论文都找出来
- 完成体育生AI系统的整体内容
- 抖音收藏继续清理(目标100个)
- 吃饭时清理照片
- 其他计划按部就班
✨ 今日金句
如果我在平庸面前低了头,请向我开炮。
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 Leo的笔记本!
评论
ValineDisqus



