🌞 今日完成

📖 每日论文 Day 2

《MUDDFormer: Breaking Residual Bottlenecks in Transformers via Multiway Dynamic Dense Connections》(彩云科技 & 北邮)

昨天读的mHC担心”路太宽会翻车”,今天的MUDDFormer抱怨”路太堵了,得修立交桥”。

核心痛点:Transformer变深后,残差流作为唯一通信通道被”过载”,限制跨层信息流动。

MUDD解法

  • Dense:每层直接看到之前所有层的输出
  • Dynamic:连接权重根据hidden state动态生成,本质是深度方向的Attention
  • Multiway(核心):把输入解耦成Q、K、V、Residual四条流,各自独立密集连接

效果

  • MUDDPythia-2.8B ≈ Pythia-6.9B(2.4倍算力)
  • 仅增加0.23%参数量和0.4%计算量
  • Scaling curve优于HC和DenseFormer

洞察:Value流从密集连接中获益最大,直接获取底层原始V信息能缓解”表征坍塌”。

读后感:mHC求稳,MUDD求通——两种思路的博弈。


📱 数字断舍离

  • 抖音收藏清理:100个 ✓(剩余约1200个)
  • 照片清理:睡前完成 ✓

💻 项目

  • 体育生AI小程序demo测试完成

📋 其他

  • 充话费(200送20)✓
  • 学生证找到了,不用补办了
  • 2026阅读计划整理中

🔋 能量管理

维度 评分
🧠 认知能量 7/10
💪 身体能量 7/10
❤️ 情绪能量 8/10
🎯 意志能量 8/10

📅 明日待办

  • 每日论文 Day 3
  • 把本月计划读的论文都找出来
  • 完成体育生AI系统的整体内容
  • 抖音收藏继续清理(目标100个)
  • 吃饭时清理照片
  • 其他计划按部就班

✨ 今日金句

如果我在平庸面前低了头,请向我开炮。