Ego VLM Training Recipe

Last updated: 2026-04-04

☰ 数据组成

Ego VLM 训练数据的所有来源，按场景类别组织。每个数据集附带样例视频和 caption。新数据源添加在对应类别最前面。

Task 1: Ego Caption Model Pretrain

包含 narration / caption 的数据集，可直接用于训练 ego captioning model。

数据集	Narration 类型	规模	Caption 质量	可直接训练	备注	Link
EgoClip (EgoVLP)	Clip-text pairs	3.8M pairs	高	✓	现成 video-text pairs，Stage 1 首选	GitHub
Ego4D	Dense narration (#C/#O)	3,670h	中	需重写	原始 narration 模板化，建议 LLM 重写	Official
EPIC-KITCHENS-100	Pause-and-Talk narration	100h, 90K segments	高	✓	参与者自述，verb+noun 细粒度	Official
Ego-Exo4D	Expert + Narrate-and-Act + Atomic	432K sentences	高	✓	3 种粒度标注，expert commentary 最高	Official
Nymeria	Motion narration	310K sentences	高	✓	38.6h fine-grained motion 描述	HF
EgoLife	EgoIT-99K instruction	99K	高	✓	现成 instruction tuning data	HF
EgoVid-5M	Text + kinematic	5M clips	中	需筛选	量大但自动生成，需过滤低质量	Project
EGTEA Gaze+	Fine-grained action labels	10,325 instances	中	需扩写	动作标签短，需 LLM 扩写	Official
HoloAssist	Verbal instructions (transcript)	166h	高	✓	实时语音指导 transcription	Project
Charades-Ego	Activity scripts	68.8h	中	需处理	脚本化描述，非自然 narration	Project
EgoCom	Word-level transcription	38.5h	高	✓	多人对话 transcription	GitHub
MM-Ego (方法复现)	GPT-4o QA pairs	可生成 ~数百万	高	✓	自行用 GPT-4o 从 Ego4D 生成	Apple

💡

推荐优先级：EgoClip (Stage 1 首选) → EPIC-KITCHENS + Ego-Exo4D + HoloAssist (高质量 caption) → Ego4D + Nymeria (量大，需处理) → GPT-4o 自动生成扩充

Task 2: Temporal Segmentation / Dense Temporal Caption

包含细粒度时间标注（第 X 秒到第 Y 秒 + action/caption）的数据集，可用于训练 temporal segmentation 和 dense temporal captioning。

数据集	标注粒度	Segments 数	时间格式	Ego?	可用性	Link
EPIC-KITCHENS-100	Verb + Noun per segment	90K action segments	`[start_s, end_s]` + narration	✓	直接可用	Official
Assembly101	Coarse + Fine-grained	100K coarse + 1M+ fine	`[start_f, end_f]` frame-level	部分 (4 ego)	直接可用	Project
Ego4D (Narration)	Timestamped dense narration	~数十万 narrations	`timestamp_sec` + #C/#O text	✓	需转换格式	Official
Ego4D Goal-Step	Goal → Step → Sub-step	层级标注	`[start, end]` per level	✓	粒度较粗	Docs
Ego-Exo4D (Atomic)	Atomic action descriptions	432K sentences	Timestamped per action	✓	直接可用	Official
GTEA	Frame-level action class	28 videos, 11 classes	Per-frame label	✓	TAS benchmark	Official
EGTEA Gaze+	Action instance boundaries	10,325 instances	`[start_f, end_f]` + action label	✓	直接可用	Official
EgoPER	Procedural steps + errors	386 videos, 28h	`[start, end]` + step/error	✓	含错误标注	Project
EgoProceL	Key-step boundaries	62h, 16 tasks	`[start, end]` + step label	✓	直接可用	Project
HoloAssist	Timestamped instructions	166h	Timestamp + verbal instruction	✓	需对齐格式	Project
HOI4D	Action segments + 3D pose	4,000+ sequences	Frame-level annotation	✓	无 text caption	Project
Nymeria	Atomic action labels	207h atomic, 38.6h narration	Timestamped	✓	直接可用	HF

Temporal Action Segmentation (TAS) Benchmarks

GTEA Georgia Tech, ICCV 2011

28 videos, 7 activities, 4 subjects
Frame-level 标注, 11 action classes (含 background)
评估: leave-one-subject-out 4-fold CV
指标: Acc/MoF, Edit, F1@{10,25,50}
经典 TAS benchmark，所有方法都会报

Assembly101 Meta / TUM, CVPR 2022

4,321 sequences, 513h, 1M+ fine segments
Multi-view (8 static + 4 ego), 202 coarse classes
最大规模 TAS benchmark
同时有 coarse 和 fine-grained 两个粒度

EgoPER Northeastern, CVPR 2024

386 videos, 28h, 5 cooking tasks
213 normal + 173 erroneous videos
Procedural step segments + error detection
独特价值: 包含操作错误标注

Ego4D Goal-Step Meta

Goal → Step → Sub-step 层级
Ego4D 子集，层级化时间标注
粒度可能不够细，sub-step 标注有限
Gap: 可能需要自建更细粒度标注

⚠

Gap 分析：现有 TAS benchmark 粒度集中在 action-level (几秒级)，缺少 sub-second 级别的 dense temporal caption。如果需要更细粒度的 temporal captioning 数据，可能需要：
(1) 用 LLM 对 EPIC-KITCHENS / Ego-Exo4D 的 segments 生成 dense caption
(2) 设计 auto-annotation pipeline: video → frame sampling → VLM caption → temporal alignment → 人工校验
(3) 在 Ego4D narration 基础上做时间对齐细化（原始 narration 只有单点 timestamp，没有 [start, end]）

Temporal Segmentation Training Data 推荐配比

EPIC-KITCHENS — 90K segments, 最高质量 (30%)
Assembly101 — 1M+ fine segments (25%)
Ego-Exo4D Atomic — 432K descriptions (20%)
EGTEA + GTEA + EgoPER — TAS benchmarks (10%)
EgoProceL + HoloAssist — 程序化 (10%)
Nymeria atomic — motion (5%)

数据源总览 (26 datasets, ~16,600+ hours)

类别	数据集	规模	场景	Caption	开源	Link
日常生活	Ego4D	3,670h	51 种日常场景	Dense narration	✓	Official
	EgoLife	300h	连续 1 周生活	EgoIT-99K	✓	HF
	Charades-Ego	68.8h	157 种室内活动	Activity desc	✓	Project
	ADL	10h	20 个家庭日常	Object bbox	✓	CMU
厨房 / 烹饪	EPIC-KITCHENS	100h	45 个厨房	Dense narration	✓	Official
	EGTEA Gaze+	28h	7 菜品, 眼动	Action labels	✓	Official
	GTEA	28 videos	7 activities, TAS	Frame-level	✓	Official
技能 / 操作	Ego-Exo4D	1,286h	8 domain, 43 act	3 种标注	✓	Official
	Assembly101	513h	101 种组装	1M+ segments	✓	Project
	HoloAssist	166h	AR 协作 20 任务	Verbal instr	✓	Project
	EgoProceL	62h	16 种程序化	Key-step	✓	Project
	EgoPER	28h	5 cooking + errors	Step + error	✓	Project
	IndustReal	84 videos	工业装配	Procedure	✓	Project
工业 / 工厂	Egocentric-10K	10,000h	真实工厂	JSON meta	✓	HF
工业 / 工厂	ENIGMA-51	22h	电路板维修	Fine HOI	✓	Project
跨视角	EgoExoLearn	120h	程序化 ego+demo	Cross-view	✓	HF
身体 / 手部	Nymeria	300h	20 种动作	310K sent	✓	HF
	HOI4D	2.4M frames	手物 16 类	3D pose	✓	Project
	EgoBody	125 seq	社交场景	SMPL-X	✓	Project
手势	EgoGesture	24K samples	83 手势	Class labels	✓	Official
社交	EgoCom	38.5h	多人对话	Transcription	✓	GitHub
视频生成	EgoVid-5M	5M clips	多样 1080p	Text+kine	✓	Project
QA / Bench	MM-Ego	700万+ QA	Ego4D 30s–1h	GPT-4o QA	✗	Apple
	EgoClip	3.8M pairs	9,645 videos	Clip-text	✓	GitHub
	EgoTaskQA	40K QA	任务推理	Program QA	✓	arXiv
	EgoSchema	5K QA	长视频理解	MC QA	✓	Project
	EgoPlan-Bench	4.9K QA	规划能力	Planning QA	✓	GitHub
	HourVideo	13K QA	1h 级理解	Long QA	✓	Stanford

日常生活

Ego4D Meta, CVPR 2022

3,670h · 51 场景 · 74 地点

规模

3,670 小时

参与者

931 人, 9 国

模态

Video + Narration

Caption 格式

#C / #O 前缀标注

场景

烹饪/清洁/购物/运动/社交...

开源

✓ 需 License

📝

Caption 样例：#C C picks up the spoon from the table · #C C is chopping a tomato on the cutting board
Summary：#summary C fixed their breakfast, ate it, then got dressed and left the house

Ego4D 风格样例：第一视角日常活动（来自 ADL demo，Ego4D 需 license）

用途：Stage 1/2 ego encoder 预训练核心数据。覆盖最广的 ego 日常场景。
注意：需申请 license (ego4d-data.org)。Narration 质量参差不齐，建议 LLM 重新生成 discriminative caption。
链接：ego4d-data.org

EgoLife EvolvingLMMs, CVPR 2025

300h · 6 人 · 连续 1 周

规模

300 小时

设备

Meta Aria 眼镜

模态

Video + 多模态

指令数据

EgoIT-99K

场景

购物/烹饪/社交/娱乐

开源

✓ HuggingFace

EgoLife 样例：参与者 Jake, Day 1 — Meta Aria 眼镜录制的连续日常生活片段

用途：长时间连续 ego 数据，适合训练长视频理解能力。EgoIT-99K 可直接用于 instruction tuning。
链接：HuggingFace: lmms-lab/EgoLife

Charades-Ego Allen AI

68.8h · 7,860 videos · 157 活动类

规模

68.8 小时

特点

Ego + 第三人称配对

模态

Video + Scripts

活动

157 种室内日常活动

参与者

112 人, 112 家庭

开源

✓ 公开 S3

Charades-Ego 样例：室内日常活动第一视角

用途：Ego+第三人称配对数据，可训练视角理解。覆盖丰富室内活动。
链接：prior.allenai.org/projects/charades-ego

ADL CMU, CVPR 2012

10h · 20 人 · 20 家庭

规模

10 小时, 1M 帧

标注

Object bbox tracks

场景

非脚本日常生活

开源

✓ 公开

ADL 样例：家庭日常活动第一视角记录

用途：经典 ego 日常活动数据集，提供所有可见物体的 bounding box tracks。EgoLife 训练 EgoIT-99K 使用。
链接：CMU ADL Dataset

厨房 / 烹饪

EPIC-KITCHENS-100 U of Bristol

100h · 45 厨房 · 90K action segments

规模

100 小时, 20M 帧

标注

Pause-and-Talk narration

模态

Video + Verb/Noun

动作

90K segments, 700 videos

许可

CC BY-NC 4.0

开源

✓ HuggingFace

📝

Caption 样例：take plate · put plate on drying rack · turn on tap · wash sponge
提供 verb + noun 级别的细粒度标注，参与者自述操作动作。

EPIC-KITCHENS-100 样例：多厨房多参与者第一视角烹饪场景拼接

用途：厨房场景 ego 数据的标杆。Dense narration 质量高，适合训练烹饪/厨房领域的 ego understanding。
链接：epic-kitchens.github.io · HuggingFace

EGTEA Gaze+ Georgia Tech

28h · 7 菜品 · 眼动追踪

规模

28 小时, 86 sessions

设备

SMI 眼动追踪眼镜

菜品

Pizza / Salad / Sandwich / Eggs / Burger / Breakfast / Pasta

标注

10,325 action instances

手部

15,176 hand masks

开源

✓ Dropbox

📝

Caption 样例：Cut bell pepper · Pour condiment into salad · Mix ingredients in bowl
提供 fine-grained action label + 眼动 gaze 数据。

用途：烹饪场景 + 眼动追踪，可学习人类注意力分配。手部 mask 标注可辅助 hand-object 理解。
链接：cbs.ic.gatech.edu/fpv

GTEA Georgia Tech, ICCV 2011

28 videos · 7 activities · TAS benchmark

规模

28 videos, 4 subjects

标注

Frame-level, 11 action classes

评估

4-fold leave-one-subject-out

指标

Acc/MoF, Edit, F1@{10,25,50}

用途

TAS benchmark

开源

✓ 公开

用途：最经典的 ego temporal action segmentation benchmark，所有 TAS 方法必报。与 EGTEA Gaze+ 来自同一数据源。
Paper：Fathi, Farhadi, Rehg, "Understanding Egocentric Activities", ICCV 2011
链接：cbs.ic.gatech.edu/fpv

技能 / 程序化操作

EgoPER Northeastern, CVPR 2024

386 videos · 28h · 5 cooking tasks · 含错误标注

规模

386 videos, 28h

视频

213 normal + 173 erroneous

标注

Procedural steps + Error detection

任务

5 种烹饪任务

用途

TAS + Error detection

开源

✓ 公开

用途：Ego 程序化操作 + 错误检测。独特价值：同时标注正确和错误操作，可训练模型识别操作失误。
Paper：Lee et al., "Error Detection in Egocentric Procedural Task Videos", CVPR 2024
链接：khoury.northeastern.edu/egoper

Ego-Exo4D Meta, CVPR 2024

1,286h · 8 domain · 43 activities

规模

1,286 小时

视角

Ego + 多个 Exo 同步

领域

烹饪 / 音乐 / 舞蹈 / 攀岩 / 篮球 / 足球 / 医疗 / 自行车

标注

Expert commentary + Narrate-and-Act + 432K atomic descriptions

参与者

740+ 人, 13 城市

开源

✓ 需 License

📝

Expert Commentary 样例："The left hand should grip the neck more firmly while transitioning between chords"
Atomic Action 样例："Participant reaches for flour bag with right hand"

用途：Ego+Exo 多视角专业技能数据。Expert commentary 是独特的高质量标注，3 种标注类型覆盖不同粒度。
链接：ego-exo4d-data.org

Assembly101 Meta AI / TU Munich, CVPR 2022

513h · 101 玩具模型 · 多视角

规模

4,321 videos, 513h

视角

12 固定 + ego

标注

100K+ coarse + 1M+ fine actions

手部

18M 3D hand poses

任务

组装 / 拆解 take-apart 玩具

开源

✓ 公开

Assembly101 样例：12 视角同步拍摄参与者组装 take-apart 玩具车辆

用途：程序化操作 + 3D 手部 pose，适合训练精细操作理解和步骤预测。
链接：assembly-101.github.io

HoloAssist Microsoft / ETH, ICCV 2023

166h · 222 人 · 7 模态

规模

166 小时

设备

HoloLens 2

模态

RGB + Depth + Hand + Eye + Audio + IMU

标注

实时语音指导

任务

20 种操作任务

开源

✓ 公开

📝

Caption 样例 (instructor)："Now take the small screw and insert it into the hole on the left side"
350 组 instructor-performer 配对，包含实时语音指导 transcription。

HoloAssist 样例：GoPro 视角拍摄的 AR 协作操作任务

用途：AR 环境下的协作操作，EgoLife EgoIT-99K 训练数据源之一。7 模态同步数据极其丰富。
链接：holoassist.github.io

EgoProceL IIIT Hyderabad, ECCV 2022

62h · 130 人 · 16 任务

规模

62 小时

任务

PC 装配/帐篷搭建/自行车维修/烹饪

标注

Key-step annotations

开源

✓ GitHub

EgoProceL 样例：第一视角程序化操作学习（PC 装配/帐篷搭建等）

用途：程序化学习，EgoLife EgoIT-99K 训练数据源之一。覆盖多种程序化操作。
链接：sid2697.github.io/egoprocel

IndustReal TU Eindhoven, WACV 2024

84 videos · 27 人 · 工业装配

规模

84 videos

特点

装配 + 错误检测

标注

Procedure steps + Error labels

开源

✓ 4TU.ResearchData

IndustReal 样例：工业装配操作 + 操作错误检测

用途：工业装配场景 + 操作错误标注，EgoLife EgoIT-99K 训练数据源之一。含 3D 模型可生成合成数据。
链接：timschoonbeek.github.io/industreal

工业 / 工厂

Egocentric-10K Build AI

10,000h · 2,138 工人 · 1.08B 帧

规模

10,000 小时

数据量

16.4 TB (WebDataset)

帧数

1.08 Billion

场景

真实工厂第一视角

许可

Apache 2.0

开源

✓ HuggingFace

Egocentric-10K 样例：真实工厂工人第一视角 — 工业操作和装配场景

用途：最大规模工厂 ego 数据集 (10K 小时)，Apache 2.0 完全开源。与机械臂操作场景最接近。
链接：HuggingFace: builddotai/Egocentric-10K

ENIGMA-51 2023

22h · 19 人 · 电路板维修

规模

22 小时

场景

电路板维修操作

标注

Fine-grained HOI

开源

✓ 公开

ENIGMA-51 样例：电路板维修操作第一视角

用途：工业精细操作场景（电路板维修），适合训练工业 ego 理解。

跨视角学习

EgoExoLearn 上海 AI Lab / 南大, CVPR 2024

120h · ego + demo 视角

规模

120 小时 (432 ego + 315 demo)

特点

从示范视频学习操作

模态

Video + Gaze + Caption

标注

跨视角 captioning

任务

程序化任务学习

开源

✓ HuggingFace

EgoExoLearn 样例：参与者从示范视频学习，第一视角记录操作过程

用途：训练模型理解 "看示范 → 自己操作" 的学习过程。跨视角 caption 对 ego 理解有价值。
链接：HuggingFace: hyf015/EgoExoLearn

身体动作 / Motion

Nymeria Meta Reality Labs, ECCV 2024

300h · 264 人 · 310K sentences

规模

300h motion, 3,600h video

设备

Project Aria 眼镜

场景

20 种日常动作场景

标注

310K sentences, 8.64M words

许可

CC BY-NC 4.0

开源

✓ HuggingFace

📝

Caption 样例："Person walks forward and reaches right hand to open cabinet door"
提供 fine-grained motion narration + 207h atomic action labels。

用途：全身动作 + ego 视角，motion narration 极其详细 (38.6h)。适合训练人体动作理解。
链接：HuggingFace: projectaria/Nymeria

HOI4D Tsinghua, CVPR 2022

2.4M frames · 800 物体 · 16 类

规模

2.4M RGB-D frames

序列

4,000+ sequences

标注

3D hand pose + Object pose + Panoptic seg

场景

610 indoor rooms

开源

✓ 公开

HOI4D 样例：手物交互 + 3D pose 标注场景

用途：细粒度 hand-object interaction + 3D pose，适合训练手部操作理解。RGB-D 深度信息可辅助空间理解。
链接：hoi4d.github.io

EgoBody ETH / MPI, ECCV 2022

125 sequences · 36 人 · 社交场景

规模

125 sequences, 219K frames

设备

HoloLens 2

标注

SMPL-X body shape/pose/motion

场景

15 indoor, 社交互动

开源

✓ 公开

EgoBody 样例：HoloLens 2 拍摄的社交场景人体 pose

用途：社交互动中的人体 pose 估计，从 ego 视角理解他人身体语言。
链接：sanweiliti.github.io/egobody

EgoGesture CAS, IEEE TMM 2018

24K samples · 50 人 · 83 手势类

规模

24,000+ samples, 3M+ frames

模态

RGB + Depth

场景

6 种室内/室外

标注

83 种手势类别

开源

✓ 公开

用途：大规模 ego 手势识别，适合训练手势交互理解。
链接：CAS EgoGesture

通信 / 社交

EgoCom IEEE TPAMI 2020

38.5h · 多人对话

规模

38.5 小时

标注

Word-level transcription + Speaker labels + Turn-taking

场景

多人多模态对话

开源

✓ 公开

用途：Ego 视角下的多人对话数据，训练社交场景理解和对话分析。

视频生成

EgoVid-5M 2024

5M clips · 1080p · text + kinematic

规模

5,000,000 clips

分辨率

1080p

标注

Text descriptions + Kinematic control

来源

Ego4D 视频处理

开源

✓ HuggingFace

EgoVid-5M 样例：kinematic-driven ego 视频生成

用途：最大规模 ego video-text 数据 (5M clips)。可用于 ego video generation 或 pretraining。需 Ego4D license。
链接：egovid.github.io

QA / Instruction Tuning 数据

MM-Ego Apple, ICLR 2025

700万+ QA · GPT-4o 生成

规模

7M+ QA pairs

来源

Ego4D narration + GPT-4o

视频长度

30s – 1h

方法

Memory Pointer Prompting

Benchmark

EgoMemoria: 629 videos, 7K Qs

开源

✗ 未开源

用途：Stage 3 instruction tuning 参考。方法可复现：Ego4D narration + GPT-4o → QA pairs。
链接：Apple ML Research

EgoClip / EgoVLP NUS Show Lab, NeurIPS 2022

3.8M clip-text pairs · 9,645 videos

规模

3.8M clip-text pairs

来源

Ego4D narrations

用途

Video-Language Pretraining

格式

Clip + text pair

许可

需 Ego4D license

开源

✓ GitHub

用途：现成的 ego video-text pretraining pairs。可直接用于 Stage 1 projector alignment。
链接：GitHub: showlab/EgoVLP

EgoVideo 上海 AI Lab, CVPR 2024 冠军

Ego4D Challenge 冠军方案

任务

Action / NLQ / Forecast

特点

多任务 ego 理解

用途

Encoder 参考实现

开源

✓ 完整开源

用途：Ego4D Challenge 冠军代码，可直接作为 ego encoder 参考实现和 benchmark。
链接：GitHub 完整开源

EgoTaskQA UCLA / UT Austin, NeurIPS 2022

40K QA · 172 videos · 任务推理

规模

40K QA pairs, 172 videos

QA 类型

描述 / 预测 / 因果 / 反事实

来源

LEMMA dataset

开源

✓ 公开

用途：Ego 任务推理 QA，EgoLife EgoIT-99K 训练数据源之一。涵盖因果/反事实/预测多种推理类型。

EgoSchema UC Berkeley, NeurIPS 2023

5K QA · 250h · 长视频理解

规模

5,063 QA pairs

视频

250h, 3 分钟 clips (Ego4D)

格式

Multiple-choice QA

开源

✓ HuggingFace

EgoSchema 样例：3 分钟 ego 视频 + 长视频理解 QA

用途：长视频理解诊断 benchmark。评估模型对 ego 视频的时序推理能力。
链接：egoschema.github.io

EgoPlan-Bench Renmin Univ, CVPR 2024

4.9K QA · 规划能力评估

规模

4,939 QA pairs

来源

EPIC-KITCHENS + Ego4D

格式

Planning QA

配套

EgoPlan-IT instruction tuning

开源

✓ GitHub

用途：评估 MLLM 的 ego 规划能力。EgoPlan-IT 可用于 instruction tuning。
链接：GitHub: ChenYi99/EgoPlan

HourVideo Stanford (Fei-Fei Li), 2024

13K QA · 381h · 1 小时级理解

规模

12,976 QA pairs, 381h

视频

500 clips, 20min–2h each

来源

Ego4D

开源

✓ 公开

用途：1 小时级别超长 ego 视频理解 benchmark，评估模型的极长上下文理解能力。

⚙ Infra 选型

框架选型决策树

模型规模	推荐框架	MFU	备注
< 7B	HF Trainer + ZeRO-1 + BF16	-	单卡 debug → 128 卡 DP
7B–32B	FSDP2 + Accelerate (推荐)	40–50%	128 卡, 3–5 天
32B–72B	FSDP2 or Megatron	50%+	MFU < 40% 再迁移
72B+ / MoE	Megatron-Core TP+PP+EP	58%+	Qwen: TP=2 PP=8 EP=32

MFU 参考 (128 x H100, ~126 PFLOPS BF16)

~40%

FSDP2 baseline

~50%+

FSDP2 + FlashAttn + grad ckpt

~58%+

Megatron TP=4 PP=4 (72B+)

◆ 模型架构

三种方案对比

方案一：Continual Training ★★★★☆

起点高, 100K 级数据
几天出结果
Catastrophic forgetting
受限于 base VLM

方案二：数据策略优化 ★★★☆☆

PhysBrain 验证 (1:1)
依赖 base VLM 上限
配比需调优

方案三：原生 Ego VLM ★★★★★

无 domain mismatch
壁垒最强
数据需求大
成本高

原生 Ego VLM 架构 (路线 A)

Ego Video / Image Input
  → Ego-Specific ViT (CLIP/SigLIP 热启动)
    → MLP Projector (visual → LLM space)
      → LLM Backbone (Qwen / LLaMA)
        → Ego Caption Output

数据规模估算

场景	人类	机械臂	Visual	Text	总计	对标
最小可行	500h	200h	2.56T	0.13T	2.83T	Qwen2.5-VL 69%
推荐	1500h	500h	7.4T	0.4T	7.8T	Llama3 52%
从零	5000h	2000h	26.7T	1.4T	28.1T	Llama3 187%

▶ 训练阶段

Stage

Projector Alignment

冻结

Encoder LLM

可训练

MLP Projector

Infra

128 卡 FSDP2

周期

Week 2–3

Stage

Ego Encoder Training

冻结

LLM

可训练

Encoder (ViT) Projector

数据

全 ego 数据联合训练

周期

Week 4–5

Stage

Full Fine-tuning + Instruction Tuning

可训练

全参数

数据

Ego + 通用 instruction

指标

Caption discriminativeness

周期

Week 6+

☰ 数据策略

数据配比

数据类型	比例	来源
Ego 人类场景	~40-50%	Ego4D / EgoExo4D / 自采
Ego 机械臂	~10-20%	自采
通用 instruction	~30-40%	公开数据集

💡

ego:通用 ≈ 1:1（PhysBrain 验证）。去掉通用数据后 instruction following 显著退化。

Caption 质量要求

✓ Discriminative Caption

包含 spatial relationship
描述 hand-object contact
相似场景 distinct 描述
GPT-4o 基于人工标注扩展

✗ 避免 (EgoGPT 教训)

固定模板 "Person picks up cup"
相似场景相同 caption
缺 spatial / contact 描述

数据来源

来源	类型	规模	开源
Ego4D	人类 ego	3670h	✓
EgoExo4D	ego+exo	-	✓
MM-Ego	QA pairs	700万+	✗
EgoVideo	多任务 ego	-	✓
PhysBrain	ego	EgoDex+BuildAI	✗

⇄ Streaming & DataLoader

核心挑战

变长 Padding
1.5K vs 8.7K

多模态 IO 瓶颈

分布式 Shuffle

Encoder 1~64 帧不均匀

方案选型

WebDataset 备选

成熟, IO 高效
重打包

MosaicML 推荐

分布式 shuffle
seq packing
需转 MDS

自定义 Debug

完全控制
工程量大

Encoder 优化 (TBD)

O1 Dynamic Resolution

Qwen2.5-VL Window Attention

O2 异步流水线

Encoder 预取下一 batch

O3 Sequence Packing

短 clip 打包, mask 隔离

O4 3D Tokenization

可能无法热启动

📅 Best Practice Timeline

Week 1

数据 & 基础设施对齐

确认数据规模 · 对齐 captioning 格式 · 跑通单节点 HF Trainer

Week 2–3

Stage 1 Baseline

冻 Encoder+LLM, 训 Projector (128 卡) · MFU 基线 · 验证 streaming

Week 4–5

Stage 2 Ego Encoder

解冻 ViT · CLIP vs ego encoder · MFU < 40% 查 IO

Week 6+

Stage 3 & 迭代

全参数 tuning · caption 质量 · NEO 路线评估

★ Key Insights

学术界

!
Ego vs 第三人称: 根本性 gap — 视角混淆 + contact reasoning 缺失
!
ego:通用 ≈ 1:1 — 去掉通用后 instruction following 退化
!
Caption discriminativeness 关键 — 固定模板只学 template (ACCV 2024)
!
Ego Encoder 需专门训练 — LaViLa: ego-pretrained >> CLIP

工业界

1
Megatron 是 10B+ 标配
2
FSDP2 128 卡 throughput 比 ZeRO-3 高 ~65%
3
Straggler 是 MFU 首要杀手
4
数据 IO 往往是被忽视的瓶颈

代表工作

工作	来源	核心 Insight	开源
LaViLa	Meta, CVPR 2023	LLM 合成 caption	✓
MM-Ego	Apple, ICLR 2025	GPT-4o 700万+ QA	✗
EgoVLA	UCSD, 2025	ego 作机械臂桥梁	✓
PhysBrain	2025	ego:通用 1:1	✗
EgoVideo	上海 AI Lab	多任务 ego encoder	✓
CDP	ACCV 2024 Best	Caption 多样性 > 数量	-

? Open Questions

核心决策

#	问题	负责
Q1	Caption 格式: 固定 vs 多样化?	yujiao
Q2	Ego 数据规模?	shuai
Q3	Base LLM: Qwen / LLaMA?	团队
Q4	集群网络 IB / EFA?	kaichen
Q5	Timeline & milestone?	团队

Streaming

#	问题	负责
S1	数据存储格式?	yujiao
S2	Clip 时长分布?	shuai
S3	Encoder token 固定/动态?	shuai
S4	存储 NFS/Ceph/HDFS?	kaichen
S5	数据配比在线调整?	团队

Ego VLM Training Recipe

☰ 数据组成

Task 1: Ego Caption Model Pretrain

Task 2: Temporal Segmentation / Dense Temporal Caption

Temporal Action Segmentation (TAS) Benchmarks

Temporal Segmentation Training Data 推荐配比

推荐 Training Data Recipe

数据源总览 (26 datasets, ~16,600+ hours)

日常生活

厨房 / 烹饪

技能 / 程序化操作

工业 / 工厂

跨视角学习

身体动作 / Motion

通信 / 社交

视频生成

QA / Instruction Tuning 数据

⚙ Infra 选型

框架选型决策树

推荐路径

MFU 参考 (128 x H100, ~126 PFLOPS BF16)

◆ 模型架构

三种方案对比

原生 Ego VLM 架构 (路线 A)

数据规模估算

▶ 训练阶段

Projector Alignment

Ego Encoder Training

Full Fine-tuning + Instruction Tuning

☰ 数据策略

数据配比

Caption 质量要求

✓ Discriminative Caption

✗ 避免 (EgoGPT 教训)

数据来源

⇄ Streaming & DataLoader

核心挑战

方案选型

Encoder 优化 (TBD)

📅 Best Practice Timeline

★ Key Insights

学术界

工业界

代表工作

? Open Questions

核心决策

Streaming