Ego VLM Training Recipe

Last updated: 2026-04-04

数据组成

Ego VLM 训练数据的所有来源,按场景类别组织。每个数据集附带样例视频和 caption。新数据源添加在对应类别最前面。

Task 1: Ego Caption Model Pretrain

包含 narration / caption 的数据集,可直接用于训练 ego captioning model。

数据集Narration 类型规模Caption 质量可直接训练备注Link
EgoClip (EgoVLP)Clip-text pairs3.8M pairs现成 video-text pairs,Stage 1 首选GitHub
Ego4DDense narration (#C/#O)3,670h需重写原始 narration 模板化,建议 LLM 重写Official
EPIC-KITCHENS-100Pause-and-Talk narration100h, 90K segments参与者自述,verb+noun 细粒度Official
Ego-Exo4DExpert + Narrate-and-Act + Atomic432K sentences3 种粒度标注,expert commentary 最高Official
NymeriaMotion narration310K sentences38.6h fine-grained motion 描述HF
EgoLifeEgoIT-99K instruction99K现成 instruction tuning dataHF
EgoVid-5MText + kinematic5M clips需筛选量大但自动生成,需过滤低质量Project
EGTEA Gaze+Fine-grained action labels10,325 instances需扩写动作标签短,需 LLM 扩写Official
HoloAssistVerbal instructions (transcript)166h实时语音指导 transcriptionProject
Charades-EgoActivity scripts68.8h需处理脚本化描述,非自然 narrationProject
EgoComWord-level transcription38.5h多人对话 transcriptionGitHub
MM-Ego (方法复现)GPT-4o QA pairs可生成 ~数百万自行用 GPT-4o 从 Ego4D 生成Apple
💡
推荐优先级:EgoClip (Stage 1 首选) → EPIC-KITCHENS + Ego-Exo4D + HoloAssist (高质量 caption) → Ego4D + Nymeria (量大,需处理) → GPT-4o 自动生成扩充

Task 2: Temporal Segmentation / Dense Temporal Caption

包含细粒度时间标注(第 X 秒到第 Y 秒 + action/caption)的数据集,可用于训练 temporal segmentation 和 dense temporal captioning。

数据集标注粒度Segments 数时间格式Ego?可用性Link
EPIC-KITCHENS-100 Verb + Noun per segment 90K action segments [start_s, end_s] + narration 直接可用 Official
Assembly101 Coarse + Fine-grained 100K coarse + 1M+ fine [start_f, end_f] frame-level 部分 (4 ego) 直接可用 Project
Ego4D (Narration) Timestamped dense narration ~数十万 narrations timestamp_sec + #C/#O text 需转换格式 Official
Ego4D Goal-Step Goal → Step → Sub-step 层级标注 [start, end] per level 粒度较粗 Docs
Ego-Exo4D (Atomic) Atomic action descriptions 432K sentences Timestamped per action 直接可用 Official
GTEA Frame-level action class 28 videos, 11 classes Per-frame label TAS benchmark Official
EGTEA Gaze+ Action instance boundaries 10,325 instances [start_f, end_f] + action label 直接可用 Official
EgoPER Procedural steps + errors 386 videos, 28h [start, end] + step/error 含错误标注 Project
EgoProceL Key-step boundaries 62h, 16 tasks [start, end] + step label 直接可用 Project
HoloAssist Timestamped instructions 166h Timestamp + verbal instruction 需对齐格式 Project
HOI4D Action segments + 3D pose 4,000+ sequences Frame-level annotation 无 text caption Project
Nymeria Atomic action labels 207h atomic, 38.6h narration Timestamped 直接可用 HF

Temporal Action Segmentation (TAS) Benchmarks

GTEA Georgia Tech, ICCV 2011
28 videos, 7 activities, 4 subjects
Frame-level 标注, 11 action classes (含 background)
评估: leave-one-subject-out 4-fold CV
指标: Acc/MoF, Edit, F1@{10,25,50}
经典 TAS benchmark,所有方法都会报
Assembly101 Meta / TUM, CVPR 2022
4,321 sequences, 513h, 1M+ fine segments
Multi-view (8 static + 4 ego), 202 coarse classes
最大规模 TAS benchmark
同时有 coarse 和 fine-grained 两个粒度
EgoPER Northeastern, CVPR 2024
386 videos, 28h, 5 cooking tasks
213 normal + 173 erroneous videos
Procedural step segments + error detection
独特价值: 包含操作错误标注
Ego4D Goal-Step Meta
Goal → Step → Sub-step 层级
Ego4D 子集,层级化时间标注
粒度可能不够细,sub-step 标注有限
Gap: 可能需要自建更细粒度标注
Gap 分析:现有 TAS benchmark 粒度集中在 action-level (几秒级),缺少 sub-second 级别的 dense temporal caption。 如果需要更细粒度的 temporal captioning 数据,可能需要:
(1) 用 LLM 对 EPIC-KITCHENS / Ego-Exo4D 的 segments 生成 dense caption
(2) 设计 auto-annotation pipeline: video → frame sampling → VLM caption → temporal alignment → 人工校验
(3) 在 Ego4D narration 基础上做时间对齐细化(原始 narration 只有单点 timestamp,没有 [start, end])

Temporal Segmentation Training Data 推荐配比

Temporal Seg Data
EPIC-KITCHENS — 90K segments, 最高质量 (30%)
Assembly101 — 1M+ fine segments (25%)
Ego-Exo4D Atomic — 432K descriptions (20%)
EGTEA + GTEA + EgoPER — TAS benchmarks (10%)
EgoProceL + HoloAssist — 程序化 (10%)
Nymeria atomic — motion (5%)

推荐 Training Data Recipe

Stage 1 Projector Alignment
~5M pairs
EgoClip — 3.8M pairs (60%)
Ego4D narr — 采样 ~1000h (25%)
EgoVid-5M — 采样 ~1M clips (15%)
Stage 2 Ego Encoder
~3,500h ego video
Ego4D — 采样 1500h (43%)
Ego-Exo4D — ego 子集 500h (14%)
Egocentric-10K — 采样 300h (8.5%)
EgoLife — 全部 300h (8.5%)
Nymeria — 全部 300h (8.5%)
EPIC + EGTEA — 全部 128h (4%)
Assembly + HoloAssist + 其他 — ~470h (13%)
Stage 3 Instruction Tuning
1 : 1 ego : general ~700K total
Ego Instruction (~350K)
GPT-4o QA from Ego4D — ~200K
EgoIT-99K — 99K
EgoTaskQA + EgoPlan — ~45K
通用 Instruction (~350K)
LLaVA / ShareGPT / 通用 VQA
关键原则: (1) Ego4D 不要全用 3670h,采样多样性高的子集避免 cooking 过度代表; (2) Stage 3 ego:通用 ≈ 1:1 (PhysBrain); (3) 小数据集全用(EGTEA/HoloAssist/EgoProceL 等场景独特); (4) Ego4D 原始 narration 需 LLM 重写为 discriminative caption; (5) Egocentric-10K 采样 300h(10000h 太多且工厂场景单一)

数据源总览 (26 datasets, ~16,600+ hours)

类别数据集规模场景Caption开源Link
日常生活Ego4D3,670h51 种日常场景Dense narrationOfficial
EgoLife300h连续 1 周生活EgoIT-99KHF
Charades-Ego68.8h157 种室内活动Activity descProject
ADL10h20 个家庭日常Object bboxCMU
厨房 / 烹饪EPIC-KITCHENS100h45 个厨房Dense narrationOfficial
EGTEA Gaze+28h7 菜品, 眼动Action labelsOfficial
GTEA28 videos7 activities, TASFrame-levelOfficial
技能 / 操作Ego-Exo4D1,286h8 domain, 43 act3 种标注Official
Assembly101513h101 种组装1M+ segmentsProject
HoloAssist166hAR 协作 20 任务Verbal instrProject
EgoProceL62h16 种程序化Key-stepProject
EgoPER28h5 cooking + errorsStep + errorProject
IndustReal84 videos工业装配ProcedureProject
工业 / 工厂Egocentric-10K10,000h真实工厂JSON metaHF
ENIGMA-5122h电路板维修Fine HOIProject
跨视角EgoExoLearn120h程序化 ego+demoCross-viewHF
身体 / 手部Nymeria300h20 种动作310K sentHF
HOI4D2.4M frames手物 16 类3D poseProject
EgoBody125 seq社交场景SMPL-XProject
手势EgoGesture24K samples83 手势Class labelsOfficial
社交EgoCom38.5h多人对话TranscriptionGitHub
视频生成EgoVid-5M5M clips多样 1080pText+kineProject
QA / BenchMM-Ego700万+ QAEgo4D 30s–1hGPT-4o QAApple
EgoClip3.8M pairs9,645 videosClip-textGitHub
EgoTaskQA40K QA任务推理Program QAarXiv
EgoSchema5K QA长视频理解MC QAProject
EgoPlan-Bench4.9K QA规划能力Planning QAGitHub
HourVideo13K QA1h 级理解Long QAStanford

日常生活

Ego4D Meta, CVPR 2022
3,670h · 51 场景 · 74 地点
规模
3,670 小时
参与者
931 人, 9 国
模态
Video + Narration
Caption 格式
#C / #O 前缀标注
场景
烹饪/清洁/购物/运动/社交...
开源
✓ 需 License
📝
Caption 样例:#C C picks up the spoon from the table · #C C is chopping a tomato on the cutting board
Summary:#summary C fixed their breakfast, ate it, then got dressed and left the house
Ego4D 风格样例:第一视角日常活动(来自 ADL demo,Ego4D 需 license)
用途:Stage 1/2 ego encoder 预训练核心数据。覆盖最广的 ego 日常场景。
注意:需申请 license (ego4d-data.org)。Narration 质量参差不齐,建议 LLM 重新生成 discriminative caption。
链接:ego4d-data.org
EgoLife EvolvingLMMs, CVPR 2025
300h · 6 人 · 连续 1 周
规模
300 小时
设备
Meta Aria 眼镜
模态
Video + 多模态
指令数据
EgoIT-99K
场景
购物/烹饪/社交/娱乐
开源
✓ HuggingFace
EgoLife 样例:参与者 Jake, Day 1 — Meta Aria 眼镜录制的连续日常生活片段
用途:长时间连续 ego 数据,适合训练长视频理解能力。EgoIT-99K 可直接用于 instruction tuning。
链接:HuggingFace: lmms-lab/EgoLife
Charades-Ego Allen AI
68.8h · 7,860 videos · 157 活动类
规模
68.8 小时
特点
Ego + 第三人称配对
模态
Video + Scripts
活动
157 种室内日常活动
参与者
112 人, 112 家庭
开源
✓ 公开 S3
Charades-Ego 样例:室内日常活动第一视角
用途:Ego+第三人称配对数据,可训练视角理解。覆盖丰富室内活动。
链接:prior.allenai.org/projects/charades-ego
ADL CMU, CVPR 2012
10h · 20 人 · 20 家庭
规模
10 小时, 1M 帧
标注
Object bbox tracks
场景
非脚本日常生活
开源
✓ 公开
ADL 样例:家庭日常活动第一视角记录
用途:经典 ego 日常活动数据集,提供所有可见物体的 bounding box tracks。EgoLife 训练 EgoIT-99K 使用。
链接:CMU ADL Dataset

厨房 / 烹饪

EPIC-KITCHENS-100 U of Bristol
100h · 45 厨房 · 90K action segments
规模
100 小时, 20M 帧
标注
Pause-and-Talk narration
模态
Video + Verb/Noun
动作
90K segments, 700 videos
许可
CC BY-NC 4.0
开源
✓ HuggingFace
📝
Caption 样例:take plate · put plate on drying rack · turn on tap · wash sponge
提供 verb + noun 级别的细粒度标注,参与者自述操作动作。
EPIC-KITCHENS-100 样例:多厨房多参与者第一视角烹饪场景拼接
用途:厨房场景 ego 数据的标杆。Dense narration 质量高,适合训练烹饪/厨房领域的 ego understanding。
链接:epic-kitchens.github.io · HuggingFace
EGTEA Gaze+ Georgia Tech
28h · 7 菜品 · 眼动追踪
规模
28 小时, 86 sessions
设备
SMI 眼动追踪眼镜
菜品
Pizza / Salad / Sandwich / Eggs / Burger / Breakfast / Pasta
标注
10,325 action instances
手部
15,176 hand masks
开源
✓ Dropbox
📝
Caption 样例:Cut bell pepper · Pour condiment into salad · Mix ingredients in bowl
提供 fine-grained action label + 眼动 gaze 数据。
用途:烹饪场景 + 眼动追踪,可学习人类注意力分配。手部 mask 标注可辅助 hand-object 理解。
链接:cbs.ic.gatech.edu/fpv
GTEA Georgia Tech, ICCV 2011
28 videos · 7 activities · TAS benchmark
规模
28 videos, 4 subjects
标注
Frame-level, 11 action classes
评估
4-fold leave-one-subject-out
指标
Acc/MoF, Edit, F1@{10,25,50}
用途
TAS benchmark
开源
✓ 公开
用途:最经典的 ego temporal action segmentation benchmark,所有 TAS 方法必报。与 EGTEA Gaze+ 来自同一数据源。
Paper:Fathi, Farhadi, Rehg, "Understanding Egocentric Activities", ICCV 2011
链接:cbs.ic.gatech.edu/fpv

技能 / 程序化操作

EgoPER Northeastern, CVPR 2024
386 videos · 28h · 5 cooking tasks · 含错误标注
规模
386 videos, 28h
视频
213 normal + 173 erroneous
标注
Procedural steps + Error detection
任务
5 种烹饪任务
用途
TAS + Error detection
开源
✓ 公开
用途:Ego 程序化操作 + 错误检测。独特价值:同时标注正确和错误操作,可训练模型识别操作失误。
Paper:Lee et al., "Error Detection in Egocentric Procedural Task Videos", CVPR 2024
链接:khoury.northeastern.edu/egoper
Ego-Exo4D Meta, CVPR 2024
1,286h · 8 domain · 43 activities
规模
1,286 小时
视角
Ego + 多个 Exo 同步
领域
烹饪 / 音乐 / 舞蹈 / 攀岩 / 篮球 / 足球 / 医疗 / 自行车
标注
Expert commentary + Narrate-and-Act + 432K atomic descriptions
参与者
740+ 人, 13 城市
开源
✓ 需 License
📝
Expert Commentary 样例:"The left hand should grip the neck more firmly while transitioning between chords"
Atomic Action 样例:"Participant reaches for flour bag with right hand"
用途:Ego+Exo 多视角专业技能数据。Expert commentary 是独特的高质量标注,3 种标注类型覆盖不同粒度。
链接:ego-exo4d-data.org
Assembly101 Meta AI / TU Munich, CVPR 2022
513h · 101 玩具模型 · 多视角
规模
4,321 videos, 513h
视角
12 固定 + ego
标注
100K+ coarse + 1M+ fine actions
手部
18M 3D hand poses
任务
组装 / 拆解 take-apart 玩具
开源
✓ 公开
Assembly101 样例:12 视角同步拍摄参与者组装 take-apart 玩具车辆
用途:程序化操作 + 3D 手部 pose,适合训练精细操作理解和步骤预测。
链接:assembly-101.github.io
HoloAssist Microsoft / ETH, ICCV 2023
166h · 222 人 · 7 模态
规模
166 小时
设备
HoloLens 2
模态
RGB + Depth + Hand + Eye + Audio + IMU
标注
实时语音指导
任务
20 种操作任务
开源
✓ 公开
📝
Caption 样例 (instructor):"Now take the small screw and insert it into the hole on the left side"
350 组 instructor-performer 配对,包含实时语音指导 transcription。
HoloAssist 样例:GoPro 视角拍摄的 AR 协作操作任务
用途:AR 环境下的协作操作,EgoLife EgoIT-99K 训练数据源之一。7 模态同步数据极其丰富。
链接:holoassist.github.io
EgoProceL IIIT Hyderabad, ECCV 2022
62h · 130 人 · 16 任务
规模
62 小时
任务
PC 装配/帐篷搭建/自行车维修/烹饪
标注
Key-step annotations
开源
✓ GitHub
EgoProceL 样例:第一视角程序化操作学习(PC 装配/帐篷搭建等)
用途:程序化学习,EgoLife EgoIT-99K 训练数据源之一。覆盖多种程序化操作。
链接:sid2697.github.io/egoprocel
IndustReal TU Eindhoven, WACV 2024
84 videos · 27 人 · 工业装配
规模
84 videos
特点
装配 + 错误检测
标注
Procedure steps + Error labels
开源
✓ 4TU.ResearchData
IndustReal 样例:工业装配操作 + 操作错误检测
用途:工业装配场景 + 操作错误标注,EgoLife EgoIT-99K 训练数据源之一。含 3D 模型可生成合成数据。
链接:timschoonbeek.github.io/industreal

工业 / 工厂

Egocentric-10K Build AI
10,000h · 2,138 工人 · 1.08B 帧
规模
10,000 小时
数据量
16.4 TB (WebDataset)
帧数
1.08 Billion
场景
真实工厂第一视角
许可
Apache 2.0
开源
✓ HuggingFace
Egocentric-10K 样例:真实工厂工人第一视角 — 工业操作和装配场景
用途:最大规模工厂 ego 数据集 (10K 小时),Apache 2.0 完全开源。与机械臂操作场景最接近。
链接:HuggingFace: builddotai/Egocentric-10K
ENIGMA-51 2023
22h · 19 人 · 电路板维修
规模
22 小时
场景
电路板维修操作
标注
Fine-grained HOI
开源
✓ 公开
ENIGMA-51 样例:电路板维修操作第一视角
用途:工业精细操作场景(电路板维修),适合训练工业 ego 理解。

跨视角学习

EgoExoLearn 上海 AI Lab / 南大, CVPR 2024
120h · ego + demo 视角
规模
120 小时 (432 ego + 315 demo)
特点
从示范视频学习操作
模态
Video + Gaze + Caption
标注
跨视角 captioning
任务
程序化任务学习
开源
✓ HuggingFace
EgoExoLearn 样例:参与者从示范视频学习,第一视角记录操作过程
用途:训练模型理解 "看示范 → 自己操作" 的学习过程。跨视角 caption 对 ego 理解有价值。
链接:HuggingFace: hyf015/EgoExoLearn

身体动作 / Motion

Nymeria Meta Reality Labs, ECCV 2024
300h · 264 人 · 310K sentences
规模
300h motion, 3,600h video
设备
Project Aria 眼镜
场景
20 种日常动作场景
标注
310K sentences, 8.64M words
许可
CC BY-NC 4.0
开源
✓ HuggingFace
📝
Caption 样例:"Person walks forward and reaches right hand to open cabinet door"
提供 fine-grained motion narration + 207h atomic action labels。
用途:全身动作 + ego 视角,motion narration 极其详细 (38.6h)。适合训练人体动作理解。
链接:HuggingFace: projectaria/Nymeria
HOI4D Tsinghua, CVPR 2022
2.4M frames · 800 物体 · 16 类
规模
2.4M RGB-D frames
序列
4,000+ sequences
标注
3D hand pose + Object pose + Panoptic seg
场景
610 indoor rooms
开源
✓ 公开
HOI4D 样例:手物交互 + 3D pose 标注场景
用途:细粒度 hand-object interaction + 3D pose,适合训练手部操作理解。RGB-D 深度信息可辅助空间理解。
链接:hoi4d.github.io
EgoBody ETH / MPI, ECCV 2022
125 sequences · 36 人 · 社交场景
规模
125 sequences, 219K frames
设备
HoloLens 2
标注
SMPL-X body shape/pose/motion
场景
15 indoor, 社交互动
开源
✓ 公开
EgoBody 样例:HoloLens 2 拍摄的社交场景人体 pose
用途:社交互动中的人体 pose 估计,从 ego 视角理解他人身体语言。
链接:sanweiliti.github.io/egobody
EgoGesture CAS, IEEE TMM 2018
24K samples · 50 人 · 83 手势类
规模
24,000+ samples, 3M+ frames
模态
RGB + Depth
场景
6 种室内/室外
标注
83 种手势类别
开源
✓ 公开
用途:大规模 ego 手势识别,适合训练手势交互理解。
链接:CAS EgoGesture

通信 / 社交

EgoCom IEEE TPAMI 2020
38.5h · 多人对话
规模
38.5 小时
标注
Word-level transcription + Speaker labels + Turn-taking
场景
多人多模态对话
开源
✓ 公开
用途:Ego 视角下的多人对话数据,训练社交场景理解和对话分析。

视频生成

EgoVid-5M 2024
5M clips · 1080p · text + kinematic
规模
5,000,000 clips
分辨率
1080p
标注
Text descriptions + Kinematic control
来源
Ego4D 视频处理
开源
✓ HuggingFace
EgoVid-5M 样例:kinematic-driven ego 视频生成
用途:最大规模 ego video-text 数据 (5M clips)。可用于 ego video generation 或 pretraining。需 Ego4D license。
链接:egovid.github.io

QA / Instruction Tuning 数据

MM-Ego Apple, ICLR 2025
700万+ QA · GPT-4o 生成
规模
7M+ QA pairs
来源
Ego4D narration + GPT-4o
视频长度
30s – 1h
方法
Memory Pointer Prompting
Benchmark
EgoMemoria: 629 videos, 7K Qs
开源
✗ 未开源
用途:Stage 3 instruction tuning 参考。方法可复现:Ego4D narration + GPT-4o → QA pairs。
链接:Apple ML Research
EgoClip / EgoVLP NUS Show Lab, NeurIPS 2022
3.8M clip-text pairs · 9,645 videos
规模
3.8M clip-text pairs
来源
Ego4D narrations
用途
Video-Language Pretraining
格式
Clip + text pair
许可
需 Ego4D license
开源
✓ GitHub
用途:现成的 ego video-text pretraining pairs。可直接用于 Stage 1 projector alignment。
链接:GitHub: showlab/EgoVLP
EgoVideo 上海 AI Lab, CVPR 2024 冠军
Ego4D Challenge 冠军方案
任务
Action / NLQ / Forecast
特点
多任务 ego 理解
用途
Encoder 参考实现
开源
✓ 完整开源
用途:Ego4D Challenge 冠军代码,可直接作为 ego encoder 参考实现和 benchmark。
链接:GitHub 完整开源
EgoTaskQA UCLA / UT Austin, NeurIPS 2022
40K QA · 172 videos · 任务推理
规模
40K QA pairs, 172 videos
QA 类型
描述 / 预测 / 因果 / 反事实
来源
LEMMA dataset
开源
✓ 公开
用途:Ego 任务推理 QA,EgoLife EgoIT-99K 训练数据源之一。涵盖因果/反事实/预测多种推理类型。
EgoSchema UC Berkeley, NeurIPS 2023
5K QA · 250h · 长视频理解
规模
5,063 QA pairs
视频
250h, 3 分钟 clips (Ego4D)
格式
Multiple-choice QA
开源
✓ HuggingFace
EgoSchema 样例:3 分钟 ego 视频 + 长视频理解 QA
用途:长视频理解诊断 benchmark。评估模型对 ego 视频的时序推理能力。
链接:egoschema.github.io
EgoPlan-Bench Renmin Univ, CVPR 2024
4.9K QA · 规划能力评估
规模
4,939 QA pairs
来源
EPIC-KITCHENS + Ego4D
格式
Planning QA
配套
EgoPlan-IT instruction tuning
开源
✓ GitHub
用途:评估 MLLM 的 ego 规划能力。EgoPlan-IT 可用于 instruction tuning。
链接:GitHub: ChenYi99/EgoPlan
HourVideo Stanford (Fei-Fei Li), 2024
13K QA · 381h · 1 小时级理解
规模
12,976 QA pairs, 381h
视频
500 clips, 20min–2h each
来源
Ego4D
开源
✓ 公开
用途:1 小时级别超长 ego 视频理解 benchmark,评估模型的极长上下文理解能力。

Infra 选型

框架选型决策树

模型规模推荐框架MFU备注
< 7BHF Trainer + ZeRO-1 + BF16-单卡 debug → 128 卡 DP
7B–32BFSDP2 + Accelerate (推荐)40–50%128 卡, 3–5 天
32B–72BFSDP2 or Megatron50%+MFU < 40% 再迁移
72B+ / MoEMegatron-Core TP+PP+EP58%+Qwen: TP=2 PP=8 EP=32

推荐路径

单节点 HF Trainer debug
   128 卡 FSDP2 + ZeRO-1 baseline
    MFU
       稳定后评估 Megatron

MFU 参考 (128 x H100, ~126 PFLOPS BF16)

~40%
FSDP2 baseline
~50%+
FSDP2 + FlashAttn + grad ckpt
~58%+
Megatron TP=4 PP=4 (72B+)

模型架构

三种方案对比

方案一:Continual Training ★★★★☆
  • 起点高, 100K 级数据
  • 几天出结果
  • Catastrophic forgetting
  • 受限于 base VLM
方案二:数据策略优化 ★★★☆☆
  • PhysBrain 验证 (1:1)
  • 依赖 base VLM 上限
  • 配比需调优
方案三:原生 Ego VLM ★★★★★
  • 无 domain mismatch
  • 壁垒最强
  • 数据需求大
  • 成本高

原生 Ego VLM 架构 (路线 A)

Ego Video / Image Input
   Ego-Specific ViT (CLIP/SigLIP 热启动)
     MLP Projector (visual → LLM space)
       LLM Backbone (Qwen / LLaMA)
         Ego Caption Output

数据规模估算

场景人类机械臂VisualText总计对标
最小可行500h200h2.56T0.13T2.83TQwen2.5-VL 69%
推荐1500h500h7.4T0.4T7.8TLlama3 52%
从零5000h2000h26.7T1.4T28.1TLlama3 187%

训练阶段

1
Stage

Projector Alignment

冻结
Encoder LLM
可训练
MLP Projector
Infra
128 卡 FSDP2
周期
Week 2–3
2
Stage

Ego Encoder Training

冻结
LLM
可训练
Encoder (ViT) Projector
数据
全 ego 数据联合训练
周期
Week 4–5
3
Stage

Full Fine-tuning + Instruction Tuning

可训练
全参数
数据
Ego + 通用 instruction
指标
Caption discriminativeness
周期
Week 6+

数据策略

数据配比

数据类型比例来源
Ego 人类场景~40-50%Ego4D / EgoExo4D / 自采
Ego 机械臂~10-20%自采
通用 instruction~30-40%公开数据集
💡
ego:通用 ≈ 1:1(PhysBrain 验证)。去掉通用数据后 instruction following 显著退化。

Caption 质量要求

✓ Discriminative Caption

  • 包含 spatial relationship
  • 描述 hand-object contact
  • 相似场景 distinct 描述
  • GPT-4o 基于人工标注扩展

✗ 避免 (EgoGPT 教训)

  • 固定模板 "Person picks up cup"
  • 相似场景相同 caption
  • 缺 spatial / contact 描述

数据来源

来源类型规模开源
Ego4D人类 ego3670h
EgoExo4Dego+exo-
MM-EgoQA pairs700万+
EgoVideo多任务 ego-
PhysBrainegoEgoDex+BuildAI

Streaming & DataLoader

核心挑战

P1
变长 Padding
1.5K vs 8.7K
P2
多模态 IO 瓶颈
P3
分布式 Shuffle
P4
Encoder 1~64 帧不均匀

方案选型

WebDataset 备选
  • 成熟, IO 高效
  • 重打包
MosaicML 推荐
  • 分布式 shuffle
  • seq packing
  • 需转 MDS
自定义 Debug
  • 完全控制
  • 工程量大

Encoder 优化 (TBD)

O1 Dynamic Resolution
Qwen2.5-VL Window Attention
O2 异步流水线
Encoder 预取下一 batch
O3 Sequence Packing
短 clip 打包, mask 隔离
O4 3D Tokenization
可能无法热启动

📅 Best Practice Timeline

Week 1
数据 & 基础设施对齐
确认数据规模 · 对齐 captioning 格式 · 跑通单节点 HF Trainer
Week 2–3
Stage 1 Baseline
冻 Encoder+LLM, 训 Projector (128 卡) · MFU 基线 · 验证 streaming
Week 4–5
Stage 2 Ego Encoder
解冻 ViT · CLIP vs ego encoder · MFU < 40% 查 IO
Week 6+
Stage 3 & 迭代
全参数 tuning · caption 质量 · NEO 路线评估

Key Insights

学术界

  • !
    Ego vs 第三人称: 根本性 gap — 视角混淆 + contact reasoning 缺失
  • !
    ego:通用 ≈ 1:1 — 去掉通用后 instruction following 退化
  • !
    Caption discriminativeness 关键 — 固定模板只学 template (ACCV 2024)
  • !
    Ego Encoder 需专门训练 — LaViLa: ego-pretrained >> CLIP

工业界

  • 1
    Megatron 是 10B+ 标配
  • 2
    FSDP2 128 卡 throughput 比 ZeRO-3 高 ~65%
  • 3
    Straggler 是 MFU 首要杀手
  • 4
    数据 IO 往往是被忽视的瓶颈

代表工作

工作来源核心 Insight开源
LaViLaMeta, CVPR 2023LLM 合成 caption
MM-EgoApple, ICLR 2025GPT-4o 700万+ QA
EgoVLAUCSD, 2025ego 作机械臂桥梁
PhysBrain2025ego:通用 1:1
EgoVideo上海 AI Lab多任务 ego encoder
CDPACCV 2024 BestCaption 多样性 > 数量-

? Open Questions

核心决策

#问题负责
Q1Caption 格式: 固定 vs 多样化?yujiao
Q2Ego 数据规模?shuai
Q3Base LLM: Qwen / LLaMA?团队
Q4集群网络 IB / EFA?kaichen
Q5Timeline & milestone?团队

Streaming

#问题负责
S1数据存储格式?yujiao
S2Clip 时长分布?shuai
S3Encoder token 固定/动态?shuai
S4存储 NFS/Ceph/HDFS?kaichen
S5数据配比在线调整?团队
切换 Tab