Managing and Processing Large Datasets

Christian Kaestner

Required watching: Molham Aref. Business Systems with Machine Learning. Guest lecture, 2020.

Suggested reading: Martin Kleppmann. Designing Data-Intensive Applications. OReilly. 2017.

Consumption	CO2 (lbs)
Air travel, 1 passenger, NY↔SF	1984
Human life, avg, 1 year	11,023
American life, avg, 1 year	36,156
Car, avg incl. fuel, 1 lifetime	126,000

Training one model (GPU)	CO2 (lbs)
NLP pipeline (parsing, SRL)	39
w/ tuning & experimentation	78,468
Transformer (big)	192
w/ neural architecture search	626,155

Model	Hardware	Hours	CO2	Cloud cost in USD
Transformer	P100x8	84	192	289–981
ELMo	P100x3	336	262	433–1472
BERT	V100x64	79	1438	3751–13K
NAS	P100x8	274,120	626,155	943K–3.2M
GPT-2	TPUv3x32	168	—	13K–43K

user_id	Name	Email	dpt
1	Christian	kaestner@cs.	1
2	Eunsuk	eskang@cmu.	1
2	Tom	...	2

dpt_id	Name	Address
1	ISR	...
2	CSD	...

Managing and Processing Large Datasets Christian Kaestner Required watching: Molham Aref. Business Systems with Machine Learning. Guest lecture, 2020. Suggested reading: Martin Kleppmann. Designing Data-Intensive Applications. OReilly. 2017.