← Back to AWS practitioner Certification

🌐 AWS practitioner Certification

AWS Glue भनेको के हो? 🤔

📅 Apr 13, 2026

💡 एक लाइनमा: अलग-अलग ठाउँको फोहोर डेटा उठाउने, सफा गर्ने, र काम लाग्ने ठाउँमा राखिदिने AWS को automatic कामदार।

🤔 Section 1 — AWS Glue भनेको के हो?

AWS Glue एउटा fully managed, serverless ETL service हो। विभिन्न data sources बाट डेटा लिएर, process गरेर, analytics को लागि तयार बनाउँछ।

☁️ Serverless — सर्भर manage गर्नु पर्दैन, AWS ले auto-scale गर्छ
🔄 ETL — Extract → Transform → Load
🛠️ Managed — AWS ले सबै infrastructure manage गर्छ
⚡ PySpark based — Apache Spark engine use गर्छ
🎨 Visual Editor — drag-drop गरेर ETL बनाउन मिल्छ

📥
Extract
डेटा निकाल्ने

→

⚙️
Transform
डेटा बदल्ने

→

📤
Load
डेटा राख्ने

📚 Section 2 — Data Catalog

Data Catalog एउटा library catalog जस्तै हो — actual data store गर्दैन, सिर्फ metadata राख्छ।

जानकारी	Example
📍 डेटा कहाँ छ?	s3://my-bucket/sales/
📁 Format के हो?	Parquet / CSV / JSON
🗂️ Columns के-के छन्?	id: int, amount: double, date: string
📅 कहिले update भयो?	2024-01-15 09:30 AM
🔀 Partitions छन्?	year=2024, month=01

💡 Catalog एकचोटि बनाउनुस् — Athena, Redshift Spectrum, EMR सबैले आफैं use गर्छन्!

🕷️ Section 3 — Crawler

Crawler एउटा robot जस्तो हो — data source scan गर्छ र automatically Data Catalog मा table बनाउँछ।

📦
Data Source
S3 / RDS / JDBC

→

🕷️
Crawler
Scan + Detect

→

📚
Data Catalog
Table Created ✓

Setting	Description
📌 Data Source	S3 / JDBC / DynamoDB
🔑 IAM Role	Read permission चाहिन्छ
⏰ Schedule	On-demand वा Cron expression
📤 Output Database	Catalog मा कुन database मा राख्ने

# Crawler output example
s3://bucket/sales/2024/01/ scan गर्यो
→ Format: CSV
→ Columns: id(int), name(str), amount(float)
→ Partitions: year=2024, month=01
✓ 'sales_table' successfully created!

⚙️ Section 4 — ETL Job

ETL Job = Extract → Transform → Load। PySpark वा Python script ले डेटा clean, filter, join, aggregate गर्छ।

Operation	के गर्छ?	Example
🔍 Filter	Rows हटाउने	amount > 0
🔗 Join	Tables जोड्ने	sales + users
✏️ Rename	Column नाम बदल्ने	amt → amount
🔄 Cast	Data type बदल्ने	string → integer
📊 Aggregate	Group गरेर जोड्ने	SUM(sales) by region

# Catalog बाट data load
df = glueContext.create_dynamic_frame.from_catalog(
database="my_db", table_name="sales")
# Null rows हटाउने
df_clean = df.filter(col("amount") > 0)
# Redshift मा load
glueContext.write_dynamic_frame.from_options(frame=df_clean, ...)

💡 DynamicFrame = Schema mismatch भए पनि crash हुँदैन!

🔔 Section 5 — Triggers र Workflows

Type	Description	Use Case
⏰ Scheduled	Cron expression	हरेक रात २ बजे
⚡ On-Demand	Manual trigger	API / Console बाट
🔗 Conditional	Job A → Job B chain	Job chaining
📡 EventBridge	Event आउँदा auto	S3 मा file आउँदा

🔄 E-commerce Daily Pipeline

⏰
रात २ बजे

→

🕷️
Crawler

→

⚙️
ETL Job 1

→

⚙️
ETL Job 2

→

✅
Done!

🗺️ Section 6 — Complete Architecture

① Data Sources

📦 S3 🗄️ RDS ⚡ DynamoDB 🔌 JDBC

② Crawler → Data Catalog ⬇

🕷️ Crawler
Auto schema detect

📚 Data Catalog
Tables + Metadata

③ ETL Job transform ⬇

📥 Extract → ⚙️ Transform (PySpark) → 📤 Load

④ Output Targets ⬇

📊 Redshift 📦 S3 (Parquet) 🔍 Athena

🧠 याद गर्ने Shortcut

🕷️ Crawler → 📚 Catalog → ⚙️ Job → 🎯 Target

💰 Section 7 — Pricing

Component	Rate	Minimum
⚙️ ETL Job	~$0.44 / DPU-hour	10 मिनेट
🕷️ Crawler	~$1.00 / DPU-hour	10 मिनेट
📚 Data Catalog	पहिलो १० लाख objects	FREE ✓
🎨 Glue Studio	Visual editor	FREE ✓

📦 DPU = 4 vCPU + 16 GB RAM | 💡 Parquet use गर्नुस् • Job Bookmark enable गर्नुस्

🔑 Section 8 — Key Concepts

Concept	के हो?
DynamicFrame	Schema mismatch handle गर्छ — crash हुँदैन
DPU	4 vCPU + 16 GB RAM — billing unit
Job Bookmark	Duplicate processing avoid गर्छ
Connection	JDBC, S3, Kafka को connection config
Dev Endpoint	Interactive notebook मा job debug गर्न

⚖️ Section 9 — Glue vs EMR

Feature	☁️ AWS Glue	🖥️ EMR
Server	❌ Serverless	✅ Cluster manage
Setup	Minutes	Hours
Cost	Pay-as-you-go	Per hour (always on)
Best For	ETL pipelines	Complex big data
Visual Tool	✅ Glue Studio	❌ Manual

🎓 Section 10 — Interview Q&A

❓ Glue र EMR मा के फरक छ?
✅ Glue serverless हो — server manage गर्नु पर्दैन। EMR मा cluster manage गर्नु पर्छ।

❓ Crawler कहिले run गर्ने?
✅ नयाँ data आउँदा, schema बदलिँदा, वा नयाँ partition थपिँदा।

❓ Parquet किन use गर्ने?
✅ Columnar format — faster query, कम storage cost।

❓ DynamicFrame र DataFrame मा के फरक?
✅ DynamicFrame ले schema mismatch handle गर्छ — crash हुँदैन।

❓ Job Bookmark के हो?
✅ कुन data process भइसक्यो track गर्छ — duplicate हुँदैन।

← Back to AWS practitioner Certification