Sign in Subscribe

deep learning

ปัญหาของ Deep Learning: Vanishing vs Exploding Gradients

Vanishing and Exploding Gradients เป็นปัญหาที่พบบ่อยตอนฝึก (train) Neural Networks (NN) โดยเฉพาะ Deep NN และ RNN ดังนี้

1. Vanishing Gradient

คือ Gradient มีค่าน้อยมาก ๆ ใกล้ศูนย์ → น้ำหนักชั้นต้น ๆ แทบไม่ถูกอัปเดต → โมเดล “เรียนไม่ไป”

เกิดขึ้นเพราะ

ใช้ activation ที่ทำให้ Gradient เล็ก เช่น sigmoid, tanh
โมเดลลึกมาก (หลาย layers)
ใน RNN เมื่อย้อนเวลายาวๆ (long sequences)

ตัวอย่าง

เหมือนเสียงกระซิบ ส่งต่อหลายคนที่เบาลงเรื่อยๆ พอถึงคนแรก เสียงเบามากจนแทบไม่ได้ยิน

ผลกระทบ

ชั้นแรก ๆ ไม่เรียนรู้
เทรนช้ามาก หรือ accuracy ไม่ดี

2. Exploding Gradient

คือ Gradient มีค่ามากผิดปกติ → น้ำหนักอัปเดตมากเกินไป → loss กระโดด, โมเดลพัง

เกิดขึ้นเพราะ

น้ำหนักเริ่มต้นมากเกินไป
ลึกมาก และคูณค่ากันซ้ำ ๆ
RNN ที่มี sequence ยาว

ตัวอย่าง

เหมือนตะโกนส่งต่อหลายคน เพิ่มความดังขึ้นเรื่อย ๆ จนหูแตก

ผลกระทบ

Loss เป็น NaN / infinity
Training ไม่เสถียร

3. วิธีแก้

แก้ Vanishing Gradient

ใช้ ReLU / Leaky ReLU / GELU
ใช้ Batch Normalization
ใช้ Residual / Skip connections (ResNet)
ใน RNN ใช้ LSTM / GRU

แก้ Exploding Gradient

Gradient Clipping (นิยมมากใน RNN)
ลด learning rate
Weight initialization ที่เหมาะสม
ใช้ Batch Normalization

Read next

CNN: จากพิกเซลสู่ความเข้าใจ

CNN: จากพิกเซลสู่ความเข้าใจ

CNN (Convolutional Neural Network) คือโมเดล Deep Learning ที่ออกแบบมาเพื่อ เข้าใจข้อมูลที่เป็นภาพ (Image) โดยเฉพาะ แต่ปัจจุบันยังนำไปใช้กับเสียง วิดีโอ และข้อมูลเชิงพื้นที่อื่น ๆ ได้ด้วย “สมองที่ค่อย ๆ มองภาพจากรายละเอียดเล็ก ไป

Backpropagation คืออะไร ทำไม Neural Network ถึงฉลาดขึ้น

Backpropagation คืออะไร ทำไม Neural Network ถึงฉลาดขึ้น

Backpropagation คือวิธีที่โมเดล Neural Network ใช้ เรียนรู้จากความผิดพลาดของตัวเอง แบบเป็นขั้นตอน แนวคิด ทำนาย → วัดว่าผิดแค่ไหน → ย้อนกลับไปแก้ค่าน้ำหนัก ขั้นตอน 1) Forward pass (ทำนายก่อน) * ป้อนข้อมูลเข้า Neural Network * ข้อมูลไหลจากซ้าย

Generative vs Discriminative Models: เมื่อ AI ต้องสร้าง กับ ต้องตัดสิน

Generative vs Discriminative Models: เมื่อ AI ต้องสร้าง กับ ต้องตัดสิน

เปรียบเทียบระหว่าง Generative Models และ Discriminative Models 1. แนวคิด Generative Models * เรียนรู้ distribution joint ของข้อมูล P(x, y) = P(x|y)P(y) * พยายามเข้าใจว่า “ข้อมูลถูกสร้างขึ้นอย่างไร” * สามารถ generate ตัวอย่างใหม่ได้ เช่น ภาพ, ข้อความ,