PostgreSQL Performance Tuning คู่มือปรับแต่งฐานข้อมูล

March 18, 2026

1 View

SaveSavedRemoved 0

ในโลกของการพัฒนาแอปพลิเคชันและระบบข้อมูล ฐานข้อมูลเปรียบเสมือนหัวใจสำคัญที่ขับเคลื่อนทุกสิ่งครับ PostgreSQL ในฐานะที่เป็นระบบจัดการฐานข้อมูลเชิงสัมพันธ์ (RDBMS) ที่ทรงพลังและได้รับความนิยมอย่างสูง มีความสามารถที่โดดเด่นในด้านความเสถียร ความน่าเชื่อถือ และฟีเจอร์ที่ครบครัน แต่ถึงแม้จะยอดเยี่ยมเพียงใด การใช้งาน PostgreSQL ในสภาพแวดล้อมจริงที่มีข้อมูลปริมาณมหาศาลและการเรียกใช้งานที่ซับซ้อน มักต้องเผชิญกับความท้าทายด้านประสิทธิภาพ หากไม่ได้รับการปรับแต่งอย่างเหมาะสม อาจส่งผลให้แอปพลิเคชันทำงานช้าลง ผู้ใช้งานต้องรอนานขึ้น และทรัพยากรเซิร์ฟเวอร์ถูกใช้ไปอย่างไม่มีประสิทธิภาพ บทความนี้ SiamLancard.com ขออาสาพาคุณดำดิ่งสู่โลกของการปรับแต่งประสิทธิภาพ PostgreSQL หรือที่เรียกว่า “PostgreSQL Performance Tuning” แบบเจาะลึก เพื่อให้คุณสามารถดึงศักยภาพสูงสุดของฐานข้อมูลออกมาได้อย่างเต็มที่ พร้อมตัวอย่างและคำแนะนำที่นำไปปฏิบัติได้จริงครับ

ทำความเข้าใจ PostgreSQL Performance Tuning
การตั้งค่า PostgreSQL Configuration (postgresql.conf)
การออกแบบ Schema และ Index ที่มีประสิทธิภาพ
การปรับแต่ง Query (Query Optimization)
การจัดการ Autovacuum และ Bloat
การมอนิเตอร์และเครื่องมือ
ปัจจัยด้านฮาร์ดแวร์และระบบปฏิบัติการ
การจัดการ Connection Pooling
การทำ Replication และ High Availability
คำถามที่พบบ่อย (FAQ)
สรุปและ Call-to-Action

ทำความเข้าใจ PostgreSQL Performance Tuning

ก่อนที่เราจะลงลึกในรายละเอียดทางเทคนิค สิ่งสำคัญคือต้องเข้าใจพื้นฐานว่า Performance Tuning คืออะไร และทำไมมันถึงมีความสำคัญต่อระบบฐานข้อมูลของเราครับ

ทำไมต้องจูน PostgreSQL?

PostgreSQL ถูกออกแบบมาให้ทำงานได้ดีในหลายสภาพแวดล้อม แต่ก็ไม่สามารถรู้ได้ว่าการใช้งานของคุณมีลักษณะเฉพาะอย่างไรครับ การจูนฐานข้อมูลจึงเป็นการปรับแต่งให้เหมาะสมกับ Workload และ ทรัพยากร ที่มีอยู่ เพื่อให้ได้ประสิทธิภาพสูงสุด ประโยชน์หลักๆ ของการจูนประกอบด้วย:

ความเร็วในการตอบสนอง: ผู้ใช้ได้รับข้อมูลเร็วขึ้น แอปพลิเคชันทำงานได้ราบรื่นขึ้น
การใช้ทรัพยากรอย่างมีประสิทธิภาพ: ลดภาระ CPU, RAM, Disk I/O ทำให้ประหยัดค่าใช้จ่ายฮาร์ดแวร์
ความเสถียรของระบบ: ลดโอกาสเกิดปัญหาคอขวด (Bottleneck) หรือระบบล่ม
รองรับการขยายตัว (Scalability): ระบบสามารถรองรับผู้ใช้งานและข้อมูลที่เพิ่มขึ้นได้ในอนาคต

ปัจจัยที่มีผลต่อประสิทธิภาพ

ประสิทธิภาพของ PostgreSQL ไม่ได้ขึ้นอยู่กับการตั้งค่าฐานข้อมูลเพียงอย่างเดียวครับ แต่เป็นผลรวมของหลายปัจจัยที่ทำงานร่วมกัน ได้แก่:

การตั้งค่า PostgreSQL (postgresql.conf): พารามิเตอร์ต่างๆ ที่ควบคุมการทำงานภายใน
การออกแบบ Schema ฐานข้อมูล: การเลือก Data Type, การจัดระเบียบตาราง, การทำ Normalization
Index: การสร้างและใช้งาน Index ที่เหมาะสม
คุณภาพของ Query: การเขียน SQL Query ที่มีประสิทธิภาพ
การจัดการ Autovacuum: กระบวนการสำคัญในการป้องกันและแก้ไข Bloat
ฮาร์ดแวร์: CPU, RAM, Disk I/O (โดยเฉพาะ SSD/NVMe)
ระบบปฏิบัติการ (OS): การตั้งค่า Kernel, File System
Network: Latency และ Bandwidth ระหว่างแอปพลิเคชันกับฐานข้อมูล

วงจรการปรับแต่งประสิทธิภาพ

การจูนไม่ใช่การทำครั้งเดียวแล้วจบ แต่เป็นกระบวนการต่อเนื่องครับ โดยทั่วไปจะประกอบด้วย:

ระบุปัญหา (Identify): ใช้เครื่องมือ Monitoring เพื่อหาว่าส่วนใดของระบบทำงานช้า หรือมี Resource Bottleneck
วิเคราะห์ (Analyze): ใช้ EXPLAIN ANALYZE, Log files, หรือ pg_stat_statements เพื่อเจาะลึกสาเหตุของปัญหา
ปรับแต่ง (Optimize): ปรับเปลี่ยนการตั้งค่า, สร้าง Index, ปรับปรุง Query, หรือปรับปรุง Schema
มอนิเตอร์และประเมินผล (Monitor & Evaluate): ตรวจสอบว่าการเปลี่ยนแปลงที่ทำไปส่งผลดีขึ้นหรือไม่ และมีผลข้างเคียงที่ไม่พึงประสงค์หรือไม่

กระบวนการนี้จะวนซ้ำไปเรื่อยๆ เพื่อให้ระบบทำงานได้อย่างมีประสิทธิภาพสูงสุดตลอดเวลาครับ

การตั้งค่า PostgreSQL Configuration (`postgresql.conf`)

ไฟล์ postgresql.conf คือหัวใจของการปรับแต่งประสิทธิภาพภายในของ PostgreSQL ครับ การตั้งค่าพารามิเตอร์ต่างๆ ในไฟล์นี้อย่างเหมาะสมกับทรัพยากรของเซิร์ฟเวอร์และ Workload ของคุณ จะช่วยเพิ่มประสิทธิภาพได้อย่างมหาศาลเลยทีเดียว

หน่วยความจำ (Memory Parameters)

การจัดการหน่วยความจำ (RAM) อย่างมีประสิทธิภาพเป็นสิ่งสำคัญที่สุดประการหนึ่งครับ

shared_buffers:

นี่คือปริมาณ RAM ที่ PostgreSQL ใช้สำหรับแคชข้อมูลที่ถูกอ่านจากดิสก์ (Data Blocks) เพื่อให้การอ่านข้อมูลซ้ำๆ ทำได้เร็วขึ้นโดยไม่ต้องเข้าถึงดิสก์บ่อยๆ ครับ เป็นพารามิเตอร์ที่สำคัญที่สุดสำหรับการอ่านข้อมูล
- คำแนะนำ: โดยทั่วไปตั้งค่าประมาณ 25% ของ RAM ทั้งหมดของเซิร์ฟเวอร์ แต่ไม่ควรเกิน 8GB-16GB บนระบบ 32-bit (เนื่องจากข้อจำกัดของ Address Space) บนระบบ 64-bit สามารถตั้งได้สูงกว่า แต่ต้องเผื่อ RAM ให้ OS และแอปพลิเคชันอื่นๆ ด้วยครับ
```
shared_buffers = 2GB  # สำหรับเซิร์ฟเวอร์ที่มี RAM 8GB
```
work_mem:

ปริมาณ RAM ที่ใช้สำหรับแต่ละ Session (การเชื่อมต่อ) สำหรับการดำเนินการชั่วคราว เช่น Sorting (ORDER BY, DISTINCT), Hashing (Hash Joins) และ Bitmaps ครับ ถ้าการดำเนินการเหล่านี้ต้องใช้ RAM เกิน work_mem จะมีการ Spill ลงดิสก์ ซึ่งทำให้ช้าลงมาก
- คำแนะนำ: ค่าเริ่มต้นมักจะน้อยเกินไป (เช่น 4MB) คุณอาจต้องเพิ่มค่านี้ แต่ต้องระมัดระวัง เพราะมันถูกใช้ต่อ Session ถ้ามีจำนวน Connection พร้อมกันเยอะๆ อาจทำให้ RAM หมดได้ครับ ควรตั้งค่าเป็นค่าที่เหมาะสมกับ Query ที่มี Sorting/Hashing เยอะๆ หรือสำหรับ Session ที่ทำงานนานๆ
```
work_mem = 64MB # สามารถปรับได้สูงขึ้นสำหรับ Query ที่ซับซ้อน
```
maintenance_work_mem:

ปริมาณ RAM ที่ใช้สำหรับการดำเนินการบำรุงรักษา เช่น VACUUM, CREATE INDEX, ADD FOREIGN KEY เป็นต้น การตั้งค่าที่สูงขึ้นจะช่วยให้การดำเนินการเหล่านี้เร็วขึ้น โดยเฉพาะ VACUUM ที่สามารถทำงานได้มีประสิทธิภาพมากขึ้นเมื่อมี RAM เพียงพอ
- คำแนะนำ: สามารถตั้งค่าได้สูงกว่า work_mem อย่างปลอดภัย เพราะโดยทั่วไปจะมีเพียงไม่กี่ Process ที่ทำงานบำรุงรักษาพร้อมกัน อาจตั้งไว้ที่ 128MB – 1GB หรือมากกว่า ขึ้นอยู่กับ RAM ทั้งหมดครับ
```
maintenance_work_mem = 512MB
```
effective_cache_size:

พารามิเตอร์นี้ไม่ได้จัดสรรหน่วยความจำจริง แต่บอกให้ Query Planner (Optimizer) ทราบถึงปริมาณ RAM ที่มีให้สำหรับ Disk Cache ของระบบปฏิบัติการ (OS Page Cache) และ shared_buffers รวมกัน เพื่อช่วยให้ Planner ตัดสินใจวางแผน Query ได้ดีขึ้น โดยประเมินว่าการอ่านข้อมูลจากดิสก์จะเร็วกว่าที่ควรจะเป็นหรือไม่
- คำแนะนำ: ควรตั้งค่าให้ใกล้เคียงกับ RAM ทั้งหมดของเซิร์ฟเวอร์ (ลบ RAM ที่จำเป็นสำหรับ OS และแอปพลิเคชันอื่นๆ ออก) เช่น 75-90% ของ RAM ทั้งหมดครับ
```
effective_cache_size = 6GB # สำหรับเซิร์ฟเวอร์ที่มี RAM 8GB
```

การเขียน WAL (WAL Parameters)

Write-Ahead Log (WAL) เป็นกลไกสำคัญที่ช่วยให้ข้อมูลมีความคงทน (Durability) และรองรับการกู้คืน (Recovery) ครับ การปรับแต่ง WAL จะส่งผลต่อประสิทธิภาพการเขียนข้อมูล

wal_buffers:

ปริมาณ RAM ที่ใช้บัฟเฟอร์ข้อมูล WAL ก่อนที่จะเขียนลงดิสก์ การเพิ่มค่านี้สามารถช่วยลดจำนวน I/O operations สำหรับ WAL ได้ โดยเฉพาะอย่างยิ่งในระบบที่มีการเขียนข้อมูลจำนวนมาก
- คำแนะนำ: ค่าเริ่มต้น 16MB มักจะเพียงพอแล้ว แต่ถ้ามีการเขียนข้อมูลสูงมาก อาจลองเพิ่มเป็น 32MB หรือ 64MB ครับ
```
wal_buffers = 16MB
```
checkpoint_timeout, max_wal_size, min_wal_size:

Checkpoint คือจุดที่ข้อมูลที่แก้ไขในหน่วยความจำถูกเขียนลงดิสก์อย่างสมบูรณ์เพื่อรับประกันความคงทน พารามิเตอร์เหล่านี้ควบคุมความถี่และขนาดของ Checkpoint ครับ
- checkpoint_timeout: ระยะเวลานานที่สุดระหว่าง Checkpoint (ค่าเริ่มต้น 5 นาที)
- max_wal_size: ขนาดรวมสูงสุดของไฟล์ WAL ที่จะใช้ก่อนบังคับ Checkpoint (ค่าเริ่มต้น 1GB)
- min_wal_size: ขนาดขั้นต่ำของไฟล์ WAL ที่จะคงไว้ (ค่าเริ่มต้น 80MB)
- คำแนะนำ: การเกิด Checkpoint บ่อยเกินไปจะทำให้เกิด I/O Spikes ทำให้ระบบช้าลงได้ การเพิ่ม checkpoint_timeout และ max_wal_size จะช่วยลดความถี่ของ Checkpoint แต่ก็หมายความว่าต้องใช้เวลาในการกู้คืนนานขึ้นหากระบบล่มครับ การตั้งค่าที่เหมาะสมจะช่วยสมดุลระหว่างประสิทธิภาพการเขียนและการกู้คืน
```
checkpoint_timeout = 10min
max_wal_size = 4GB
min_wal_size = 1GB
```
synchronous_commit:

ควบคุมว่าการ Commit Transaction จะรอให้ WAL ถูกเขียนลงดิสก์หรือไม่
- on (ค่าเริ่มต้น): รอให้ WAL เขียนลงดิสก์ก่อนจึงจะ Commit Transaction ถือว่าปลอดภัยที่สุด แต่ช้ากว่า
- off: ไม่รอ ทำให้เร็วขึ้น แต่มีความเสี่ยงที่จะสูญเสียข้อมูลเล็กน้อยหากระบบล่มก่อน WAL ถูกเขียนลงดิสก์
- local: รอให้ WAL เขียนลงดิสก์ของเซิร์ฟเวอร์หลักเท่านั้น แต่ไม่รอในกรณีที่มี Replication
- remote_write: รอให้ WAL ถูกเขียนไปยัง OS cache ของเซิร์ฟเวอร์รอง
- คำแนะนำ: สำหรับแอปพลิเคชันที่ต้องการความคงทนของข้อมูลสูง ควรใช้ on ครับ หากประสิทธิภาพการเขียนสำคัญกว่าความคงทนระดับสูงสุด อาจพิจารณา off หรือ local แต่ต้องเข้าใจถึงความเสี่ยงที่อาจเกิดขึ้น
```
synchronous_commit = on
```

การเชื่อมต่อ (Connection Parameters)

max_connections:

จำนวนการเชื่อมต่อสูงสุดที่อนุญาตให้ฐานข้อมูลรับได้
- คำแนะนำ: การตั้งค่าสูงเกินไปอาจทำให้แต่ละ Connection ใช้ทรัพยากรมากเกินไปจนระบบโอเวอร์โหลด ควรตั้งค่าให้เหมาะสมกับจำนวน Connection ที่แอปพลิเคชันต้องการ และมี RAM เพียงพอรองรับ work_mem ของแต่ละ Connection ครับ หากมี Connection มาก ควรพิจารณาใช้ Connection Pooler เช่น pgbouncer ครับ
```
max_connections = 100
```
listen_addresses:

กำหนดว่า PostgreSQL จะรับการเชื่อมต่อจาก IP address ใดบ้าง
- คำแนะนำ: เพื่อความปลอดภัย ควรระบุ IP address ที่แน่นอนที่แอปพลิเคชันของคุณจะเชื่อมต่อมา หรือใช้ localhost หากแอปพลิเคชันอยู่บนเซิร์ฟเวอร์เดียวกัน หากต้องการให้เข้าถึงจากทุกที่ ให้ใช้ '*' แต่ควรมีการตั้งค่า Firewall ที่เข้มงวดครับ
```
listen_addresses = 'localhost' # หรือ '0.0.0.0' สำหรับการเข้าถึงจากภายนอก
```

Logging และ Monitoring

การเก็บ Log ที่ดีเป็นสิ่งสำคัญในการวินิจฉัยปัญหาและหา Slow Query ครับ

log_min_duration_statement:

บันทึก Query ทั้งหมดที่ใช้เวลานานกว่าค่าที่กำหนด (เป็นมิลลิวินาที)
- คำแนะนำ: ตั้งค่านี้เป็น 0ms เพื่อบันทึกทุก Query (อาจทำให้ Log ใหญ่มาก) หรือตั้งเป็นค่าที่สมเหตุสมผล เช่น 100ms-500ms เพื่อหา Query ที่ช้าจริงๆ ครับ
```
log_min_duration_statement = 250ms # บันทึก Query ที่ใช้เวลาเกิน 250ms
```
log_statement:

บันทึกประเภทของ Statement ที่รัน
- คำแนะนำ: สามารถตั้งค่าเป็น 'all', 'ddl', 'mod' (สำหรับ DML) หรือ 'none' ได้ตามความต้องการในการ Debug ครับ
```
log_statement = 'none' # ปกติไม่จำเป็นต้องบันทึกทุก Statement เพื่อประสิทธิภาพ
```

Autovacuum Parameters

Autovacuum เป็น Process พื้นหลังที่สำคัญมากในการรักษาสุขภาพของฐานข้อมูลและป้องกัน Bloat ครับ การปรับแต่งให้เหมาะสมจะช่วยให้ระบบทำงานได้ราบรื่น

autovacuum:

เปิด/ปิด Autovacuum ค่าเริ่มต้นคือ on และควรเปิดไว้เสมอครับ
autovacuum_vacuum_scale_factor, autovacuum_vacuum_threshold:

ควบคุมเมื่อ Autovacuum ควรทำงาน (VACUUM เพื่อลบ Tuple ที่ตายแล้ว)
- autovacuum_vacuum_scale_factor: เปอร์เซ็นต์ของจำนวน Row ทั้งหมดที่ถูกลบหรืออัปเดต (ค่าเริ่มต้น 0.2 หรือ 20%)
- autovacuum_vacuum_threshold: จำนวน Row ที่ตายแล้วขั้นต่ำ (ค่าเริ่มต้น 50)
- คำแนะนำ: Autovacuum จะทำงานเมื่อ (dead_tuples / total_tuples) >= autovacuum_vacuum_scale_factor หรือ dead_tuples >= autovacuum_vacuum_threshold ถ้าตารางมีขนาดเล็กมาก และมีการเปลี่ยนแปลงข้อมูลบ่อย อาจต้องลด scale_factor หรือเพิ่ม threshold เพื่อให้ Autovacuum ทำงานบ่อยขึ้น หรือสำหรับตารางขนาดใหญ่ อาจลด scale_factor เพื่อไม่ให้สะสม dead_tuples มากเกินไป
autovacuum_analyze_scale_factor, autovacuum_analyze_threshold:

ควบคุมเมื่อ Autovacuum ควรทำงาน (ANALYZE เพื่ออัปเดตสถิติของตาราง)
- autovacuum_analyze_scale_factor: เปอร์เซ็นต์ของจำนวน Row ทั้งหมดที่ถูกแทรก, ลบ หรืออัปเดต (ค่าเริ่มต้น 0.1 หรือ 10%)
- autovacuum_analyze_threshold: จำนวน Row ที่ถูกเปลี่ยนแปลงขั้นต่ำ (ค่าเริ่มต้น 50)
- คำแนะนำ: การอัปเดตสถิติที่ถูกต้องเป็นสิ่งสำคัญสำหรับ Query Planner ในการเลือกแผนการทำงานที่ดีที่สุด หาก Planner เลือกแผนที่ไม่ดี Query จะช้าลงมากครับ
autovacuum_vacuum_cost_delay, autovacuum_vacuum_cost_limit:

ควบคุมความเร็วที่ Autovacuum ทำงาน เพื่อไม่ให้รบกวนการทำงานปกติของฐานข้อมูล
- autovacuum_vacuum_cost_delay: ระยะเวลาที่ Autovacuum จะหยุดชั่วคราวเมื่อถึง cost_limit (ค่าเริ่มต้น 20ms)
- autovacuum_vacuum_cost_limit: จำนวน “ต้นทุน” ของ I/O ที่ Autovacuum สามารถใช้ได้ก่อนที่จะหยุดชั่วคราว (ค่าเริ่มต้น -1 หมายถึงใช้ค่าจาก vacuum_cost_limit ซึ่งปกติคือ 200)
- คำแนะนำ: หาก Autovacuum ทำงานช้าเกินไปและเกิด Bloat สะสม อาจลด cost_delay หรือเพิ่ม cost_limit เพื่อให้ทำงานเร็วขึ้น แต่ต้องระวังไม่ให้ไปรบกวน Workload ปกติมากเกินไปครับ

การออกแบบ Schema และ Index ที่มีประสิทธิภาพ

การออกแบบ Schema และการสร้าง Index ที่เหมาะสมเป็นรากฐานสำคัญของประสิทธิภาพฐานข้อมูลครับ ถ้าโครงสร้างไม่ดี การปรับแต่ง Query หรือ Configuration ก็อาจช่วยได้ไม่เต็มที่

การเลือก Data Type ที่เหมาะสม

การเลือกชนิดข้อมูลที่ถูกต้องส่งผลต่อขนาดของข้อมูลบนดิสก์และในหน่วยความจำ ซึ่งส่งผลต่อประสิทธิภาพโดยตรงครับ

ใช้ชนิดข้อมูลที่เล็กที่สุดแต่เพียงพอ:
- แทนที่จะใช้ BIGINT เสมอไป ถ้าค่าสูงสุดไม่เกิน 32767 ก็ควรใช้ SMALLINT
- ใช้ INTEGER สำหรับ Primary Key ทั่วไป
พิจารณา TEXT vs VARCHAR(n):
- สำหรับ PostgreSQL, TEXT และ VARCHAR(n) มีประสิทธิภาพใกล้เคียงกันครับ ความแตกต่างหลักๆ คือ VARCHAR(n) จะมีการตรวจสอบความยาวของ String ซึ่งอาจมี Overhead เล็กน้อย แต่ TEXT จะไม่มีข้อจำกัดความยาวชัดเจน
- ถ้าคุณรู้ความยาวสูงสุดของ String ที่แน่นอน การใช้ VARCHAR(n) อาจช่วยในการสื่อสารเจตนาในการออกแบบ Schema ได้ดีกว่าครับ
ใช้ UUID หรือ BIGINT เป็น Primary Key:
- BIGINT: เหมาะสำหรับ Primary Key ที่เพิ่มขึ้นเรื่อยๆ (Sequence) มีขนาดเล็กกว่า UUID และดีสำหรับการทำ Index Range Scan
- UUID: เหมาะสำหรับระบบกระจาย (Distributed Systems) ที่ต้องการ Primary Key ที่ไม่ซ้ำกันทั่วโลก แต่มีขนาดใหญ่กว่า BIGINT และอาจทำให้ Index มีขนาดใหญ่ขึ้นและประสิทธิภาพการแคชลดลงเล็กน้อย

การสร้าง Index อย่างชาญฉลาด

Index คือโครงสร้างข้อมูลที่ช่วยให้ PostgreSQL ค้นหาข้อมูลในตารางได้อย่างรวดเร็ว โดยไม่ต้อง Scan ทั้งตาราง แต่การมี Index มากเกินไปก็มีผลเสียได้ครับ

เมื่อไหร่ควรสร้าง Index?
- คอลัมน์ที่ใช้ใน WHERE clause บ่อยๆ
- คอลัมน์ที่ใช้ใน JOIN conditions
- คอลัมน์ที่ใช้ใน ORDER BY หรือ GROUP BY clauses
- คอลัมน์ที่มี UNIQUE constraint หรือ PRIMARY KEY (PostgreSQL สร้าง Index ให้โดยอัตโนมัติ)
- คอลัมน์ที่มี Cardinality สูง (ค่าไม่ซ้ำกันเยอะ)

Index Types: B-tree, Hash, GIN, GiST, BRIN

PostgreSQL มี Index หลายประเภท แต่ละประเภทเหมาะกับการใช้งานที่แตกต่างกันครับ

ประเภท Index	เหมาะสำหรับ	ข้อดี	ข้อจำกัด/ข้อควรระวัง
B-tree (ค่าเริ่มต้น)	คอลัมน์ที่ใช้เปรียบเทียบ `<, <=, =, >=, >`, `IN`, `BETWEEN`, `IS NULL`, `IS NOT NULL` และ `ORDER BY`	ใช้งานได้หลากหลาย, รวดเร็วสำหรับการค้นหาแบบ Range และ Point Lookup	ไม่เหมาะสำหรับ Full-text Search หรือ Geospatial data
Hash	คอลัมน์ที่ใช้เปรียบเทียบแบบ `=` เท่านั้น	อาจเร็วกว่า B-tree สำหรับ Point Lookup จำนวนมากในบางกรณี	ไม่รองรับ Range Scan, ไม่ถูก Replication ไปยัง Standby Server (ในเวอร์ชันเก่า), ไม่ทนทานต่อ Crash (ในเวอร์ชันเก่า)
GIN (Generalized Inverted Index)	คอลัมน์ประเภท Array, JSONB, Full-text Search (`tsvector`, `tsquery`)	เหมาะสำหรับการค้นหาภายในโครงสร้างข้อมูลที่ซับซ้อน	สร้างและอัปเดตช้ากว่า B-tree, มีขนาดใหญ่กว่า
GiST (Generalized Search Tree)	คอลัมน์ประเภท Geospatial (`postgis`), Full-text Search, Range types	รองรับการค้นหาที่ซับซ้อน เช่น Intersection, Contains, Overlaps	สร้างและอัปเดตช้ากว่า B-tree, มีขนาดใหญ่กว่า
BRIN (Block Range Index)	คอลัมน์ที่มีการเรียงลำดับข้อมูลตามธรรมชาติ (เช่น Timestamps, Serial IDs)	มีขนาดเล็กมาก, สร้างเร็วมาก, ใช้ CPU น้อย	เหมาะสำหรับตารางขนาดใหญ่ที่มีข้อมูลเรียงลำดับเท่านั้น, ไม่เหมาะสำหรับ Random access

Partial Index:

Index ที่สร้างขึ้นเฉพาะบน subset ของ Row ในตาราง เช่น เฉพาะ Row ที่ status = 'active'
```
CREATE INDEX idx_active_users ON users (email) WHERE status = 'active';
```
- ข้อดี: มีขนาดเล็กลง, สร้างและอัปเดตเร็วขึ้น, ใช้ทรัพยากรน้อยลง
- เมื่อไหร่ควรใช้: เมื่อ Query ส่วนใหญ่มีการกรองข้อมูลด้วยเงื่อนไขเฉพาะเจาะจง
Expression Index:

Index ที่สร้างขึ้นบนผลลัพธ์ของ Expression หรือ Function เช่น การทำ Index บน lower(email) เพื่อรองรับการค้นหาแบบ Case-Insensitive
```
CREATE INDEX idx_users_email_lower ON users (lower(email));
```
Multi-column Index (Composite Index):

Index ที่ประกอบด้วยหลายคอลัมน์ การเรียงลำดับของคอลัมน์มีความสำคัญมากครับ
```
CREATE INDEX idx_orders_customer_date ON orders (customer_id, order_date DESC);
```
- กฎ: “Rule of Leftmost Prefix” คือ Index จะถูกใช้เมื่อ Query มีการกรองด้วยคอลัมน์ซ้ายสุดของ Index หรือชุดของคอลัมน์จากซ้ายไปขวา
Unique Index:

รับประกันว่าค่าในคอลัมน์หรือชุดคอลัมน์นั้นจะไม่ซ้ำกัน และยังช่วยเร่งความเร็วในการค้นหาด้วย
```
CREATE UNIQUE INDEX idx_users_username ON users (username);
```
Index-only Scans:

PostgreSQL สามารถอ่านข้อมูลได้โดยไม่ต้องเข้าถึง Heap (ตารางหลัก) เลย หากข้อมูลที่ต้องการทั้งหมดอยู่ใน Index ซึ่งเร็วกว่ามากครับ ต้องใช้กับ VACUUM อย่างสม่ำเสมอเพื่อรักษาสถิติ Visibility Map
การหลีกเลี่ยง Index Bloat:

Index ก็สามารถเกิด Bloat ได้เช่นเดียวกับตาราง การทำ REINDEX เป็นครั้งคราวอาจจำเป็น แต่ควรทำด้วยความระมัดระวัง (อาจ Lock ตาราง) หรือใช้ REINDEX CONCURRENTLY

อ่านเพิ่มเติมเกี่ยวกับการออกแบบ Index

Normalization vs Denormalization

Normalization:

การจัดระเบียบข้อมูลเพื่อลดความซ้ำซ้อนและเพิ่มความสมบูรณ์ของข้อมูล โดยแบ่งข้อมูลออกเป็นตารางเล็กๆ ที่มีความสัมพันธ์กัน
- ข้อดี: ลดความซ้ำซ้อน, เพิ่มความสมบูรณ์ของข้อมูล, ง่ายต่อการบำรุงรักษา
- ข้อเสีย: อาจต้องใช้ JOIN หลายครั้ง ทำให้ Query ซับซ้อนและช้าลงในบางกรณี
Denormalization:

การเพิ่มความซ้ำซ้อนของข้อมูลโดยการรวมข้อมูลจากหลายตารางเข้าด้วยกันในตารางเดียว หรือเพิ่มคอลัมน์ที่คำนวณไว้ล่วงหน้า
- ข้อดี: ลดจำนวน JOIN, ทำให้ Query ง่ายขึ้นและเร็วขึ้นสำหรับการอ่าน
- ข้อเสีย: เพิ่มความซ้ำซ้อนของข้อมูล, อาจเกิดความไม่สอดคล้องกันของข้อมูล, ยากต่อการบำรุงรักษา
คำแนะนำ: เลือกใช้ตาม Workload ของแอปพลิเคชันครับ หากมีการอ่านข้อมูลบ่อยและซับซ้อน อาจพิจารณา Denormalization บางส่วนร่วมกับ Materialized Views หรือ Caching ครับ

Partitioning

Partitioning คือการแบ่งตารางขนาดใหญ่ออกเป็นตารางย่อยๆ (Partitions) ตามเงื่อนไขที่กำหนด เช่น ช่วงเวลา, ลิสต์ค่า, หรือ Hash

ข้อดีของการ Partitioning:
- เพิ่มประสิทธิภาพ: Query ที่มีเงื่อนไขตรงกับ Partition Key จะ Scan เฉพาะ Partition ที่เกี่ยวข้องเท่านั้น ทำให้ลดปริมาณข้อมูลที่ต้องประมวลผล
- ง่ายต่อการบำรุงรักษา: VACUUM, ANALYZE หรือ REINDEX สามารถทำทีละ Partition ได้
- จัดการข้อมูลเก่าได้ง่าย: สามารถ Archive หรือลบ Partition ที่เก่าออกไปได้โดยไม่กระทบตารางหลัก
ประเภทของ Partitioning:
- Range Partitioning: แบ่งตามช่วงค่า เช่น วันที่, ID
- List Partitioning: แบ่งตามลิสต์ค่าที่กำหนด เช่น ภูมิภาค, สถานะ
- Hash Partitioning: แบ่งตาม Hash Value ของคอลัมน์

-- ตัวอย่าง Range Partitioning
CREATE TABLE measurements (
    city_id         int not null,
    logdate         date not null,
    peaktemp        int,
    unitsales       int
) PARTITION BY RANGE (logdate);

CREATE TABLE measurements_y2023 PARTITION OF measurements
    FOR VALUES FROM ('2023-01-01') TO ('2024-01-01');

CREATE TABLE measurements_y2024 PARTITION OF measurements
    FOR VALUES FROM ('2024-01-01') TO ('2025-01-01');

Foreign Keys และ Constraints

Foreign Keys และ Constraints (เช่น NOT NULL, CHECK) มีบทบาทสำคัญในการรักษาความสมบูรณ์ของข้อมูล แต่ก็มีผลกระทบต่อประสิทธิภาพเช่นกันครับ

Foreign Keys:
- ข้อดี: บังคับใช้ความสัมพันธ์ระหว่างตาราง, ป้องกันข้อมูลที่ไม่สอดคล้องกัน
- ผลกระทบต่อประสิทธิภาพ: การแทรก (INSERT), อัปเดต (UPDATE), ลบ (DELETE) ในตารางที่มี Foreign Key จะต้องมีการตรวจสอบความถูกต้อง ซึ่งอาจเพิ่ม Overhead ได้
- คำแนะนำ: ใช้ Foreign Key เพื่อความสมบูรณ์ของข้อมูลเสมอ การแลกเปลี่ยนประสิทธิภาพเล็กน้อยคุ้มค่ากว่าข้อมูลที่ไม่ถูกต้องครับ
Constraints:
- ข้อดี: บังคับใช้กฎทางธุรกิจ, ช่วยให้ Query Planner ตัดสินใจได้ดีขึ้น (เช่น CHECK (price > 0))
- ผลกระทบต่อประสิทธิภาพ: การตรวจสอบ Constraint อาจเพิ่ม Overhead ในการแทรก/อัปเดตข้อมูล

การปรับแต่ง Query (Query Optimization)

แม้ว่าการตั้งค่าและ Schema จะดีแค่ไหน แต่ถ้า Query ไม่ดี ประสิทธิภาพก็ยังไม่ถึงขีดสุดครับ การเขียน Query ที่มีประสิทธิภาพและการทำความเข้าใจ Query Planner เป็นสิ่งสำคัญ

การใช้ `EXPLAIN` และ `EXPLAIN ANALYZE`

EXPLAIN และ EXPLAIN ANALYZE เป็นเครื่องมือที่ขาดไม่ได้ในการทำความเข้าใจว่า PostgreSQL จะรัน Query ของคุณอย่างไร และใช้ทรัพยากรเท่าไหร่ครับ

EXPLAIN: แสดงแผนการทำงานที่ Query Planner คาดการณ์ว่าจะใช้ รวมถึง Cost (ค่าใช้จ่ายที่ Planner ประเมิน), Rows (จำนวน Row ที่คาดว่าจะส่งกลับ), Width (ขนาดโดยเฉลี่ยของ Row)
EXPLAIN ANALYZE: นอกจากจะแสดงแผนการทำงานแล้ว ยังรัน Query จริงและแสดงเวลาที่ใช้จริง (Actual Time), จำนวน Row ที่ส่งกลับจริง (Actual Rows) และจำนวนครั้งที่วนซ้ำ (Loops) พร้อมทั้งข้อมูลเกี่ยวกับ Startup Time และ Total Time ด้วยครับ

EXPLAIN ANALYZE SELECT * FROM users WHERE age > 30 AND status = 'active';

การอ่าน Output ของ EXPLAIN ANALYZE:

Scan Types:
- Seq Scan (Sequential Scan): Scan ทั้งตาราง มักเป็นสัญญาณของ Query ที่ไม่มี Index หรือ Index ไม่ถูกใช้
- Index Scan: ใช้ Index ในการค้นหา (ดีกว่า Seq Scan)
- Index Only Scan: อ่านข้อมูลทั้งหมดจาก Index โดยไม่ต้องเข้าถึงตารางหลัก (ดีที่สุด)
- Bitmap Heap Scan: ใช้ Bitmap Index เพื่อหา Block ของข้อมูล แล้วค่อยไปอ่านข้อมูลจาก Heap
Join Methods:
- Nested Loop Join: เหมาะสำหรับตารางขนาดเล็กหรือเมื่อตารางด้านในถูก Filter ด้วย Index
- Hash Join: เหมาะสำหรับตารางขนาดใหญ่ที่ไม่มี Index หรือเมื่อตารางทั้งสองมีขนาดใกล้เคียงกัน
- Merge Join: เหมาะสำหรับตารางที่ถูก Sort แล้ว หรือสามารถ Sort ได้อย่างรวดเร็ว
Costs: ค่าประมาณการของต้นทุนทรัพยากร (CPU, I/O) ที่ Planner คาดว่าจะใช้ ค่าแรกคือ Startup Cost (เวลาก่อนได้ Row แรก), ค่าที่สองคือ Total Cost (เวลาทั้งหมด)
Rows: จำนวน Row ที่คาดว่าจะได้รับ (จาก EXPLAIN) หรือได้รับจริง (จาก EXPLAIN ANALYZE)
Actual Time: เวลาจริงที่ใช้ (จาก EXPLAIN ANALYZE)

หาก Actual Rows แตกต่างจาก Rows ที่คาดการณ์ไว้มาก อาจบ่งชี้ว่าสถิติของตารางไม่เป็นปัจจุบัน หรือ Query Planner ประเมินผิดพลาดครับ

เขียน Query ให้มีประสิทธิภาพ

หลีกเลี่ยง SELECT *:

เลือกเฉพาะคอลัมน์ที่คุณต้องการจริงๆ เพื่อลดปริมาณข้อมูลที่ต้องดึง, ส่งผ่านเครือข่าย และจัดเก็บในหน่วยความจำครับ
ใช้ LIMIT และ OFFSET อย่างระมัดระวัง:

การใช้ OFFSET ที่มีค่าสูงมากๆ อาจทำให้ช้าลง เพราะฐานข้อมูลยังต้อง Scan Row ที่ถูก Skip ไปทั้งหมดก่อนที่จะส่ง Row ที่ต้องการกลับมา
- ทางแก้ไข: ใช้ Cursor หรือการ Filter ด้วย Index (Key-set Pagination) แทน เช่น WHERE id > last_seen_id ORDER BY id ASC LIMIT 100;

ใช้ JOIN แทน Subquery หรือ Correlated Subquery ในบางกรณี:

Subquery บางประเภทอาจถูกรันซ้ำๆ สำหรับแต่ละ Row ของ Query หลัก ทำให้ช้าลงมาก การเปลี่ยนไปใช้ JOIN อาจช่วยได้

-- Query ที่อาจช้าด้วย Correlated Subquery
SELECT p.name, (SELECT MAX(o.order_date) FROM orders o WHERE o.product_id = p.id) AS last_order_date
FROM products p;

-- ปรับปรุงด้วย JOIN
SELECT p.name, MAX(o.order_date) AS last_order_date
FROM products p
LEFT JOIN orders o ON p.id = o.product_id
GROUP BY p.id, p.name;

ระวัง OR clause:

OR clause มักจะทำให้ Index ไม่ถูกใช้ หรือต้องใช้ Bitmap Heap Scan ซึ่งอาจช้ากว่า Index Scan ตรงๆ ในบางกรณี
- ทางแก้ไข: ลองใช้ UNION ALL แยก Query หรือสร้าง Multi-column Index ที่ครอบคลุมเงื่อนไข
```
-- Query ที่อาจช้า
SELECT * FROM users WHERE email = '[email protected]' OR username = 'alice';

-- ทางเลือก: ใช้ UNION ALL หาก Index แยกกัน
SELECT * FROM users WHERE email = '[email protected]'
UNION ALL
SELECT * FROM users WHERE username = 'alice' AND email != '[email protected]';
```
ใช้ WHERE clause เพื่อลดข้อมูลตั้งแต่ต้น:

กรองข้อมูลให้ได้น้อยที่สุดตั้งแต่แรก เพื่อลดปริมาณข้อมูลที่ต้องประมวลผลในขั้นตอนต่อไป
การใช้ CTE (Common Table Expressions) หรือ Subquery:

แม้ว่าบาง Subquery จะช้า แต่ CTEs สามารถช่วยให้ Query อ่านง่ายขึ้น และในบางกรณี Planner สามารถ Optimize ได้ดีกว่าการใช้ View หรือ Nested Query ที่ซับซ้อน
VACUUM FULL และ REINDEX (เมื่อจำเป็น):

เมื่อตารางหรือ Index มี Bloat มากๆ การทำ VACUUM FULL หรือ REINDEX สามารถช่วยลดขนาดและเพิ่มประสิทธิภาพได้ แต่ต้องระมัดระวังเพราะจะ Lock ตารางนั้นๆ ชั่วคราว ควรใช้ CONCURRENTLY เพื่อลด Downtime

การใช้ `pg_stat_statements`

pg_stat_statements เป็น Extension ที่ยอดเยี่ยมในการติดตามสถิติการรัน Query ทั้งหมดในฐานข้อมูล ทำให้คุณสามารถระบุ Query ที่ช้าที่สุด หรือใช้ทรัพยากรมากที่สุดได้อย่างง่ายดาย

ติดตั้ง:
เพิ่ม pg_stat_statements ใน shared_preload_libraries ใน postgresql.conf และ Restart PostgreSQL
```
shared_preload_libraries = 'pg_stat_statements'
```
จากนั้น รันคำสั่งใน psql เพื่อสร้าง Extension
```
CREATE EXTENSION pg_stat_statements;
```
วิเคราะห์:
เรียกดูข้อมูลจาก View pg_stat_statements
```
SELECT
    query,
    calls,
    total_time,
    mean_time,
    rows,
    100.0 * shared_blks_hit / (shared_blks_hit + shared_blks_read) AS hit_percent
FROM pg_stat_statements
ORDER BY total_time DESC
LIMIT 10;
```
คุณจะเห็น Query ที่ใช้เวลาประมวลผลรวมนานที่สุด, จำนวนครั้งที่ถูกเรียกใช้, เวลาเฉลี่ยต่อการเรียกใช้, จำนวน Row ที่ส่งกลับ, และ Cache Hit Percentage ครับ

Parameterized Queries และ Prepared Statements

Parameterized Queries:

คือการส่งค่า (Parameter) แยกต่างหากจากตัว Query หลัก ซึ่งช่วยป้องกัน SQL Injection และยังช่วยให้ Query Planner แคชแผนการทำงานได้ ทำให้ Query ที่มีโครงสร้างเดียวกันแต่ค่าต่างกันทำงานได้เร็วขึ้น
```
-- แทนที่จะสร้าง Query แบบนี้
-- SELECT * FROM users WHERE username = 'admin';

-- ใช้ Parameterized Query
SELECT * FROM users WHERE username = $1; -- ค่า $1 จะถูกส่งมาแยกต่างหาก
```
Prepared Statements:

เป็นอีกรูปแบบหนึ่งที่คล้ายกัน โดย Query จะถูก Parse และวางแผนการทำงานล่วงหน้า (Prepare) และสามารถ Execute ซ้ำๆ ได้หลายครั้งด้วยค่า Parameter ที่แตกต่างกัน
```
PREPARE get_user_by_email (text) AS
    SELECT * FROM users WHERE email = $1;

EXECUTE get_user_by_email ('[email protected]');
EXECUTE get_user_by_email ('[email protected]');
```
- ข้อดี: ลด Overhead ในการ Parsing และ Planning Query สำหรับ Query ที่ถูกรันบ่อยๆ
- ข้อควรระวัง: Query Planner อาจไม่สามารถ Optimize แผนการทำงานได้ดีเท่า Query ปกติ เพราะไม่รู้ค่า Parameter ล่วงหน้า

การจัดการ Autovacuum และ Bloat

Autovacuum เป็น Process พื้นหลังที่สำคัญอย่างยิ่งในการรักษาสุขภาพและประสิทธิภาพของ PostgreSQL ครับ หากไม่มี Autovacuum หรือ Autovacuum ทำงานไม่เพียงพอ ระบบอาจประสบปัญหา Bloat และ Transaction ID Wraparound ซึ่งร้ายแรงมาก

Autovacuum ทำงานอย่างไร?

เมื่อมีการ UPDATE หรือ DELETE Row ในตาราง PostgreSQL ไม่ได้ลบข้อมูลจริงทันที แต่จะทำเครื่องหมายว่า Row นั้น “ตายแล้ว” (Dead Tuple) เพื่อให้ Transaction อื่นๆ ยังคงเห็นข้อมูลเวอร์ชันเก่าได้ตามหลัก MVCC (Multi-Version Concurrency Control) ครับ

Autovacuum มีหน้าที่หลัก 2 อย่าง:

VACUUM: ลบ Dead Tuples ออกจากตารางและ Index เพื่อนำพื้นที่กลับมาใช้ใหม่ และป้องกัน Transaction ID Wraparound
ANALYZE: อัปเดตสถิติของตารางและ Index เพื่อให้ Query Planner มีข้อมูลที่ถูกต้องในการเลือกแผนการทำงานที่ดีที่สุด

การปรับแต่ง Autovacuum

เราได้กล่าวถึงพารามิเตอร์ใน postgresql.conf ไปแล้วใน Section 2.5 แต่คุณยังสามารถปรับแต่ง Autovacuum ในระดับตารางได้อีกด้วยครับ

ALTER TABLE my_table SET (
    autovacuum_vacuum_scale_factor = 0.05, -- 5% ของ Row
    autovacuum_vacuum_threshold = 1000,    -- อย่างน้อย 1000 dead tuples
    autovacuum_analyze_scale_factor = 0.02, -- 2% ของ Row
    autovacuum_analyze_threshold = 500
);

คำแนะนำ: สำหรับตารางที่มีการเปลี่ยนแปลงข้อมูลบ่อยๆ และมีขนาดใหญ่ อาจต้องลดค่า scale_factor ลง และ/หรือเพิ่มค่า threshold เพื่อให้ Autovacuum ทำงานบ่อยขึ้นและจัดการ Dead Tuples ได้ทันเวลา

การตรวจจับและจัดการ Table/Index Bloat

Bloat คือพื้นที่ว่างที่ไม่ได้ถูกใช้งานในตารางหรือ Index ซึ่งเกิดจากการที่ Autovacuum ไม่สามารถลบ Dead Tuples ออกไปได้ทัน หรือเกิดจาก Transaction ที่รันนานๆ ไป Block การทำงานของ Autovacuum

สัญญาณของ Bloat:
- ประสิทธิภาพการอ่านและเขียนลดลง
- ขนาดของฐานข้อมูลใหญ่เกินจริง
- Query Planner เลือกแผนที่ไม่ดี

การตรวจจับ Bloat:

คุณสามารถใช้ View ใน PostgreSQL เพื่อตรวจสอบขนาดของตารางและ Index ได้

-- ตรวจสอบขนาดของตารางและ Index
SELECT
    relname AS table_name,
    pg_size_pretty(pg_relation_size(oid)) AS table_size,
    pg_size_pretty(pg_total_relation_size(oid) - pg_relation_size(oid)) AS index_size,
    pg_size_pretty(pg_total_relation_size(oid)) AS total_size
FROM pg_class
WHERE relkind = 'r'
ORDER BY pg_total_relation_size(oid) DESC
LIMIT 20;

-- ตรวจสอบ Dead Tuples (ต้องมี pg_stat_statements หรือตั้งค่า autovacuum logging)
SELECT
    relname,
    n_live_tuples,
    n_dead_tuples,
    last_autovacuum,
    last_autoanalyze
FROM pg_stat_user_tables
ORDER BY n_dead_tuples DESC;

นอกจากนี้ ยังมี Script หรือ Extension จากภายนอก เช่น pg_bloat_check ที่ช่วยคำนวณ Bloat ได้แม่นยำยิ่งขึ้น

การจัดการ Bloat:
- ปรับ Autovacuum: ตรวจสอบและปรับแต่ง Autovacuum Parameters ให้เหมาะสมกับ Workload ของคุณ
- VACUUM FULL: เป็นการสร้างตารางใหม่และคัดลอกข้อมูลทั้งหมด โดยไม่รวม Dead Tuples ทำให้ขนาดตารางเล็กลงมาก แต่จะ Lock ตารางนั้นไว้ทั้งหมด (ไม่สามารถอ่านหรือเขียนได้) ในระหว่างดำเนินการ ดังนั้นควรทำในช่วง Downtime หรือสำหรับตารางที่ไม่สำคัญมาก
- REINDEX: คล้ายกับ VACUUM FULL แต่สำหรับ Index การทำ REINDEX CONCURRENTLY เป็นทางเลือกที่ดีกว่าเพราะไม่ Lock ตาราง
- pg_repack: เป็นเครื่องมือภายนอก (Extension) ที่ช่วยจัดระเบียบตารางและ Index โดยไม่ Lock ตารางในระยะเวลานาน ทำให้สามารถทำได้ใน Production Environment ครับ

`VACUUM` vs `VACUUM FULL` vs `CLUSTER`

VACUUM:

เป็นคำสั่งพื้นฐานที่ Autovacuum ใช้ในการลบ Dead Tuples และอัปเดต Visibility Map ซึ่งช่วยให้สามารถทำ Index-Only Scan ได้ ไม่ได้คืนพื้นที่ว่างให้ OS ทันที แต่จะทำให้พื้นที่นั้นสามารถนำไปใช้กับข้อมูลใหม่ในตารางเดียวกันได้ ไม่ Lock ตารางนาน
VACUUM FULL:

สร้างตารางใหม่และคัดลอกข้อมูลทั้งหมด โดยไม่รวม Dead Tuples ทำให้ขนาดตารางเล็กลงมากและคืนพื้นที่ว่างให้ OS ได้ แต่จะ Lock ตารางไว้ทั้งหมด (exclusive lock) ในระหว่างดำเนินการ ทำให้ไม่สามารถอ่านหรือเขียนได้ในช่วงนั้น
CLUSTER:

เรียงลำดับข้อมูลในตารางตาม Index ที่ระบุ ซึ่งอาจช่วยเพิ่มประสิทธิภาพการอ่านข้อมูลในบาง Query ได้ เพราะข้อมูลที่ถูกเรียกใช้บ่อยๆ จะอยู่ใกล้กันบนดิสก์ แต่ก็ Lock ตารางไว้ทั้งหมดเช่นกัน และการจัดเรียงจะคงอยู่จนกว่าจะมีการเปลี่ยนแปลงข้อมูลจำนวนมาก

การเลือกใช้คำสั่งเหล่านี้ต้องพิจารณาจากสถานการณ์และความต้องการของระบบเป็นหลักครับ โดยทั่วไปแล้ว การปรับ Autovacuum ให้ทำงานได้ดีเป็นสิ่งสำคัญที่สุดเพื่อหลีกเลี่ยงการต้องใช้ VACUUM FULL บ่อยๆ

การมอนิเตอร์และเครื่องมือ

การมอนิเตอร์เป็นกุญแจสำคัญในการรักษาประสิทธิภาพของ PostgreSQL ครับ การรู้ว่าเกิดอะไรขึ้นในฐานข้อมูลจะช่วยให้คุณระบุปัญหาได้อย่างรวดเร็วและตอบสนองได้อย่างเหมาะสม

เครื่องมือในตัว PostgreSQL

pg_stat_activity:

View นี้แสดงข้อมูลเกี่ยวกับ Process ที่ทำงานอยู่ทั้งหมดในฐานข้อมูล รวมถึง Query ที่กำลังรันอยู่, สถานะ, ผู้ใช้, และเวลาที่ใช้
```
SELECT
    pid,
    datname,
    usename,
    client_addr,
    application_name,
    backend_start,
    state,
    query_start,
    state_change,
    waiting,
    query
FROM pg_stat_activity
WHERE state != 'idle'
ORDER BY query_start DESC;
```
เป็นเครื่องมือที่ดีในการหา Long-running Queries หรือ Lock ที่เกิดขึ้น
pg_stat_replication:

สำหรับระบบที่มี Replication View นี้จะแสดงสถานะของ Replication (Lag, Sender/Receiver PID) ซึ่งสำคัญต่อ HA และ Scalability
pg_locks:

แสดงข้อมูลเกี่ยวกับ Lock ทั้งหมดที่กำลังถืออยู่ในระบบ ซึ่งช่วยในการวินิจฉัยปัญหา Deadlock หรือ Query ที่ถูก Block
```
SELECT
    locktype,
    database,
    relation::regclass,
    pid,
    mode,
    granted,
    state
FROM pg_locks
WHERE granted = false; -- แสดงเฉพาะ Lock ที่ไม่ได้ถูก Granted (คือถูก Block)
```
Log Files:

ไฟล์ Log ของ PostgreSQL (มักจะอยู่ใน PGDATA/log) มีข้อมูลที่มีค่ามากมาย เช่น Error Messages, Slow Queries (ถ้าตั้งค่า log_min_duration_statement), Checkpoint Activity เป็นต้น

เครื่องมือภายนอก

Prometheus + Grafana:

เป็นชุดเครื่องมือยอดนิยมสำหรับการมอนิเตอร์แบบ Open Source ครับ Prometheus ใช้ในการเก็บ Metric ต่างๆ จาก PostgreSQL (ผ่าน pg_exporter) และ Grafana ใช้ในการสร้าง Dashboard เพื่อแสดงผลข้อมูลแบบ Real-time
pgBadger:

เป็นเครื่องมือสำหรับวิเคราะห์ Log ของ PostgreSQL ครับ สามารถสร้างรายงาน HTML ที่สวยงามและอ่านง่าย เพื่อระบุ Slow Queries, Error, Checkpoint Activity และข้อมูลอื่นๆ ที่มีประโยชน์
pg_top:

คล้ายกับคำสั่ง top ของ Linux แต่แสดง Process ของ PostgreSQL โดยเฉพาะ
Zabbix, Nagios, Datadog, New Relic:

เครื่องมือ Monitoring ระดับ Enterprise ที่สามารถรวบรวม Metric จาก PostgreSQL และระบบอื่นๆ ได้อย่างครอบคลุม

การวางแผน Capacity Planning

การมอนิเตอร์อย่างสม่ำเสมอช่วยให้คุณเข้าใจแนวโน้มการใช้งานทรัพยากร และสามารถวางแผนการเพิ่ม Capacity (CPU, RAM, Storage) ล่วงหน้าได้ครับ การทำ Capacity Planning ที่ดีจะช่วยป้องกันปัญหาประสิทธิภาพก่อนที่จะเกิดขึ้นจริง

ปัจจัยด้านฮาร์ดแวร์และระบบปฏิบัติการ

ประสิทธิภาพของ PostgreSQL ไม่ได้ขึ้นอยู่กับซอฟต์แวร์เท่านั้นครับ ฮาร์ดแวร์และระบบปฏิบัติการก็มีบทบาทสำคัญอย่างยิ่ง

ประเภทของ Storage

Storage เป็นปัจจัยที่สำคัญที่สุดอย่างหนึ่งสำหรับฐานข้อมูล โดยเฉพาะอย่างยิ่ง I/O Performance

SSD (Solid State Drive):

เร็วกว่า HDD (Hard Disk Drive) มาก โดยเฉพาะอย่างยิ่งในการอ่าน/เขียนแบบ Random I/O ซึ่งเป็นลักษณะการทำงานทั่วไปของฐานข้อมูล
NVMe (Non-Volatile Memory Express):

เป็นเทคโนโลยี SSD รุ่นใหม่ที่เชื่อมต่อโดยตรงกับ PCIe Bus ทำให้มีความเร็วในการอ่าน/เขียนสูงกว่า SATA SSD อย่างมีนัยสำคัญ เหมาะสำหรับ Workload ฐานข้อมูลที่มี I/O สูงมากๆ
คำแนะนำ: สำหรับ Production Environment ควรใช้ SSD เป็นอย่างน้อย และพิจารณา NVMe สำหรับ Workload ที่ต้องการประสิทธิภาพสูงสุดครับ

CPU และ RAM

CPU:

PostgreSQL เป็น Process-based (แต่ละ Connection คือ 1 Process) ดังนั้น CPU ที่มี Core เยอะๆ และความถี่สูง จะช่วยให้รองรับ Connection และ Query ที่ซับซ้อนได้ดีขึ้นครับ
RAM:

อย่างที่เราได้กล่าวไปแล้ว RAM เป็นสิ่งสำคัญอย่างยิ่งสำหรับ shared_buffers, work_mem, และ OS Page Cache ยิ่งมี RAM มาก ยิ่งลดการเข้าถึงดิสก์ ซึ่งเป็นคอขวดที่ใหญ่ที่สุดได้

การตั้งค่า Kernel (Linux)

การปรับแต่ง Kernel ของ Linux สามารถส่งผลต่อประสิทธิภาพของ PostgreSQL ได้ครับ

swappiness:

ควบคุมว่า Kernel จะพยายาม Swap หน่วยความจำไปยังดิสก์บ่อยแค่ไหน
- คำแนะนำ: สำหรับเซิร์ฟเวอร์ฐานข้อมูล ควรตั้งค่า swappiness ให้ต่ำ (เช่น 1-10) เพื่อลดการ Swap และให้ข้อมูลส่วนใหญ่ยังคงอยู่ใน RAM ครับ
vm.dirty_ratio, vm.dirty_background_ratio:

ควบคุมขนาดของ Dirty Pages (ข้อมูลที่ถูกแก้ไขใน RAM แต่ยังไม่ได้เขียนลงดิสก์)
- คำแนะนำ: การลดค่าเหล่านี้อาจช่วยให้ข้อมูลถูกเขียนลงดิสก์บ่อยขึ้น ลดโอกาสเกิด I/O Spikes แต่ก็อาจเพิ่ม I/O โดยรวมได้
File System (ext4, XFS):

ทั้ง ext4 และ XFS เป็น File System ที่ดีสำหรับ PostgreSQL ครับ X
บทความที่เกี่ยวข้อง
Siam2R.com — Portfolio งาน IT · XM Signal — Free Forex EA Download