PostgreSQL Performance Tuning คู่มือปรับแต่งฐานข้อมูล

March 17, 2026

2 Views

SaveSavedRemoved 0

สวัสดีครับ นักพัฒนาและผู้ดูแลระบบฐานข้อมูลทุกท่าน! ในโลกของการพัฒนาซอฟต์แวร์ที่ขับเคลื่อนด้วยข้อมูล ฐานข้อมูลเปรียบเสมือนหัวใจสำคัญของระบบ และสำหรับฐานข้อมูลเชิงสัมพันธ์แล้ว PostgreSQL ได้พิสูจน์ตัวเองว่าเป็นหนึ่งในตัวเลือกที่ทรงพลัง ยืดหยุ่น และน่าเชื่อถือที่สุด ด้วยความสามารถที่หลากหลายและชุมชนที่แข็งแกร่ง อย่างไรก็ตาม แม้แต่ PostgreSQL ที่ยอดเยี่ยม ก็ยังต้องการการดูแลและปรับแต่งอย่างพิถีพิถัน เพื่อให้สามารถทำงานได้อย่างเต็มประสิทธิภาพ โดยเฉพาะอย่างยิ่งเมื่อระบบมีการเติบโต มีข้อมูลจำนวนมหาศาล และมีผู้ใช้งานพร้อมกันจำนวนมาก การละเลยการปรับแต่งประสิทธิภาพอาจนำไปสู่ปัญหาคอขวด (Bottleneck) ที่ทำให้ระบบช้า อืด หรือแม้กระทั่งล่มได้ ซึ่งส่งผลกระทบโดยตรงต่อประสบการณ์ของผู้ใช้และภาพลักษณ์ของธุรกิจ บทความนี้จะเจาะลึกถึงหลักการ เทคนิค และเครื่องมือต่าง ๆ ในการปรับแต่งประสิทธิภาพของ PostgreSQL อย่างครอบคลุม ตั้งแต่การตั้งค่าคอนฟิกพื้นฐาน ไปจนถึงการวิเคราะห์คิวรีเชิงลึก การจัดการอินเด็กซ์ และการออกแบบสคีมาฐานข้อมูล เพื่อให้ระบบ PostgreSQL ของคุณทำงานได้อย่างรวดเร็วและมีเสถียรภาพสูงสุด พร้อมรับมือกับทุกความท้าทายครับ

สารบัญ

ทำไมต้องปรับแต่ง PostgreSQL?
ทำความเข้าใจสถาปัตยกรรมและคอขวดของ PostgreSQL
การปรับแต่งไฟล์ postgresql.conf: หัวใจของการควบคุม
กลยุทธ์การทำ Index: กุญแจสู่การค้นหาที่รวดเร็ว
การปรับแต่ง Query: ทำให้ SQL ของคุณฉลาดขึ้น
การออกแบบ Schema และการจัดการข้อมูล
การปรับแต่งระดับ Hardware และ OS
- CPU, Memory และ Storage
- Filesystem และ OS Kernel Parameters
เทคนิคขั้นสูงและแนวทางปฏิบัติที่ดีที่สุด
คำถามที่พบบ่อย (FAQ)
สรุปและข้อเสนอแนะ

ทำไมต้องปรับแต่ง PostgreSQL?

ในยุคที่ข้อมูลคือขุมทรัพย์ และความเร็วคือหัวใจสำคัญของการแข่งขันทางธุรกิจ ฐานข้อมูลที่ทำงานช้า ไม่เพียงแต่ทำให้ผู้ใช้งานหงุดหงิด แต่ยังส่งผลกระทบโดยตรงต่อรายได้ ความน่าเชื่อถือของแบรนด์ และประสิทธิภาพการทำงานขององค์กรครับ ลองจินตนาการว่าเว็บไซต์อีคอมเมิร์ซของคุณใช้เวลาโหลดสินค้านานกว่าคู่แข่งเพียงไม่กี่วินาที ลูกค้าส่วนใหญ่อาจจะตัดสินใจปิดหน้าต่างและไปที่อื่นแทน หรือหากแอปพลิเคชันธุรกิจของคุณต้องรอการดึงข้อมูลจากฐานข้อมูลนานเกินไป พนักงานของคุณก็จะเสียเวลาไปกับการรอคอย ทำให้ผลิตภาพลดลงอย่างเห็นได้ชัด

PostgreSQL นั้นเป็นฐานข้อมูลที่ยอดเยี่ยม แต่ “ยอดเยี่ยม” ไม่ได้หมายความว่ามันจะทำงานได้ดีที่สุดในทุกสถานการณ์โดยไม่ต้องปรับแต่งใด ๆ ครับ การตั้งค่าเริ่มต้นของ PostgreSQL ถูกออกแบบมาให้ทำงานได้ดีในสภาพแวดล้อมที่หลากหลาย แต่ไม่ได้ถูกปรับให้เหมาะกับเวิร์คโหลดเฉพาะของคุณ ไม่ว่าจะเป็นระบบที่มีการอ่านข้อมูลสูง (Read-heavy), การเขียนข้อมูลสูง (Write-heavy), การประมวลผลธุรกรรมจำนวนมาก (OLTP) หรือการวิเคราะห์ข้อมูลขนาดใหญ่ (OLAP) แต่ละกรณีล้วนต้องการการปรับแต่งที่แตกต่างกัน

การปรับแต่งประสิทธิภาพของ PostgreSQL จึงเป็นกระบวนการที่สำคัญและต่อเนื่อง เพื่อให้แน่ใจว่าฐานข้อมูลของคุณสามารถ:

ตอบสนองได้รวดเร็ว: ลดเวลาในการตอบสนองของคิวรี (Query Latency) ทำให้แอปพลิเคชันทำงานได้เร็วขึ้น
รองรับผู้ใช้งานได้มากขึ้น: เพิ่มปริมาณงานที่ระบบสามารถรองรับได้ (Throughput) โดยไม่เกิดปัญหาคอขวด
ใช้ทรัพยากรอย่างคุ้มค่า: ใช้ CPU, RAM และ Disk I/O อย่างมีประสิทธิภาพ ไม่สิ้นเปลืองทรัพยากรโดยไม่จำเป็น
มีความเสถียรสูง: ลดโอกาสเกิดปัญหา Out-of-Memory, Deadlocks หรือระบบล่ม
ลดค่าใช้จ่าย: หากระบบทำงานได้มีประสิทธิภาพบนฮาร์ดแวร์เดิม คุณอาจไม่ต้องอัปเกรดเซิร์ฟเวอร์บ่อย ๆ ซึ่งช่วยประหยัดค่าใช้จ่ายได้ครับ

ในบทความนี้ เราจะพาคุณไปสำรวจทุกแง่มุมของการปรับแต่ง PostgreSQL เพื่อให้คุณสามารถปลดล็อกศักยภาพสูงสุดของฐานข้อมูลได้อย่างแท้จริงครับ

ทำความเข้าใจสถาปัตยกรรมและคอขวดของ PostgreSQL

ก่อนที่เราจะลงมือปรับแต่ง เราจำเป็นต้องเข้าใจก่อนว่า PostgreSQL ทำงานอย่างไร และอะไรคือจุดที่มักจะเกิดปัญหาคอขวดขึ้นได้ครับ การวินิจฉัยปัญหาที่ถูกต้องเป็นก้าวแรกที่สำคัญสู่การแก้ปัญหาที่ตรงจุด

สถาปัตยกรรมพื้นฐานของ PostgreSQL

PostgreSQL เป็นระบบฐานข้อมูลแบบ Client-Server โดยมีองค์ประกอบหลัก ๆ ดังนี้ครับ:

Postmaster Process: กระบวนการหลักที่เริ่มต้นเมื่อ PostgreSQL Server เริ่มทำงาน มีหน้าที่จัดการกระบวนการลูก (child processes) ทั้งหมด, จัดการการเชื่อมต่อใหม่, และดูแลทรัพยากรระบบ
Backend Processes (Postgres Processes): แต่ละการเชื่อมต่อจาก Client (เช่น แอปพลิเคชัน) จะถูกจัดการโดยกระบวนการ Backend หนึ่งกระบวนการ ซึ่งจะรับผิดชอบในการประมวลผล Query ของ Client นั้น ๆ
Shared Memory: พื้นที่หน่วยความจำที่กระบวนการทั้งหมดของ PostgreSQL สามารถเข้าถึงร่วมกันได้ ใช้สำหรับเก็บข้อมูลที่ใช้บ่อย เช่น Shared Buffers, WAL Buffers, Cache ต่าง ๆ เพื่อลดการเข้าถึง Disk I/O
WAL (Write-Ahead Log): ไฟล์บันทึกธุรกรรมทั้งหมดก่อนที่จะเขียนลง Disk จริง เพื่อให้มั่นใจถึงความทนทานของข้อมูล (Durability) ในกรณีที่ระบบล้มเหลว
Data Files: ไฟล์ที่เก็บข้อมูลจริงของฐานข้อมูล รวมถึง Tables, Indexes และ Metadata
Background Processes: กระบวนการอื่น ๆ ที่ทำงานอยู่เบื้องหลัง เช่น Autovacuum Launcher, WAL Writer, Checkpointer ซึ่งมีบทบาทสำคัญในการบำรุงรักษาและจัดการข้อมูล

คอขวดทั่วไปที่พบใน PostgreSQL

ปัญหาคอขวดในฐานข้อมูลสามารถเกิดขึ้นได้จากหลายสาเหตุครับ การระบุสาเหตุที่แท้จริงคือหัวใจของการปรับแต่ง:

CPU Bound: Server มีการใช้งาน CPU สูงมาก ซึ่งมักเกิดจาก Query ที่ซับซ้อน, การคำนวณจำนวนมาก, การ Sort หรือ Join ข้อมูลขนาดใหญ่โดยไม่มี Index ที่เหมาะสม
Memory Bound: Server มี RAM ไม่เพียงพอ ทำให้ PostgreSQL ต้องพึ่งพาการอ่าน/เขียนข้อมูลจาก Disk บ่อยครั้ง (Swap Usage สูง) ซึ่งช้ากว่าการอ่านจาก RAM มากครับ
Disk I/O Bound: การอ่านและเขียนข้อมูลลง Disk เป็นไปอย่างช้า ๆ หรือมีปริมาณมากเกินกว่าที่ Disk จะรองรับได้ทัน มักเกิดจากการ Scan ตารางขนาดใหญ่บ่อย ๆ, การสร้าง Index, หรือ WAL Activity สูง
Locking / Concurrency Issues: Query หรือ Transaction บางตัวไปล็อกตารางหรือแถวข้อมูล ทำให้ Query อื่น ๆ ต้องรอ เกิดเป็น Bottleneck ที่ทำให้ระบบช้าลงโดยรวม
Network Bound: ปัญหานี้พบน้อยในฐานข้อมูลเดี่ยว ๆ แต่อาจเกิดขึ้นได้หากมี Latency ระหว่าง Application Server กับ Database Server สูง หรือมีการส่งข้อมูลจำนวนมหาศาลผ่านเครือข่าย
Inefficient Queries: Query ที่เขียนไม่ดี, ไม่ได้ใช้ Index, หรือมีการ Join ตารางจำนวนมากโดยไม่จำเป็น เป็นสาเหตุหลักของปัญหาประสิทธิภาพ
Table Bloat: PostgreSQL มีกลไก MVCC (Multi-Version Concurrency Control) ซึ่งหมายความว่าเมื่อมีการอัปเดตหรือลบข้อมูล แถวเก่าจะยังคงอยู่ในตารางชั่วคราว ทำให้พื้นที่ดิสก์สิ้นเปลืองและต้องใช้ VACUUM ในการกู้คืน การจัดการ Bloat ที่ไม่ดีจะส่งผลให้ประสิทธิภาพการ Scan ตารางลดลงครับ

เครื่องมือในการมอนิเตอร์ประสิทธิภาพ

การมอนิเตอร์เป็นสิ่งสำคัญในการวินิจฉัยและยืนยันผลการปรับแต่งครับ เครื่องมือพื้นฐานที่ควรทราบ:

pg_stat_activity: View นี้แสดงสถานะปัจจุบันของการเชื่อมต่อทั้งหมด ใครกำลังทำอะไรอยู่ Query ไหนกำลังทำงานนานแค่ไหน และกำลังติดล็อกอะไรอยู่บ้าง
pg_stat_statements (ต้องเปิดใช้งาน): เก็บสถิติการทำงานของ Query ทั้งหมดที่รันผ่านระบบ ทำให้คุณเห็นว่า Query ใดใช้เวลานานที่สุด ใช้ CPU/Disk มากที่สุด และถูกเรียกใช้บ่อยแค่ไหน เป็นเครื่องมือที่มีประโยชน์อย่างยิ่งในการระบุ Query ที่เป็นปัญหา
pg_stat_io (PostgreSQL 16+): ให้ข้อมูลสถิติ I/O โดยละเอียดสำหรับแต่ละ Backend Process และประเภทของ I/O
pg_buffercache (ต้องเปิดใช้งาน): ช่วยให้คุณเห็นว่าข้อมูลใดอยู่ใน Shared Buffers มากที่สุด และมีการใช้งานอย่างไร
OS Level Tools:
- top, htop: ตรวจสอบการใช้งาน CPU, Memory, Load Average
- iostat, sar: ตรวจสอบ Disk I/O Performance
- vmstat: ตรวจสอบ Memory, Swap, CPU, I/O
- netstat: ตรวจสอบ Network Activity
External Monitoring Tools: เช่น Prometheus + Grafana, pgwatch2, Datadog, New Relic สำหรับการมอนิเตอร์ระยะยาวและสร้าง Dashboard ที่สวยงามครับ

การใช้เครื่องมือเหล่านี้จะช่วยให้คุณเห็นภาพรวมและเจาะลึกปัญหาได้อย่างแม่นยำ ก่อนที่จะลงมือปรับแต่งครับ

การปรับแต่งไฟล์ postgresql.conf: หัวใจของการควบคุม

ไฟล์ postgresql.conf คือศูนย์กลางของการตั้งค่าพารามิเตอร์ต่าง ๆ ของ PostgreSQL ครับ การปรับแต่งพารามิเตอร์เหล่านี้อย่างเหมาะสมสามารถสร้างความแตกต่างอย่างมหาศาลต่อประสิทธิภาพของฐานข้อมูลได้ แต่ก็ต้องทำด้วยความเข้าใจ เพราะการตั้งค่าที่ไม่ถูกต้องอาจทำให้ประสิทธิภาพแย่ลง หรือทำให้ระบบไม่เสถียรได้ครับ

ก่อนอื่น ควรทำความเข้าใจว่าพารามิเตอร์ส่วนใหญ่ต้องรีสตาร์ท PostgreSQL Server เพื่อให้มีผล บางตัวอาจจะแค่โหลดคอนฟิกใหม่ได้ (pg_reload_conf() หรือ SIGHUP) และบางตัวสามารถเปลี่ยนได้แบบ Realtime ผ่าน ALTER SYSTEM หรือ ALTER DATABASE/ROLE ครับ

การตั้งค่าพารามิเตอร์เกี่ยวกับหน่วยความจำ

หน่วยความจำ (RAM) เป็นทรัพยากรที่สำคัญที่สุดอย่างหนึ่งสำหรับประสิทธิภาพของฐานข้อมูลครับ การจัดการหน่วยความจำที่ดีจะช่วยลดการเข้าถึงดิสก์ ซึ่งเป็นคอขวดที่ใหญ่ที่สุดเสมอ

shared_buffers:
นี่คือพารามิเตอร์ที่สำคัญที่สุดตัวหนึ่ง กำหนดขนาดของหน่วยความจำที่ PostgreSQL ใช้สำหรับแคชข้อมูลที่ถูกเข้าถึงบ่อย ๆ จาก Disk หากข้อมูลอยู่ใน Shared Buffers แล้ว ก็ไม่จำเป็นต้องอ่านจาก Disk อีก ทำให้ Query ทำงานได้เร็วขึ้นครับ
- คำแนะนำ: โดยทั่วไปแนะนำให้ตั้งค่า shared_buffers ประมาณ 25% ของ RAM ทั้งหมดใน Server สำหรับ Dedicated Database Server ที่มี RAM เยอะ ๆ (เช่น 128GB+) อาจจะสูงถึง 30-40% แต่ไม่ควรเกิน 8GB-16GB บนเครื่องที่มี RAM น้อยกว่า 32GB เพราะส่วนที่เหลือของ RAM จะต้องถูกใช้โดย OS และ File System Cache ด้วยครับ
- ตัวอย่าง: สำหรับ Server ที่มี RAM 32GB, อาจตั้งค่า shared_buffers = 8GB
```
shared_buffers = 8GB
```
work_mem:
ขนาดของหน่วยความจำที่ Backend Process แต่ละตัวสามารถใช้ได้สำหรับการ Sort ข้อมูล หรือ Hash Table ที่ใช้ในการ Join หากข้อมูลที่ต้อง Sort/Hash มีขนาดใหญ่กว่า work_mem ระบบจะต้องเขียนข้อมูลชั่วคราวลง Disk ซึ่งช้ามากครับ
- คำแนะนำ: ค่าเริ่มต้นมักจะน้อยเกินไป การเพิ่ม work_mem สามารถช่วยปรับปรุงประสิทธิภาพของ Query ที่มีการ Sort (ORDER BY), Grouping (GROUP BY), หรือ Hash Join/Aggregate ได้อย่างมาก อย่างไรก็ตาม เนื่องจาก work_mem ถูกจัดสรรให้แต่ละ Query ที่ต้องการใช้ (ไม่ใช่ต่อ Session) การตั้งค่าที่สูงเกินไปบน Server ที่มี Connection พร้อมกันจำนวนมาก อาจทำให้ RAM หมดได้ครับ ควรเริ่มต้นด้วยการเพิ่มจากค่าเริ่มต้นเป็น 16MB, 32MB, 64MB แล้วมอนิเตอร์ดูผลลัพธ์
- ตัวอย่าง: work_mem = 64MB (อาจต้องปรับขึ้นอยู่กับเวิร์คโหลด)
```
work_mem = 64MB
```
maintenance_work_mem:
ขนาดของหน่วยความจำที่ใช้สำหรับงานบำรุงรักษา เช่น VACUUM, CREATE INDEX, ALTER TABLE ADD FOREIGN KEY การเพิ่มค่านี้จะช่วยให้งานเหล่านี้ทำงานได้เร็วขึ้น โดยเฉพาะอย่างยิ่งการสร้าง Index บนตารางขนาดใหญ่
- คำแนะนำ: สามารถตั้งค่าให้สูงกว่า work_mem ได้มาก เช่น 256MB ถึง 1GB หรือมากกว่านั้น ขึ้นอยู่กับ RAM ที่เหลือครับ
- ตัวอย่าง: maintenance_work_mem = 1GB
```
maintenance_work_mem = 1GB
```
effective_cache_size:
พารามิเตอร์นี้ไม่ได้จัดสรรหน่วยความจำจริง แต่เป็นการบอก Query Planner ว่าระบบมี Cache ของ OS หรือ Hardware อยู่เท่าไหร่ (รวมถึง Shared Buffers ด้วย) เพื่อให้ Planner คาดการณ์ได้แม่นยำขึ้นว่าข้อมูลจะอยู่ใน RAM มากน้อยแค่ไหน ทำให้ Planner เลือกแผนการทำงานของ Query ที่มีประสิทธิภาพมากขึ้น
- คำแนะนำ: ควรตั้งค่าประมาณ 50-75% ของ RAM ทั้งหมดใน Server ครับ
- ตัวอย่าง: สำหรับ Server ที่มี RAM 32GB, อาจตั้งค่า effective_cache_size = 24GB
```
effective_cache_size = 24GB
```

การตั้งค่า Write-Ahead Log (WAL)

WAL เป็นกลไกสำคัญในการรับประกันความทนทานของข้อมูล แต่การจัดการ WAL ที่ไม่เหมาะสมอาจส่งผลต่อประสิทธิภาพการเขียนข้อมูล

wal_buffers:
ขนาดของ Shared Memory ที่ใช้สำหรับแคช WAL data ก่อนที่จะเขียนลง Disk การเพิ่มค่านี้สามารถช่วยปรับปรุงประสิทธิภาพการเขียนข้อมูลในระบบที่มีการเขียนสูง (Write-heavy workloads) โดยเฉพาะอย่างยิ่งสำหรับ Transaction จำนวนมาก
- คำแนะนำ: ค่าเริ่มต้น 4MB มักจะเพียงพอ แต่สำหรับ Workload ที่มีการเขียนสูง อาจลองเพิ่มเป็น 16MB หรือ 32MB ได้ครับ
- ตัวอย่าง: wal_buffers = 16MB
```
wal_buffers = 16MB
```
max_wal_size (ในเวอร์ชันเก่าคือ checkpoint_segments):
กำหนดขนาดสูงสุดที่ WAL files สามารถใช้ได้ก่อนที่จะมีการ Checkpoint การ Checkpoint คือกระบวนการที่เขียน WAL data ลง Disk และอัปเดต Header ของ Data Files เพื่อระบุว่าข้อมูลใดบ้างที่ถูกเขียนลง Disk แล้ว การ Checkpoint บ่อยเกินไปจะทำให้เกิด Disk I/O Spikes และส่งผลเสียต่อประสิทธิภาพ การเพิ่มค่านี้จะทำให้ Checkpoint เกิดขึ้นน้อยลง
- คำแนะนำ: ควรตั้งค่าให้สูงพอที่จะรองรับปริมาณงานเขียนของคุณ โดยทั่วไปอาจเริ่มต้นที่ 1GB – 4GB หรือสูงกว่านั้นสำหรับ Workload ที่มีการเขียนสูงมาก ๆ
- ตัวอย่าง: max_wal_size = 4GB
```
max_wal_size = 4GB
```
min_wal_size:
กำหนดขนาดขั้นต่ำของ WAL files ที่ PostgreSQL จะเก็บไว้เพื่อใช้ซ้ำ การตั้งค่านี้ช่วยลดการสร้างและลบไฟล์ WAL บ่อย ๆ ซึ่งจะช่วยลด Disk I/O ได้ครับ
- คำแนะนำ: มักจะตั้งค่าให้เป็น 1 ใน 4 หรือ 1 ใน 2 ของ max_wal_size
- ตัวอย่าง: min_wal_size = 1GB
```
min_wal_size = 1GB
```
synchronous_commit:
พารามิเตอร์นี้ควบคุมว่าการ Commit Transaction จะรอให้ WAL data ถูกเขียนลง Disk จริงหรือไม่
- on (ค่าเริ่มต้น): รับประกันความทนทานสูงสุด ข้อมูลจะไม่สูญหายหาก Server ล่ม แต่มี Overhead ในการเขียน Disk สำหรับทุก Commit
- off: ไม่รอให้ WAL data ถูกเขียนลง Disk ทันที ทำให้ Commit เร็วขึ้นมาก แต่มีความเสี่ยงที่จะสูญเสีย Transaction ล่าสุดบางส่วนหาก Server ล่ม
- local, remote_write, remote_apply: ตัวเลือกอื่น ๆ สำหรับการควบคุมที่ละเอียดขึ้น โดยเฉพาะในการตั้งค่า Replication
- คำแนะนำ: สำหรับ Workload ที่ต้องการความเร็วสูงสุดและยอมรับความเสี่ยงข้อมูลสูญหายเล็กน้อยได้ (เช่น Log Data ที่ไม่สำคัญมาก) อาจพิจารณาตั้งค่าเป็น off แต่สำหรับข้อมูลสำคัญ ไม่แนะนำ ครับ
```
synchronous_commit = on # หรือ off สำหรับบางกรณี
```

การตั้งค่าพารามิเตอร์ของ Query Planner

Query Planner ของ PostgreSQL มีหน้าที่ตัดสินใจว่าจะใช้แผนการทำงานใดในการ execute Query ที่มีประสิทธิภาพที่สุด พารามิเตอร์เหล่านี้ช่วยให้ Planner ตัดสินใจได้แม่นยำขึ้น

random_page_cost:
ค่าใช้จ่ายในการอ่านข้อมูลแบบสุ่มจาก Disk (เช่น การอ่านผ่าน Index) เมื่อเทียบกับการอ่านแบบ Sequential (seq_page_cost ซึ่งมีค่าเริ่มต้นเป็น 1.0) หากใช้ SSD ควรลดค่านี้ลง เพราะการอ่านแบบสุ่มบน SSD นั้นเร็วกว่า HDD มาก
- คำแนะนำ: สำหรับ SSD, ตั้งค่า random_page_cost = 0.1 หรือ 0.2
- ตัวอย่าง: random_page_cost = 0.1
```
random_page_cost = 0.1
```
cpu_tuple_cost, cpu_index_tuple_cost, cpu_operator_cost:
ค่าใช้จ่ายในการประมวลผล CPU สำหรับแต่ละ Tuple, Index Tuple, และ Operator ตามลำดับ การปรับค่าเหล่านี้อาจมีผลต่อการเลือกแผนของ Planner แต่ควรทำด้วยความระมัดระวังและเข้าใจอย่างถ่องแท้
- คำแนะนำ: โดยทั่วไปไม่จำเป็นต้องปรับค่าเหล่านี้ เว้นแต่จะพบปัญหาเฉพาะที่เกี่ยวข้องกับ CPU และเข้าใจผลกระทบอย่างถ่องแท้ครับ
default_statistics_target:
กำหนดระดับความละเอียดของสถิติที่ ANALYZE เก็บไว้ สถิติที่ดีขึ้นช่วยให้ Query Planner เลือกแผนการทำงานที่ดีขึ้นได้
- คำแนะนำ: ค่าเริ่มต้น 100 มักจะเพียงพอ แต่สำหรับคอลัมน์ที่มีการกระจายข้อมูลที่ซับซ้อน อาจเพิ่มเป็น 1000 หรือมากกว่านั้นได้ครับ
- ตัวอย่าง: default_statistics_target = 100
```
default_statistics_target = 100
```

การตั้งค่า Autovacuum

Autovacuum เป็นกระบวนการสำคัญในการจัดการ Bloat และรีไซเคิลพื้นที่ที่ถูกทิ้งไปครับ การตั้งค่า Autovacuum ให้เหมาะสมช่วยให้ฐานข้อมูลมีประสิทธิภาพและเสถียร

autovacuum:
เปิด/ปิด Autovacuum ควรเปิดใช้งานเสมอครับ (ค่าเริ่มต้นคือ on)
```
autovacuum = on
```
autovacuum_max_workers:
จำนวนกระบวนการ Autovacuum ที่สามารถรันพร้อมกันได้ การเพิ่มค่านี้จะช่วยให้ Autovacuum ทำงานได้เร็วขึ้นสำหรับฐานข้อมูลที่มีตารางจำนวนมาก
- คำแนะนำ: โดยทั่วไป 3-5 workers ก็เพียงพอแล้วครับ
- ตัวอย่าง: autovacuum_max_workers = 3
```
autovacuum_max_workers = 3
```
autovacuum_vacuum_cost_delay, autovacuum_vacuum_cost_limit:
พารามิเตอร์เหล่านี้ควบคุมความรุนแรงของ Autovacuum เพื่อไม่ให้มันใช้ทรัพยากรมากเกินไปจนกระทบต่อ Query ของผู้ใช้ การลด autovacuum_vacuum_cost_delay จะทำให้ Autovacuum ทำงานเร็วขึ้น แต่ก็ใช้ทรัพยากรมากขึ้นครับ
- คำแนะนำ: หากพบว่า Bloat เป็นปัญหา ให้ลองลด autovacuum_vacuum_cost_delay จากค่าเริ่มต้น 20ms เป็น 10ms หรือ 5ms
- ตัวอย่าง: autovacuum_vacuum_cost_delay = 10ms
```
autovacuum_vacuum_cost_delay = 10ms
```
autovacuum_vacuum_scale_factor, autovacuum_analyze_scale_factor:
กำหนดสัดส่วนของ tuples ที่เปลี่ยนแปลงไปในตารางที่จะกระตุ้นให้ Autovacuum ทำงาน (VACUUM) หรือเก็บสถิติใหม่ (ANALYZE) การลดค่าเหล่านี้จะทำให้ Autovacuum ทำงานบ่อยขึ้น
- คำแนะนำ: สำหรับตารางที่มีการเปลี่ยนแปลงข้อมูลบ่อย อาจลด autovacuum_vacuum_scale_factor และ autovacuum_analyze_scale_factor จาก 0.2 (20%) เป็น 0.1 (10%) หรือต่ำกว่านั้น โดยเฉพาะอย่างยิ่งสำหรับตารางขนาดใหญ่
```
autovacuum_vacuum_scale_factor = 0.1
autovacuum_analyze_scale_factor = 0.05
```

การตั้งค่าการเชื่อมต่อ (Connections)

การจัดการการเชื่อมต่อเป็นสิ่งสำคัญในการรองรับผู้ใช้งานพร้อมกัน

max_connections:
จำนวนสูงสุดของการเชื่อมต่อ Client ที่สามารถเชื่อมต่อกับ PostgreSQL Server ได้พร้อมกัน การตั้งค่าที่สูงเกินไปโดยไม่จำเป็นจะทำให้ PostgreSQL จองหน่วยความจำมากขึ้น และอาจทำให้ Server มีปัญหาหากมี Connection จำนวนมาก แต่ละ Connection ใช้ RAM จำนวนหนึ่ง
- คำแนะนำ: ควรตั้งค่าให้เหมาะสมกับจำนวน Connection สูงสุดที่แอปพลิเคชันของคุณต้องการ พร้อมเผื่อไว้สำหรับ Admin และ Monitoring Connection ครับ หากใช้ Connection Pooler เช่น PgBouncer ค่านี้สามารถตั้งให้ไม่สูงมากได้
- ตัวอย่าง: max_connections = 100
```
max_connections = 100
```

การตั้งค่า Log

การบันทึก Log เป็นสิ่งจำเป็นสำหรับการวินิจฉัยปัญหา แต่การตั้งค่า Log ที่ไม่เหมาะสมอาจสร้าง Disk I/O จำนวนมาก

log_min_duration_statement:
บันทึก Query ที่ใช้เวลาทำงานเกินกว่าเวลาที่กำหนด (ในหน่วยมิลลิวินาที) เป็นเครื่องมือที่มีประโยชน์อย่างยิ่งในการระบุ Query ที่ทำงานช้า
- คำแนะนำ: เริ่มต้นด้วย log_min_duration_statement = 1000 (1 วินาที) แล้วปรับลดลงเรื่อย ๆ เช่น 500ms, 100ms เพื่อหา Query ที่เป็นปัญหา
- ตัวอย่าง: log_min_duration_statement = 500ms
```
log_min_duration_statement = 500ms
```
log_lock_waits:
บันทึกเมื่อ Query ต้องรอ Lock นานเกินกว่า deadlock_timeout เป็นประโยชน์ในการวินิจฉัยปัญหา Locking
- คำแนะนำ: ควรเปิดใช้งาน log_lock_waits = on
```
log_lock_waits = on
```
log_autovacuum_min_duration:
บันทึกกิจกรรม Autovacuum ที่ใช้เวลานานเกินกว่าที่กำหนด
- คำแนะนำ: ตั้งค่าเป็น 0 เพื่อบันทึกทุกกิจกรรม Autovacuum หรือเป็นค่าที่เหมาะสมเพื่อระบุ Autovacuum ที่ทำงานนานเกินไป
```
log_autovacuum_min_duration = 0
```

การปรับแต่งไฟล์ postgresql.conf ต้องอาศัยการทดลอง การมอนิเตอร์ และความเข้าใจใน Workload ของคุณครับ ไม่มีสูตรสำเร็จตายตัว แต่แนวทางข้างต้นจะช่วยให้คุณเริ่มต้นได้อย่างมีประสิทธิภาพครับ

กลยุทธ์การทำ Index: กุญแจสู่การค้นหาที่รวดเร็ว

Index เปรียบเสมือนสารบัญของหนังสือ ช่วยให้ฐานข้อมูลค้นหาข้อมูลได้อย่างรวดเร็วโดยไม่ต้องสแกนทั้งตารางครับ การใช้งาน Index อย่างชาญฉลาดเป็นหนึ่งในวิธีที่ทรงพลังที่สุดในการปรับปรุงประสิทธิภาพของ Query

เมื่อไหร่ควรสร้าง Index?

การสร้าง Index ไม่ได้ดีเสมอไป เพราะ Index ก็มีข้อเสียเช่นกัน:

เพิ่มพื้นที่จัดเก็บ: Index ต้องการพื้นที่บน Disk
ลดความเร็วในการเขียน: ทุกครั้งที่มีการ Insert, Update, Delete ข้อมูลในตารางที่มี Index ระบบจะต้องอัปเดต Index นั้น ๆ ด้วย ทำให้การเขียนข้อมูลช้าลง

ดังนั้น ควรสร้าง Index ในกรณีต่อไปนี้ครับ:

คอลัมน์ที่ใช้ในเงื่อนไข WHERE clause บ่อย ๆ
คอลัมน์ที่ใช้ใน JOIN clause
คอลัมน์ที่ใช้ใน ORDER BY หรือ GROUP BY clause บ่อย ๆ
คอลัมน์ที่มีค่าไม่ซ้ำกันมากพอ (High Cardinality) เช่น id, email
เมื่อ Query Planner เลือกใช้ Sequential Scan บ่อย ๆ ในตารางขนาดใหญ่ ทั้ง ๆ ที่มีเงื่อนไข WHERE

ไม่ควรสร้าง Index ในกรณี:

คอลัมน์ที่มีค่าซ้ำกันสูงมาก (Low Cardinality) เช่น คอลัมน์เพศ (ชาย/หญิง)
ตารางขนาดเล็กมาก ๆ (มีข้อมูลไม่กี่ร้อยแถว)
คอลัมน์ที่ไม่เคยถูกใช้ในเงื่อนไขการค้นหา, Join, หรือ Sort
ตารางที่มีการเขียนข้อมูลสูงมาก ๆ และการอ่านข้อมูลน้อยมาก

ประเภทของ Index และการเลือกใช้

PostgreSQL มี Index หลายประเภท แต่ละประเภทเหมาะกับ Workload ที่แตกต่างกันครับ

B-Tree Index:
เป็น Index ประเภทที่ใช้บ่อยที่สุดและเป็นค่าเริ่มต้น เหมาะสำหรับการค้นหาแบบเท่ากับ (=), มากกว่า (>), น้อยกว่า (<), BETWEEN, IN, และการเรียงลำดับ (ORDER BY)
```
CREATE INDEX idx_users_email ON users (email);
```
Hash Index:
เหมาะสำหรับการค้นหาแบบเท่ากับ (=) เท่านั้น ไม่รองรับการค้นหาแบบช่วงหรือการเรียงลำดับ มีข้อจำกัดในการใช้งานในเวอร์ชันเก่า ๆ ไม่ทนทานต่อ Crash และไม่ถูก Replication ทำให้ไม่ค่อยนิยมใช้เท่า B-Tree ครับ
```
CREATE INDEX idx_products_sku ON products USING HASH (sku);
```
GIN (Generalized Inverted Index):
เหมาะสำหรับข้อมูลที่มีหลายค่าในแต่ละแถว (เช่น Array, JSONB, Full-Text Search) หรือเมื่อต้องการค้นหาบางส่วนของข้อมูล เช่น ค้นหาคำในเอกสาร JSONB
```
CREATE INDEX idx_docs_content ON documents USING GIN (to_tsvector('english', content));
CREATE INDEX idx_products_tags ON products USING GIN (tags); -- tags เป็น array หรือ jsonb
```
GiST (Generalized Search Tree):
เหมาะสำหรับข้อมูลเชิงภูมิศาสตร์ (Geospatial data) เช่น จุด, เส้น, โพลิกอน และข้อมูลที่ซับซ้อนอื่น ๆ ที่ B-Tree ไม่สามารถจัดการได้
```
CREATE INDEX idx_locations_geom ON locations USING GIST (geom);
```
BRIN (Block Range Index):
เหมาะสำหรับตารางขนาดใหญ่มาก ๆ ที่ข้อมูลมีการจัดเรียงตามธรรมชาติ (Natural Order) เช่น ตาราง Log ที่มีการ Insert ข้อมูลตามลำดับเวลา Index จะเก็บข้อมูลว่าในช่วง Block ของ Disk มีค่าต่ำสุดและสูงสุดเท่าไหร่ ทำให้การค้นหาในช่วงค่าทำได้เร็วมาก แต่ไม่ละเอียดเท่า B-Tree
```
CREATE INDEX idx_logs_timestamp ON logs USING BRIN (timestamp);
```

ตารางเปรียบเทียบประเภท Index:

ประเภท Index	กรณีการใช้งานที่เหมาะสม	ข้อดี	ข้อจำกัด/ข้อควรระวัง
B-Tree	ค้นหา `=, <, >, <=, >=, BETWEEN, IN`, `ORDER BY`, `GROUP BY`	อเนกประสงค์, รวดเร็วสำหรับ Single-value, รองรับ Range Scan	ไม่เหมาะกับ Full-Text Search, Array, JSONB
GIN	Full-Text Search (`tsvector`), Array, JSONB, HSTORE	ค้นหา Sub-elements ได้อย่างรวดเร็ว, เหมาะกับ Multi-value attributes	สร้างและอัปเดตช้ากว่า B-Tree, ขนาดใหญ่กว่า, เหมาะกับ Read-heavy
GiST	ข้อมูลเชิงภูมิศาสตร์ (PostGIS), Range Types, ข้อมูลซับซ้อน	จัดการ Type พิเศษได้ดี, รองรับ Operator ที่ B-Tree ไม่ได้	สร้างและอัปเดตช้า, อาจซับซ้อนในการตั้งค่า
BRIN	ตารางขนาดใหญ่มากที่มีข้อมูลเรียงตามธรรมชาติ (e.g., Log data by timestamp)	ขนาดเล็กมาก, สร้างเร็ว, อัปเดตเร็ว	เหมาะกับ Range Query เท่านั้น, ต้องมี Natural Order, ไม่ละเอียดเท่า B-Tree
Hash	ค้นหา `=` เท่านั้น	อาจเร็วกว่า B-Tree สำหรับ `=` ในบางกรณี	ไม่ทนทานต่อ Crash (ในเวอร์ชันเก่า), ไม่ถูก Replication, ไม่รองรับ Range Query

Partial และ Expression Index

Partial Index:
สร้าง Index เฉพาะข้อมูลบางส่วนของตารางที่ตรงตามเงื่อนไข WHERE clause เท่านั้น มีประโยชน์เมื่อคุณรู้ว่า Query ส่วนใหญ่จะค้นหาเฉพาะ Subset ของข้อมูล
- ข้อดี: มีขนาดเล็กกว่า, สร้างและอัปเดตได้เร็วกว่า, ใช้ทรัพยากรน้อยกว่า
- ตัวอย่าง: หากคุณมีตาราง orders และ Query ส่วนใหญ่จะค้นหาเฉพาะ status = 'pending'
```
CREATE INDEX idx_orders_pending_status ON orders (order_id) WHERE status = 'pending';
```
Expression Index:
สร้าง Index บนผลลัพธ์ของฟังก์ชันหรือ Expression แทนที่จะเป็นคอลัมน์โดยตรง มีประโยชน์เมื่อคุณใช้ฟังก์ชันใน WHERE clause บ่อย ๆ
- ตัวอย่าง: หากคุณมักจะค้นหาผู้ใช้โดยไม่คำนึงถึง Case Sensitivity (ตัวพิมพ์เล็ก/ใหญ่)
```
CREATE INDEX idx_users_email_lower ON users (lower(email));
-- จากนั้น Query จะสามารถใช้ Index ได้: SELECT * FROM users WHERE lower(email) = '[email protected]';
```

Multi-column Index

Index ที่ครอบคลุมหลายคอลัมน์ สามารถช่วยเพิ่มประสิทธิภาพสำหรับ Query ที่มีเงื่อนไข WHERE หรือ ORDER BY หลายคอลัมน์พร้อมกัน

หลักการทำงาน: Index จะถูกสร้างโดยเรียงลำดับข้อมูลตามคอลัมน์แรกก่อน จากนั้นจึงเรียงตามคอลัมน์ที่สอง และต่อ ๆ ไป
ความสำคัญของลำดับ: ลำดับของคอลัมน์ใน Multi-column Index มีความสำคัญอย่างยิ่ง คอลัมน์ที่ใช้ในการค้นหาแบบเท่ากับ (=) หรือช่วง (Range) ใน WHERE clause ควรอยู่ข้างหน้า และคอลัมน์ที่ใช้ในการ ORDER BY ควรอยู่ต่อท้าย
ตัวอย่าง: หากคุณมักจะค้นหาคำสั่งซื้อตาม customer_id และ order_date

CREATE INDEX idx_orders_customer_date ON orders (customer_id, order_date);
-- Query ที่ได้ประโยชน์:
SELECT * FROM orders WHERE customer_id = 123 AND order_date >= '2023-01-01';
SELECT * FROM orders WHERE customer_id = 123 ORDER BY order_date DESC;

Covering Index (PostgreSQL 11+):
เป็น Multi-column Index ที่รวมคอลัมน์ที่ถูกเลือกใน SELECT list เข้าไปใน Index ด้วย ทำให้ Query สามารถดึงข้อมูลได้ทั้งหมดจาก Index โดยไม่ต้องกลับไปอ่านข้อมูลจากตาราง (Index-Only Scan) ซึ่งเร็วกว่ามาก
```
CREATE INDEX idx_orders_customer_date_amount ON orders (customer_id, order_date) INCLUDE (amount);
-- Query ที่ได้ประโยชน์:
SELECT customer_id, order_date, amount FROM orders WHERE customer_id = 123 ORDER BY order_date DESC;
```

การระบุ Index ที่ขาดหายไปหรือไม่ถูกใช้งาน

pg_stat_user_indexes: View นี้แสดงสถิติการใช้งาน Index ของผู้ใช้ ช่วยให้คุณระบุ Index ที่ไม่ได้ถูกใช้ (idx_scan เป็น 0) ซึ่งอาจเป็น Index ที่ไม่จำเป็นและควรถูกลบออก
pg_stat_user_tables: แสดงสถิติการ Scan ตาราง หาก seq_scan สูงมากและ idx_scan ต่ำสำหรับตารางขนาดใหญ่ที่มี WHERE clause ก็เป็นสัญญาณว่าอาจต้องสร้าง Index เพิ่มเติมครับ
EXPLAIN ANALYZE: เครื่องมือที่ทรงพลังที่สุดในการดูว่า Query Planner ใช้ Index หรือไม่ และใช้ Index ใด

การจัดการ Index เป็นศิลปะที่ต้องใช้การสังเกตและปรับแต่งอยู่เสมอครับ การมี Index มากเกินไปอาจส่งผลเสียพอ ๆ กับการไม่มี Index ที่จำเป็นเลย อ่านเพิ่มเติมเกี่ยวกับการออกแบบ Index

การปรับแต่ง Query: ทำให้ SQL ของคุณฉลาดขึ้น

Query ที่เขียนมาไม่ดีเป็นสาเหตุอันดับต้น ๆ ของปัญหาประสิทธิภาพในฐานข้อมูลครับ แม้จะมีฮาร์ดแวร์ที่ดีและคอนฟิกที่เหมาะสม แต่ถ้า Query ยังไม่มีประสิทธิภาพ ระบบก็จะยังคงช้าอยู่ดี การปรับแต่ง Query คือการทำให้ SQL ของคุณทำงานได้อย่างฉลาดที่สุด

EXPLAIN ANALYZE: เพื่อนที่ดีที่สุดของคุณ

EXPLAIN ANALYZE เป็นคำสั่งที่สำคัญที่สุดในการทำความเข้าใจว่า PostgreSQL ประมวลผล Query ของคุณอย่างไร มันแสดง "แผนการทำงาน" (Execution Plan) ของ Query พร้อมกับสถิติเวลาจริง (Runtime Statistics) ที่เกิดขึ้นจริง

EXPLAIN ANALYZE
SELECT p.name, c.category_name
FROM products p
JOIN categories c ON p.category_id = c.id
WHERE p.price > 100 AND c.category_name = 'Electronics'
ORDER BY p.name;

ผลลัพธ์ที่ได้จะเป็น Tree-like structure แสดงขั้นตอนการทำงาน เช่น:

Sort  (cost=120.35..120.36 rows=1 width=40) (actual time=0.254..0.256 rows=10 loops=1)
  Sort Key: p.name
  ->  Hash Join  (cost=10.02..120.34 rows=1 width=40) (actual time=0.088..0.237 rows=10 loops=1)
        Hash Cond: (p.category_id = c.id)
        ->  Bitmap Heap Scan on products p  (cost=4.30..110.15 rows=1 width=36) (actual time=0.046..0.198 rows=10 loops=1)
              Recheck Cond: (p.price > 100)
              Heap Blocks: exact=10
              ->  Bitmap Index Scan on idx_products_price  (cost=0.00..4.30 rows=1 width=0) (actual time=0.016..0.016 rows=10 loops=1)
                    Index Cond: (price > 100)
        ->  Hash  (cost=5.71..5.71 rows=1 width=12) (actual time=0.034..0.034 rows=1 loops=1)
              Buckets: 1024  Batches: 1  Memory Usage: 9kB
              ->  Index Scan using idx_categories_name on categories c  (cost=0.15..5.71 rows=1 width=12) (actual time=0.018..0.029 rows=1 loops=1)
                    Index Cond: (category_name = 'Electronics')
Planning Time: 0.174 ms
Execution Time: 0.298 ms

วิธีอ่านผลลัพธ์ EXPLAIN ANALYZE:

อ่านจากล่างขึ้นบน, จากขวาไปซ้าย: คือลำดับการทำงานจริงของ Query
(cost=start_cost..end_cost rows=N width=M):
- start_cost: ค่าใช้จ่ายโดยประมาณในการเริ่มต้น Node นี้
- end_cost: ค่าใช้จ่ายโดยประมาณในการทำงานของ Node นี้จนเสร็จ
- rows: จำนวนแถวโดยประมาณที่ Node นี้จะส่งต่อไปยัง Node ถัดไป
- width: ความกว้างโดยประมาณของแต่ละแถวในหน่วยไบต์
(actual time=0.254..0.256 rows=10 loops=1):
- actual time: เวลาจริงที่ใช้ในการทำงานของ Node นี้ (เริ่มต้น..สิ้นสุด)
- rows: จำนวนแถวที่ Node นี้ส่งออกไปจริง
- loops: จำนวนครั้งที่ Node นี้ถูก execute
เปรียบเทียบ rows (estimated) กับ rows (actual): หากค่าประมาณการณ์ของ rows แตกต่างจากค่าจริงมาก แสดงว่าสถิติของตารางอาจไม่เป็นปัจจุบัน (ต้องรัน ANALYZE) หรือ Query Planner ตัดสินใจผิดพลาด ซึ่งอาจนำไปสู่แผนการทำงานที่ไม่มีประสิทธิภาพ
มองหา Node ที่ใช้เวลานานที่สุด: Node ที่มี actual time (ค่าหลัง ..) สูงสุด คือจุดที่ต้องปรับปรุง
ระบุประเภทการ Scan:
- Sequential Scan: สแกนทั้งตาราง ช้าสำหรับตารางขนาดใหญ่
- Index Scan: ใช้ Index เร็วกว่า
- Bitmap Index Scan + Bitmap Heap Scan: ใช้ Index เพื่อหา Block ของข้อมูล แล้วค่อยไปอ่าน Block นั้นจากตาราง เหมาะสำหรับ Query ที่เลือกข้อมูลจำนวนมากจาก Index
ระบุประเภทการ Join:
- Nested Loop Join: มีประสิทธิภาพเมื่อตารางด้านนอกมีขนาดเล็ก และตารางด้านในมี Index
- Hash Join: มีประสิทธิภาพเมื่อตารางขนาดใหญ่ แต่มีหน่วยความจำเพียงพอสำหรับ Hash Table
- Merge Join: มีประสิทธิภาพเมื่อข้อมูลถูก Sort อยู่แล้ว หรือสามารถ Sort ได้อย่างรวดเร็ว
Planning Time vs Execution Time: เวลาที่ใช้ในการวางแผน Query กับเวลาที่ใช้ในการรัน Query

การฝึกอ่าน EXPLAIN ANALYZE บ่อย ๆ จะช่วยให้คุณเข้าใจพฤติกรรมของ Query ได้อย่างลึกซึ้ง และสามารถระบุจุดที่ต้องแก้ไขได้อย่างแม่นยำครับ ดูตัวอย่าง EXPLAIN ANALYZE เพิ่มเติม

การเขียน Query ที่มีประสิทธิภาพ

บางครั้งปัญหาไม่ได้อยู่ที่ Index หรือคอนฟิก แต่อยู่ที่ตัว Query เองครับ

หลีกเลี่ยง SELECT *: เลือกเฉพาะคอลัมน์ที่คุณต้องการจริง ๆ เพราะลดปริมาณข้อมูลที่ต้องดึง, ลด Bandwidth, และอาจช่วยให้ใช้ Index-Only Scan ได้
ใช้ JOIN อย่างเหมาะสม: หลีกเลี่ยง Subquery ที่ไม่จำเป็น หรือ Correlated Subquery ซึ่งอาจทำให้ Query ช้าลงมาก ใช้ JOIN แทนในหลาย ๆ กรณี
ใช้ WHERE clause ให้ดี:
- ใช้เงื่อนไขที่สามารถใช้ Index ได้ (Indexable predicates)
- หลีกเลี่ยงการใช้ฟังก์ชันกับคอลัมน์ที่ต้องการใช้ Index ใน WHERE clause เช่น WHERE substr(column, 1, 1) = 'A' ควรสร้าง Expression Index หรือเปลี่ยน Query เป็น WHERE column LIKE 'A%'
- ใช้ LIMIT เมื่อไม่ต้องการข้อมูลทั้งหมด
ระมัดระวัง OR: OR มักจะทำให้ Query Planner ไม่สามารถใช้ Index ได้อย่างเต็มที่ หากเป็นไปได้ ลองเปลี่ยนเป็น UNION ALL หรือใช้ IN แทน
Optimize GROUP BY และ ORDER BY: ตรวจสอบให้แน่ใจว่ามี Index ที่ครอบคลุมคอลัมน์เหล่านี้ เพื่อหลีกเลี่ยงการ Sort ข้อมูลขนาดใหญ่ในหน่วยความจำหรือบนดิสก์
ใช้ EXISTS หรือ NOT EXISTS แทน IN หรือ NOT IN ในบางกรณี: โดยเฉพาะเมื่อ Subquery ส่งคืนข้อมูลจำนวนมาก EXISTS มักจะมีประสิทธิภาพกว่า เพราะมันจะหยุดทำงานทันทีที่พบแถวแรก

-- ไม่ดี (อาจต้องสแกนตาราง products ทั้งหมดก่อน):
SELECT * FROM users WHERE id IN (SELECT user_id FROM orders WHERE amount > 1000);

-- ดีกว่า (อาจใช้ Index ใน orders ก่อน):
SELECT u.*
FROM users u
WHERE EXISTS (SELECT 1 FROM orders o WHERE o.user_id = u.id AND o.amount > 1000);

Materialized Views

สำหรับ Query ที่ซับซ้อนและใช้เวลานานในการประมวลผล แต่ผลลัพธ์ไม่จำเป็นต้องเป็น Real-time เสมอไป Materialized View เป็นทางออกที่ดีครับ มันคือ View ที่เก็บผลลัพธ์ของ Query ไว้ใน Disk จริง ๆ คล้ายกับตารางปกติ

ข้อดี: การอ่านข้อมูลจาก Materialized View จะเร็วกว่าการรัน Query เดิมซ้ำ ๆ
ข้อเสีย: ข้อมูลใน Materialized View จะไม่เป็นปัจจุบันเสมอไป คุณต้อง REFRESH MATERIALIZED VIEW ด้วยตนเองเป็นระยะ ๆ ซึ่งอาจใช้เวลานาน
ตัวอย่าง:

CREATE MATERIALIZED VIEW daily_sales_summary AS
SELECT
    DATE_TRUNC('day', order_date) AS sales_day,
    SUM(amount) AS total_sales,
    COUNT(*) AS total_orders
FROM orders
GROUP BY sales_day
ORDER BY sales_day;

-- เมื่อต้องการอัปเดตข้อมูล:
REFRESH MATERIALIZED VIEW daily_sales_summary;

Materialized View เหมาะสำหรับ Report, Dashboard หรือข้อมูลเชิงสถิติที่ไม่ได้เปลี่ยนแปลงบ่อยนักครับ

การออกแบบ Schema และการจัดการข้อมูล

การออกแบบ Schema ฐานข้อมูลตั้งแต่เริ่มต้นมีผลอย่างมากต่อประสิทธิภาพในระยะยาวครับ การเลือก Data Type ที่เหมาะสม การตัดสินใจเรื่อง Normalization/Denormalization และการจัดการขนาดของตาราง ล้วนส่งผลกระทบต่อการทำงานของ PostgreSQL

การเลือกใช้ Data Type ที่เหมาะสม

การเลือก Data Type ที่เล็กที่สุดที่ยังคงรองรับข้อมูลของคุณได้เป็นสิ่งสำคัญครับ

Integer Types:
- SMALLINT (-32768 ถึง 32767): ใช้ 2 bytes
- INTEGER (-2147483648 ถึง 2147483647): ใช้ 4 bytes (ค่าเริ่มต้นที่ควรใช้บ่อยที่สุด)
- BIGINT (-9223372036854775808 ถึง 9223372036854775807): ใช้ 8 bytes (ใช้เมื่อ INTEGER ไม่พอ)
หลีกเลี่ยง BIGINT หาก INTEGER เพียงพอ เพราะใช้พื้นที่และทรัพยากรมากกว่า
Numeric Types:
- NUMERIC/DECIMAL: มีความแม่นยำสูง เหมาะสำหรับเงินหรือค่าที่ไม่สามารถมี Floating Point Error ได้ แต่มี Overhead ในการจัดเก็บและประมวลผลสูงกว่า
- REAL (Single-precision float), DOUBLE PRECISION (Double-precision float): เร็วกว่าแต่มีความแม่นยำจำกัด เหมาะสำหรับค่าทางวิทยาศาสตร์ที่ไม่ต้องการความแม่นยำสัมบูรณ์
ใช้ NUMERIC เมื่อจำเป็นจริง ๆ หากเป็นไปได้ ให้ใช้ INTEGER โดยเก็บค่าเป็นสตางค์หรือหน่วยย่อยอื่น ๆ แล้วค่อยแปลงเมื่อแสดงผล
Character Types:
- TEXT: เก็บข้อความยาว ๆ ไม่จำกัดความยาว
- VARCHAR(n): เก็บข้อความยาวสูงสุด n ตัวอักษร
- CHAR(n): เก็บข้อความยาว n ตัวอักษร (จะเติมช่องว่างถ้าข้อความสั้นกว่า)
สำหรับ PostgreSQL, VARCHAR(n) และ TEXT มีประสิทธิภาพใกล้เคียงกัน แต่ TEXT มักจะถูกแนะนำเพราะไม่ต้องกังวลเรื่องการกำหนดความยาวสูงสุด อย่างไรก็ตาม การกำหนด VARCHAR(n) สามารถช่วยในการบังคับใช้ข้อจำกัดของข้อมูลได้ครับ CHAR(n) ไม่ค่อยนิยมใช้เพราะมี Overhead ในการจัดการช่องว่าง
Date/Time Types:
- TIMESTAMP WITHOUT TIME ZONE: ใช้ 8 bytes เก็บวันที่และเวลา โดยไม่มีข้อมูล Time Zone
- TIMESTAMP WITH TIME ZONE: ใช้ 8 bytes เก็บวันที่และเวลา พร้อม Time Zone (เก็บเป็น UTC แล้วแปลงเมื่อแสดงผล)
- DATE: ใช้ 4 bytes เก็บเฉพาะวันที่
- TIME: ใช้ 8 bytes เก็บเฉพาะเวลา
ใช้ TIMESTAMP WITH TIME ZONE สำหรับข้อมูลที่ต้องคำนึงถึง Time Zone และเก็บเป็น UTC เป็นแนวทางปฏิบัติที่ดีที่สุดครับ

Normalization vs. Denormalization

Normalization (การทำให้เป็นมาตรฐาน):
ลดความซ้ำซ้อนของข้อมูล (Data Redundancy) ทำให้ฐานข้อมูลมีขนาดเล็กลง, ลดความผิดพลาดเมื่อมีการอัปเดต, และง่ายต่อการจัดการ แต่บางครั้งต้องใช้ JOIN หลายตารางเพื่อดึงข้อมูล ซึ่งอาจทำให้ Query ช้าลง
Denormalization (การลดมาตรฐาน):
เพิ่มความซ้ำซ้อนของข้อมูลในบางคอลัมน์ เพื่อลดจำนวน JOIN ที่ต้องทำ ทำให้ Query ทำงานได้เร็วขึ้น เหมาะสำหรับระบบที่มีการอ่านสูง (Read-heavy) และข้อมูลที่เปลี่ยนแปลงไม่บ่อย

ตัวอย่าง: แทนที่จะต้อง Join ตาราง orders กับ customers เพื่อดึงชื่อลูกค้าทุกครั้ง คุณอาจจะเก็บ customer_name ไว้ในตาราง orders โดยตรงได้ แต่ต้องระวังเรื่อง Data Consistency หากชื่อลูกค้าเปลี่ยน คุณต้องอัปเดตในหลาย ๆ ที่
คำแนะนำ: เริ่มต้นด้วย Normalization เสมอครับ และค่อยพิจารณา Denormalization ในบางส่วนของ Schema เมื่อพบปัญหาประสิทธิภาพที่ชัดเจนจากการทำ JOIN มากเกินไป และหลังจากได้ลองปรับแต่งด้วยวิธีอื่น ๆ แล้วครับ

Table Partitioning

สำหรับตารางที่มีขนาดใหญ่มาก ๆ (หลายสิบล้านหรือพันล้านแถว) Table Partitioning สามารถช่วยปรับปรุงประสิทธิภาพได้อย่างมาก โดยการแบ่งตารางใหญ่ออกเป็นตารางย่อย ๆ (Partitions) ตามเงื่อนไขที่กำหนด เช่น ช่วงเวลา, ID หรือ Hash

ข้อดี:
- เพิ่มประสิทธิภาพ Query: Query ที่มีเงื่อนไขตรงกับ Partition Key จะสแกนเฉพาะ Partition ที่เกี่ยวข้อง ไม่ต้องสแกนทั้งตาราง
- เพิ่มประสิทธิภาพการบำรุงรักษา: VACUUM หรือ Reindex ทำงานบน Partition ย่อยได้เร็วกว่า
- จัดการข้อมูลได้ง่ายขึ้น: สามารถลบข้อมูลเก่าโดยการ Drop Partition ได้อย่างรวดเร็ว (Attach/Detach Partition)
ประเภท Partitioning:
- Range Partitioning: แบ่งตามช่วงค่า (เช่น order_date, id)
- List Partitioning: แบ่งตามรายการค่า (เช่น region, status)
- Hash Partitioning: แบ่งตามค่า Hash ของคอลัมน์ (กระจายข้อมูลได้สม่ำเสมอ)
ตัวอย่าง (Range Partitioning ใน PostgreSQL 10+):

CREATE TABLE sensor_data (
    id BIGSERIAL,
    device_id INT,
    reading NUMERIC,
    timestamp TIMESTAMPTZ NOT NULL
) PARTITION BY RANGE (timestamp);

CREATE TABLE sensor_data_2023_q1 PARTITION OF sensor_data
    FOR VALUES FROM ('2023-01-01 00:00:00') TO ('2023-04-01 00:00:00');

CREATE TABLE sensor_data_2023_q2 PARTITION OF sensor_data
    FOR VALUES FROM ('2023-04-01 00:00:00') TO ('2023-07-01 00:00:00');

-- เมื่อ Insert ข้อมูล PostgreSQL จะจัดการนำข้อมูลไปลง Partition ที่ถูกต้องเอง

การทำ Partitioning ต้องวางแผนอย่างรอบคอบ เพราะเมื่อสร้างแล้ว การเปลี่ยนแปลง Partition Key อาจทำได้ยากครับ

VACUUM และ Autovacuum: ทำไมมันถึงสำคัญ?

PostgreSQL ใช้กลไก Multi-Version Concurrency Control (MVCC) ซึ่งหมายความว่าเมื่อคุณอัปเดตหรือลบแถวข้อมูล แถวเก่าจะไม่ได้ถูกลบออกทันที แต่จะถูกทำเครื่องหมายว่า "dead tuple" (แถวที่ตายแล้ว) เพื่อให้ Transaction อื่น ๆ ที่กำลังอ่านข้อมูลเวอร์ชันเก่ายังคงทำงานได้ แถวเหล่านี้จะใช้พื้นที่บน Disk และใน Index โดยไม่จำเป็น ซึ่งเรียกว่า "Bloat"

VACUUM:
เป็นกระบวนการที่กู้คืนพื้นที่ที่ถูกครอบครองโดย dead tuples ทำให้พื้นที่เหล่านั้นสามารถถูกนำกลับมาใช้ใหม่ได้
VACUUM FULL:
ทำการกู้คืนพื้นที่และบีบอัดตารางให้มีขนาดเล็กลงจริง ๆ แต่จะ Lock ตารางนั้นไว้ทั้งหมด ทำให้ไม่สามารถเข้าถึงตารางได้ชั่วคราว ไม่ควรใช้บ่อย ๆ ในระบบ Production
ANALYZE:
เก็บสถิติการกระจายข้อมูลในตารางและ Index เพื่อให้ Query Planner สามารถสร้างแผนการทำงานที่มีประสิทธิภาพมากขึ้น
Autovacuum:
เป็นกระบวนการ Background ที่ทำงานโดยอัตโนมัติเพื่อรัน VACUUM และ ANALYZE เมื่อตรวจพบว่ามีข้อมูลเปลี่ยนแปลงในตารางถึงจุดที่กำหนดไว้ (ตามพารามิเตอร์ autovacuum_vacuum_scale_factor และ autovacuum_analyze_scale_factor) ควรเปิดใช้งาน Autovacuum เสมอ และปรับแต่งพารามิเตอร์ให้เหมาะสมกับ Workload ของคุณครับ
ความสำคัญ:
- ป้องกัน Bloat ซึ่งทำให้ Query ช้าลงและใช้ Disk มากขึ้น
- ป้องกัน Transaction ID Wraparound ซึ่งอาจทำให้ฐานข้อมูลหยุดทำงาน
- อัปเดตสถิติให้ Query Planner เลือกแผนการทำงานที่ดีที่สุด

การจัดการ VACUUM และ Autovacuum ที่ดีเป็นสิ่งจำเป็นสำหรับประสิทธิภาพและความเสถียรของ PostgreSQL ครับ เรียนรู้เพิ่มเติมเกี่ยวกับการจัดการ Autovacuum

การปรับแต่งระดับ Hardware และ OS

แม้ว่าการปรับแต่งซอฟต์แวร์จะเป็นสิ่งสำคัญ แต่ฐานรากของประสิทธิภาพก็ยังคงอยู่ที่ฮาร์ดแวร์และระบบปฏิบัติการครับ การเลือกฮาร์ดแวร์ที่เหมาะสมและการปรับแต่ง OS เล็กน้อยสามารถสร้างความแตกต่างได้มาก

CPU, Memory และ Storage

CPU:
- จำนวน Core: PostgreSQL สามารถใช้หลาย Core ได้สำหรับ Query ที่แตกต่างกัน และสำหรับ Background Processes การมี Core มากขึ้นช่วยให้สามารถจัดการ Concurrency ได้ดีขึ้น
- Clock Speed: สำหรับ Query ที่เป็น Single-threaded (เช่น การ Scan Index ที่เล็ก ๆ) Clock Speed ที่สูงกว่าอาจมีประโยชน์มากกว่าจำนวน Core ที่มากขึ้น
- คำแนะนำ: สำหรับฐานข้อมูลที่มี Workload หลากหลาย ควรเลือก CPU ที่มีจำนวน Core ที่เหมาะสมและ Clock Speed ที่ดีครับ
Memory (RAM):
- ปริมาณ: "ยิ่งเยอะยิ่งดี" เป็นหลักการที่ค่อนข้างใช้ได้จริงสำหรับฐานข้อมูล RAM ที่เพียงพอช่วยให้ PostgreSQL แคชข้อมูลได้มากขึ้น ลด Disk I/O อย่างมาก
- คำแนะนำ: อย่างน้อย 8GB สำหรับ Server เล็ก ๆ และ 32GB, 64GB, 128GB หรือมากกว่านั้นสำหรับ Production Server ที่มี Workload หนัก
Storage (Disk I/O):
- SSD (Solid State Drives): ควรใช้ SSD เสมอสำหรับฐานข้อมูล Production โดยเฉพาะ NVMe SSDs ซึ่งให้ประสิทธิภาพ I/O ที่เหนือกว่า HDD อย่างมหาศาล
- RAID Configuration:
  - RAID 1 (Mirroring): สำหรับ WAL, ปกติจะแยก Disk ออกมาต่างหากเพื่อ Performance และ Fault Tolerance
  - RAID 10 (Striping + Mirroring): เป็นตัวเลือกที่ดีที่สุดสำหรับ Data Files เพราะให้ทั้งประสิทธิภาพและ Fault Tolerance
  - หลีกเลี่ยง RAID 5 หรือ RAID 6 สำหรับ Workload ที่มีการเขียนสูงเนื่องจากมี Write Penalty
- คำแนะนำ:
  - แยก Disk สำหรับ Data Files และ WAL ครับ
  - ใช้ NVMe SSDs ในการตั้งค่า RAID 10 (หรือ RAID 1 หากงบประมาณจำกัด
    บทความที่เกี่ยวข้อง
    Siam2R.com — Portfolio งาน IT · XM Signal — Free Forex EA Download