PostgreSQL Performance Tuning คู่มือปรับแต่งฐานข้อมูล

March 16, 2026

0 Views

SaveSavedRemoved 0

สวัสดีครับ ชาว SiamLancard.com ทุกท่าน! ในโลกของการพัฒนาซอฟต์แวร์และแอปพลิเคชันยุคใหม่ ฐานข้อมูลคือหัวใจสำคัญที่ขับเคลื่อนทุกสิ่ง และ PostgreSQL ก็เป็นหนึ่งในฐานข้อมูลเชิงสัมพันธ์ (Relational Database) ที่ได้รับความนิยมอย่างแพร่หลาย ด้วยความสามารถที่ทรงพลัง ความน่าเชื่อถือสูง และเป็น Open Source ทำให้มันเป็นตัวเลือกอันดับต้นๆ สำหรับโปรเจกต์หลากหลายประเภท ตั้งแต่สตาร์ทอัพขนาดเล็กไปจนถึงองค์กรขนาดใหญ่ แต่การติดตั้ง PostgreSQL แล้วปล่อยให้มันทำงานไปตามค่าเริ่มต้น อาจไม่เพียงพอที่จะตอบโจทย์ความต้องการด้านประสิทธิภาพที่สูงขึ้นเรื่อยๆ ได้เสมอไปครับ

บทความนี้จะนำท่านดำดิ่งสู่โลกของการปรับแต่งประสิทธิภาพ PostgreSQL หรือที่เรียกว่า “PostgreSQL Performance Tuning” อย่างเจาะลึก เราจะมาดูกันว่ามีปัจจัยอะไรบ้างที่ส่งผลต่อความเร็วในการทำงานของฐานข้อมูล และเราจะสามารถปรับแต่งค่าต่างๆ ทั้งในระดับ Configuration, Schema Design, Query Optimization ไปจนถึงการดูแลรักษาระบบปฏิบัติการได้อย่างไร เพื่อให้ PostgreSQL ของท่านทำงานได้อย่างเต็มศักยภาพสูงสุด ลดปัญหาคอขวด (Bottleneck) และมอบประสบการณ์การใช้งานที่ลื่นไหลให้กับผู้ใช้ของท่านครับ

การปรับแต่งประสิทธิภาพไม่ใช่แค่การเปลี่ยนค่าตัวเลขไปมาอย่างสุ่มสี่สุ่มห้า แต่เป็นการทำความเข้าใจหลักการทำงานของ PostgreSQL อย่างถ่องแท้ การวิเคราะห์ปัญหา และการทดสอบผลลัพธ์อย่างเป็นระบบ ซึ่งบทความนี้จะช่วยให้ท่านมีแนวทางและเครื่องมือที่จำเป็นในการเดินทางสายนี้ หวังว่าท่านจะได้รับประโยชน์และสามารถนำความรู้ไปประยุกต์ใช้กับระบบของท่านได้อย่างมีประสิทธิภาพนะคะ/ครับ

สารบัญ

ทำความเข้าใจพื้นฐานประสิทธิภาพของ PostgreSQL
- สถาปัตยกรรม PostgreSQL ที่มีผลต่อประสิทธิภาพ
- ตัวชี้วัดสำคัญที่ต้องจับตา
การปรับแต่งไฟล์ postgresql.conf: หัวใจของการกำหนดค่า
การออกแบบ Schema และ Index ที่มีประสิทธิภาพ
การปรับแต่ง Query ให้เร็วขึ้น
- ทำความเข้าใจ EXPLAIN และ EXPLAIN ANALYZE
- เทคนิคการเขียน Query ที่ดี
การจัดการ VACUUM และ Autovacuum
การตรวจสอบและเฝ้าระวังประสิทธิภาพ (Monitoring and Observability)
การปรับแต่งระดับระบบปฏิบัติการ (Operating System Level Tuning)
เทคนิคขั้นสูงและข้อควรพิจารณาเพิ่มเติม
คำถามที่พบบ่อย (FAQ)
สรุปและ Call-to-Action

ทำความเข้าใจพื้นฐานประสิทธิภาพของ PostgreSQL

ก่อนที่เราจะเริ่มปรับแต่งสิ่งใดๆ เราจำเป็นต้องเข้าใจพื้นฐานการทำงานของ PostgreSQL ที่ส่งผลต่อประสิทธิภาพเสียก่อนครับ การเข้าใจสถาปัตยกรรมและกลไกภายในจะช่วยให้เราตัดสินใจปรับแต่งได้อย่างถูกต้องและมีเหตุผลมากยิ่งขึ้นครับ

สถาปัตยกรรม PostgreSQL ที่มีผลต่อประสิทธิภาพ

MVCC (Multi-Version Concurrency Control):

นี่คือหัวใจสำคัญที่ทำให้ PostgreSQL สามารถจัดการกับ Transaction พร้อมกันได้จำนวนมากโดยไม่ต้อง Lock ข้อมูลทั้งหมดครับ หลักการคือเมื่อมีการแก้ไขข้อมูล PostgreSQL จะไม่ทำการอัปเดตข้อมูลเดิมโดยตรง แต่จะสร้าง “เวอร์ชัน” ใหม่ของแถวข้อมูลนั้นๆ และเก็บเวอร์ชันเก่าไว้ชั่วคราว ทำให้การอ่านข้อมูล (SELECT) ไม่ถูกบล็อกโดยการเขียนข้อมูล (INSERT, UPDATE, DELETE) แต่ข้อเสียคือการเก็บเวอร์ชันเก่าเหล่านี้เรียกว่า “Dead Tuples” ซึ่งจะใช้พื้นที่ใน Disk และส่งผลต่อประสิทธิภาพหากไม่ได้รับการจัดการที่ดีผ่านกระบวนการ VACUUM ครับ
Shared Buffers:

เป็นส่วนของหน่วยความจำ (RAM) ที่ PostgreSQL ใช้เก็บ Block ข้อมูลที่ถูกเรียกใช้บ่อยๆ จาก Disk ครับ ยิ่งมีข้อมูลอยู่ใน Shared Buffers มากเท่าไหร่ PostgreSQL ก็ยิ่งเข้าถึงข้อมูลได้เร็วขึ้นเท่านั้น เพราะไม่ต้องไปอ่านจาก Disk ซึ่งช้ากว่า RAM มาก การปรับแต่งค่านี้จึงสำคัญอย่างยิ่งครับ
WAL (Write-Ahead Log):

PostgreSQL ใช้ WAL เพื่อรับประกันความคงทนของข้อมูล (Durability) ครับ ทุกการเปลี่ยนแปลงข้อมูลจะถูกบันทึกลง WAL ก่อนที่จะเขียนลง Data File จริงๆ บน Disk การทำเช่นนี้ทำให้มั่นใจได้ว่าแม้ระบบจะล่ม ข้อมูลที่ Commit ไปแล้วจะไม่สูญหายไปครับ แต่การเขียน WAL ก็ต้องใช้ I/O และหากมีการเขียนเยอะๆ ก็อาจเป็นคอขวดได้ครับ
Process Model:

PostgreSQL เป็นแบบ Process-based ครับ หมายความว่าแต่ละ Client Connection จะมี Process ของตัวเอง ซึ่งจะใช้หน่วยความจำและ CPU แยกกัน การมี Connection จำนวนมากเกินไปโดยไม่ได้มีการจัดการที่ดี อาจทำให้สิ้นเปลืองทรัพยากรและส่งผลต่อประสิทธิภาพโดยรวมได้ครับ

ตัวชี้วัดสำคัญที่ต้องจับตา

การปรับแต่งประสิทธิภาพเริ่มต้นจากการ “วัด” ครับ เราไม่สามารถปรับแต่งสิ่งที่เราไม่เคยวัดได้ การติดตามตัวชี้วัดเหล่านี้จะช่วยให้เราเข้าใจว่าส่วนใดของระบบกำลังมีปัญหาครับ

CPU Usage:

หาก CPU สูงตลอดเวลา อาจเกิดจาก Query ที่ซับซ้อน, การเรียงข้อมูลขนาดใหญ่, หรือการมี Connection มากเกินไปครับ
RAM Usage:

การใช้ RAM ที่เหมาะสมเป็นสิ่งสำคัญ หาก RAM ไม่พอ อาจเกิดการ Swap (ใช้ Disk แทน RAM) ซึ่งจะทำให้ประสิทธิภาพลดลงอย่างมากครับ
Disk I/O:

เป็นตัวชี้วัดที่สำคัญที่สุดตัวหนึ่งครับ หาก Disk I/O สูงมาก แสดงว่าฐานข้อมูลกำลังอ่านหรือเขียนข้อมูลจำนวนมากจาก Disk อาจเป็นเพราะ Cache ไม่พอ, Index ไม่เหมาะสม, หรือ Autovacuum ทำงานหนักครับ
Network Latency/Throughput:

แม้จะไม่ใช่ปัญหาโดยตรงของฐานข้อมูล แต่ Network ก็เป็นส่วนหนึ่งของระบบ หาก Network ช้า ก็จะทำให้การเรียกใช้ฐานข้อมูลดูช้าลงได้ครับ
Query Latency/Throughput:

เวลาเฉลี่ยที่ Query ใช้ในการประมวลผล (Latency) และจำนวน Query ที่ประมวลผลได้ต่อวินาที (Throughput) เป็นตัวชี้วัดโดยตรงถึงประสิทธิภาพของฐานข้อมูลครับ
Number of Connections:

จำนวน Connection ที่ใช้งานพร้อมกัน หากสูงเกินไป อาจทำให้เกิดปัญหา Overload ได้ครับ

การปรับแต่งไฟล์ postgresql.conf: หัวใจของการกำหนดค่า

ไฟล์ postgresql.conf คือไฟล์กำหนดค่าหลักของ PostgreSQL ครับ การปรับแต่งค่าต่างๆ ในไฟล์นี้อย่างเหมาะสมเป็นขั้นตอนแรกและสำคัญที่สุดในการปรับปรุงประสิทธิภาพ การเปลี่ยนแปลงค่าส่วนใหญ่จะต้อง Restart PostgreSQL Server เพื่อให้มีผลครับ

การจัดการหน่วยความจำ (Memory Management)

หน่วยความจำเป็นทรัพยากรที่สำคัญที่สุดอย่างหนึ่งในการปรับปรุงประสิทธิภาพครับ

shared_buffers:

กำหนดขนาดของหน่วยความจำที่ PostgreSQL ใช้สำหรับแคชข้อมูลที่อ่านมาจาก Disk เป็นค่าที่สำคัญที่สุดครับ
- แนวทาง: โดยทั่วไปควรตั้งค่าประมาณ 25% ของ RAM ทั้งหมดของเซิร์ฟเวอร์ (ถ้าเซิร์ฟเวอร์นั้นมีแต่ PostgreSQL) หรือ 15-20% หากมีบริการอื่นรันอยู่ด้วยครับ ห้ามตั้งสูงเกินไปจนทำให้เกิดการ Swap
- ตัวอย่าง: สำหรับเซิร์ฟเวอร์ที่มี RAM 16GB อาจตั้งค่าเป็น 4GB (4GB)
work_mem:

กำหนดขนาดของหน่วยความจำที่แต่ละ Process ของ PostgreSQL สามารถใช้ได้สำหรับการดำเนินการชั่วคราว เช่น การเรียงข้อมูล (SORT), การสร้าง Hash Table, หรือการ Join ข้อมูลครับ หาก Query ต้องการหน่วยความจำมากกว่าที่กำหนด จะใช้ Disk แทนซึ่งช้ากว่ามากครับ
- แนวทาง: เริ่มต้นด้วยค่าต่ำๆ เช่น 4MB หรือ 8MB แล้วค่อยๆ เพิ่มขึ้นหากพบว่ามี Query ช้าที่เกี่ยวข้องกับการเรียงข้อมูลขนาดใหญ่ (ตรวจสอบจาก EXPLAIN ANALYZE) ระวังอย่าตั้งสูงเกินไป เพราะนี่คือหน่วยความจำ ต่อหนึ่ง Process หากมี Connection พร้อมกันเยอะๆ จะใช้ RAM รวมกันสูงมากครับ
- ตัวอย่าง:
```
work_mem = 16MB
```
maintenance_work_mem:

กำหนดขนาดหน่วยความจำที่ใช้สำหรับงานบำรุงรักษาฐานข้อมูล เช่น VACUUM, CREATE INDEX, ALTER TABLE หรือการเพิ่ม Foreign Key ครับ
- แนวทาง: ค่านี้สามารถตั้งให้สูงกว่า work_mem ได้อย่างปลอดภัย เพราะงานเหล่านี้ไม่ได้ทำพร้อมกันหลายๆ ครั้งครับ แนะนำที่ 128MB – 1GB ขึ้นอยู่กับ RAM ทั้งหมด และขนาดของตารางที่ต้องบำรุงรักษาครับ
- ตัวอย่าง:
```
maintenance_work_mem = 512MB
```
effective_cache_size:

ค่านี้ไม่ได้เป็นการจัดสรรหน่วยความจำโดยตรง แต่เป็นการบอก Optimizer ของ PostgreSQL ว่าระบบปฏิบัติการ (OS) มีแคช Disk ขนาดเท่าใดครับ ช่วยให้ Optimizer ตัดสินใจได้ดีขึ้นว่าควรจะเลือกใช้ Index หรือ Sequential Scan ครับ
- แนวทาง: ควรตั้งค่าประมาณ 50-75% ของ RAM ทั้งหมดของเซิร์ฟเวอร์ครับ
- ตัวอย่าง: สำหรับ RAM 16GB อาจตั้งค่าเป็น 12GB
```
effective_cache_size = 12GB
```

การจัดการ Write-Ahead Log (WAL)

WAL เป็นส่วนสำคัญสำหรับความคงทนของข้อมูลและการทำ Replication ครับ

wal_buffers:

ขนาดหน่วยความจำที่ใช้สำหรับบัฟเฟอร์ WAL ก่อนที่จะเขียนลง Disk ครับ
- แนวทาง: ค่าเริ่มต้น -1 (2MB) มักจะเพียงพอ แต่หากมีการเขียนข้อมูลจำนวนมาก อาจลองเพิ่มเป็น 16MB หรือ 32MB ได้ครับ
- ตัวอย่าง:
```
wal_buffers = 16MB
```
fsync และ synchronous_commit:

ควบคุมการเขียน WAL ลง Disk เพื่อความคงทนของข้อมูลครับ
- fsync = on: แนะนำให้เปิดไว้เสมอเพื่อความคงทนของข้อมูล (ยกเว้นกรณีพิเศษที่ยอมรับความเสี่ยงได้)
- synchronous_commit = on: ทุก Transaction จะถูกยืนยันเมื่อ WAL ถูกเขียนลง Disk แล้ว ทำให้ข้อมูลคงทน แต่ช้ากว่า หากสามารถยอมรับการสูญเสียข้อมูลเล็กน้อยในกรณีที่ Server ล่มกะทันหัน (เช่น ไม่ใช่ระบบการเงิน) อาจตั้งเป็น off หรือ local เพื่อเพิ่ม Throughput ครับ
- ตัวอย่าง:
```
fsync = on
synchronous_commit = on # หรือ off/local ตามความต้องการ
```

การปรับแต่ง Cost-Based Optimizer

PostgreSQL มี Cost-Based Optimizer ที่จะเลือกแผนการทำงานของ Query ที่มี Cost ต่ำที่สุดครับ เราสามารถช่วย Optimizer โดยการปรับค่า Cost ต่างๆ ครับ

random_page_cost:

ค่าใช้จ่ายในการอ่านหนึ่ง Block ข้อมูลแบบสุ่มจาก Disk (เช่น การใช้ Index) ค่าเริ่มต้นคือ 4.0
seq_page_cost:

ค่าใช้จ่ายในการอ่านหนึ่ง Block ข้อมูลแบบ Sequential จาก Disk (เช่น Full Table Scan) ค่าเริ่มต้นคือ 1.0
- แนวทาง: หากใช้ SSD ควรลดค่า random_page_cost ลงให้ใกล้เคียงกับ seq_page_cost มากขึ้น (เช่น random_page_cost = 1.1 หรือ 1.5) เพื่อให้ Optimizer มีแนวโน้มที่จะเลือกใช้ Index มากขึ้นครับ
- ตัวอย่าง:
```
random_page_cost = 1.1 # สำหรับ SSD
seq_page_cost = 1.0
```

การตั้งค่า Autovacuum

Autovacuum เป็น Process พื้นหลังที่สำคัญมากในการจัดการ Dead Tuples และป้องกัน Transaction ID Wraparound ครับ

autovacuum:

เปิด/ปิด Autovacuum แนะนำให้เปิดเสมอครับ
```
autovacuum = on
```
autovacuum_max_workers:

จำนวน Process ของ Autovacuum ที่สามารถทำงานพร้อมกันได้
- แนวทาง: ค่าเริ่มต้น 3 มักจะเพียงพอ แต่หากมีตารางขนาดใหญ่จำนวนมาก อาจเพิ่มเป็น 5-10 ได้ครับ
- ตัวอย่าง:
```
autovacuum_max_workers = 5
```
autovacuum_vacuum_scale_factor และ autovacuum_analyze_scale_factor:

สัดส่วนของ Dead Tuples ที่ต้องถึงก่อนที่ Autovacuum จะทำงาน (scale_factor + base_threshold)
- แนวทาง: ค่าเริ่มต้น 0.2 (20%) มักจะดี แต่สำหรับตารางที่มีการเปลี่ยนแปลงบ่อยๆ หรือตารางขนาดใหญ่มาก อาจปรับลดลงเล็กน้อย (เช่น 0.1) เพื่อให้ Autovacuum ทำงานบ่อยขึ้นและจัดการ Dead Tuples ได้เร็วขึ้นครับ
- ตัวอย่าง:
```
autovacuum_vacuum_scale_factor = 0.1
autovacuum_analyze_scale_factor = 0.05 # Analyze บ่อยขึ้นเพื่ออัปเดตสถิติ Optimizer
```
autovacuum_vacuum_cost_delay:

ระยะเวลาที่ Autovacuum จะ “พัก” หลังจากทำงานไปถึง Cost ที่กำหนด เพื่อไม่ให้รบกวนการทำงานปกติของฐานข้อมูล
- แนวทาง: ค่าเริ่มต้น 20ms มักจะสูงไปสำหรับระบบที่มี I/O แรงๆ หากพบว่า Dead Tuples สะสมมาก อาจลดค่านี้ลง (เช่น 10ms หรือ 5ms) เพื่อให้ Autovacuum ทำงานได้เร็วขึ้นครับ
- ตัวอย่าง:
```
autovacuum_vacuum_cost_delay = 10ms
```

การตั้งค่าการเชื่อมต่อ (Connection Settings)

max_connections:

จำนวน Client Connection สูงสุดที่ PostgreSQL ยอมรับ
- แนวทาง: อย่าตั้งค่าสูงเกินไปโดยไม่จำเป็น เพราะแต่ละ Connection ใช้ RAM และ CPU ครับ ตั้งค่าให้เหมาะสมกับจำนวน Application Server และ Connection Pooler ที่ใช้งานครับ
- ตัวอย่าง:
```
max_connections = 100
```

การตั้งค่า Checkpoint

Checkpoint คือกระบวนการที่ PostgreSQL เขียนข้อมูลที่อยู่ใน Shared Buffers ลง Disk และอัปเดต WAL เพื่อให้สามารถกู้คืนระบบได้อย่างรวดเร็วครับ

checkpoint_timeout:

ระยะเวลาสูงสุดระหว่าง Checkpoint (ค่าเริ่มต้น 5 นาที)
max_wal_size:

ขนาดสูงสุดของ WAL ที่จะเขียนก่อนที่จะเกิด Checkpoint (ค่าเริ่มต้น 1GB)
- แนวทาง: การเกิด Checkpoint บ่อยเกินไปจะทำให้เกิด Disk I/O Spikes ได้ครับ ควรเพิ่ม checkpoint_timeout และ max_wal_size เพื่อให้ Checkpoint เกิดขึ้นน้อยลง โดยเฉพาะในระบบที่มีการเขียนข้อมูลจำนวนมาก เช่น checkpoint_timeout = 15min และ max_wal_size = 4GB หรือสูงกว่าครับ
- ตัวอย่าง:
```
checkpoint_timeout = 15min
max_wal_size = 4GB
```

การออกแบบ Schema และ Index ที่มีประสิทธิภาพ

การปรับแต่งที่ระดับ Application และ Database Schema มักจะมีผลกระทบต่อประสิทธิภาพมากกว่าการปรับแต่ง postgresql.conf เพียงอย่างเดียวครับ

การเลือก Data Type ที่เหมาะสม

การเลือก Data Type ที่เล็กและเหมาะสม จะช่วยประหยัดพื้นที่ Disk, ลด I/O และทำให้ Query ทำงานได้เร็วขึ้นครับ

ใช้ SMALLINT, INTEGER, BIGINT ให้เหมาะสม:

อย่าใช้ BIGINT ถ้าค่าสูงสุดไม่เกิน 32,767 (SMALLINT) หรือ 2,147,483,647 (INTEGER) ครับ
ใช้ TEXT หรือ VARCHAR ที่ไม่มีความยาวจำกัดอย่างระมัดระวัง:

หากรู้ความยาวสูงสุดของ String ควรใช้ VARCHAR(n) เพื่อความชัดเจน แม้ PostgreSQL จะไม่ได้จัดสรรพื้นที่ล่วงหน้าสำหรับ VARCHAR(n) เหมือนฐานข้อมูลอื่น แต่การกำหนดขีดจำกัดก็เป็น Good Practice ครับ
ใช้ DATE, TIMESTAMP, TIMESTAMPTZ ให้ถูกสถานการณ์:

TIMESTAMPTZ เหมาะสำหรับเก็บเวลาที่มี Timezone เพื่อหลีกเลี่ยงปัญหา Timezone ครับ
ใช้ BOOLEAN แทน INTEGER สำหรับค่าจริง/เท็จ:

BOOLEAN ใช้พื้นที่เพียง 1 ไบต์ ประหยัดกว่า INTEGER ครับ

Normalization vs. Denormalization

Normalization (การทำให้เป็นมาตรฐาน):

ลดการซ้ำซ้อนของข้อมูล ทำให้ข้อมูลสอดคล้องกันและง่ายต่อการบำรุงรักษา แต่ต้องใช้ JOINs มากขึ้นในการดึงข้อมูล ทำให้ Query ซับซ้อนและอาจช้าลงครับ
Denormalization (การไม่ทำให้เป็นมาตรฐาน):

มีการซ้ำซ้อนของข้อมูลบ้าง เพื่อลดจำนวน JOINs ทำให้ Query ง่ายขึ้นและเร็วขึ้นในการอ่านข้อมูล แต่การเขียนข้อมูล (UPDATE/INSERT) อาจซับซ้อนขึ้นและต้องจัดการกับความสอดคล้องของข้อมูลเองครับ

แนวทาง: เริ่มต้นด้วย Normalization เสมอครับ และค่อยๆ พิจารณา Denormalization ในส่วนที่มีปัญหาด้านประสิทธิภาพจริงๆ หลังจากทำการวัดผลแล้วเท่านั้นครับ การทำ Denormalization ก่อนเวลาอันควรอาจนำไปสู่ปัญหา Data Inconsistency ที่แก้ไขได้ยากกว่าครับ

การใช้ Index อย่างชาญฉลาด

Index เป็นเหมือนสารบัญของหนังสือ ช่วยให้ฐานข้อมูลค้นหาข้อมูลได้เร็วขึ้น แต่ก็มี Cost ในการสร้างและบำรุงรักษาครับ

B-tree Index:

Index ประเภทที่พบบ่อยที่สุด ใช้สำหรับคอลัมน์ที่ใช้ในเงื่อนไข WHERE, ORDER BY, GROUP BY, DISTINCT, หรือ Join ครับ
Hash Index:

ใช้สำหรับการค้นหาแบบเท่ากับ (=) เท่านั้น ไม่รองรับการค้นหาช่วงหรือการเรียงลำดับ ปัจจุบัน B-tree มักจะทำงานได้ดีกว่าและมีข้อจำกัดน้อยกว่าครับ
GIN (Generalized Inverted Index) และ GIST (Generalized Search Tree):

ใช้สำหรับข้อมูลประเภทพิเศษ เช่น Array, JSONB, Text Search (Full-Text Search) หรือ Geographic Data (PostGIS) ครับ
BRIN (Block Range Index):

เหมาะสำหรับตารางขนาดใหญ่ที่มีข้อมูลเรียงลำดับตามธรรมชาติ เช่น คอลัมน์ Timestamp ที่เพิ่มขึ้นเรื่อยๆ ใช้พื้นที่น้อยมากแต่มีประสิทธิภาพสูงสำหรับการค้นหาช่วงครับ
Partial Indexes:

สร้าง Index เฉพาะกับส่วนย่อยของข้อมูลในตารางที่มีเงื่อนไขเฉพาะ เช่น CREATE INDEX ON users (email) WHERE is_active = TRUE; ช่วยลดขนาด Index และเพิ่มประสิทธิภาพในการค้นหาครับ
Expression Indexes:

สร้าง Index จากผลลัพธ์ของ Expression หรือ Function เช่น CREATE INDEX ON products (lower(product_name)); เพื่อให้ Query ที่ใช้ lower(product_name) สามารถใช้ Index ได้ครับ
Covering Indexes (Index-only Scans):

เมื่อ Index มีคอลัมน์ทั้งหมดที่ Query ต้องการ (ใน SELECT และ WHERE clause) PostgreSQL สามารถอ่านข้อมูลได้จาก Index โดยตรงโดยไม่ต้องไปอ่านจาก Table Heap ช่วยลด Disk I/O ได้มากครับ

เมื่อไหร่ไม่ควรใช้ Index?

ตารางขนาดเล็กมากๆ ที่มีข้อมูลไม่กี่ร้อยแถว
คอลัมน์ที่มีค่า Unique น้อยมาก (Low Cardinality) เช่น คอลัมน์ gender (ชาย/หญิง)
คอลัมน์ที่มีการอัปเดตบ่อยมาก การบำรุงรักษา Index อาจช้ากว่าการทำ Full Table Scan ครับ

ตารางเปรียบเทียบประเภท Index

ประเภท Index	กรณีใช้งานหลัก	ข้อดี	ข้อจำกัด	เหมาะสำหรับ
B-tree	`=`, `<`, `>`, `BETWEEN`, `LIKE 'prefix%'`, `ORDER BY`, `GROUP BY`	ครอบคลุมการใช้งานทั่วไป, มีประสิทธิภาพสูง	ไม่เหมาะกับ Full-Text Search หรือ Array	คอลัมน์ส่วนใหญ่, Primary Keys, Foreign Keys
Hash	`=` (การค้นหาที่เท่ากันเท่านั้น)	เร็วสำหรับการค้นหาแบบเท่ากับ	ไม่รองรับการค้นหาช่วง, การเรียงลำดับ, ไม่ปลอดภัยเมื่อเกิด Crash Recovery ในบางเวอร์ชันเก่า	ไม่แนะนำให้ใช้ในปัจจุบัน, B-tree มักจะดีกว่า
GIN	Full-Text Search, JSONB, Array	มีประสิทธิภาพสำหรับการค้นหาภายในโครงสร้างข้อมูลที่ซับซ้อน	ช้าในการสร้างและอัปเดต, ใช้พื้นที่มาก	ข้อมูล Array, JSONB ที่ต้องค้นหาเนื้อหาภายใน
GIST	Geographic Data (PostGIS), Range Types	เหมาะสำหรับข้อมูลเชิงพื้นที่, Range queries	ซับซ้อนในการตั้งค่า	PostGIS, การค้นหาช่วงซ้อนทับ
BRIN	ตารางขนาดใหญ่ที่ข้อมูลเรียงตามธรรมชาติ	ใช้พื้นที่น้อยมาก, เร็วสำหรับการค้นหาช่วง	ไม่เหมาะกับข้อมูลที่ไม่เรียงลำดับ	Log tables, IoT data ที่มี Timestamp เรียงลำดับ

Partitioning สำหรับตารางขนาดใหญ่

Partitioning คือการแบ่งตารางขนาดใหญ่เป็นตารางย่อยๆ ที่เล็กลงแต่ยังคงทำงานเหมือนเป็นตารางเดียวครับ ช่วยเพิ่มประสิทธิภาพในการจัดการข้อมูลขนาดใหญ่และลด Cost ในการบำรุงรักษา Index

ข้อดี:
- ปรับปรุงประสิทธิภาพของ Query: Query สามารถสแกนเฉพาะ Partition ที่เกี่ยวข้องได้
- จัดการ Autovacuum ได้ดีขึ้น: Autovacuum ทำงานกับ Partition เล็กๆ ได้เร็วขึ้น
- ลบข้อมูลเก่าได้ง่าย: เพียงแค่ Drop Partition ทั้งหมดแทนการ Delete แถวต่อแถว
- บำรุงรักษา Index ได้เร็วขึ้น: Index ของแต่ละ Partition มีขนาดเล็กลง
ประเภท:
- Range Partitioning: แบ่งตามช่วงค่า เช่น วันที่, ID
- List Partitioning: แบ่งตามรายการค่าที่กำหนด เช่น Region, Status
- Hash Partitioning: แบ่งตามค่า Hash ของคอลัมน์
แนวทาง: พิจารณาใช้ Partitioning เมื่อตารางมีขนาดหลายร้อยล้านแถวขึ้นไป หรือมีแนวโน้มจะเติบโตอย่างรวดเร็วครับ

การปรับแต่ง Query ให้เร็วขึ้น

แม้ว่าเราจะปรับแต่ง Configuration และ Schema ดีแค่ไหน แต่ถ้า Query เขียนมาไม่ดี ประสิทธิภาพก็ยังคงต่ำอยู่ดีครับ การปรับแต่ง Query จึงเป็นสิ่งสำคัญมาก

ทำความเข้าใจ EXPLAIN และ EXPLAIN ANALYZE

EXPLAIN คือเครื่องมือวิเคราะห์ Query ของ PostgreSQL ที่สำคัญที่สุดครับ มันจะแสดงแผนการทำงาน (Execution Plan) ของ Query ว่าฐานข้อมูลจะเข้าถึงข้อมูลอย่างไร โดยไม่รัน Query จริงๆ ครับ ส่วน EXPLAIN ANALYZE จะรัน Query จริงๆ และแสดงเวลาที่ใช้ในแต่ละขั้นตอน รวมถึงข้อมูล Runtime จริงๆ ครับ

EXPLAIN ANALYZE SELECT * FROM users WHERE email = '[email protected]';

สิ่งสำคัญที่ต้องดูจากผลลัพธ์ของ EXPLAIN ANALYZE:

Cost: ค่าใช้จ่ายโดยประมาณ (ไม่ใช้เวลาจริง)
Rows: จำนวนแถวที่ Optimizer คาดการณ์ว่าจะได้ และจำนวนแถวที่ได้จริง (Actual Rows) หากต่างกันมาก อาจบ่งบอกว่าสถิติของตารางไม่เป็นปัจจุบัน (ต้อง ANALYZE หรือปรับ Autovacuum)
Width: ขนาดโดยประมาณของแต่ละแถว
Actual Time: เวลาจริงที่ใช้ในแต่ละ Node ของแผนการทำงาน
Buffers: จำนวน Shared Buffers และ Disk Block ที่อ่าน/เขียน
Planning Time: เวลาที่ Optimizer ใช้ในการวางแผน Query
Execution Time: เวลาที่ใช้ในการรัน Query ทั้งหมด
Node Types: เช่น Seq Scan (Full Table Scan), Index Scan, Bitmap Heap Scan, Hash Join, Nested Loop Join, Merge Join. เป้าหมายคือลด Seq Scan ในตารางขนาดใหญ่ และเปลี่ยนเป็น Index Scan หรือ Bitmap Heap Scan ครับ

เคล็ดลับ: หากเห็น Seq Scan บนตารางขนาดใหญ่ใน EXPLAIN ANALYZE แสดงว่าอาจต้องสร้าง Index เพิ่มเติม หรือ Index ที่มีอยู่ไม่ถูกใช้งานครับ

เทคนิคการเขียน Query ที่ดี

หลีกเลี่ยง SELECT * ใน Production Code:

เลือกเฉพาะคอลัมน์ที่จำเป็นเท่านั้น เพื่อลดปริมาณข้อมูลที่ส่งผ่าน Network และลด I/O ครับ
ใช้ WHERE Clause อย่างมีประสิทธิภาพ:

เงื่อนไขใน WHERE ควรใช้ Index ให้ได้มากที่สุด หลีกเลี่ยงการใช้ Function กับคอลัมน์ที่ถูก Index เช่น WHERE lower(column) = 'value' ควรใช้ Expression Index หรือเปลี่ยน Application Logic ครับ
ระวัง Subqueries และ JOINs:

บางครั้ง Subquery สามารถเขียนใหม่เป็น JOIN ได้ และบางครั้ง JOINs ที่ซับซ้อนก็อาจทำให้ Query ช้าลง ควรเลือกประเภท JOIN ที่เหมาะสม (INNER JOIN, LEFT JOIN) และตรวจสอบผลลัพธ์ด้วย EXPLAIN ANALYZE เสมอครับ
ใช้ CTEs (Common Table Expressions):

CTEs (ใช้ WITH clause) ช่วยให้ Query อ่านง่ายขึ้นและสามารถนำผลลัพธ์ไปใช้ซ้ำได้ แต่ไม่ได้หมายความว่าจะเร็วขึ้นเสมอไปครับ Optimizer อาจยังคงรัน CTEs หลายครั้งได้ ควรตรวจสอบด้วย EXPLAIN ANALYZE ครับ
ใช้ Window Functions แทน Subquery หรือ Self-Join บางกรณี:

Window Functions (เช่น ROW_NUMBER(), RANK(), LAG()) มักจะมีประสิทธิภาพดีกว่า Subquery หรือ Self-Join สำหรับการวิเคราะห์ข้อมูลบางประเภทครับ
ใช้ LIMIT และ OFFSET อย่างระมัดระวัง:

LIMIT N OFFSET M สำหรับ Pagination จะต้องสแกน M+N แถวเสมอ หาก M มีค่ามาก จะช้าลงมากครับ ควรหาวิธี Pagination แบบ Cursor-based หรือ Keyset Pagination โดยใช้ WHERE id > last_id LIMIT N แทนครับ
ใช้ EXISTS แทน IN หรือ JOIN ในบางกรณี:

เมื่อต้องการตรวจสอบว่ามีข้อมูลอยู่ในตารางอื่นหรือไม่ EXISTS มักจะมีประสิทธิภาพดีกว่า IN หรือ JOIN โดยเฉพาะเมื่อ Subquery ส่งคืนข้อมูลจำนวนมากครับ

การจัดการ VACUUM และ Autovacuum

การเข้าใจและจัดการ VACUUM เป็นกุญแจสำคัญสำหรับประสิทธิภาพของ PostgreSQL ครับ โดยเฉพาะอย่างยิ่งเมื่อใช้ MVCC

MVCC และ Dead Tuples

อย่างที่กล่าวไปในตอนต้น เมื่อมีการ UPDATE หรือ DELETE ข้อมูล PostgreSQL จะไม่ลบข้อมูลเก่าทันที แต่จะสร้างเวอร์ชันใหม่ของแถว (สำหรับ UPDATE) หรือทำเครื่องหมายว่าแถวนั้นถูกลบแล้ว (สำหรับ DELETE) เวอร์ชันเก่าหรือแถวที่ถูกลบไปแล้วเหล่านี้เรียกว่า “Dead Tuples” ครับ Dead Tuples ยังคงใช้พื้นที่ Disk และทำให้ Index ไม่กระชับ ซึ่งจะส่งผลให้ Query ช้าลงครับ

ทำไมต้อง VACUUM?

VACUUM คือกระบวนการที่ PostgreSQL ใช้ในการ:

กู้คืนพื้นที่ Disk: โดยการทำเครื่องหมายว่า Dead Tuples สามารถถูกเขียนทับได้ในอนาคต (ไม่ได้ลบไฟล์ทันที)
อัปเดต Visibility Map: เพื่อให้ Index-only Scan ทำงานได้
ป้องกัน Transaction ID Wraparound: นี่เป็นสิ่งสำคัญมาก หาก Transaction ID ใกล้จะหมด ระบบจะหยุดทำงานเพื่อป้องกันความเสียหายของข้อมูลครับ VACUUM จะช่วย “แช่แข็ง” Transaction ID เก่าๆ ครับ

VACUUM FULL เป็นอีกคำสั่งหนึ่งที่ใช้ในการกู้คืนพื้นที่ Disk จริงๆ โดยการเขียนตารางใหม่ทั้งหมด ทำให้ตารางกระชับขึ้น (Reclaim Space) แต่จะ Lock ตารางนั้นไว้ทั้งหมดในช่วงเวลาหนึ่ง ซึ่งอาจส่งผลกระทบกับการทำงานปกติของระบบ ดังนั้นควรใช้ VACUUM FULL อย่างระมัดระวังและวางแผนให้ดีครับ ส่วนใหญ่แล้ว Autovacuum ก็เพียงพอแล้วครับ

Autovacuum ทำงานอย่างไร

Autovacuum คือ Process พื้นหลังที่คอยตรวจสอบตารางต่างๆ และรัน VACUUM และ ANALYZE โดยอัตโนมัติเมื่อถึง Threshold ที่กำหนดไว้ครับ

VACUUM: ทำงานเมื่อจำนวน Dead Tuples ถึงเกณฑ์ (autovacuum_vacuum_scale_factor + autovacuum_vacuum_base_threshold) เพื่อทำความสะอาด Dead Tuples
ANALYZE: ทำงานเมื่อมีการเปลี่ยนแปลงข้อมูลในตารางถึงเกณฑ์ (autovacuum_analyze_scale_factor + autovacuum_analyze_base_threshold) เพื่ออัปเดตสถิติของตารางให้ Optimizer ใช้ในการวางแผน Query ได้แม่นยำขึ้นครับ

การปรับแต่ง Autovacuum เพิ่มเติม

นอกจากการตั้งค่าใน postgresql.conf แล้ว เรายังสามารถปรับแต่ง Autovacuum ในระดับตาราง (Table-level) ได้ด้วยครับ โดยใช้คำสั่ง ALTER TABLE:

ALTER TABLE my_large_table SET (autovacuum_vacuum_scale_factor = 0.05, autovacuum_vacuum_cost_delay = 5ms);
ALTER TABLE my_frequently_updated_table SET (autovacuum_analyze_scale_factor = 0.01);

การปรับแต่งในระดับตารางจะช่วยให้เราสามารถจัดการกับตารางที่มีพฤติกรรมการใช้งานแตกต่างกันได้อย่างเหมาะสมครับ ตารางที่มีการอัปเดตหรือลบบ่อยๆ อาจต้องการ Autovacuum ที่ทำงานบ่อยขึ้นและใช้ Cost Delay ที่น้อยลงครับ

การตรวจสอบและเฝ้าระวังประสิทธิภาพ (Monitoring and Observability)

การเฝ้าระวังอย่างต่อเนื่องเป็นสิ่งสำคัญในการระบุปัญหาประสิทธิภาพตั้งแต่เนิ่นๆ และยืนยันว่าการปรับแต่งของเรามีผลลัพธ์ที่ดีจริงครับ

เครื่องมือพื้นฐานของ PostgreSQL

PostgreSQL มี View และ Function ในตัวที่ช่วยในการตรวจสอบสถานะต่างๆ ครับ

pg_stat_activity:

แสดงข้อมูลเกี่ยวกับ Connection ที่ใช้งานอยู่ทั้งหมด รวมถึง Query ที่กำลังรัน, สถานะ, และเวลาที่ใช้ไป ช่วยให้เราสามารถระบุ Query ที่รันนานผิดปกติได้ครับ
```
SELECT pid, datname, usename, client_addr, application_name, backend_start, state, state_change, query_start, xact_start, query FROM pg_stat_activity WHERE state = 'active' ORDER BY query_start ASC;
```
pg_stat_statements:

Extension นี้ (ต้องติดตั้งและเปิดใช้งานใน postgresql.conf) จะเก็บสถิติการรัน Query ทั้งหมด เช่น จำนวนครั้งที่รัน, เวลาเฉลี่ย, เวลาสูงสุด, Total Time, จำนวน Block ที่อ่าน/เขียน ช่วยให้เราสามารถหา Query ที่ช้าที่สุดในระบบได้ครับ
```
-- ติดตั้ง extension (ทำครั้งเดียวต่อ database)
CREATE EXTENSION pg_stat_statements;

-- ดู Query ที่ใช้เวลารวมมากที่สุด
SELECT query, calls, total_time, min_time, max_time, mean_time, stddev_time, rows, shared_blks_hit, shared_blks_read
FROM pg_stat_statements
ORDER BY total_time DESC
LIMIT 10;
```
pg_buffercache:

Extension นี้ช่วยให้เราสามารถตรวจสอบว่า Block ข้อมูลใดอยู่ใน Shared Buffers และมีการใช้งานบ่อยแค่ไหนครับ
pg_locks:

แสดงข้อมูล Lock ที่กำลังเกิดขึ้นในฐานข้อมูล ช่วยในการวิเคราะห์ปัญหา Deadlock หรือ Lock contention ครับ

เครื่องมือภายนอกและ Dashboard

สำหรับการเฝ้าระวังในระยะยาวและแบบกราฟิก มีเครื่องมือภายนอกที่นิยมใช้กันครับ

Prometheus และ Grafana:

เป็นชุดเครื่องมือ Open Source ที่นิยมใช้ในการเก็บ Metric และสร้าง Dashboard ที่สวยงามและปรับแต่งได้ครับ Pg_exporter สามารถใช้ในการดึง Metric จาก PostgreSQL ไปยัง Prometheus ได้ครับ
pgBadger:

เครื่องมือวิเคราะห์ Log ของ PostgreSQL ที่สร้างรายงาน HTML ที่สวยงามและเข้าใจง่าย ช่วยให้เห็นภาพรวมของ Query ที่ช้า, Cache Hit Ratio, Checkpoint Activity และอื่นๆ ได้อย่างรวดเร็วครับ
pg_top:

คล้ายกับ top ของ Linux แต่แสดง Process ของ PostgreSQL โดยเฉพาะ ช่วยให้เห็น Query ที่กำลังรันอยู่แบบ Real-time ครับ

การตั้งค่า Log เพื่อการวิเคราะห์

การตั้งค่าการ Log ใน postgresql.conf อย่างเหมาะสมเป็นสิ่งสำคัญสำหรับการ Debug และวิเคราะห์ปัญหาครับ

log_min_duration_statement:

บันทึก Query ทั้งหมดที่ใช้เวลาเกินค่าที่กำหนด (เป็น ms) เป็นค่าที่สำคัญที่สุดสำหรับการหา Query ที่ช้าครับ
- แนวทาง: เริ่มต้นด้วย 1000ms (1 วินาที) แล้วค่อยๆ ลดลงเป็น 500ms หรือ 250ms เมื่อระบบเสถียรขึ้นครับ
- ตัวอย่าง:
```
log_min_duration_statement = 250ms
```
log_statement = 'none' | 'ddl' | 'mod' | 'all':

บันทึก Statement ประเภทใดบ้าง ไม่แนะนำให้ตั้งเป็น all ใน Production เพราะจะสร้าง Log ขนาดใหญ่มากและส่งผลต่อประสิทธิภาพครับ ใช้ ddl สำหรับการบันทึกคำสั่งที่เปลี่ยนแปลง Schema หรือ mod สำหรับคำสั่งที่เปลี่ยนแปลงข้อมูลครับ
log_connections และ log_disconnections:

บันทึกการเชื่อมต่อและตัดการเชื่อมต่อของ Client ครับ
log_autovacuum_min_duration:

บันทึกกิจกรรม Autovacuum ที่ใช้เวลาเกินค่าที่กำหนด ช่วยในการตรวจสอบว่า Autovacuum ทำงานได้ดีหรือไม่ครับ
log_destination และ logging_collector:

กำหนดว่าจะบันทึก Log ไปที่ไหน (เช่น syslog, stderr, csvlog) และเปิดใช้งาน Logging Collector เพื่อจัดการ Log Files ครับ

การปรับแต่งระดับระบบปฏิบัติการ (Operating System Level Tuning)

ประสิทธิภาพของ PostgreSQL ไม่ได้ขึ้นอยู่กับแค่ตัวฐานข้อมูลเอง แต่ยังรวมถึงระบบปฏิบัติการที่รันอยู่ด้วยครับ

Linux Kernel Parameters (sysctl.conf)

เราสามารถปรับแต่ง Kernel Parameters ผ่านไฟล์ /etc/sysctl.conf ครับ

vm.swappiness:

ควบคุมพฤติกรรมของ Kernel ในการ Swap หน่วยความจำไปยัง Disk ครับ
- แนวทาง: สำหรับ Server ที่รันฐานข้อมูล ควรตั้งค่าให้ต่ำ (เช่น 1 หรือ 10) เพื่อลดโอกาสที่ RAM ของ PostgreSQL จะถูก Swap ออกไปครับ
- ตัวอย่าง:
```
vm.swappiness = 1
```
Shared Memory Parameters (`kernel.shmmax`, `kernel.shmall`):

PostgreSQL ใช้ Shared Memory สำหรับ shared_buffers ครับ ต้องแน่ใจว่า Kernel มีการตั้งค่า Shared Memory ที่เพียงพอต่อการจัดสรร shared_buffers ที่เราต้องการครับ
- แนวทาง: kernel.shmmax ควรมีขนาดใหญ่กว่า shared_buffers เล็กน้อย kernel.shmall ควรเป็น kernel.shmmax หารด้วย Page Size (ปกติ 4096 ไบต์) ครับ
- ตัวอย่าง: สำหรับ shared_buffers = 4GB
```
kernel.shmmax = 4294967296  # 4GB
kernel.shmall = 1048576     # 4GB / 4096 bytes
```
net.core.somaxconn:

จำนวน Connection ที่รออยู่ใน Queue ก่อนที่ Kernel จะปฏิเสธการเชื่อมต่อใหม่ หากมีการเชื่อมต่อเข้ามาจำนวนมากพร้อมกัน อาจต้องเพิ่มค่านี้ครับ
- แนวทาง: ค่าเริ่มต้น 128 อาจไม่พอสำหรับ Workload สูงๆ อาจเพิ่มเป็น 1024 หรือ 4096 ครับ
- ตัวอย่าง:
```
net.core.somaxconn = 1024
```

ระบบไฟล์ (Filesystem)

การเลือกและตั้งค่า Filesystem ที่เหมาะสมก็มีผลต่อ I/O Performance ครับ

Filesystem Type:

ext4 หรือ XFS เป็นตัวเลือกที่ดีสำหรับ PostgreSQL ครับ XFS มักจะทำได้ดีกว่าสำหรับ Workload ที่มีการเขียนไฟล์ขนาดใหญ่จำนวนมาก
Mount Options:
- noatime หรือ relatime: ลดการเขียน Disk I/O โดยการไม่บันทึกเวลาการเข้าถึงไฟล์ทุกครั้งที่อ่านไฟล์ครับ
- data=writeback: (สำหรับ ext4) เพิ่มประสิทธิภาพการเขียน แต่มีความเสี่ยงที่จะสูญเสียข้อมูลเล็กน้อยหากระบบล่มก่อนที่ข้อมูลจะถูกเขียนลง Disk (ไม่แนะนำสำหรับ Production ที่ต้องการความทนทานสูง)
I/O Scheduler:

สำหรับ SSD ควรใช้ I/O Scheduler แบบ noop หรือ none เพื่อให้ Kernel ส่งคำสั่ง I/O ไปยัง SSD โดยตรงโดยไม่มีการจัดคิวเพิ่มเติมครับ

การเลือก Hardware ที่เหมาะสม

แม้จะปรับแต่ง Software ดีแค่ไหน แต่ถ้า Hardware ไม่ถึง ประสิทธิภาพก็ไปไม่สุดครับ

SSD vs. HDD:

สำหรับ Production Workload สมัยใหม่ SSD คือสิ่งที่จำเป็นอย่างยิ่ง ครับ โดยเฉพาะ NVMe SSDs จะมอบประสิทธิภาพ I/O ที่เหนือกว่า Hard Disk Drive แบบเดิมอย่างเห็นได้ชัด
RAM:

ยิ่งมี RAM มากเท่าไหร่ ก็ยิ่งสามารถตั้งค่า shared_buffers และ work_mem ได้สูงขึ้นเท่านั้น ทำให้ลดการอ่าน Disk I/O ได้มากครับ
CPU Cores vs. Clock Speed:

PostgreSQL เป็นแบบ Process-based ดังนั้นจำนวน Core CPU ที่สูงจะช่วยให้จัดการ Connection พร้อมกันได้ดีขึ้น แต่สำหรับ Query ที่ซับซ้อนและรันบน Core เดียว Clock Speed ที่สูงก็สำคัญครับ โดยทั่วไปแล้ว CPU ที่มี Core เยอะและ Clock Speed สูงเป็นสิ่งที่ดีที่สุดครับ
Network:

สำหรับฐานข้อมูลที่ Client เชื่อมต่อจากภายนอกหรือมีการทำ Replication ความเร็ว Network (เช่น 10 Gigabit Ethernet) ก็สำคัญครับ

เทคนิคขั้นสูงและข้อควรพิจารณาเพิ่มเติม

นอกเหนือจากการปรับแต่งข้างต้น ยังมีเทคนิคและข้อควรพิจารณาอื่นๆ ที่สามารถนำมาใช้เพื่อเพิ่มประสิทธิภาพได้ครับ

Connection Pooling

Connection Pooling คือการนำ Connection ที่ถูกสร้างขึ้นมาแล้วกลับมาใช้ซ้ำ แทนที่จะสร้างใหม่ทุกครั้งที่มีการเชื่อมต่อ ช่วยลด Overhead ในการสร้างและปิด Connection ซึ่งเป็น Cost ที่สูงสำหรับ PostgreSQL ครับ

เครื่องมือ:
- PgBouncer: เป็น Connection Pooler ที่ได้รับความนิยมมากที่สุดสำหรับ PostgreSQL ใช้งานง่ายและมีประสิทธิภาพสูงครับ
- Odyssey: เป็นอีกหนึ่งตัวเลือกที่ใหม่กว่าและมีประสิทธิภาพสูงเช่นกัน พัฒนาโดย Yandex ครับ
ข้อดี:
- ลด CPU Usage ของ PostgreSQL
- ลด Latency ในการเชื่อมต่อ
- ควบคุมจำนวน Connection สูงสุดไปยัง PostgreSQL Server ได้ดีขึ้น

Replication

การทำ Replication (การจำลองฐานข้อมูล) ไม่ได้มีแค่ประโยชน์ด้าน High Availability หรือ Disaster Recovery เท่านั้น แต่ยังสามารถช่วยเพิ่มประสิทธิภาพได้ด้วยครับ

Read Replicas:

สามารถใช้ Read Replicas (Standby Servers) ในการกระจาย Workload ของ Query ที่เป็นการอ่านข้อมูล (SELECT) ออกไป ทำให้ Primary Server รับภาระน้อยลงและสามารถรองรับ Write Workload ได้มากขึ้นครับ
Streaming Replication:

เป็นวิธีที่ได้รับความนิยมที่สุดในการทำ Replication ใน PostgreSQL ส่ง WAL logs จาก Primary ไปยัง Standby Server แบบ Real-time ครับ
Logical Replication:

เป็นฟีเจอร์ที่เพิ่มเข้ามาใน PostgreSQL 10 ขึ้นไป สามารถเลือก Replication เฉพาะบางตารางหรือบางฐานข้อมูลได้ มีความยืดหยุ่นสูงกว่า Streaming Replication ครับ

Temporary Tables vs. CTEs

Temporary Tables:

ใช้สำหรับเก็บข้อมูลชั่วคราวในการประมวลผล Query ที่ซับซ้อน หรือเมื่อต้องการใช้ข้อมูลชุดเดิมซ้ำหลายครั้งใน Query เดียวกัน ข้อดีคือสามารถสร้าง Index บน Temporary Table ได้ ช่วยให้ Query ในภายหลังเร็วขึ้นได้ครับ
```
CREATE TEMPORARY TABLE temp_users AS
SELECT id, name FROM users WHERE created_at > '2023-01-01';

CREATE INDEX ON temp_users (id);

SELECT tu.name, COUNT(o.id)
FROM temp_users tu
JOIN orders o ON tu.id = o.user_id
GROUP BY tu.name;
```
CTEs (Common Table Expressions):

ทำให้ Query อ่านง่ายขึ้น แต่โดยค่าเริ่มต้นแล้ว CTEs ไม่ได้ Materialize (ประมวลผลและเก็บผลลัพธ์) เสมอไป Optimizer อาจรัน CTE ซ้ำๆ หากถูกอ้างอิงหลายครั้ง ทำให้ช้าลงได้ หากต้องการให้ Materialize สามารถใช้ WITH ... AS MATERIALIZED (...) ได้ครับ

การใช้ Foreign Data Wrappers (FDW)

FDW ช่วยให้ PostgreSQL สามารถเชื่อมต่อและ Query ข้อมูลจากฐานข้อมูลหรือแหล่งข้อมูลภายนอกอื่นๆ ได้เสมือนเป็นตารางปกติใน PostgreSQL เองครับ

ข้อดี:
- รวมข้อมูลจากหลายแหล่งเข้าด้วยกัน
- สามารถ Push Down Query บางส่วนไปยังแหล่งข้อมูลภายนอกได้
ข้อควรระวัง:
- ประสิทธิภาพขึ้นอยู่กับประสิทธิภาพของแหล่งข้อมูลภายนอกและ Network
- การ Join ข้าม FDW อาจช้ามากหากไม่มีการวางแผนที่ดี

คำถามที่พบบ่อย (FAQ)

Q1: จะรู้ได้อย่างไรว่าค่า Shared Buffers ที่เหมาะสมสำหรับระบบของผมคือเท่าไหร่ครับ?

A1: โดยทั่วไปแล้ว ค่า shared_buffers ที่เหมาะสมจะอยู่ประมาณ 25% ของ RAM ทั้งหมดของเซิร์ฟเวอร์ หากเซิร์ฟเวอร์นั้นรัน PostgreSQL เป็นหลักครับ หากมีบริการอื่นรันอยู่ด้วย อาจลดลงมาที่ 15-20% สิ่งสำคัญคือต้องไม่ตั้งค่าสูงเกินไปจนทำให้ระบบปฏิบัติการต้อง Swap หน่วยความจำ เพราะจะทำให้ประสิทธิภาพลดลงอย่างมากครับ วิธีที่ดีที่สุดคือเริ่มต้นด้วยค่าแนะนำ แล้วตรวจสอบ Disk I/O และ Cache Hit Ratio ผ่าน pg_stat_bgwriter หรือ pg_buffercache ครับ หาก Cache Hit Ratio ต่ำและมี Disk I/O สูง อาจพิจารณาเพิ่ม shared_buffers ได้ครับ

Q2: ผมควรใช้ `VACUUM FULL` บ่อยแค่ไหนครับ?

A2: โดยทั่วไปแล้ว ไม่ควรใช้ VACUUM FULL บ่อยๆ ครับ เพราะมันจะทำการ Lock ตารางทั้งหมด ทำให้ไม่สามารถอ่านหรือเขียนข้อมูลในตารางนั้นได้จนกว่าจะเสร็จ ซึ่งอาจใช้เวลานานสำหรับตารางขนาดใหญ่ครับ หน้าที่หลักในการทำความสะอาด Dead Tuples ควรเป็นของ Autovacuum ครับ VACUUM FULL เหมาะสำหรับกรณีที่ต้องการกู้คืนพื้นที่ Disk ที่ถูกใช้ไปโดย Dead Tuples อย่างถาวรจริงๆ หรือเมื่อตารางนั้นมี Bloat (ใช้พื้นที่เกินจริง) มากจนส่งผลต่อประสิทธิภาพอย่างชัดเจนครับ ควรวางแผนการรัน VACUUM FULL ในช่วงเวลาที่ Workload ต่ำที่สุด หรือพิจารณาใช้ Pg_repack หรือ Partitioning แทนเพื่อลด Downtime ครับ

Q3: ทำไม Query ของผมถึงช้า แม้ว่าจะสร้าง Index แล้วก็ตามครับ?

A3: มีหลายสาเหตุที่เป็นไปได้ครับ:

Index ไม่ถูกใช้งาน: ตรวจสอบด้วย EXPLAIN ANALYZE ว่า Query ใช้ Index หรือไม่ หากไม่ใช้ อาจเป็นเพราะเงื่อนไขใน WHERE clause ไม่ตรงกับ Index (เช่น การใช้ Function กับคอลัมน์ที่ถูก Index) หรือ Optimizer คิดว่าการทำ Full Table Scan จะเร็วกว่า
สถิติของตารางไม่เป็นปัจจุบัน: หากสถิติ (Statistics) ของตารางล้าสมัย Optimizer อาจเลือกแผนการทำงานที่ไม่เหมาะสม ตรวจสอบว่า Autovacuum (ANALYZE) ทำงานเป็นประจำหรือไม่ หรือรัน ANALYZE table_name; ด้วยตนเองครับ
Index Bloat: Index มีขนาดใหญ่เกินไปเนื่องจาก Dead Tuples สะสมมาก ทำให้การอ่าน Index ช้าลง ต้องมั่นใจว่า Autovacuum ทำงานได้ดีครับ
Query ไม่สามารถใช้ Index ได้ทั้งหมด: Index อาจมีแค่บางคอลัมน์ที่ Query ต้องการ หรือเงื่อนไขซับซ้อนเกินไป
คอขวดอื่นๆ: อาจไม่ใช่ปัญหา Index แต่เป็น Shared Buffers ไม่พอ, work_mem ไม่พอ, หรือ Disk I/O ช้าครับ

Q4: ผมควรใช้ Connection Pooler อย่าง PgBouncer หรือไม่ครับ?

A4: ใช่ครับ แนะนำให้ใช้ Connection Pooler อย่าง PgBouncer ใน Production Environment เกือบทุกกรณีครับ PostgreSQL มี Overhead ในการสร้าง Connection ค่อนข้างสูง การใช้ Connection Pooler ช่วยให้ Application สามารถใช้ Connection ที่สร้างไว้แล้วซ้ำได้ ลดภาระ CPU ของ PostgreSQL และทำให้ Application เชื่อมต่อได้เร็วขึ้นมากครับ นอกจากนี้ยังช่วยจำกัดจำนวน Connection สูงสุดไปยัง PostgreSQL Server ทำให้ Server ไม่ Overload ครับ

Q5: จะตรวจสอบได้อย่างไรว่า Autovacuum ทำงานได้ดีหรือไม่ครับ?

A5: สามารถตรวจสอบได้หลายวิธีครับ:

ตรวจสอบ Log File: ตั้งค่า log_autovacuum_min_duration ใน postgresql.conf เพื่อบันทึกกิจกรรม Autovacuum ที่ใช้เวลานาน
View pg_stat_all_tables: ตรวจสอบคอลัมน์ n_dead_tuples และ last_autovacuum/last_autoanalyze หาก n_dead_tuples เพิ่มขึ้นอย่างต่อเนื่องโดยที่ last_autovacuum ไม่ได้อัปเดตนานแล้ว แสดงว่า Autovacuum อาจทำงานไม่ทันครับ
View pg_stat_progress_vacuum: ดู Process ของ Autovacuum ที่กำลังทำงานอยู่
ใช้เครื่องมือ Monitoring: เช่น Prometheus/Grafana ที่ดึง Metric เกี่ยวกับ Autovacuum และ Dead Tuples มาแสดงผลครับ

หากพบว่า Autovacuum ทำงานไม่ทัน ควรพิจารณาปรับแต่งค่า autovacuum_max_workers, autovacuum_vacuum_cost_delay, autovacuum_vacuum_scale_factor ทั้งในระดับ Global และ Table-level ครับ

สรุปและ Call-to-Action

การปรับแต่งประสิทธิภาพของ PostgreSQL เป็นกระบวนการที่ต่อเนื่องและต้องใช้ความเข้าใจอย่างลึกซึ้งในหลายๆ ส่วน ไม่ใช่แค่การปรับเปลี่ยนค่าในไฟล์ postgresql.conf เท่านั้น แต่ยังรวมถึงการออกแบบ Schema ที่ดี การเขียน Query ที่มีประสิทธิภาพ การจัดการ Autovacuum และการเฝ้าระวังอย่างต่อเนื่องด้วยครับ

หวังว่าบทความที่ครอบคลุมและเจาะลึกนี้ จะเป็นคู่มือที่เป็นประโยชน์สำหรับท่านในการปรับแต่ง PostgreSQL ของท่านให้ทำงานได้อย่างเต็มศักยภาพสูงสุดนะครับ/คะ การลงทุนในความรู้และเวลาสำหรับการ Performance Tuning จะช่วยให้ระบบของท่านมีความเสถียร รองรับ Workload ได้มากขึ้น และมอบประสบการณ์ที่ดีที่สุดให้กับผู้ใช้งานครับ

จำไว้เสมอว่า “วัดผล, ปรับแต่ง, ทดสอบ, แล้ววัดผลอีกครั้ง” เป็นวงจรที่สำคัญที่สุดในการปรับปรุงประสิทธิภาพครับ ไม่มีสูตรสำเร็จตายตัวที่ใช้ได้กับทุกระบบ ดังนั้น การทำความเข้าใจ Workload ของท่านเองและการทดลองปรับแต่งอย่างเป็นระบบจึงเป็นสิ่งจำเป็นครับ

หากท่านมีข้อสงสัยเพิ่มเติม หรือต้องการคำปรึกษาในการปรับแต่ง PostgreSQL สำหรับระบบของท่านโดยเฉพาะ ทีมงาน SiamLancard.com ยินดีให้ความช่วยเหลือครับ ท่านสามารถ ติดต่อเราได้ที่นี่ เพื่อพูดคุยเกี่ยวกับความต้องการของท่าน หรือเยี่ยมชมบล็อกของเราเพื่อ อ่านบทความทางเทคนิคอื่นๆ ที่น่าสนใจครับ มาร่วมกันสร้างระบบที่ทรงประสิทธิภาพด้วย PostgreSQL กันนะครับ/คะ!

SiamCafe.net — ชุมชน IT ที่ใหญ่ที่สุด · Siam2R.com — Portfolio งาน IT