PostgreSQL Performance Tuning คู่มือปรับแต่งฐานข้อมูล

March 16, 2026

0 Views

SaveSavedRemoved 0

ในโลกของการพัฒนาซอฟต์แวร์และการจัดการข้อมูล ฐานข้อมูลเปรียบเสมือนหัวใจสำคัญที่ขับเคลื่อนแอปพลิเคชันของเราให้ทำงานได้อย่างราบรื่นและมีประสิทธิภาพครับ แต่บ่อยครั้งที่หัวใจดวงนี้อาจเริ่มเต้นช้าลงเมื่อปริมาณข้อมูลเพิ่มขึ้น หรือมีผู้ใช้งานเข้ามาพร้อมกันจำนวนมาก ทำให้เกิดปัญหาคอขวดที่ส่งผลกระทบต่อประสบการณ์ของผู้ใช้และประสิทธิภาพโดยรวมของระบบ หนึ่งในฐานข้อมูลเชิงสัมพันธ์ที่ได้รับความนิยมอย่างสูงและมีประสิทธิภาพยอดเยี่ยมก็คือ PostgreSQL ครับ ด้วยความสามารถที่หลากหลาย ความน่าเชื่อถือ และความเป็น Open Source ทำให้ PostgreSQL เป็นตัวเลือกอันดับต้นๆ สำหรับโปรเจกต์จำนวนมาก อย่างไรก็ตาม แม้ PostgreSQL จะทรงพลังแค่ไหน การที่จะดึงศักยภาพสูงสุดออกมาได้นั้น จำเป็นต้องมีการปรับแต่ง (Performance Tuning) ที่เหมาะสมและเข้าใจถึงกลไกภายในของมันอย่างลึกซึ้ง บทความนี้จะเจาะลึกถึงหลักการ เทคนิค และแนวทางปฏิบัติที่ดีที่สุดในการปรับแต่ง PostgreSQL เพื่อให้ฐานข้อมูลของคุณทำงานได้รวดเร็ว ตอบสนองดีเยี่ยม และรองรับการเติบโตในอนาคตได้อย่างมั่นคงครับ เราจะมาดูกันว่ามีพารามิเตอร์ใดบ้างที่สำคัญ เครื่องมือใดบ้างที่ช่วยในการวิเคราะห์ และกลยุทธ์ใดบ้างที่จะช่วยให้ PostgreSQL ของคุณทะยานไปข้างหน้าได้อย่างเต็มกำลัง

สารบัญ

ความสำคัญของการปรับแต่ง PostgreSQL และปัญหาที่พบบ่อย
ทำความเข้าใจสถาปัตยกรรม PostgreSQL และการระบุปัญหาคอขวด
การปรับแต่งพารามิเตอร์ใน postgresql.conf
กลยุทธ์การสร้าง Index เพื่อเพิ่มความเร็วในการสืบค้น
การปรับปรุงประสิทธิภาพ Query
การจัดการ Autovacuum และ Table Bloat
ปัจจัยด้าน Hardware และการปรับแต่งระดับ OS
เทคนิคขั้นสูงเพื่อประสิทธิภาพและการขยายขนาด
คำถามที่พบบ่อย (FAQ)
สรุปและข้อเสนอแนะ

ความสำคัญของการปรับแต่ง PostgreSQL และปัญหาที่พบบ่อย

การปรับแต่งประสิทธิภาพของ PostgreSQL ไม่ใช่แค่การทำให้ระบบเร็วขึ้นเท่านั้นครับ แต่ยังเป็นการเพิ่มความน่าเชื่อถือ ลดต้นทุนในการบำรุงรักษา และยืดอายุการใช้งานของ Hardware ได้อีกด้วยครับ ลองจินตนาการว่าแอปพลิเคชันของคุณประสบปัญหาดังต่อไปนี้:

Query ทำงานช้าผิดปกติ: ผู้ใช้งานต้องรอนานกว่าจะได้ข้อมูลที่ต้องการ ทำให้เกิดความหงุดหงิดและอาจเลิกใช้งานไปในที่สุด
CPU หรือ RAM ใช้งานสูงตลอดเวลา: ระบบทำงานหนักเกินไปจนอาจเกิดอาการค้าง หรือต้องใช้ทรัพยากร Hardware ที่มีราคาสูงเกินความจำเป็น
Disk I/O เป็นคอขวด: การอ่านและเขียนข้อมูลลงดิสก์ช้า ทำให้ทุกการทำงานที่เกี่ยวข้องกับดิสก์หน่วงลง
Transaction Lock: เกิดการบล็อกกันระหว่าง Transaction ทำให้บาง Query ต้องรอเป็นเวลานาน หรือเกิด Deadlock
Table Bloat: ขนาดของตารางและ Index ใหญ่เกินจริง ทำให้สิ้นเปลืองพื้นที่ดิสก์และประสิทธิภาพการสืบค้นลดลง

ปัญหาเหล่านี้ล้วนเป็นสัญญาณว่าถึงเวลาแล้วที่เราจะต้องลงมือปรับแต่ง PostgreSQL อย่างจริงจังครับ บทความนี้จะช่วยให้คุณมีแนวทางในการวินิจฉัยและแก้ไขปัญหาเหล่านี้ได้อย่างเป็นระบบครับ

ทำความเข้าใจสถาปัตยกรรม PostgreSQL และการระบุปัญหาคอขวด

ก่อนที่เราจะเริ่มปรับแต่งสิ่งใดๆ เราจำเป็นต้องเข้าใจก่อนว่า PostgreSQL ทำงานอย่างไร และมีส่วนประกอบอะไรบ้างที่ส่งผลต่อประสิทธิภาพครับ

ส่วนประกอบหลักของ PostgreSQL

Shared Buffers: พื้นที่ใน RAM ที่ PostgreSQL ใช้สำหรับแคช Block ของข้อมูลและ Index ที่ถูกอ่านจากดิสก์บ่อยๆ เพื่อลดการเข้าถึงดิสก์โดยตรงครับ
WAL (Write-Ahead Log): ไฟล์บันทึกการเปลี่ยนแปลงทั้งหมดที่เกิดขึ้นกับฐานข้อมูล เพื่อรับรองความคงทนของข้อมูล (Durability) และใช้สำหรับการ Recovery ในกรณีที่ระบบล่มครับ
Checkpointer: Background process ที่มีหน้าที่เขียน Block ที่ถูกแก้ไขใน Shared Buffers ลงดิสก์ และอัปเดตไฟล์ WAL ครับ
Background Writer: Background process ที่มีหน้าที่เขียน Dirty Pages (Block ที่ถูกแก้ไข) จาก Shared Buffers ลงดิสก์อย่างต่อเนื่อง เพื่อให้ Shared Buffers มีพื้นที่ว่างสำหรับ Block ใหม่ๆ ครับ
Autovacuum Daemon: Background process ที่ทำงานอัตโนมัติเพื่อทำความสะอาด Tuple ที่ไม่จำเป็นแล้ว (Dead Tuples) และอัปเดตสถิติของตาราง เพื่อป้องกัน Table Bloat และช่วยให้ Query Planner ทำงานได้ดีขึ้นครับ
Query Planner/Optimizer: ส่วนประกอบที่รับผิดชอบในการวิเคราะห์ Query ที่เข้ามา และกำหนด Execution Plan ที่มีประสิทธิภาพที่สุดในการดึงข้อมูลครับ

การระบุปัญหาคอขวด (Bottlenecks)

การระบุปัญหาคอขวดคือขั้นตอนแรกที่สำคัญที่สุดครับ หากเราไม่รู้ว่าปัญหาอยู่ที่ไหน เราก็ปรับแต่งได้ไม่ตรงจุด การวิเคราะห์คอขวดมักจะวนเวียนอยู่กับทรัพยากรหลัก 4 อย่างนี้ครับ:

CPU: หาก CPU ใช้งาน 100% ตลอดเวลา อาจบ่งชี้ว่ามี Query ที่ซับซ้อน คำนวณเยอะ หรือมี Transaction จำนวนมากที่ต้องประมวลผลพร้อมกันครับ
Memory (RAM): หาก RAM ไม่เพียงพอ อาจเกิดการใช้ Swap Space (ซึ่งช้ากว่า RAM มาก) หรือ Shared Buffers มีขนาดเล็กเกินไป ทำให้ต้องเข้าถึงดิสก์บ่อยขึ้นครับ
Disk I/O: การอ่านและเขียนข้อมูลบนดิสก์ที่ช้า อาจเกิดจาก Storage ที่มีประสิทธิภาพไม่ดีพอ, มี Query ที่ต้องสแกนข้อมูลจำนวนมาก หรือการทำงานของ WAL/Checkpoint ที่หนักหน่วงครับ
Network: หากฐานข้อมูลและแอปพลิเคชันอยู่คนละเครื่อง และมีการส่งข้อมูลจำนวนมากผ่าน Network อาจเกิด Latency หรือ Bandwidth เป็นคอขวดได้ครับ

เครื่องมือสำหรับการตรวจสอบประสิทธิภาพ

PostgreSQL มีเครื่องมือภายในที่ทรงพลังมากมายสำหรับการตรวจสอบประสิทธิภาพครับ

pg_stat_activity: View นี้แสดงข้อมูลของ Process ทั้งหมดที่กำลังทำงานอยู่ รวมถึง Query ที่กำลังรัน, สถานะของ Process, เวลาเริ่มต้น, และระยะเวลาที่ Query ทำงานมาแล้วครับ


SELECT
    datname,
    pid,
    usename,
    client_addr,
    application_name,
    backend_start,
    query_start,
    state,
    wait_event_type,
    wait_event,
    query
FROM
    pg_stat_activity
WHERE
    state = 'active'
ORDER BY
    query_start ASC;

pg_stat_statements: Extension นี้ช่วยในการติดตามสถิติการทำงานของ Query ที่เคยรันไปแล้วทั้งหมด รวมถึงจำนวนครั้งที่รัน, เวลาเฉลี่ย, เวลาสูงสุด/ต่ำสุด, และจำนวน Row ที่ส่งคืน เหมาะสำหรับการระบุ Query ที่ทำงานช้าที่สุดครับ (ต้องติดตั้ง Extension ก่อนด้วย CREATE EXTENSION pg_stat_statements;)


SELECT
    query,
    calls,
    total_time,
    mean_time,
    rows,
    100.0 * shared_blks_hit / (shared_blks_hit + shared_blks_read + 1) AS hit_percent
FROM
    pg_stat_statements
ORDER BY
    total_time DESC
LIMIT 10;

EXPLAIN ANALYZE: เป็นหัวใจสำคัญในการทำ Query Optimization เครื่องมือนี้จะแสดง Execution Plan ของ Query และรัน Query จริงๆ เพื่อเก็บสถิติเวลาและจำนวน Row ที่เกี่ยวข้องในแต่ละขั้นตอนครับ เราจะเจาะลึกในส่วน Query Optimization ครับ


EXPLAIN ANALYZE
SELECT *
FROM products
WHERE category_id = 10 AND price > 100
ORDER BY created_at DESC
LIMIT 10;

OS-level tools: เครื่องมือของระบบปฏิบัติการ เช่น top, htop สำหรับ CPU/Memory, iostat, vmstat สำหรับ Disk I/O, และ netstat สำหรับ Network ก็เป็นสิ่งจำเป็นในการตรวจสอบทรัพยากรโดยรวมของ Server ครับ

การปรับแต่งพารามิเตอร์ใน postgresql.conf

ไฟล์ postgresql.conf คือกุญแจสำคัญในการปรับแต่ง PostgreSQL ครับ การตั้งค่าพารามิเตอร์ที่เหมาะสมสามารถสร้างความแตกต่างอย่างมหาศาลต่อประสิทธิภาพโดยรวมได้เลยครับ เราจะมาดูพารามิเตอร์ที่สำคัญและมีผลกระทบสูงกันครับ

พารามิเตอร์ที่เกี่ยวข้องกับหน่วยความจำ

shared_buffers:
นี่คือพารามิเตอร์ที่สำคัญที่สุดตัวหนึ่งครับ กำหนดขนาดของ Shared Memory ที่ PostgreSQL ใช้สำหรับแคชข้อมูล (Data Blocks) และ Index Blocks จากดิสก์ การตั้งค่าที่เหมาะสมจะช่วยลดการเข้าถึงดิสก์ได้อย่างมากครับ
- คำแนะนำ: โดยทั่วไปแล้ว ควรตั้งค่าเป็น 25% ของ RAM ทั้งหมดใน Server ครับ สำหรับ Server ที่มี RAM สูงมาก (เช่น 64GB ขึ้นไป) อาจจะตั้งค่าไม่เกิน 8GB – 16GB ก็เพียงพอแล้วครับ เพราะแคชของ OS ก็ทำงานได้ดีเช่นกัน
- ตัวอย่าง: สำหรับ Server ที่มี RAM 16GB, shared_buffers = 4GB
```
shared_buffers = 4GB    # 25% of 16GB RAM
        
```
work_mem:
กำหนดขนาดของ Memory ที่ใช้สำหรับ Internal Sort Operations และ Hash Tables ก่อนที่จะเขียนข้อมูลชั่วคราวลงดิสก์ครับ พารามิเตอร์นี้เป็น ต่อหนึ่ง Session ต่อหนึ่ง Operation ดังนั้นหากมี Query ที่มี Sort หรือ Hash Join หลายตัวใน Session เดียวกัน Memory ที่ใช้จริงอาจสูงกว่า work_mem หลายเท่าครับ
- คำแนะนำ: ค่าเริ่มต้นมักจะต่ำเกินไป ลองเริ่มต้นด้วย 4MB, 16MB หรือ 32MB และปรับขึ้นตามความเหมาะสมหลังจากวิเคราะห์ Query ด้วย EXPLAIN ANALYZE ครับ ระวังอย่าตั้งค่าสูงเกินไป เพราะอาจทำให้เกิด Out-Of-Memory หากมี Connection พร้อมกันจำนวนมากครับ
- ตัวอย่าง: work_mem = 32MB
```
work_mem = 32MB     # For internal sorts and hash tables
        
```
maintenance_work_mem:
กำหนดขนาดของ Memory ที่ใช้สำหรับ Maintenance Operations เช่น VACUUM, ANALYZE, CREATE INDEX, ADD FOREIGN KEY พารามิเตอร์นี้จะไม่ถูกใช้บ่อยเท่า work_mem และไม่เป็นต่อ Session ครับ
- คำแนะนำ: สามารถตั้งค่าให้สูงกว่า work_mem ได้ค่อนข้างมาก โดยทั่วไป 128MB ถึง 1GB หรือมากกว่านั้น ขึ้นอยู่กับ RAM ทั้งหมดและขนาดของฐานข้อมูลครับ
- ตัวอย่าง: maintenance_work_mem = 512MB
```
maintenance_work_mem = 512MB # For VACUUM, ANALYZE, CREATE INDEX
        
```
effective_cache_size:
พารามิเตอร์นี้ไม่ได้จัดสรร Memory จริงๆ ครับ แต่เป็นเพียงคำแนะนำสำหรับ Query Planner ว่า OS Disk Cache และ Shared Buffers มีขนาดรวมกันเท่าไหร่ เพื่อให้ Planner ตัดสินใจเลือก Execution Plan ที่ดีที่สุด หากตั้งค่าต่ำเกินไป Planner อาจเลือกใช้ Index น้อยลง และหันไปใช้ Sequential Scan แทนครับ
- คำแนะนำ: ควรตั้งค่าประมาณ 75% – 80% ของ RAM ทั้งหมดใน Server ครับ
- ตัวอย่าง: สำหรับ Server ที่มี RAM 16GB, effective_cache_size = 12GB
```
effective_cache_size = 12GB # Hint for query planner
        
```

พารามิเตอร์ที่เกี่ยวข้องกับ WAL (Write-Ahead Log)

wal_buffers:
กำหนดขนาดของ Shared Memory ที่ใช้สำหรับแคช WAL data ก่อนที่จะเขียนลงไฟล์ WAL บนดิสก์ครับ
- คำแนะนำ: ค่าเริ่มต้นคือ -1 (ซึ่งหมายถึง 1/32 ของ shared_buffers, สูงสุด 16MB) ซึ่งมักจะเพียงพอแล้วครับ การเพิ่มค่านี้จะช่วยลดจำนวนครั้งที่ต้องเขียนลงดิสก์ แต่ใช้ Memory เพิ่มขึ้น
- ตัวอย่าง: wal_buffers = 16MB (ค่าเริ่มต้นก็มักจะ 16MB แล้ว)
```
wal_buffers = 16MB
        
```
synchronous_commit:
ควบคุมว่า Transaction จะถูกยืนยัน (Commit) กลับไปยัง Client เมื่อใดครับ
- on (ค่าเริ่มต้น): Transaction จะถูกยืนยันเมื่อ WAL ถูกเขียนลงดิสก์อย่างถาวร (ปลอดภัยที่สุด)
- off: Transaction จะถูกยืนยันทันทีที่ WAL ถูกเขียนไปยัง OS Cache โดยไม่รอการเขียนลงดิสก์จริง (เร็วขึ้น แต่มีความเสี่ยงที่จะสูญเสียข้อมูลเล็กน้อยหาก Server ล่มก่อนที่ข้อมูลจะถูกเขียนลงดิสก์)
- คำแนะนำ: สำหรับแอปพลิเคชันที่ต้องการความเร็วสูงและยอมรับความเสี่ยงการสูญเสียข้อมูลเล็กน้อยได้ (เช่น Log Data, Metrics) อาจพิจารณาตั้งค่าเป็น off แต่สำหรับข้อมูลที่สำคัญ ควรใช้ on ครับ
```
synchronous_commit = off # For high performance, lower durability guarantees
        
```

พารามิเตอร์ที่เกี่ยวข้องกับการ Checkpoint

Checkpoint คือกระบวนการที่ PostgreSQL เขียนข้อมูลที่แก้ไขแล้วทั้งหมดจาก Shared Buffers ลงดิสก์ และบันทึกสถานะของฐานข้อมูล การทำ Checkpoint บ่อยเกินไปหรือไม่เพียงพอ อาจส่งผลต่อประสิทธิภาพและเวลา Recovery ครับ

max_wal_size:
กำหนดขนาดสูงสุดของ WAL segments ที่สามารถมีอยู่ได้ก่อนที่ Checkpoint จะถูกบังคับให้เกิดขึ้นครับ
- คำแนะนำ: ค่าเริ่มต้นคือ 1GB ซึ่งอาจจะต่ำเกินไปสำหรับระบบที่มีการเขียนข้อมูลจำนวนมาก ลองเพิ่มเป็น 4GB, 8GB หรือ 16GB ครับ การเพิ่มค่านี้จะทำให้ Checkpoint เกิดขึ้นน้อยลง ลด Disk I/O Spikes แต่จะทำให้ Recovery Time นานขึ้นหาก Server ล่ม
```
max_wal_size = 16GB
        
```
min_wal_size:
กำหนดขนาดต่ำสุดของ WAL segments ที่จะถูกเก็บไว้ เพื่อหลีกเลี่ยงการลบและสร้างไฟล์ WAL บ่อยเกินไปครับ
- คำแนะนำ: ควรตั้งค่าให้สมดุลกับ max_wal_size โดยทั่วไปประมาณครึ่งหนึ่งของ max_wal_size ครับ
```
min_wal_size = 8GB
        
```
checkpoint_timeout:
กำหนดช่วงเวลาสูงสุดระหว่าง Checkpoint ครับ
- คำแนะนำ: ค่าเริ่มต้นคือ 5 นาที ซึ่งอาจทำให้เกิด Checkpoint บ่อยเกินไปหากมีการเขียนข้อมูลไม่มากนัก ลองเพิ่มเป็น 15 นาที หรือ 30 นาที เพื่อให้ Checkpoint เกิดขึ้นโดย Trigger จาก max_wal_size มากกว่าเวลาครับ
```
checkpoint_timeout = 30min
        
```

พารามิเตอร์สำหรับ Query Planner

พารามิเตอร์เหล่านี้จะช่วยให้ Query Planner ประเมิน Cost ของแต่ละ Operation ได้แม่นยำขึ้นครับ

random_page_cost:
Cost ในการอ่าน Disk Page แบบสุ่ม (Random Access) ครับ ค่าเริ่มต้นคือ 4.0 ซึ่งสมมติว่าเป็นการอ่านจาก HDD แบบเก่า หากใช้ SSD ควรลดค่านี้ลงครับ
- คำแนะนำ: สำหรับ SSD ควรตั้งค่าเป็น 1.0 – 2.0 ครับ
```
random_page_cost = 1.1 # For SSDs
        
```
seq_page_cost:
Cost ในการอ่าน Disk Page แบบเรียงลำดับ (Sequential Access) ครับ ค่าเริ่มต้นคือ 1.0
- คำแนะนำ: สำหรับ SSD ก็สามารถลดลงได้เล็กน้อย เช่น 1.0 หรือ 0.8 ครับ
```
seq_page_cost = 0.8 # For SSDs
        
```

พารามิเตอร์การเชื่อมต่อ

max_connections:
จำนวน Connection สูงสุดที่ PostgreSQL Server สามารถรองรับได้พร้อมกันครับ
- คำแนะนำ: การตั้งค่าสูงเกินไปจะทำให้ PostgreSQL ใช้ Memory มากขึ้นครับ หากคุณมี Connection Pooling อยู่ด้านหน้า (เช่น PgBouncer) คุณสามารถตั้งค่า max_connections ให้ต่ำลงได้ (เช่น 100-200) เพื่อประหยัด Memory ครับ
```
max_connections = 200 # If using connection pooler, otherwise adjust based on application needs
        
```

ข้อควรจำ: หลังจากแก้ไขไฟล์ postgresql.conf คุณต้อง Restart PostgreSQL Server เพื่อให้การเปลี่ยนแปลงมีผลครับ (ยกเว้นพารามิเตอร์บางตัวที่สามารถใช้ pg_reload_conf() ได้ แต่โดยทั่วไป Restart จะปลอดภัยที่สุดครับ)

กลยุทธ์การสร้าง Index เพื่อเพิ่มความเร็วในการสืบค้น

Index คือโครงสร้างข้อมูลพิเศษที่ช่วยให้ PostgreSQL ค้นหา Row ในตารางได้เร็วขึ้น คล้ายกับดัชนีในหนังสือเรียนครับ หากไม่มี Index การค้นหาจะต้องสแกนทั้งตาราง (Sequential Scan) ซึ่งช้ามากสำหรับตารางขนาดใหญ่

ประเภทของ Index ใน PostgreSQL

PostgreSQL มี Index หลายประเภท แต่ละประเภทเหมาะกับการใช้งานที่แตกต่างกันครับ

ประเภท Index	กรณีใช้งานหลัก	ข้อดี	ข้อจำกัด
B-Tree (Default)	การเปรียบเทียบค่า (`=`, `<`, `>`, `<=`, `>=`), `ORDER BY`, `GROUP BY`, `DISTINCT`	ใช้งานได้หลากหลาย, มีประสิทธิภาพสูงสำหรับการค้นหาค่าเดียวและช่วงค่า, รองรับ Unique Constraints	ไม่เหมาะกับการค้นหาข้อความบางส่วน (Full-Text Search) หรือข้อมูลเชิงพื้นที่
Hash	การเปรียบเทียบค่าเท่ากับ (`=`) เท่านั้น	อาจจะเร็วกว่า B-Tree เล็กน้อยสำหรับการค้นหาค่าเท่ากับในบางกรณี	ไม่รองรับการสืบค้นช่วงค่า, ไม่ปลอดภัยสำหรับการ Replication บางประเภท, ไม่รองรับ Unique Constraints
GIN (Generalized Inverted Index)	Full-Text Search (`@@`), Array operations (`@>`, `<@`), JSONB operations (`?`, `?\|`, `?&`)	มีประสิทธิภาพสูงสำหรับการค้นหาภายในข้อมูลที่มีโครงสร้างซับซ้อน (เช่น ข้อความ, JSONB, Array)	การสร้างและบำรุงรักษาช้ากว่า B-Tree, ขนาดใหญ่กว่า
GiST (Generalized Search Tree)	ข้อมูลเชิงพื้นที่ (PostGIS), Range types, Full-Text Search (ทางเลือกอื่น), บางส่วนของ JSONB	ยืดหยุ่นสูง, เหมาะสำหรับข้อมูลที่มีหลายมิติหรือโครงสร้างต้นไม้	การสร้างและบำรุงรักษาซับซ้อนกว่า B-Tree
BRIN (Block Range Index)	ตารางขนาดใหญ่ที่มีข้อมูลเรียงลำดับตามธรรมชาติ (เช่น ตาราง Log ที่เก็บข้อมูลตามเวลา)	ขนาดเล็กมาก, มีประสิทธิภาพในการสแกน Block ที่เกี่ยวข้อง	ไม่เหมาะกับข้อมูลที่ไม่เป็นระเบียบ, ประสิทธิภาพขึ้นอยู่กับการเรียงลำดับของข้อมูล
SP-GiST (Space-Partitioned GiST)	Tree-structured data, Quadtree, K-d tree structures	เหมาะสำหรับข้อมูลที่ไม่มีโครงสร้างเชิงเส้นตรง	ซับซ้อนในการใช้งาน, เหมาะสำหรับผู้เชี่ยวชาญ

เมื่อไหร่ควรสร้าง Index?

คอลัมน์ที่ใช้ใน WHERE Clause บ่อยๆ: โดยเฉพาะคอลัมน์ที่มี Cardinality สูง (มีค่าที่แตกต่างกันมาก)
คอลัมน์ที่ใช้ใน JOIN Condition: โดยเฉพาะ Foreign Key
คอลัมน์ที่ใช้ใน ORDER BY และ GROUP BY: Index สามารถช่วยให้ไม่ต้องมีการ Sort ข้อมูลจริง
คอลัมน์ที่ใช้สำหรับ Unique Constraint: PostgreSQL จะสร้าง B-Tree Index ให้โดยอัตโนมัติเมื่อคุณกำหนด UNIQUE หรือ PRIMARY KEY
คอลัมน์ที่ถูก Query ในช่วงค่า (Range Query): เช่น BETWEEN, <, >

ข้อควรระวัง: การสร้าง Index มากเกินไปก็ไม่ดีครับ เพราะทุกครั้งที่มีการ Insert, Update, Delete ข้อมูลในตาราง Index จะต้องถูกอัปเดตด้วย ซึ่งจะเพิ่ม Overhead ในการเขียนข้อมูลและกินพื้นที่ดิสก์ครับ ควรสร้าง Index เฉพาะที่จำเป็นจริงๆ ครับ

เทคนิคการสร้าง Index ขั้นสูง

Composite Indexes (Multi-Column Indexes):
Index ที่สร้างจากหลายคอลัมน์ มีประโยชน์มากเมื่อ Query ของคุณมี WHERE Clause ที่ใช้หลายคอลัมน์พร้อมกัน ลำดับของคอลัมน์ใน Index มีความสำคัญอย่างยิ่งครับ
```
CREATE INDEX idx_products_category_price ON products (category_id, price);
        
```
Index นี้จะถูกใช้ได้ดีสำหรับ Query ที่มี WHERE category_id = X AND price > Y หรือ WHERE category_id = X แต่จะไม่ถูกใช้ได้ดีหาก Query มีเพียง WHERE price > Y เท่านั้น
Partial Indexes:
Index ที่สร้างบน Sub-set ของ Row ในตารางเท่านั้น มีประโยชน์เมื่อคุณต้องการ Index เฉพาะบางส่วนของข้อมูลที่ถูก Query บ่อยๆ เช่น เฉพาะ Row ที่มีสถานะเป็น ‘active’
```
CREATE INDEX idx_orders_active ON orders (customer_id) WHERE status = 'active';
        
```
Index นี้จะมีขนาดเล็กกว่าและบำรุงรักษาง่ายกว่า Index ทั่วไป
Expression Indexes:
Index ที่สร้างบนผลลัพธ์ของ Expression หรือ Function มีประโยชน์เมื่อคุณใช้ Function หรือ Expression ใน WHERE Clause บ่อยๆ
```
CREATE INDEX idx_users_lower_email ON users (lower(email));
        
```
เพื่อให้สามารถใช้ Index นี้ได้ Query ต้องใช้ lower(email) ด้วยเช่นกันครับ เช่น SELECT * FROM users WHERE lower(email) = '[email protected]';
Covering Indexes (Index-Only Scans):
Index ที่มีคอลัมน์ที่ถูก Query (ใน SELECT list) ถูกรวมอยู่ใน Index ด้วย ทำให้ PostgreSQL สามารถดึงข้อมูลทั้งหมดที่ต้องการได้จาก Index โดยตรง โดยไม่ต้องกลับไปอ่านข้อมูลจาก Table Heap (ส่วนที่เก็บข้อมูลจริงของตาราง) ซึ่งเร็วกว่ามากครับ ใช้ Keyword INCLUDE
```
CREATE INDEX idx_products_name_id ON products (name) INCLUDE (id, price);
        
```
Query เช่น SELECT id, price FROM products WHERE name = 'Laptop'; จะสามารถทำ Index-Only Scan ได้ครับ

การตรวจสอบและบำรุงรักษา Index

หา Index ที่ไม่ได้ใช้: Index ที่ไม่ได้ใช้คือ Index ที่เปลืองทรัพยากรโดยไม่จำเป็น สามารถหาได้จาก pg_stat_user_indexes โดยดูที่คอลัมน์ idx_scan ครับ หากค่าเป็น 0 หรือต่ำมาก แสดงว่า Index นั้นอาจไม่จำเป็น


SELECT
    relname AS table_name,
    indexrelname AS index_name,
    idx_scan,
    idx_tup_read,
    idx_tup_fetch
FROM
    pg_stat_user_indexes
ORDER BY
    idx_scan ASC;

หา Index ที่มี Bloat: Index ก็มี Bloat ได้เช่นกัน สามารถตรวจสอบได้จาก Tool ภายนอก หรือ Query ที่ซับซ้อนขึ้นครับ การทำ REINDEX อาจช่วยลดขนาด Index ได้

การปรับปรุงประสิทธิภาพ Query

Query ที่มีประสิทธิภาพคือหัวใจสำคัญของฐานข้อมูลที่รวดเร็ว การเขียน Query ที่ดีและการเข้าใจ Execution Plan เป็นทักษะที่จำเป็นสำหรับ DBA และ Developer ครับ

การใช้งาน EXPLAIN ANALYZE อย่างละเอียด

EXPLAIN ANALYZE คือเพื่อนที่ดีที่สุดของคุณในการวิเคราะห์และปรับแต่ง Query ครับ มันจะแสดงว่า PostgreSQL วางแผนจะรัน Query อย่างไร และใช้เวลานานแค่ไหนในแต่ละขั้นตอน


EXPLAIN ANALYZE
SELECT p.name, c.name AS category_name, p.price
FROM products p
JOIN categories c ON p.category_id = c.id
WHERE p.price > 500 AND c.name = 'Electronics'
ORDER BY p.price DESC
LIMIT 10;

การอ่านผลลัพธ์ EXPLAIN ANALYZE:

Node Type: แต่ละบรรทัดแสดงถึง Operation ที่ PostgreSQL ทำ เช่น Seq Scan, Index Scan, Hash Join, Nested Loop, Sort เป็นต้น
(cost=start_cost..end_cost rows=N width=M):
- start_cost: ค่าประมาณของ Cost ในการเริ่ม Operation (เช่น การหา Row แรก)
- end_cost: ค่าประมาณของ Cost ทั้งหมดในการทำ Operation นั้นๆ ให้เสร็จสิ้น
- rows: จำนวน Row ที่ Query Planner คาดว่าจะได้รับจาก Operation นี้
- width: ขนาดโดยประมาณของ Row ที่ส่งออกมาเป็นไบต์
หมายเหตุ: Cost เป็นหน่วยที่ไม่ระบุ แต่ใช้สำหรับเปรียบเทียบความแพงของแต่ละ Plan ครับ
(actual time=start_time..end_time rows=N loops=X):
- start_time: เวลาจริงที่ใช้ในการเริ่ม Operation (มิลลิวินาที)
- end_time: เวลาจริงที่ใช้ในการทำ Operation นั้นๆ ให้เสร็จสิ้น (มิลลิวินาที)
- rows: จำนวน Row จริงที่ได้รับจาก Operation นี้
- loops: จำนวนครั้งที่ Operation นี้ถูกรัน (สำคัญใน Nested Loop Joins)
Buffers: ข้อมูลเกี่ยวกับการเข้าถึง Block ของข้อมูล เช่น shared hit (อ่านจาก Shared Buffers), shared read (อ่านจากดิสก์)
Planning Time, Execution Time: เวลาที่ใช้ในการวางแผน Query และเวลาที่ใช้ในการรัน Query จริงๆ ครับ

สิ่งที่คุณควรมองหาในผลลัพธ์ EXPLAIN ANALYZE:

Sequential Scan บนตารางใหญ่: หากเห็น Seq Scan บนตารางที่มีขนาดใหญ่ และ Query มี WHERE Clause ที่สามารถใช้ Index ได้ แสดงว่า Index อาจจะไม่มีอยู่, ไม่เหมาะสม, หรือ Query Planner เลือกใช้ไม่ถูก
Mismatch ระหว่าง Estimated Rows กับ Actual Rows: หากค่า rows=N ในวงเล็บ Cost แตกต่างจาก rows=N ในวงเล็บ Actual Time มากๆ แสดงว่าสถิติของตารางอาจจะล้าสมัย หรือ Query Planner ประเมินพลาด ทำให้เลือก Plan ที่ไม่ดีครับ ควรลองรัน ANALYZE table_name;
เวลาที่ใช้ในแต่ละ Node: ระบุ Node ที่ใช้เวลามากที่สุด นั่นคือจุดที่คุณควรเน้นการปรับปรุงครับ
Sort หรือ Hash Aggregate ที่กิน Memory มาก: หากเห็น Sort Method: external merge Disk: XMB หรือ HashAggregate: Disk: XMB แสดงว่า work_mem อาจจะไม่เพียงพอ ทำให้ต้องใช้ดิสก์ชั่วคราว ซึ่งช้ากว่ามากครับ

หลักการเขียน Query ที่มีประสิทธิภาพ

หลีกเลี่ยง SELECT *: เลือกเฉพาะคอลัมน์ที่คุณต้องการจริงๆ เพื่อลด Bandwidth และ Memory Usage ครับ
ใช้ WHERE Clause อย่างมีประสิทธิภาพ:
- ใช้ Operator ที่สามารถใช้ Index ได้ (=, <, >, LIKE 'prefix%')
- หลีกเลี่ยงการใช้ Function กับคอลัมน์ที่อยู่ใน WHERE Clause หากคอลัมน์นั้นมี Index (เช่น WHERE lower(email) = '...' จะไม่ใช้ Index บน email แต่ถ้าสร้าง Expression Index บน lower(email) ก็จะใช้ได้ครับ)
เข้าใจ Join Types:
- INNER JOIN: คืนค่าเฉพาะ Row ที่มีค่าตรงกันในทั้งสองตาราง
- LEFT JOIN: คืนค่า Row ทั้งหมดจากตารางซ้าย และ Row ที่ตรงกันจากตารางขวา (ถ้ามี)
เลือกใช้ Join Type ที่เหมาะสมกับความต้องการของคุณเสมอครับ
ลด Subqueries: บางครั้ง Subqueries สามารถเขียนใหม่เป็น JOIN หรือ CTE (Common Table Expression) ซึ่งอาจมีประสิทธิภาพดีกว่าครับ
ใช้ LIMIT และ OFFSET อย่างระมัดระวัง: สำหรับ Pagination ที่มี OFFSET สูงๆ อาจจะช้ามาก เพราะ PostgreSQL ต้องสแกน Row จำนวนมากก่อนที่จะข้ามไปถึงจุดที่ต้องการครับ ลองพิจารณาใช้เทคนิค เช่น Keysets (Cursor-based Pagination) แทนครับ อ่านเพิ่มเติมเรื่อง Keysets Pagination
ใช้ EXISTS หรือ NOT EXISTS แทน IN หรือ NOT IN ในบางกรณี: โดยเฉพาะเมื่อ Subquery มีขนาดใหญ่ EXISTS มักจะมีประสิทธิภาพดีกว่า เพราะจะหยุดสแกนทันทีที่พบ Row แรกที่ตรงเงื่อนไขครับ

การใช้ CTEs และ Materialized Views

CTEs (Common Table Expressions):
CTEs ช่วยให้ Query ซับซ้อนอ่านง่ายขึ้นและจัดระเบียบได้ดีขึ้น แต่โดยค่าเริ่มต้นแล้ว CTEs ไม่ได้ทำให้ Query มีประสิทธิภาพเร็วขึ้นเสมอไปครับ PostgreSQL จะรัน CTE ในแต่ละครั้งที่ถูกอ้างอิง หากต้องการให้ CTE ถูกประมวลผลเพียงครั้งเดียว ให้ใช้ WITH ... AS MATERIALIZED (...)
```
WITH RECURSIVE subordinates AS (
    SELECT id, name, manager_id
    FROM employees
    WHERE id = 123
    UNION ALL
    SELECT e.id, e.name, e.manager_id
    FROM employees e
    JOIN subordinates s ON s.id = e.manager_id
)
SELECT * FROM subordinates;
        
```
Materialized Views:
สำหรับ Query ที่ซับซ้อนและใช้เวลานานในการประมวลผล แต่ผลลัพธ์ไม่จำเป็นต้องเป็น Real-time เสมอไป Materialized View คือทางออกที่ดีครับ มันจะเก็บผลลัพธ์ของ Query ไว้ในดิสก์เหมือนตารางปกติ ทำให้การสืบค้นรวดเร็วมาก
```
CREATE MATERIALIZED VIEW daily_sales_summary AS
SELECT
    DATE_TRUNC('day', order_date) AS sale_day,
    SUM(total_amount) AS total_sales,
    COUNT(id) AS total_orders
FROM
    orders
GROUP BY
    1
ORDER BY
    1;
        
```
ในการอัปเดตข้อมูลใน Materialized View คุณต้องรัน REFRESH MATERIALIZED VIEW daily_sales_summary; ซึ่งอาจใช้เวลานาน ขึ้นอยู่กับความซับซ้อนของ Query และปริมาณข้อมูลครับ

การจัดการ Autovacuum และ Table Bloat

Autovacuum เป็นหนึ่งในคุณสมบัติที่สำคัญที่สุดของ PostgreSQL ที่ช่วยรักษาประสิทธิภาพและป้องกันปัญหาครับ การทำความเข้าใจและการปรับแต่ง Autovacuum จึงเป็นสิ่งจำเป็น

Table Bloat คืออะไรและส่งผลอย่างไร?

ใน PostgreSQL เมื่อคุณ UPDATE หรือ DELETE Row ข้อมูลเดิมไม่ได้ถูกลบทันทีครับ แต่จะถูกทำเครื่องหมายว่า “dead tuple” หรือ “obsolete tuple” แล้ว Row ใหม่หรือเวอร์ชันใหม่ของ Row จะถูกเพิ่มเข้ามาแทน Dead tuples เหล่านี้ยังคงกินพื้นที่บนดิสก์และใน Block ของข้อมูล จนกว่าจะมีกระบวนการ VACUUM มาทำความสะอาดและนำพื้นที่นั้นกลับมาใช้ใหม่

หากมี Dead tuples สะสมมากเกินไป จะเกิด Table Bloat และ Index Bloat ครับ ซึ่งส่งผลเสียดังนี้:

สิ้นเปลืองพื้นที่ดิสก์: ตารางและ Index มีขนาดใหญ่กว่าที่ควรจะเป็น
ลดประสิทธิภาพ I/O: การอ่านข้อมูลจะต้องอ่าน Block ที่มี Dead tuples ด้วย ทำให้ต้องอ่านข้อมูลมากขึ้นจากดิสก์
ลดประสิทธิภาพการแคช: Shared Buffers และ OS Cache จะต้องเก็บ Block ที่มี Dead tuples ทำให้มีพื้นที่น้อยลงสำหรับข้อมูลจริง
ลดประสิทธิภาพ Query: Query Planner อาจประเมิน Cost ผิดพลาด และการสแกน Index หรือตารางก็ช้าลง

การปรับแต่ง Autovacuum

Autovacuum คือ Background Process ที่รัน VACUUM และ ANALYZE โดยอัตโนมัติ เพื่อป้องกัน Bloat และอัปเดตสถิติของตารางครับ

พารามิเตอร์ที่สำคัญใน postgresql.conf:

autovacuum = on: (ค่าเริ่มต้น) ควรเปิดใช้งานเสมอครับ
autovacuum_max_workers:
จำนวน Autovacuum Worker Process สูงสุดที่สามารถรันพร้อมกันได้
- คำแนะนำ: ค่าเริ่มต้นคือ 3 อาจจะน้อยเกินไปสำหรับระบบที่มีการเขียนข้อมูลจำนวนมาก ลองเพิ่มเป็น 5-10 ครับ
```
autovacuum_max_workers = 5
        
```
autovacuum_vacuum_cost_delay:
ระยะเวลาที่ Worker จะหยุดพัก (มิลลิวินาที) หลังจากใช้ Cost Limit ไปแล้ว เพื่อไม่ให้ Autovacuum กินทรัพยากรมากเกินไป
- คำแนะนำ: ค่าเริ่มต้น 10ms อาจจะทำให้ Autovacuum ทำงานช้าเกินไปสำหรับตารางใหญ่ ลองลดเป็น 0-2ms เพื่อให้ทำงานเร็วขึ้น แต่ระวังเรื่อง I/O Impact ครับ หรือสามารถตั้งค่าเป็น -1 เพื่อใช้ค่าเริ่มต้นของตารางแต่ละตาราง
```
autovacuum_vacuum_cost_delay = 2ms
        
```
autovacuum_vacuum_cost_limit:
จำนวน Cost ที่ Autovacuum Worker จะใช้ก่อนที่จะหยุดพักตาม autovacuum_vacuum_cost_delay
- คำแนะนำ: ค่าเริ่มต้น 200 อาจจะต่ำไปสำหรับระบบที่มี I/O แรงๆ ลองเพิ่มเป็น 500-1000 ครับ
```
autovacuum_vacuum_cost_limit = 500
        
```
autovacuum_vacuum_scale_factor และ autovacuum_vacuum_threshold:
กำหนดเงื่อนไขในการ Trigger Autovacuum Vacuum ครับ เมื่อจำนวน Dead tuples เกิน (reltuples * autovacuum_vacuum_scale_factor) + autovacuum_vacuum_threshold
- คำแนะนำ: ค่าเริ่มต้น 0.2 (20%) และ 50 มักจะดีสำหรับตารางส่วนใหญ่ แต่สำหรับตารางที่มีการ Update/Delete บ่อยมาก อาจจะต้องลด scale_factor ลง (เช่น 0.05-0.1) เพื่อให้ Autovacuum ทำงานเร็วขึ้นครับ
```
autovacuum_vacuum_scale_factor = 0.1 # vacuum when 10% of rows are dead
autovacuum_vacuum_threshold = 50
        
```
autovacuum_analyze_scale_factor และ autovacuum_analyze_threshold:
กำหนดเงื่อนไขในการ Trigger Autovacuum Analyze ครับ เพื่ออัปเดตสถิติของตาราง
- คำแนะนำ: ค่าเริ่มต้น 0.1 (10%) และ 50 มักจะดี แต่สำหรับตารางที่มีการเปลี่ยนแปลงข้อมูลบ่อยและสำคัญต่อ Query Planner อาจต้องลด scale_factor ลง
```
autovacuum_analyze_scale_factor = 0.05 # analyze when 5% of rows changed
autovacuum_analyze_threshold = 50
        
```

คุณยังสามารถตั้งค่า Autovacuum พารามิเตอร์เหล่านี้สำหรับแต่ละตารางได้ด้วย ALTER TABLE เพื่อให้เหมาะสมกับลักษณะการใช้งานของตารางนั้นๆ ครับ


ALTER TABLE my_large_table SET (autovacuum_vacuum_scale_factor = 0.05);
ALTER TABLE my_large_table SET (autovacuum_vacuum_cost_delay = 0);

การใช้งาน VACUUM และ ANALYZE ด้วยตนเอง

แม้จะมี Autovacuum แต่บางครั้งเราก็จำเป็นต้องรัน VACUUM และ ANALYZE ด้วยตนเองครับ

VACUUM table_name;:
ทำความสะอาด Dead tuples และนำพื้นที่กลับมาใช้ใหม่ (สำหรับ Row ใหม่) แต่จะไม่คืนพื้นที่ให้กับ OS ครับ
VACUUM FULL table_name;:
เขียนตารางใหม่ทั้งหมดโดยไม่มี Dead tuples และคืนพื้นที่ให้กับ OS ครับ แต่ Operation นี้จะ Lock ตารางทั้งตาราง ทำให้ไม่สามารถใช้งานได้ชั่วคราว และใช้เวลานานสำหรับตารางขนาดใหญ่ ควรทำในช่วงนอกเวลาทำการครับ
ANALYZE table_name;:
เก็บสถิติการกระจายตัวของข้อมูลในตาราง เพื่อให้ Query Planner สร้าง Execution Plan ที่แม่นยำขึ้นครับ
VACUUM (ANALYZE, VERBOSE) table_name;:
การผสมผสานและแสดงรายละเอียดการทำงาน

การตรวจสอบและแก้ไข Bloat

มี Query และ Tools มากมายที่ช่วยในการตรวจสอบ Bloat ครับ


-- Query เพื่อตรวจสอบ Table Bloat โดยประมาณ
SELECT
    relname,
    pg_size_pretty(pg_relation_size(c.oid)) AS table_size,
    pg_size_pretty(pg_total_relation_size(c.oid) - pg_relation_size(c.oid)) AS indexes_size,
    n_dead_tup AS dead_tuples,
    n_live_tup AS live_tuples,
    n_mod_since_analyze AS modified_since_analyze,
    autovacuum_count,
    last_autovacuum,
    last_autoanalyze
FROM
    pg_stat_user_tables c
ORDER BY
    dead_tuples DESC;

หากพบตารางที่มี Bloat รุนแรง (dead_tuples สูงมาก) และ Autovacuum ไม่สามารถตามได้ทัน อาจจะต้องพิจารณาทำ VACUUM FULL ในช่วงที่ระบบไม่ทำงาน หรือใช้ Extension เช่น pg_repack (ซึ่งสามารถทำ Online Reindex/Vacuum ได้โดยไม่ Lock ตารางนาน) ครับ เรียนรู้เพิ่มเติมเกี่ยวกับ pg_repack

ปัจจัยด้าน Hardware และการปรับแต่งระดับ OS

ประสิทธิภาพของ PostgreSQL ขึ้นอยู่กับ Hardware ที่รันอยู่ด้วยครับ การเลือก Hardware ที่เหมาะสมและการปรับแต่งระบบปฏิบัติการก็สำคัญไม่แพ้กัน

CPU และ RAM

CPU: PostgreSQL สามารถใช้ได้หลาย Core สำหรับ Query ที่เป็น Parallel ได้ (ถ้าเปิด max_parallel_workers และ max_parallel_workers_per_gather) และสำหรับ Background Processes ต่างๆ แต่โดยทั่วไปแล้ว CPU Clock Speed ที่สูงมักจะดีกว่าจำนวน Core ที่มากเกินไปสำหรับ Workload ทั่วไปครับ
Memory (RAM): เป็นสิ่งสำคัญที่สุดรองจาก Storage ครับ RAM ที่เพียงพอจะช่วยให้ shared_buffers, work_mem และ OS Cache ทำงานได้อย่างมีประสิทธิภาพ ลดการเข้าถึงดิสก์ ซึ่งเป็นส่วนที่ช้าที่สุดในการทำงานของฐานข้อมูลครับ ควรมี RAM อย่างน้อย 8GB สำหรับ Production และเพิ่มขึ้นตามขนาดของฐานข้อมูลและ Workload ครับ

Storage และ Disk I/O

นี่คือปัจจัยที่สำคัญที่สุดสำหรับการทำงานของฐานข้อมูลครับ

SSDs (Solid State Drives): เป็นตัวเลือกที่ดีที่สุดสำหรับ Production Database ครับ โดยเฉพาะ NVMe SSDs ที่ให้ Latency ต่ำและ Throughput สูงกว่า SATA SSDs มาก
RAID Configurations:
- RAID 10 (1+0): เป็นตัวเลือกที่นิยมที่สุดสำหรับ Database เพราะให้ทั้ง Performance (Read/Write) และ Redundancy ที่ดีครับ
- RAID 1: เหมาะสำหรับฐานข้อมูลขนาดเล็กที่ต้องการ Redundancy
- RAID 5/6: ไม่แนะนำสำหรับ Production Database เพราะมี Performance ในการเขียนที่แย่กว่า RAID 10 และมี Latency สูงกว่า
Dedicated Disk for WAL: หากเป็นไปได้ การมี Disk แยกต่างหากสำหรับ WAL files (ซึ่งมีการเขียนแบบ Sequential สูงมาก) สามารถช่วยลด Disk Contention และเพิ่มประสิทธิภาพได้อย่างมากครับ
Filesystem: Linux filesystems อย่าง ext4 หรือ XFS เป็นตัวเลือกที่ดีครับ XFS มักจะให้ประสิทธิภาพที่ดีกว่าใน Workload ที่มีการเขียนสูง

Network

หากแอปพลิเคชันและฐานข้อมูลอยู่คนละ Server ควรตรวจสอบ Bandwidth และ Latency ของ Network ด้วยครับ สำหรับ Cloud Environments ตรวจสอบว่า VM ของคุณมี Network Bandwidth เพียงพอหรือไม่

การปรับแต่งระบบปฏิบัติการ (Linux)

vm.swappiness:
พารามิเตอร์นี้ควบคุมพฤติกรรมการใช้ Swap Space ของ Kernel ครับ ค่าเริ่มต้น (60) อาจจะทำให้ OS เริ่มใช้ Swap เร็วเกินไป ซึ่งส่งผลเสียต่อประสิทธิภาพของฐานข้อมูล
- คำแนะนำ: ลดค่า vm.swappiness ลงเป็น 10 หรือ 1 ครับ เพื่อให้ OS พยายามเก็บ Page ใน RAM ให้มากที่สุดก่อนที่จะใช้ Swap
```
sudo sysctl -w vm.swappiness=10
# หรือแก้ไขใน /etc/sysctl.conf:
# vm.swappiness = 10
# จากนั้นรัน sudo sysctl -p
        
```
Huge Pages:
การเปิดใช้งาน Transparent Huge Pages (THP) หรือ Explicit Huge Pages สามารถช่วยลด Overhead ของ MMU (Memory Management Unit) และเพิ่มประสิทธิภาพของ Memory ได้ครับ แต่ THP อาจมีปัญหา Performance ในบาง Workload ดังนั้นควรศึกษาและทดสอบให้ดีก่อนใช้งาน
- คำแนะนำ: สำหรับ PostgreSQL แนะนำให้ปิด THP และใช้ Explicit Huge Pages แทน หากต้องการใช้ครับ
```
# ปิด THP
echo never | sudo tee /sys/kernel/mm/transparent_hugepage/enabled
echo never | sudo tee /sys/kernel/mm/transparent_hugepage/defrag
        
```

I/O Scheduler:

สำหรับ SSDs ควรใช้ I/O Scheduler แบบ noop หรือ deadline ครับ


# ตรวจสอบ scheduler ปัจจุบัน
cat /sys/block/sda/queue/scheduler
# ตั้งค่าเป็น noop
echo noop | sudo tee /sys/block/sda/queue/scheduler

เทคนิคขั้นสูงเพื่อประสิทธิภาพและการขยายขนาด

Connection Pooling

ทุกครั้งที่ Client เชื่อมต่อกับ PostgreSQL Server จะต้องมี Process ใหม่ถูก Fork ขึ้นมา ซึ่งใช้ Memory และ CPU ครับ หากแอปพลิเคชันมีการเชื่อมต่อและตัดการเชื่อมต่อบ่อยๆ จะเกิด Overhead สูงมาก

Connection Pooler เช่น PgBouncer หรือ Odyssey จะช่วยจัดการ Connection เหล่านี้ โดยจะ Maintain Pool ของ Connection ที่พร้อมใช้งานไว้ล่วงหน้า ทำให้ Client สามารถเชื่อมต่อได้อย่างรวดเร็วโดยไม่ต้องสร้าง Process ใหม่ทุกครั้งครับ

ข้อดี:

ลด Overhead ในการสร้างและทำลาย Connection
ช่วยควบคุมจำนวน Connection สูงสุดที่ไปยังฐานข้อมูลจริง ทำให้ max_connections ใน postgresql.conf สามารถตั้งค่าต่ำลงได้ ประหยัด Memory
รองรับ Connection Modes ที่แตกต่างกัน (Session, Transaction, Statement)

Replication สำหรับ Read Scaling และ HA

เมื่อ Workload การอ่าน (Read Workload) สูงขึ้นจน Server เดียวไม่สามารถรองรับได้ การทำ Replication คือทางออกครับ

Streaming Replication:
เป็นรูปแบบที่นิยมที่สุดสำหรับการทำ High Availability (HA) และ Read Scaling ครับ มี Primary Server หนึ่งตัวที่รับการเขียนข้อมูลทั้งหมด และ Secondary Server (Replica) หลายตัวที่รับ WAL logs จาก Primary และนำไป Apply เข้ากับฐานข้อมูลของตัวเอง ทำให้ข้อมูลเกือบจะเป็น Real-time ครับ
- ข้อดี: Read Scalability, High Availability (Failover), Data Redundancy
- ข้อจำกัด: Secondary Server เป็น Read-Only
Logical Replication:
เป็นรูปแบบที่ยืดหยุ่นกว่า Streaming Replication โดยจะ Replicate เฉพาะ Logical Changes (เช่น Insert, Update, Delete) ไม่ใช่ Physical WAL segments เหมาะสำหรับ:
- การ Replicate เฉพาะบางตาราง หรือบาง Schema
- การ Replicate ข้ามเวอร์ชัน PostgreSQL
- การ Replicate ไปยังฐานข้อมูลอื่น (เช่น Data Warehouse)
- การทำ Bi-directional Replication (ซับซ้อนกว่า)

Table Partitioning

สำหรับตารางที่มีขนาดใหญ่มาก (หลายร้อย GB หรือ TB) การทำ Partitioning สามารถช่วยเพิ่มประสิทธิภาพได้อย่างมหาศาลครับ โดยการแบ่งตารางใหญ่ออกเป็นตารางย่อยๆ (Partitions) ตามเงื่อนไขที่กำหนด เช่น ตามช่วงเวลา (Range Partitioning) หรือตามค่า (List Partitioning)


-- ตัวอย่าง Range Partitioning สำหรับตาราง orders ตามวันที่
CREATE TABLE orders (
    order_id SERIAL,
    order_date DATE NOT NULL,
    customer_id INT,
    total_amount NUMERIC
) PARTITION BY RANGE (order_date);

CREATE TABLE orders_2023_q1 PARTITION OF orders
FOR VALUES FROM ('2023-01-01') TO ('2023-04-01');

CREATE TABLE orders_2023_q2 PARTITION OF orders
FOR VALUES FROM ('2023-04-01') TO ('2023-07-01');

ข้อดี:

ประสิทธิภาพการ Query: Query Planner สามารถทำ Partition Pruning ได้ คือสแกนเฉพาะ Partition ที่เกี่ยวข้องกับ Query เท่านั้น
ประสิทธิภาพการ Maintenance: การทำ VACUUM หรือ DELETE ข้อมูลเก่าทำได้ง่ายและรวดเร็วขึ้น โดยการ Drop Partition ทั้งหมดแทนที่จะลบทีละ Row
ลด Bloat: การทำ Autovacuum มีประสิทธิภาพมากขึ้นในแต่ละ Partition

เครื่องมือ Monitoring ระดับมืออาชีพ

นอกเหนือจากเครื่องมือภายในของ PostgreSQL แล้ว การใช้ Monitoring Tool ภายนอกสามารถให้ภาพรวมและ Insight ที่ลึกซึ้งยิ่งขึ้นครับ

Prometheus + Grafana: เป็น Stack ที่นิยมสำหรับ Monitoring และ Visualization สามารถดึง Metrics จาก PostgreSQL (ใช้ postgres_exporter) และ OS ได้อย่างละเอียดครับ
Datadog, New Relic, Dynatrace: เครื่องมือ Monitoring แบบ Commercial ที่มี Agent สำหรับ PostgreSQL โดยเฉพาะ ให้ข้อมูลเชิงลึก การแจ้งเตือน และ Dashboard ที่สวยงาม
pgBadger: เครื่องมือวิเคราะห์ PostgreSQL Log Files สร้างรายงาน HTML ที่อ่านง่าย แสดง Query ที่ช้าที่สุด, การใช้ Index, Checkpoint Statistics และอื่นๆ อีกมากมายครับ

คำถามที่พบบ่อย (FAQ)

Q1: เราควรกำหนดค่า shared_buffers เท่าไหร่ดีที่สุด?

A1: โดยทั่วไปแล้ว shared_buffers ควรกำหนดเป็น 25% ของ RAM ทั้งหมดใน Server ครับ สำหรับ Server ที่มี RAM สูงมาก (เช่น 64GB ขึ้นไป) การตั้งค่า shared_buffers ไม่เกิน 8GB – 16GB ก็มักจะเพียงพอแล้วครับ เพราะแคชของระบบปฏิบัติการ (OS Disk Cache) ก็ทำงานได้ดีเช่นกัน การตั้งค่าที่สูงเกินไปอาจทำให้เกิดการใช้ Memory ที่ไม่มีประสิทธิภาพ หรือแย่ง Memory กับ OS Cache ครับ สิ่งสำคัญคือต้องทดสอบและตรวจสอบประสิทธิภาพจริงภายใต้ Workload ของคุณครับ

Q2: การใช้ EXPLAIN ANALYZE มีผลต่อประสิทธิภาพของ Production Database หรือไม่?

A2: การใช้ EXPLAIN ANALYZE นั้นจะรัน Query จริงๆ ครับ ซึ่งหมายความว่ามันจะใช้ทรัพยากร (CPU, Memory, Disk I/O) และอาจส่งผลกระทบต่อ Performance ของ Production Database ได้เล็กน้อย หาก Query นั้นเป็น Query ที่ซับซ้อนและใช้ทรัพยากรสูง และระบบกำลังทำงานหนักอยู่แล้วครับ ดังนั้น ควรใช้ EXPLAIN ANALYZE อย่างระมัดระวัง หรือใช้บน Staging/Development Environment ที่มีข้อมูลใกล้เคียง Production มากที่สุดครับ หากต้องการดู Plan อย่างเดียวโดยไม่รัน Query จริง ให้ใช้เพียง EXPLAIN ครับ

Q3: Autovacuum ทำงานช้าเกินไป ควรปรับแต่งอย่างไร?

A3: หาก Autovacuum ทำงานช้าและ Bloat สะสมมากเกินไป คุณสามารถปรับแต่งพารามิเตอร์ต่างๆ ได้ครับ เช่น เพิ่ม autovacuum_max_workers เพื่อให้มี Worker ทำงานพร้อมกันมากขึ้น, ลด autovacuum_vacuum_cost_delay เพื่อให้ Worker หยุดพักน้อยลง (แต่ระวัง Disk I/O impact), หรือเพิ่ม autovacuum_vacuum_cost_limit เพื่อให้ Worker ทำงานได้มากขึ้นก่อนหยุดพักครับ นอกจากนี้ การลด autovacuum_vacuum_scale_factor สำหรับตารางที่มีการเปลี่ยนแปลงบ่อย ก็จะช่วยให้ Autovacuum ถูก Trigger เร็วขึ้นครับ แต่การปรับแต่งเหล่านี้ควรทำอย่างระมัดระวังและทดสอบผลกระทบด้วยครับ

Q4: เราควรใช้ B-Tree Index สำหรับทุกคอลัมน์หรือไม่?

A4: ไม่ควรครับ การสร้าง B-Tree Index สำหรับทุกคอลัมน์ไม่ใช่วิธีที่ดีครับ Index มีประโยชน์ในการเร่งความเร็วการอ่าน (SELECT) แต่จะเพิ่ม Overhead ในการเขียน (INSERT, UPDATE, DELETE) ครับ นอกจากนี้ Index ยังใช้พื้นที่ดิสก์และ Memory ด้วย คุณควรสร้าง Index เฉพาะคอลัมน์ที่ใช้ใน WHERE Clause, JOIN Condition, ORDER BY หรือ GROUP BY บ่อยๆ และพิจารณาประเภทของ Index ให้เหมาะสมกับประเภทข้อมูลและการ Query นั้นๆ ครับ

Q5: Materialized View ต่างจาก Regular View อย่างไร และเมื่อไหร่ควรใช้?

A5:

Regular View: เป็นเพียง Query ที่ถูกบันทึกไว้ครับ ทุกครั้งที่คุณ Query View ข้อมูลจะถูกดึงและประมวลผลจากตารางต้นฉบับในขณะนั้น (Real-time)
Materialized View: จะเก็บผลลัพธ์ของ Query ไว้ในดิสก์เหมือนตารางปกติครับ การ Query Materialized View จะเร็วกว่ามาก เพราะมันอ่านข้อมูลที่ Pre-computed ไว้แล้ว

คุณควรใช้ Materialized View เมื่อ Query ที่ซับซ้อนใช้เวลานานในการประมวลผล แต่ผลลัพธ์ไม่จำเป็นต้องเป็น Real-time เสมอไปครับ เช่น รายงานสรุปยอดขายรายวัน หรือ Dashboard Metrics ที่

iCafeForex.com — EA Forex และเครื่องมือเทรด · SiamCafe.net — ชุมชน IT ที่ใหญ่ที่สุด