PostgreSQL Performance Tuning คู่มือปรับแต่งฐานข้อมูล

March 16, 2026

1 View

SaveSavedRemoved 0

ในโลกของการพัฒนาซอฟต์แวร์และการจัดการข้อมูลในปัจจุบัน ฐานข้อมูลเปรียบเสมือนหัวใจสำคัญที่ขับเคลื่อนแอปพลิเคชันและบริการต่าง ๆ ให้ทำงานได้อย่างราบรื่นและมีประสิทธิภาพครับ และสำหรับฐานข้อมูลเชิงสัมพันธ์ (Relational Database) หนึ่งในตัวเลือกที่ได้รับความนิยมและไว้วางใจจากนักพัฒนาทั่วโลกมากที่สุด คงหนีไม่พ้น PostgreSQL ด้วยความสามารถที่หลากหลาย ความเสถียร และความเป็น Open Source ที่ทำให้มันเป็นรากฐานที่แข็งแกร่งสำหรับโปรเจกต์ทุกขนาด ตั้งแต่สตาร์ทอัพไปจนถึงองค์กรขนาดใหญ่

อย่างไรก็ตาม แม้ PostgreSQL จะทรงพลังเพียงใด การติดตั้งใช้งานโดยไม่ได้รับการปรับแต่งอย่างเหมาะสม ก็อาจทำให้เกิดปัญหาคอขวด (Bottleneck) ด้านประสิทธิภาพได้ โดยเฉพาะอย่างยิ่งเมื่อระบบมีการเติบโต มีปริมาณข้อมูลเพิ่มขึ้น หรือมีจำนวนผู้ใช้งานพร้อมกันมากขึ้น การปรับแต่งประสิทธิภาพ (Performance Tuning) จึงไม่ใช่แค่ทางเลือก แต่เป็นสิ่งจำเป็นอย่างยิ่ง เพื่อให้ฐานข้อมูลของคุณสามารถรองรับภาระงานได้อย่างเต็มศักยภาพ ตอบสนองความต้องการของผู้ใช้งานได้อย่างรวดเร็ว และใช้ทรัพยากรระบบได้อย่างคุ้มค่าที่สุด

บทความนี้ SiamLancard.com จะพาคุณเจาะลึกไปในโลกของการปรับแต่ง PostgreSQL ตั้งแต่พื้นฐานไปจนถึงเทคนิคขั้นสูง เราจะครอบคลุมปัจจัยสำคัญต่าง ๆ ที่ส่งผลต่อประสิทธิภาพ การใช้เครื่องมือวิเคราะห์ การปรับแต่งคอนฟิกูเรชัน การเพิ่มประสิทธิภาพของ Query และ Index ไปจนถึงการจัดการ Autovacuum และการออกแบบ Schema ที่เหมาะสม เพื่อให้คุณสามารถนำความรู้เหล่านี้ไปปรับใช้กับระบบของคุณได้อย่างมีประสิทธิภาพสูงสุดครับ

สารบัญ

ทำไมต้องปรับแต่ง PostgreSQL และปัจจัยที่มีผลต่อประสิทธิภาพ
เครื่องมือและขั้นตอนการวิเคราะห์ประสิทธิภาพเบื้องต้น
การปรับแต่งไฟล์ postgresql.conf: หัวใจของการกำหนดค่า
การปรับแต่ง Query และการเลือกใช้ Index ที่เหมาะสม
การจัดการ Vacuum และ Autovacuum: กุญแจสู่ความเสถียร
การออกแบบ Schema และ Database ที่มีประสิทธิภาพ
การปรับแต่งระดับ Hardware และ I/O
เครื่องมือและเทคนิคเพิ่มเติมเพื่อประสิทธิภาพสูงสุด
คำถามที่พบบ่อย (FAQ)
สรุปและ Call-to-Action

ทำไมต้องปรับแต่ง PostgreSQL และปัจจัยที่มีผลต่อประสิทธิภาพ

การปรับแต่งประสิทธิภาพของ PostgreSQL มีความสำคัญอย่างยิ่งยวดด้วยเหตุผลหลักหลายประการครับ:

เพิ่มความเร็วในการตอบสนอง (Responsiveness): ผู้ใช้งานคาดหวังความเร็วในการโหลดหน้าเว็บ การค้นหาข้อมูล หรือการประมวลผลธุรกรรมที่รวดเร็ว การปรับแต่งช่วยลดเวลาหน่วงเหล่านี้ได้
รองรับปริมาณงานที่มากขึ้น (Scalability): เมื่อธุรกิจเติบโต จำนวนผู้ใช้งานและข้อมูลก็เพิ่มขึ้น การปรับแต่งช่วยให้ฐานข้อมูลสามารถรองรับภาระงานที่หนักขึ้นได้โดยไม่เกิดปัญหาคอขวด
ลดการใช้ทรัพยากร (Resource Optimization): การปรับแต่งที่เหมาะสมจะช่วยให้ PostgreSQL ใช้ CPU, RAM, และ Disk I/O ได้อย่างมีประสิทธิภาพสูงสุด ซึ่งอาจช่วยประหยัดค่าใช้จ่ายด้าน Hardware ได้ในระยะยาว
เพิ่มความเสถียรและความน่าเชื่อถือ: ระบบที่ทำงานได้ดีและไม่เกิดปัญหา Performance Spikes บ่อย ๆ ย่อมส่งผลให้ระบบมีความเสถียรและน่าเชื่อถือมากขึ้น

ปัจจัยที่มีผลต่อประสิทธิภาพของ PostgreSQL นั้นมีอยู่หลายส่วนด้วยกัน ทั้งจากฝั่งของ Hardware และ Software ครับ:

Hardware:
- CPU: ความเร็วและจำนวน Core มีผลต่อการประมวลผล Query ที่ซับซ้อนและจำนวน Connection พร้อมกัน
- RAM (Memory): หน่วยความจำเป็นสิ่งสำคัญที่สุดสำหรับการทำ Caching ของข้อมูลและ Index ช่วยลดการอ่านข้อมูลจาก Disk
- Disk I/O: ความเร็วในการอ่าน/เขียนข้อมูลจาก Disk โดยเฉพาะ SSD (Solid State Drive) ประเภท NVMe จะช่วยเพิ่มประสิทธิภาพได้มหาศาล
- Network: แบนด์วิดท์และ Latency ของเครือข่ายมีผลต่อการสื่อสารระหว่าง Client กับ Database Server
Database Software & Design:
- PostgreSQL Configuration (`postgresql.conf`): การตั้งค่าพารามิเตอร์ต่าง ๆ เช่น shared_buffers, work_mem, wal_buffers, autovacuum เป็นต้น
- Database Schema Design: การออกแบบตาราง ความสัมพันธ์ และ Data Type ที่เหมาะสม
- Query Patterns: ประสิทธิภาพของ SQL Query ที่ถูกเรียกใช้งานบ่อย ๆ
- Indexing Strategy: การสร้างและเลือกใช้ Index ที่เหมาะสมกับ Query
- Vacuuming & Autovacuum: การจัดการ Dead Tuples และการอัปเดตสถิติ
- Connection Management: จำนวน Connection ที่เปิดพร้อมกันและการใช้ Connection Pooling

เครื่องมือและขั้นตอนการวิเคราะห์ประสิทธิภาพเบื้องต้น

ก่อนที่เราจะเริ่มปรับแต่งสิ่งใด ๆ เราจำเป็นต้องรู้ก่อนว่าปัญหาอยู่ที่ไหน การวิเคราะห์และตรวจสอบสถานะปัจจุบันของระบบเป็นขั้นตอนแรกที่สำคัญที่สุดครับ

การตรวจสอบระดับระบบปฏิบัติการ (OS Level Monitoring)

เริ่มจากการตรวจสอบทรัพยากรพื้นฐานของ Server ที่ PostgreSQL ทำงานอยู่ครับ

CPU Usage: ใช้คำสั่ง top, htop, vmstat เพื่อดูว่า CPU ถูกใช้งานไปเท่าไหร่ มี Process ใดบ้างที่ใช้ CPU สูง
Memory Usage: ใช้คำสั่ง free -h, top, htop เพื่อดูปริมาณ RAM ที่ใช้งานไป รวมถึง Swap Space ที่ถูกใช้ หากมีการใช้ Swap มาก แสดงว่า RAM ไม่เพียงพอ
Disk I/O: ใช้คำสั่ง iostat -x 1 (ใน Linux) เพื่อดูอัตราการอ่าน/เขียนข้อมูลบน Disk, Latency, และ Utilization หาก Disk Utilization สูงตลอดเวลา อาจเป็นคอขวด
Network I/O: ใช้คำสั่ง netstat -s หรือ sar -n DEV 1 เพื่อตรวจสอบปริมาณ Traffic และ Error ที่เกิดขึ้นบน Network Interface

เครื่องมือตรวจสอบภายใน PostgreSQL

PostgreSQL มี View และ Extension ที่มีประโยชน์มากมายสำหรับการตรวจสอบสถานะภายในครับ

pg_stat_activity

View นี้แสดงข้อมูลของ Process ทั้งหมดที่กำลังทำงานอยู่ใน PostgreSQL Server รวมถึง Query ที่กำลังรันอยู่ สถานะของแต่ละ Process และระยะเวลาที่ Query นั้นรันมาแล้ว


SELECT
    datname,
    pid,
    usename,
    client_addr,
    application_name,
    backend_start,
    state,
    state_change,
    query_start,
    xact_start,
    wait_event_type,
    wait_event,
    query
FROM
    pg_stat_activity
WHERE
    state = 'active'
ORDER BY
    query_start ASC;

จากผลลัพธ์ คุณสามารถระบุ Query ที่รันนานผิดปกติ (long-running queries) หรือ Query ที่ติดสถานะ waiting ซึ่งอาจบ่งชี้ถึงการติด Lock หรือ I/O Bottleneck ได้ครับ

pg_stat_statements

Extension นี้ช่วยให้คุณสามารถติดตามสถิติการเรียกใช้ Query ต่าง ๆ ได้อย่างละเอียด โดยจะรวบรวมข้อมูลเช่น จำนวนครั้งที่ Query ถูกเรียกใช้, เวลาเฉลี่ยในการรัน, เวลาสูงสุด/ต่ำสุด, และปริมาณ I/O ที่ใช้

ก่อนใช้งาน ต้องเปิดใช้งาน Extension นี้ใน postgresql.conf โดยเพิ่ม pg_stat_statements เข้าไปใน shared_preload_libraries และ restart PostgreSQL จากนั้นสร้าง Extension ในฐานข้อมูลที่คุณต้องการ:


-- ใน postgresql.conf:
-- shared_preload_libraries = 'pg_stat_statements'

-- หลังจาก restart PostgreSQL, ใน psql:
CREATE EXTENSION pg_stat_statements;

จากนั้นคุณสามารถเรียกดูสถิติได้:


SELECT
    query,
    calls,
    total_time,
    mean_time,
    rows,
    100.0 * shared_blks_hit / (shared_blks_hit + shared_blks_read + 1) AS hit_ratio
FROM
    pg_stat_statements
ORDER BY
    total_time DESC
LIMIT 10;

ผลลัพธ์นี้จะแสดง Query ที่ใช้เวลารวมในการรันมากที่สุด ซึ่งเป็นจุดเริ่มต้นที่ดีในการพิจารณาปรับปรุง Query เหล่านั้นครับ

การใช้ EXPLAIN ANALYZE เพื่อวิเคราะห์ Query

EXPLAIN ANALYZE เป็นเครื่องมือที่ทรงพลังที่สุดตัวหนึ่งในการทำความเข้าใจว่า PostgreSQL วางแผนและรัน Query ของคุณอย่างไร มันจะแสดง “Execution Plan” และเวลาจริงที่ใช้ในแต่ละขั้นตอน


EXPLAIN ANALYZE
SELECT
    o.order_id,
    c.customer_name,
    SUM(od.quantity * p.price) AS total_amount
FROM
    orders o
JOIN
    customers c ON o.customer_id = c.customer_id
JOIN
    order_details od ON o.order_id = od.order_id
JOIN
    products p ON od.product_id = p.product_id
WHERE
    o.order_date BETWEEN '2023-01-01' AND '2023-01-31'
GROUP BY
    o.order_id, c.customer_name
ORDER BY
    total_amount DESC
LIMIT 10;

เมื่อรันคำสั่งนี้ คุณจะได้รายละเอียดที่ซับซ้อนซึ่งต้องใช้เวลาในการทำความเข้าใจ แต่หลัก ๆ คือการมองหา:

Cost estimates vs. actual times: หากค่า Cost (ในวงเล็บ) แตกต่างจากเวลาจริงมาก อาจบ่งชี้ว่า Optimizer มีข้อมูลสถิติที่ไม่ถูกต้อง (ต้องรัน ANALYZE)
Sequential Scans on large tables: หากเห็น Seq Scan บนตารางขนาดใหญ่ที่ควรจะมี Index แสดงว่า Index อาจไม่มีอยู่ หรือ Optimizer ไม่ได้เลือกใช้
Nested Loop Joins on large outer relations: บางครั้ง Nested Loop อาจมีประสิทธิภาพ แต่ถ้าตารางด้านนอกมีขนาดใหญ่มาก ๆ อาจไม่เหมาะสม
Buffer usage: Buffers: shared hit=... read=... บ่งบอกว่ามีการอ่านข้อมูลจาก Shared Buffers หรือจาก Disk มากน้อยแค่ไหน
Sort operations: การ Sort ข้อมูลที่ใช้เวลานาน อาจบ่งชี้ว่า work_mem ไม่เพียงพอ หรือต้องสร้าง Index ที่รองรับการ Sort

การทำความเข้าใจผลลัพธ์ EXPLAIN ANALYZE ต้องอาศัยประสบการณ์และการศึกษาครับ แต่เป็นกุญแจสำคัญในการระบุปัญหาของ Query ครับ

การตั้งค่า Log สำหรับ Slow Queries

การเปิดใช้งานการ Log สำหรับ Query ที่ใช้เวลานานเกินกว่าเกณฑ์ที่กำหนด จะช่วยให้คุณสามารถระบุ Query ที่มีปัญหาได้โดยอัตโนมัติ โดยไม่ต้องมานั่ง Query pg_stat_activity ตลอดเวลา

ในไฟล์ postgresql.conf ให้ตั้งค่าพารามิเตอร์เหล่านี้:


# สำหรับ Log Query ที่ใช้เวลานานกว่า 1 วินาที
log_min_duration_statement = 1000ms

# ตั้งค่าปลายทางของ Log
logging_collector = on
log_directory = 'pg_log'
log_filename = 'postgresql-%Y-%m-%d_%H%M%S.log'
log_rotation_age = 1d
log_rotation_size = 0

หลังจากเปลี่ยนค่าแล้ว ให้ Restart PostgreSQL เมื่อมี Query ใด ๆ ที่ใช้เวลารันเกิน 1 วินาที รายละเอียดของ Query นั้นจะถูกบันทึกไว้ในไฟล์ Log คุณสามารถใช้เครื่องมือเช่น pgBadger หรือ log_analyzer เพื่อวิเคราะห์ Log เหล่านี้ได้อีกทีครับ

การปรับแต่งไฟล์ postgresql.conf: หัวใจของการกำหนดค่า

ไฟล์ postgresql.conf เป็นศูนย์กลางของการกำหนดค่าพารามิเตอร์ต่าง ๆ ของ PostgreSQL การปรับแต่งค่าเหล่านี้อย่างเหมาะสมสามารถส่งผลกระทบอย่างมากต่อประสิทธิภาพของฐานข้อมูลครับ

ข้อควรระวัง

การปรับแต่ง postgresql.conf เป็นเรื่องละเอียดอ่อน การปรับค่าที่ไม่ถูกต้องอาจทำให้ฐานข้อมูลทำงานได้แย่ลงหรือเกิดปัญหาได้ ควรทดสอบการเปลี่ยนแปลงในสภาพแวดล้อม Development หรือ Staging ก่อนเสมอ และควรสำรองข้อมูล (Backup) ไฟล์คอนฟิกก่อนทำการเปลี่ยนแปลงทุกครั้งครับ

การจัดการหน่วยความจำ (Memory Parameters)

RAM เป็นทรัพยากรที่สำคัญที่สุดสำหรับประสิทธิภาพของ PostgreSQL การตั้งค่าที่เหมาะสมจะช่วยลดการอ่าน/เขียน Disk I/O ได้อย่างมาก

shared_buffers:
หน่วยความจำที่ PostgreSQL ใช้สำหรับแคชข้อมูลและ Index ที่มีการใช้งานบ่อย การตั้งค่านี้เป็นค่าที่สำคัญที่สุดสำหรับการอ่านข้อมูล
- คำแนะนำ: โดยทั่วไปตั้งไว้ที่ 25% ของ RAM ทั้งหมดของ Server หาก Server ทำงานเฉพาะ PostgreSQL อาจตั้งได้ถึง 40% แต่ไม่ควรเกินนี้ เพราะต้องเผื่อ RAM ให้กับ OS และ Application อื่น ๆ ด้วยครับ
- ตัวอย่าง: หาก Server มี RAM 32GB, สามารถตั้ง shared_buffers = 8GB
```
shared_buffers = 8GB
        
```
work_mem:
หน่วยความจำที่แต่ละ Session ใช้สำหรับการ Sort, Hash Table, และการดำเนินการอื่น ๆ ที่เกี่ยวข้องกับ Query หาก Sort Operations เกิดขึ้นใน Disk (Disk Sort) จะทำให้ประสิทธิภาพลดลงอย่างมาก
- คำแนะนำ: เริ่มต้นที่ 4MB หรือ 16MB และค่อย ๆ เพิ่มขึ้นหากพบปัญหา Disk Sort ใน EXPLAIN ANALYZE (มองหา “external sort” หรือ “disk”)
- ข้อควรระวัง: ค่านี้จะถูกใช้ต่อหนึ่ง Operation ต่อหนึ่ง Session ดังนั้นหากมี Connection จำนวนมากและแต่ละ Connection รัน Query ที่ใช้ work_mem สูงพร้อมกัน อาจทำให้ RAM หมดได้ครับ
- ตัวอย่าง: work_mem = 64MB
```
work_mem = 64MB
        
```
maintenance_work_mem:
หน่วยความจำที่ใช้สำหรับการบำรุงรักษาฐานข้อมูล เช่น VACUUM, ANALYZE, CREATE INDEX, ALTER TABLE ADD FOREIGN KEY การตั้งค่าที่สูงขึ้นจะช่วยให้การดำเนินการเหล่านี้เร็วขึ้น
- คำแนะนำ: ตั้งไว้ที่ 128MB ถึง 1GB หรือมากกว่า ขึ้นอยู่กับ RAM ที่มีและขนาดของฐานข้อมูลที่ต้องบำรุงรักษา ไม่ได้ใช้ตลอดเวลาเหมือน work_mem จึงสามารถตั้งค่าได้สูงกว่า
- ตัวอย่าง: maintenance_work_mem = 512MB
```
maintenance_work_mem = 512MB
        
```
effective_cache_size:
เป็นพารามิเตอร์สำหรับ Query Optimizer เพื่อประมาณการขนาดของ OS Cache และ Shared Buffers ที่มีอยู่ ไม่ได้จัดสรรหน่วยความจำจริง ๆ แต่ช่วยให้ Optimizer ตัดสินใจได้ดีขึ้นว่าจะใช้ Index หรือ Sequential Scan
- คำแนะนำ: ตั้งไว้ที่ 50% – 75% ของ RAM ทั้งหมดของ Server (รวม shared_buffers)
- ตัวอย่าง: หาก Server มี RAM 32GB, สามารถตั้ง effective_cache_size = 24GB
```
effective_cache_size = 24GB
        
```

การปรับแต่ง Write-Ahead Log (WAL)

WAL เป็นกลไกสำคัญในการรับประกันความสมบูรณ์ของข้อมูล การปรับแต่ง WAL สามารถส่งผลต่อประสิทธิภาพการเขียนข้อมูล

wal_buffers:
หน่วยความจำสำหรับบัฟเฟอร์ WAL ก่อนที่จะเขียนลง Disk
- คำแนะนำ: โดยทั่วไปค่าเริ่มต้นก็เพียงพอ (-1 ซึ่งหมายถึง 1/3 ของ shared_buffers สูงสุด 16MB) แต่สำหรับ Workload ที่มีการเขียนข้อมูลสูง อาจเพิ่มเป็น 16MB หรือ 64MB
- ตัวอย่าง: wal_buffers = 16MB
```
wal_buffers = 16MB
        
```
min_wal_size, max_wal_size:
ควบคุมขนาดของ WAL Files ที่ PostgreSQL จะรักษาไว้บน Disk และขนาดสูงสุดที่ WAL Files จะเติบโตได้ก่อนที่จะถูกลบหรือหมุนเวียน การตั้งค่าที่เหมาะสมช่วยลด I/O Spikes ที่เกิดจากการสร้าง WAL File ใหม่
- คำแนะนำ: min_wal_size ควรตั้งค่าให้ใหญ่พอที่จะรองรับกิจกรรม WAL ทั่วไป เพื่อลดการสร้างไฟล์ใหม่บ่อย ๆ ส่วน max_wal_size ควรตั้งค่าให้ใหญ่พอที่จะรองรับกิจกรรมสูงสุดในช่วงเวลาหนึ่ง โดยเฉพาะอย่างยิ่งระหว่างการ Checkpoint
- ตัวอย่าง: min_wal_size = 1GB, max_wal_size = 4GB (ค่าเหล่านี้ขึ้นอยู่กับ Workload)
```
min_wal_size = 1GB
max_wal_size = 4GB
        
```

การปรับแต่ง Checkpoint

Checkpoint เป็นกระบวนการที่ PostgreSQL เขียนข้อมูลที่อยู่ใน Shared Buffers ลงสู่ Disk การปรับแต่ง Checkpoint ช่วยลด I/O Spike ที่เกิดจากการเขียนข้อมูลจำนวนมากพร้อมกัน

checkpoint_timeout:
ระยะเวลาสูงสุดระหว่าง Checkpoint (เช่น 5 นาที)
- คำแนะนำ: ตั้งค่าให้สูงขึ้นเล็กน้อย (เช่น 10-15 นาที) เพื่อลดความถี่ของ Checkpoint แต่ไม่ควรสูงเกินไป (เกิน 30 นาที) เพราะจะทำให้ Recovery ช้าลงหากเกิด Crash
- ตัวอย่าง: checkpoint_timeout = 10min
```
checkpoint_timeout = 10min
        
```
checkpoint_completion_target:
สัดส่วนของ checkpoint_timeout ที่ใช้ในการเขียนข้อมูลลง Disk เพื่อกระจาย I/O Workload
- คำแนะนำ: ตั้งไว้ที่ 0.9 (90%) เพื่อให้ Checkpoint ใช้เวลาเกือบทั้งหมดของ checkpoint_timeout ในการเขียนข้อมูล ซึ่งช่วยลด I/O Spike ได้ดีที่สุด
- ตัวอย่าง: checkpoint_completion_target = 0.9
```
checkpoint_completion_target = 0.9
        
```

การปรับแต่ง Cost Parameters สำหรับ Query Optimizer

พารามิเตอร์เหล่านี้ช่วยให้ Query Optimizer ประเมินค่าใช้จ่ายในการเข้าถึงข้อมูลและการดำเนินการต่าง ๆ ได้อย่างถูกต้อง เพื่อเลือก Execution Plan ที่ดีที่สุด

random_page_cost:
ค่าใช้จ่ายในการเข้าถึง Random Page (เช่น การอ่านผ่าน Index)
- คำแนะนำ: หากใช้ SSD ควรลดค่านี้ลง (ค่าเริ่มต้น 4.0) เช่น 1.1 – 2.0 เพื่อให้ Optimizer มีแนวโน้มที่จะเลือกใช้ Index มากขึ้น
- ตัวอย่าง: random_page_cost = 1.5
seq_page_cost:
ค่าใช้จ่ายในการเข้าถึง Sequential Page (เช่น Sequential Scan)
- คำแนะนำ: โดยทั่วไปค่าเริ่มต้น 1.0 ก็เหมาะสมแล้ว หรือลดลงเล็กน้อยหากใช้ SSD ที่มีประสิทธิภาพสูงมาก
- ตัวอย่าง: seq_page_cost = 1.0
cpu_tuple_cost, cpu_index_tuple_cost, cpu_operator_cost:
ค่าใช้จ่ายของ CPU สำหรับการประมวลผล Tuple, Index Tuple, และ Operator
- คำแนะนำ: ค่าเริ่มต้นมักจะเหมาะสม แต่หาก CPU ของคุณมีประสิทธิภาพสูงมาก อาจลดค่าเหล่านี้ลงเล็กน้อยได้ครับ


random_page_cost = 1.5
seq_page_cost = 1.0
cpu_tuple_cost = 0.002
cpu_index_tuple_cost = 0.0005
cpu_operator_cost = 0.0005

การจัดการ Connection และ Parallel Processing

max_connections:
จำนวน Connection สูงสุดที่ Server สามารถรับได้
- คำแนะนำ: ตั้งค่าให้เหมาะสมกับจำนวน Application Server และ Connection Pooling ที่ใช้ การตั้งค่าสูงเกินไปโดยไม่จำเป็นจะสิ้นเปลือง RAM (แต่ละ Connection ใช้ RAM ประมาณ 5-10MB)
- ตัวอย่าง: max_connections = 100
```
max_connections = 100
        
```
max_worker_processes, max_parallel_workers, max_parallel_workers_per_gather:
พารามิเตอร์สำหรับควบคุมการประมวลผลแบบขนาน (Parallel Query) ซึ่งช่วยให้ Query บางประเภททำงานได้เร็วขึ้นโดยใช้หลาย Core ของ CPU
- คำแนะนำ: max_worker_processes ควรตั้งค่าเท่ากับหรือสูงกว่าจำนวน CPU Core เล็กน้อย max_parallel_workers ควรตั้งค่าเท่ากับ max_worker_processes และ max_parallel_workers_per_gather ควรตั้งค่าให้เหมาะสมกับแต่ละ Query (เริ่มต้นอาจเป็น 2-4)
- ตัวอย่าง: หากมี 8 CPU Cores:
```
max_worker_processes = 8
max_parallel_workers = 8
max_parallel_workers_per_gather = 4
        
```

การปรับแต่ง postgresql.conf เป็นกระบวนการที่ต้องทำซ้ำ ๆ และต่อเนื่อง (Iterative Process) คุณต้องตรวจสอบประสิทธิภาพ วัดผล และปรับค่าใหม่ เพื่อให้ได้ผลลัพธ์ที่ดีที่สุดสำหรับ Workload เฉพาะของคุณครับ

สำหรับข้อมูลเชิงลึกเพิ่มเติมเกี่ยวกับพารามิเตอร์ต่าง ๆ สามารถดูได้จาก เอกสารทางการของ PostgreSQL ครับ

การปรับแต่ง Query และการเลือกใช้ Index ที่เหมาะสม

ไม่ว่าคุณจะปรับแต่ง postgresql.conf ได้ดีแค่ไหน แต่หาก Query ที่คุณเขียนไม่มีประสิทธิภาพ หรือไม่มี Index ที่เหมาะสมรองรับ ก็ยากที่จะได้ Performance ที่ดีครับ

หลักการเขียน Query ที่มีประสิทธิภาพ

การเขียน SQL Query ที่มีประสิทธิภาพเป็นทักษะพื้นฐานที่สำคัญ:

หลีกเลี่ยง SELECT *: เลือกเฉพาะคอลัมน์ที่คุณต้องการจริง ๆ การเลือกทั้งหมดทำให้ต้องอ่านข้อมูลมากเกินความจำเป็นและเพิ่มปริมาณ Network Traffic
ใช้ WHERE Clause ที่เหมาะสม: การกรองข้อมูลตั้งแต่เนิ่น ๆ ช่วยลดจำนวน Row ที่ต้องประมวลผล การใช้เงื่อนไขที่สามารถใช้ Index ได้ (SARGable conditions) จะสำคัญมาก
เข้าใจ JOINs:
- ใช้ INNER JOIN เมื่อต้องการ Row ที่มีข้อมูลตรงกันในทั้งสองตาราง
- ใช้ LEFT JOIN เมื่อต้องการ Row ทั้งหมดจากตารางซ้ายและ Row ที่ตรงกันจากตารางขวา
- พยายามหลีกเลี่ยง CROSS JOIN ที่ไม่ได้ตั้งใจ เพราะอาจทำให้เกิด Cartesian Product ซึ่งมี Row จำนวนมหาศาล
ใช้ CTEs (Common Table Expressions) อย่างเหมาะสม: CTEs ช่วยให้อ่าน Query ได้ง่ายขึ้น และบางครั้ง Optimizer ก็สามารถใช้ประโยชน์จาก CTEs ได้ดี
ระวัง Subqueries ใน WHERE Clause: บางครั้ง Subquery อาจมีประสิทธิภาพไม่ดีเท่า JOIN หรือ EXISTS โดยเฉพาะอย่างยิ่งหาก Subquery ต้องรันซ้ำ ๆ สำหรับแต่ละ Row ของ Outer Query
ใช้ GROUP BY และ Aggregate Functions อย่างมีประสิทธิภาพ: หากต้อง Group ข้อมูลจำนวนมาก อาจต้องพิจารณา Index ที่รองรับการ Sort หรือ Hash Aggregation

“Performance is not just about raw speed, but about how quickly the database can get the *right* data to the *right* place at the *right* time.”

ประเภทของ Index และการเลือกใช้

Index คือโครงสร้างข้อมูลที่ช่วยให้ PostgreSQL สามารถค้นหาข้อมูลในตารางได้อย่างรวดเร็ว โดยไม่ต้อง Scan ทั้งตาราง (Sequential Scan) การเลือกใช้ Index ที่เหมาะสมเป็นสิ่งสำคัญมาก

ประเภทของ Index หลัก ๆ ใน PostgreSQL

B-tree Index:
- การใช้งาน: เป็น Index มาตรฐานที่ใช้ได้กับคอลัมน์ส่วนใหญ่ (ตัวเลข, ข้อความ, วันที่) เหมาะสำหรับการค้นหาเท่ากับ (`=`), มากกว่า/น้อยกว่า (`>`, `<`), `BETWEEN`, `IN`, `LIKE` (เมื่อ Pattern ไม่ได้ขึ้นต้นด้วย `%`) และการ Sort (`ORDER BY`)
- ข้อดี: ใช้งานได้หลากหลาย, มีประสิทธิภาพสูงสำหรับการค้นหาและ Sort
- ข้อเสีย: ประสิทธิภาพการเขียน (Insert/Update/Delete) ลดลงเล็กน้อย เนื่องจากต้องอัปเดต Index ด้วย
Hash Index:
- การใช้งาน: ใช้ได้เฉพาะกับการค้นหาเท่ากับ (`=`) เท่านั้น
- ข้อดี: อาจเร็วกว่า B-tree เล็กน้อยสำหรับการค้นหาแบบเท่ากับในบางกรณี
- ข้อเสีย: ไม่รองรับ Range Scan, Sort, หรือการ Recovery หลัง Crash (ไม่ Write-Ahead Logged) ทำให้ไม่นิยมใช้ใน Production
GIN (Generalized Inverted Index):
- การใช้งาน: เหมาะสำหรับข้อมูลประเภท Composite Value (เช่น Array), JSONB, และ Full-Text Search
- ข้อดี: มีประสิทธิภาพสูงสำหรับการค้นหาว่ามี Element อยู่ใน Array หรือ Key อยู่ใน JSONB หรือค้นหาคำใน Text
- ข้อเสีย: สร้างและบำรุงรักษาช้ากว่า B-tree, ขนาดใหญ่กว่า
GiST (Generalized Search Tree):
- การใช้งาน: เหมาะสำหรับข้อมูลประเภท Spatial (ภูมิศาสตร์), Geometric, Full-Text Search, และ Range Types
- ข้อดี: ยืดหยุ่นสูง รองรับการค้นหาที่ซับซ้อน เช่น การค้นหาวัตถุที่ซ้อนทับกัน (overlap)
- ข้อเสีย: สร้างและบำรุงรักษาช้ากว่า B-tree, ขนาดใหญ่กว่า
BRIN (Block Range Index):
- การใช้งาน: เหมาะสำหรับตารางขนาดใหญ่มาก (หลายร้อยล้าน Row ขึ้นไป) ที่ข้อมูลมีการจัดเรียงตามธรรมชาติ (เช่น คอลัมน์ Timestamp ของ Log Data)
- ข้อดี: ขนาดเล็กมาก, สร้างเร็ว, บำรุงรักษาน้อย, ประหยัด Disk I/O
- ข้อเสีย: เหมาะสำหรับ Workload ที่ข้อมูลมีการจัดเรียงอย่างสม่ำเสมอเท่านั้น ไม่เหมาะกับข้อมูลที่มีการกระจายตัวแบบสุ่ม
Partial Index:
- การใช้งาน: สร้าง Index เฉพาะส่วนของ Row ที่ตรงตามเงื่อนไขที่กำหนด (WHERE clause)
- ข้อดี: ขนาดเล็กลง, สร้างเร็วขึ้น, บำรุงรักษาน้อยลง, มีประสิทธิภาพเมื่อ Query ส่วนใหญ่โฟกัสไปที่ Subset ของข้อมูล
- ตัวอย่าง: CREATE INDEX idx_active_users ON users (email) WHERE status = 'active';
Expression Index:
- การใช้งาน: สร้าง Index บนผลลัพธ์ของ Expression หรือ Function แทนที่จะเป็นคอลัมน์โดยตรง
- ข้อดี: ช่วยให้ Query ที่ใช้ Function หรือ Expression ใน WHERE clause สามารถใช้ Index ได้
- ตัวอย่าง: CREATE INDEX idx_lower_email ON users (lower(email));
Unique Index:
- การใช้งาน: บังคับให้ค่าในคอลัมน์หรือกลุ่มคอลัมน์ไม่ซ้ำกัน และยังทำหน้าที่เป็น Index เพื่อการค้นหาที่รวดเร็ว
- ข้อดี: รับประกันความถูกต้องของข้อมูล (Data Integrity) และช่วยเพิ่มประสิทธิภาพในการค้นหา

ตารางเปรียบเทียบประเภท Index (บางส่วน)

ประเภท Index	การใช้งานหลัก	ข้อดี	ข้อเสีย	เหมาะสำหรับ
B-tree	General purpose: =, <, >, BETWEEN, IN, ORDER BY	All-rounder, Fast lookups & range scans, good for sorting	Slight overhead on writes, not ideal for complex data types	Most columns (ID, name, date, etc.)
GIN	Arrays, JSONB, Full-Text Search	Excellent for “contains” queries, efficient for complex data	Slower to build & maintain, larger size	Tags, document content, JSONB fields
GiST	Spatial, Geometric, Full-Text Search, Range Types	Flexible for complex search types (overlap, intersection)	Slower to build & maintain, larger size	GIS data, IP address ranges, custom data types
BRIN	Very large, naturally ordered tables	Very small size, fast build, low maintenance	Only effective on highly correlated data (e.g., time-series)	Log tables, IoT sensor data (indexed by timestamp)

การตรวจสอบและจัดการ Index

ตรวจสอบ Index ที่กำลังใช้งาน: ใช้ pg_stat_user_indexes หรือ pg_stat_all_indexes เพื่อดูว่า Index ใดถูกใช้งานบ่อยแค่ไหน (idx_scan) และมีจำนวน Tuples ที่ถูกดึงผ่าน Index เท่าไหร่ (idx_tup_read) หาก Index ไม่เคยถูกใช้ อาจพิจารณาลบทิ้งได้ครับ


SELECT
    schemaname,
    relname AS table_name,
    indexrelname AS index_name,
    idx_scan,
    idx_tup_read,
    idx_tup_fetch
FROM
    pg_stat_user_indexes
ORDER BY
    idx_scan DESC;

ตรวจสอบ Index ที่ซ้ำซ้อน: Index ที่ซ้ำซ้อนกันจะเพิ่ม Overhead ในการเขียนโดยไม่เพิ่มประสิทธิภาพในการอ่าน
REINDEX: หาก Index มีขนาดใหญ่ขึ้นมากเนื่องจากการ Update/Delete บ่อย ๆ อาจพิจารณา REINDEX เพื่อจัดเรียงโครงสร้าง Index ใหม่ ซึ่งอาจช่วยลดขนาดและเพิ่มประสิทธิภาพได้


REINDEX TABLE my_table;
REINDEX INDEX my_index;

CREATE INDEX CONCURRENTLY: เพื่อไม่ให้บล็อกการทำงานของตารางขณะสร้าง Index


CREATE INDEX CONCURRENTLY idx_customer_email ON customers (email);

การจัดการ Vacuum และ Autovacuum: กุญแจสู่ความเสถียร

VACUUM และ AUTOVACUUM เป็นกระบวนการที่สำคัญที่สุดใน PostgreSQL เพื่อรักษาประสิทธิภาพและความเสถียรของฐานข้อมูลครับ หากไม่มีการ Vacuum ที่เหมาะสม ฐานข้อมูลของคุณจะค่อย ๆ ช้าลงและอาจเกิดปัญหา Transaction ID Wraparound ได้

ทำความเข้าใจ MVCC และ Dead Tuples

PostgreSQL ใช้สถาปัตยกรรม Multi-Version Concurrency Control (MVCC) ซึ่งหมายความว่าเมื่อมีการ Update หรือ Delete Row ในตาราง แทนที่จะลบข้อมูลเก่าทิ้งทันที PostgreSQL จะสร้างเวอร์ชันใหม่ของ Row นั้น (สำหรับการ Update) หรือทำเครื่องหมาย Row เก่าว่า “ตาย” (Dead Tuple) สำหรับการ Delete

Dead Tuples เหล่านี้ยังคงอยู่ในตารางจนกว่ากระบวนการ VACUUM จะมาลบออกและคืนพื้นที่ให้กับระบบ หากมี Dead Tuples สะสมมากเกินไป:

ขนาดของตารางและ Index จะเพิ่มขึ้นโดยไม่จำเป็น ทำให้ใช้ Disk Space มากขึ้น
Query จะต้องอ่านข้อมูลมากขึ้น (รวมถึง Dead Tuples) ทำให้ช้าลง
อาจเกิดปัญหา Transaction ID Wraparound ซึ่งทำให้ฐานข้อมูลเข้าสู่โหมด Read-Only เพื่อป้องกันข้อมูลเสียหาย

การปรับแต่ง Autovacuum Parameters

AUTOVACUUM คือ Process อัตโนมัติที่รัน VACUUM และ ANALYZE ให้กับตารางเมื่อถึงเกณฑ์ที่กำหนด การปรับแต่งพารามิเตอร์ของ AUTOVACUUM อย่างเหมาะสมเป็นสิ่งสำคัญมาก

พารามิเตอร์เหล่านี้สามารถตั้งค่าได้ทั้งใน postgresql.conf (สำหรับทั้งระบบ) หรือในระดับตาราง (ALTER TABLE) ครับ

autovacuum = on: (ค่าเริ่มต้น) ต้องเปิดใช้งานเสมอ
log_autovacuum_min_duration = 0: (หรือค่าอื่น ๆ เช่น 1000ms) เพื่อ Log การทำงานของ Autovacuum ที่ใช้เวลานาน ช่วยในการตรวจสอบ
autovacuum_max_workers:
จำนวน Worker Process สูงสุดที่ Autovacuum สามารถรันพร้อมกันได้
- คำแนะนำ: เริ่มต้นที่ 3-5 และปรับเพิ่มหากมีตารางที่ต้อง Vacuum บ่อย หรือมีฐานข้อมูลขนาดใหญ่
- ตัวอย่าง: autovacuum_max_workers = 5
autovacuum_vacuum_scale_factor:
สัดส่วนของ Row ทั้งหมดในตารางที่ถูก Update/Delete ที่จะกระตุ้นให้ Autovacuum รัน VACUUM
- คำแนะนำ: ค่าเริ่มต้น 0.2 (20%) มักจะเหมาะสม แต่สำหรับตารางที่มีการ Update/Delete บ่อยมาก อาจลดลงเล็กน้อย (เช่น 0.1)
- ตัวอย่าง: autovacuum_vacuum_scale_factor = 0.2
autovacuum_vacuum_threshold:
จำนวน Row ขั้นต่ำที่ถูก Update/Delete ที่จะกระตุ้นให้ Autovacuum รัน VACUUM
- คำแนะนำ: ค่าเริ่มต้น 50 Row มักจะเหมาะสม แต่สำหรับตารางขนาดเล็กมากที่มีการเปลี่ยนแปลงบ่อย อาจเพิ่มขึ้นเล็กน้อยเพื่อลดความถี่ในการ Vacuum
- ตัวอย่าง: autovacuum_vacuum_threshold = 50
autovacuum_analyze_scale_factor:
สัดส่วนของ Row ทั้งหมดในตารางที่ถูก Insert/Update ที่จะกระตุ้นให้ Autovacuum รัน ANALYZE
- คำแนะนำ: ค่าเริ่มต้น 0.1 (10%) มักจะเหมาะสม ช่วยให้ Optimizer มีสถิติที่ทันสมัย
- ตัวอย่าง: autovacuum_analyze_scale_factor = 0.1
autovacuum_analyze_threshold:
จำนวน Row ขั้นต่ำที่ถูก Insert/Update ที่จะกระตุ้นให้ Autovacuum รัน ANALYZE
- คำแนะนำ: ค่าเริ่มต้น 50 Row มักจะเหมาะสม
- ตัวอย่าง: autovacuum_analyze_threshold = 50
autovacuum_vacuum_cost_delay:
ระยะเวลาหน่วงระหว่างการเขียนข้อมูลแต่ละชุดของ Autovacuum เพื่อลดผลกระทบต่อ I/O ของระบบ
- คำแนะนำ: ค่าเริ่มต้น 2ms หาก Disk I/O ไม่เป็นปัญหา สามารถลดเป็น 0ms เพื่อให้ Autovacuum ทำงานเร็วขึ้น แต่ต้องระวังผลกระทบต่อ Workload ปกติ
- ตัวอย่าง: autovacuum_vacuum_cost_delay = 2ms
autovacuum_vacuum_cost_limit:
จำนวน Cost Units สูงสุดที่ Autovacuum Worker สามารถใช้ได้ก่อนที่จะหยุดพัก (ตาม autovacuum_vacuum_cost_delay)
- คำแนะนำ: ค่าเริ่มต้น 200 หากมี Worker หลายตัว อาจพิจารณาเพิ่มค่านี้ หรือตั้ง -1 เพื่อใช้ค่า vacuum_cost_limit
- ตัวอย่าง: autovacuum_vacuum_cost_limit = 200


autovacuum = on
log_autovacuum_min_duration = 1000ms
autovacuum_max_workers = 5
autovacuum_vacuum_scale_factor = 0.2
autovacuum_vacuum_threshold = 50
autovacuum_analyze_scale_factor = 0.1
autovacuum_analyze_threshold = 50
autovacuum_vacuum_cost_delay = 10ms  # เพิ่ม delay เพื่อลด I/O impact
autovacuum_vacuum_cost_limit = 1000  # เพิ่ม limit เพื่อให้แต่ละ worker ทำงานได้นานขึ้นก่อนพัก

การปรับแต่งระดับตาราง (Table-level Autovacuum Settings):

สำหรับตารางที่มี Workload แตกต่างกัน คุณสามารถ Override ค่า Default ของ Autovacuum ได้:


ALTER TABLE my_high_traffic_table SET (autovacuum_vacuum_scale_factor = 0.05, autovacuum_vacuum_threshold = 100);

คำสั่งนี้จะทำให้ตาราง my_high_traffic_table ถูก Vacuum บ่อยขึ้น (เมื่อมี 5% ของ Row ถูก Update/Delete และมีอย่างน้อย 100 Row) ครับ

การเรียกใช้ VACUUM ด้วยตนเอง

ในบางสถานการณ์ Autovacuum อาจทำงานไม่ทัน หรือคุณต้องการ Vacuum ตารางขนาดใหญ่ในช่วงเวลาที่ระบบไม่ค่อยมีภาระงาน คุณสามารถเรียกใช้ VACUUM ด้วยตนเองได้:

VACUUM (ANALYZE, VERBOSE) my_table;: ทำการ Vacuum และ Analyze ตาราง my_table พร้อมแสดงรายละเอียด
VACUUM FULL my_table;: ลบ Dead Tuples และคืนพื้นที่ Disk Space ให้กับ OS ทันที (ซึ่ง VACUUM ปกติทำไม่ได้) แต่จะบล็อกการทำงานของตารางทั้งหมด ดังนั้นควรใช้ด้วยความระมัดระวังและในช่วง Downtime เท่านั้นครับ


VACUUM (ANALYZE, VERBOSE) orders;

-- ควรใช้ใน Downtime เท่านั้น
-- VACUUM FULL customers;

การจัดการ Autovacuum อย่างเหมาะสมเป็นหัวใจสำคัญของการดูแล PostgreSQL ในระยะยาว เพื่อให้ฐานข้อมูลมีประสิทธิภาพและเสถียรอยู่เสมอครับ

การออกแบบ Schema และ Database ที่มีประสิทธิภาพ

รากฐานของฐานข้อมูลที่มีประสิทธิภาพเริ่มต้นที่การออกแบบ Schema ที่ดีตั้งแต่แรก การออกแบบที่ผิดพลาดอาจนำไปสู่ปัญหาประสิทธิภาพที่แก้ไขได้ยากในภายหลังครับ

Normalization vs. Denormalization

Normalization (การทำให้เป็นมาตรฐาน):
- หลักการ: แยกข้อมูลออกเป็นตารางเล็ก ๆ เพื่อลดความซ้ำซ้อนของข้อมูล (Data Redundancy) และรับประกันความถูกต้องของข้อมูล (Data Integrity)
- ข้อดี: ลดพื้นที่จัดเก็บ, ง่ายต่อการบำรุงรักษาข้อมูล, ลดโอกาสเกิดความผิดพลาด
- ข้อเสีย: ต้องใช้ JOINs จำนวนมากในการ Query เพื่อดึงข้อมูลที่สมบูรณ์ ซึ่งอาจทำให้ Query ซับซ้อนและช้าลง
- เหมาะสำหรับ: ระบบ OLTP (Online Transaction Processing) ที่มีการ Insert/Update/Delete บ่อยครั้ง และต้องการ Data Integrity สูง
Denormalization (การลดทอนมาตรฐาน):
- หลักการ: รวมข้อมูลจากหลายตารางเข้าด้วยกัน แม้จะมีความซ้ำซ้อน เพื่อลดจำนวน JOINs ที่จำเป็นในการ Query
- ข้อดี: Query ง่ายขึ้นและเร็วขึ้น (โดยเฉพาะสำหรับ Read-heavy Workload), เหมาะสำหรับรายงาน
- ข้อเสีย: เพิ่มความซ้ำซ้อนของข้อมูล, เพิ่มพื้นที่จัดเก็บ, เพิ่มความซับซ้อนในการจัดการ Data Integrity (ต้องมั่นใจว่าข้อมูลซ้ำซ้อนยังคงสอดคล้องกัน)
- เหมาะสำหรับ: ระบบ OLAP (Online Analytical Processing) หรือ Data Warehouse ที่เน้นการอ่านข้อมูลและการทำรายงาน

คำแนะนำ: ส่วนใหญ่แล้ว ระบบ OLTP ควรเริ่มต้นด้วย Normalization ก่อน จากนั้นจึงพิจารณา Denormalization ในบางส่วนของ Schema ที่พบว่าเป็นคอขวดด้าน Performance จริง ๆ หลังจากทำการวัดผลแล้วครับ

การเลือกใช้ Data Type ที่เหมาะสม

การเลือก Data Type ที่ถูกต้องมีผลต่อพื้นที่จัดเก็บและประสิทธิภาพของ Query

ใช้ Data Type ที่เล็กที่สุดเท่าที่จะทำได้:
- SMALLINT แทน INTEGER แทน BIGINT หากค่าไม่ได้ใหญ่มาก
- VARCHAR(N) ที่มีขีดจำกัดความยาวที่เหมาะสม แทน TEXT หากรู้ขีดจำกัดความยาวที่แน่นอน (แต่สำหรับเวอร์ชันใหม่ ๆ TEXT กับ VARCHAR ไม่ได้ต่างกันมากในแง่ Performance เว้นแต่จะใช้ Index)
- ใช้ TIMESTAMP WITHOUT TIME ZONE แทน TIMESTAMP WITH TIME ZONE หากไม่จำเป็นต้องจัดการ Time Zone
พิจารณาประเภทข้อมูลเฉพาะทาง:
- JSONB สำหรับข้อมูลกึ่งโครงสร้าง (Semi-structured data) ที่ต้องการ Query ภายใน JSON
- UUID สำหรับ Primary Key ที่ต้องการความเป็น Universal Unique
- ENUM สำหรับชุดค่าที่กำหนดไว้ล่วงหน้า
- ARRAY สำหรับเก็บชุดข้อมูลที่คล้ายกันในคอลัมน์เดียว

การทำ Partitioning สำหรับตารางขนาดใหญ่

Partitioning คือการแบ่งตารางขนาดใหญ่มากออกเป็นตารางย่อย ๆ (Partitions) ตามเงื่อนไขที่กำหนด เช่น ตามช่วงเวลา หรือตาม ID

ข้อดี:
- ลดขนาด Index: แต่ละ Partition มี Index ของตัวเอง ทำให้ Index เล็กลงและเร็วขึ้น
- ปรับปรุงประสิทธิภาพ Query: Query ที่มีเงื่อนไขตรงกับ Partition Key จะ Scan เฉพาะ Partition ที่เกี่ยวข้องเท่านั้น (Partition Pruning)
- จัดการข้อมูลได้ง่ายขึ้น: การลบข้อมูลเก่าทำได้ง่ายเพียงแค่ Drop Partition ทั้งหมด
- ปรับปรุง Autovacuum: Autovacuum ทำงานบน Partition เล็ก ๆ ได้เร็วกว่าตารางใหญ่
ข้อเสีย:
- เพิ่มความซับซ้อนในการจัดการ Schema
- Query ที่ไม่ได้ระบุ Partition Key อาจช้าลง

ตัวอย่างการทำ Partitioning (Declarative Partitioning ใน PostgreSQL 10+):


CREATE TABLE sensor_data (
    id BIGSERIAL,
    device_id INT NOT NULL,
    measurement_time TIMESTAMP NOT NULL,
    temperature NUMERIC,
    humidity NUMERIC
) PARTITION BY RANGE (measurement_time);

CREATE TABLE sensor_data_2023_q1 PARTITION OF sensor_data
    FOR VALUES FROM ('2023-01-01') TO ('2023-04-01');

CREATE TABLE sensor_data_2023_q2 PARTITION OF sensor_data
    FOR VALUES FROM ('2023-04-01') TO ('2023-07-01');

-- สร้าง Index บน Partition Key และคอลัมน์อื่น ๆ ที่ Query บ่อย
CREATE INDEX ON sensor_data_2023_q1 (device_id, measurement_time);

การใช้ Foreign Keys

Foreign Keys ช่วยรับประกันความสัมพันธ์ของข้อมูล (Referential Integrity) ระหว่างตาราง

ข้อดี:
- ป้องกันการลบข้อมูลที่เกี่ยวข้องโดยไม่ได้ตั้งใจ
- ช่วยให้ Optimizer เข้าใจความสัมพันธ์ของข้อมูลได้ดีขึ้นในบางกรณี
ข้อเสีย:
- เพิ่ม Overhead ในการ Insert, Update, Delete เนื่องจากต้องตรวจสอบ Constraint

คำแนะนำ: ควรใช้ Foreign Keys เสมอเพื่อรักษา Data Integrity เว้นแต่จะมีการทดสอบและพบว่าเกิดคอขวดด้าน Performance จริง ๆ และมีกลไกอื่นมาทดแทนการรับประกัน Integrity ครับ

การปรับแต่งระดับ Hardware และ I/O

แม้การปรับแต่ง Software จะสำคัญ แต่ Hardware ที่เหมาะสมก็เป็นรากฐานที่ขาดไม่ได้ครับ

SSD (Solid State Drive) โดยเฉพาะ NVMe:
เป็นสิ่งจำเป็นอย่างยิ่งสำหรับฐานข้อมูลใน Production Workload ที่มีการอ่าน/เขียนข้อมูลสูง SSD ให้ Latency ที่ต่ำกว่าและ Throughput ที่สูงกว่า HDD แบบดั้งเดิมมาก และ NVMe SSDs ยิ่งเร็วกว่า SATA SSDs อย่างก้าวกระโดด
- คำแนะนำ: ลงทุนใน NVMe SSDs คุณภาพสูงสำหรับ Data Directory ของ PostgreSQL
RAID Configurations:
สำหรับ Workload ที่ต้องการความน่าเชื่อถือและประสิทธิภาพสูง ควรพิจารณาใช้ RAID (Redundant Array of Independent Disks)
- RAID 10 (1+0): เป็นตัวเลือกที่ดีที่สุดสำหรับฐานข้อมูล ให้ทั้ง Performance และ Redundancy ที่ดี
- RAID 5: อาจใช้ได้สำหรับ Workload ที่เน้นการอ่าน แต่ประสิทธิภาพการเขียนจะลดลง
- RAID 0: ให้ Performance สูงสุด แต่ไม่มี Redundancy ไม่ควรใช้ใน Production
Memory (RAM):
เป็นทรัพยากรที่สำคัญที่สุดสำหรับ PostgreSQL ยิ่งมี RAM มากเท่าไหร่ ก็ยิ่งสามารถตั้งค่า shared_buffers และ effective_cache_size ได้สูงขึ้นเท่านั้น ซึ่งช่วยลด Disk I/O ได้อย่างมหาศาล
- คำแนะนำ: ติดตั้ง RAM ให้มากที่สุดเท่าที่จะเป็นไปได้ตามงบประมาณ โดยเฉพาะหากคุณมีฐานข้อมูลขนาดใหญ่ที่ต้องเก็บใน Cache
CPU:
ความเร็วและจำนวน Core ของ CPU มีผลต่อการประมวลผล Query ที่ซับซ้อน, การ Sort, และการรองรับจำนวน Connection พร้อมกัน
- คำแนะนำ: เลือก CPU ที่มี Base Clock Speed สูงสำหรับ Workload ที่มี Query น้อยแต่ซับซ้อน หรือ CPU ที่มีจำนวน Core มากสำหรับ Workload ที่มี Query จำนวนมากแต่ไม่ซับซ้อน และใช้ Parallel Query
Network:
ตรวจสอบให้แน่ใจว่า Network Interface Card (NIC) และโครงสร้างเครือข่ายสามารถรองรับปริมาณ Traffic ระหว่าง Application Server กับ Database Server ได้เพียงพอ
- คำแนะนำ: ใช้ Gigabit Ethernet หรือ 10 Gigabit Ethernet ตามความเหมาะสม

เครื่องมือและเทคนิคเพิ่มเติมเพื่อประสิทธิภาพสูงสุด

นอกจากการปรับแต่งภายใน PostgreSQL และ Hardware แล้ว ยังมีเครื่องมือและเทคนิคภายนอกที่สามารถนำมาใช้เพื่อเพิ่มประสิทธิภาพได้อีกครับ

PgBouncer (Connection Pooling)

PgBouncer เป็น Connection Pooler ที่อยู่ระหว่าง Application ของคุณกับ PostgreSQL Server

ปัญหา: การสร้าง Connection ใหม่ใน PostgreSQL มี Cost สูง และแต่ละ Connection ใช้ RAM จำนวนหนึ่ง หากมี Application ที่สร้างและปิด Connection บ่อย ๆ หรือมี Connection พร้อมกันจำนวนมาก อาจทำให้ PostgreSQL ทำงานหนักและประสิทธิภาพลดลง
วิธีแก้ไข: PgBouncer จะจัดการ Pool ของ Connection ที่เปิดอยู่กับ PostgreSQL Server และให้ Application ยืม Connection จาก Pool นั้นแทน เมื่อ Application ทำงานเสร็จ Connection ก็จะถูกคืนเข้า Pool ทำให้ลด Overhead ในการสร้าง Connection ใหม่ และจำกัดจำนวน Connection จริง ๆ กับ PostgreSQL Server
ข้อดี: ลด Overhead การสร้าง Connection, ช่วยให้ PostgreSQL รองรับ Connection จาก Application ได้จำนวนมากโดยใช้ทรัพยากรน้อยลง, เพิ่ม Throughput


; ตัวอย่าง pgbouncer.ini
[databases]
mydb = host=localhost port=5432 dbname=mydb

[pgbouncer]
listen_addr = 0.0.0.0
listen_port = 6432
auth_type = md5
auth_file = /etc/pgbouncer/userlist.txt
pool_mode = session ; หรือ transaction, statement
default_pool_size = 20
max_client_conn = 1000

Caching (Application Level & OS Level)

Application-Level Caching:
การเก็บผลลัพธ์ของ Query หรือข้อมูลที่เข้าถึงบ่อยไว้ในหน่วยความจำของ Application (เช่น Redis, Memcached) ช่วยลดจำนวน Query ที่ต้องส่งไปที่ฐานข้อมูลโดยตรง
- ข้อดี: ลดภาระงานของ Database ได้อย่างมาก, เพิ่มความเร็วในการตอบสนองของ Application
- ข้อเสีย: ต้องจัดการเรื่อง Cache Invalidation (เมื่อข้อมูลในฐานข้อมูลเปลี่ยน ต้องอัปเดต Cache)
OS-Level Caching (File System Cache):
ระบบปฏิบัติการจะแคชบล็อกข้อมูลที่ถูกอ่านจาก Disk ไว้ใน RAM โดยอัตโนมัติ ซึ่งช่วยเพิ่มประสิทธิภาพการอ่านข้อมูล
- คำแนะนำ: การมี RAM มากเพียงพอช่วยให้ OS Cache ทำงานได้ดี

Replication สำหรับ Read Scalability

การทำ Replication คือการคัดลอกข้อมูลจาก Primary Database (Master) ไปยัง Secondary Database (Replica/Standby)

ข้อดี:
- Read Scalability: สามารถกระจาย Workload ของ Read Query ไปยัง Replica ได้ ทำให้ Primary Database รับผิดชอบเฉพาะ Write Query
- High Availability: หาก Primary Database ล่ม สามารถ Promote Replica ขึ้นมาเป็น Primary ใหม่ได้
- Backup: Replica สามารถใช้เป็นแหล่งสำหรับ Backup ได้โดยไม่กระทบ Primary
ประเภท:
- Streaming Replication: คัดลอก WAL Records แบบ Real-time (Asynchronous หรือ Synchronous)
- Logical Replication: คัดลอกเฉพาะการเปลี่ยนแปลงข้อมูลในระดับ Row (PostgreSQL 10+)

อ่านเพิ่มเติมเกี่ยวกับการทำ PostgreSQL Replication

Monitoring Tools เฉพาะทาง

นอกเหนือจากเครื่องมือพื้นฐานแล้ว การใช้ Monitoring Tools เฉพาะทางช่วยให้คุณเห็นภาพรวมและเจาะลึกปัญหาได้ดีขึ้น

Prometheus & Grafana: เป็น Stack ยอดนิยมสำหรับการเก็บและแสดงผล Metric ต่าง ๆ ของ Server และ PostgreSQL
pg_monitor (Extension): เป็น Meta-Extension ที่รวบรวม View ที่มีประโยชน์หลายตัวเข้าด้วยกัน
pg_activity, pg_top: เครื่องมือคล้าย top/htop แต่เน้นแสดงผล Process ของ PostgreSQL

คำถามที่พบบ่อย (FAQ)

Q: ควรเริ่มต้นปรับแต่ง PostgreSQL จากส่วนไหนก่อนดีครับ?

A: ควรเริ่มต้นจากการตรวจสอบและวิเคราะห์ครับ ใช้เครื่องมืออย่าง pg_stat_activity, pg_stat_statements, และ EXPLAIN ANALYZE เพื่อระบุ Query ที่ทำงานช้าที่สุดและตารางที่มีปัญหามากที่สุด จากนั้นจึงค่อยพิจารณาปรับแต่ง postgresql.conf โดยเน้นไปที่พารามิเตอร์เกี่ยวกับหน่วยความจำ (shared_buffers, work_mem) และตรวจสอบการทำงานของ Autovacuum ครับ

Q: การเพิ่ม RAM ให้กับ Server จะช่วยเพิ่มประสิทธิภาพ PostgreSQL ได้มากแค่ไหนครับ?

A: การเพิ่ม RAM เป็นหนึ่งในการลงทุนที่คุ้มค่าที่สุดสำหรับการปรับปรุงประสิทธิภาพ PostgreSQL ครับ RAM ที่มากขึ้นช่วยให้ PostgreSQL สามารถแคชข้อมูลได้มากขึ้น (ผ่าน shared_buffers) และลดการอ่าน/เขียน Disk I/O ได้อย่างมหาศาล นอกจากนี้ OS Cache ก็จะทำงานได้ดีขึ้นด้วยครับ แต่ต้องตั้งค่า shared_buffers และ effective_cache_size ให้เหมาะสมกับ RAM ที่มีด้วยนะครับ

Q: ควรสร้าง Index บนคอลัมน์ใดบ้างครับ?

A: ควรสร้าง Index บนคอลัมน์ที่ถูกใช้งานบ่อยใน WHERE clauses, JOIN conditions, ORDER BY clauses, และ GROUP BY clauses ครับ ใช้ EXPLAIN ANALYZE เพื่อดูว่า Query Optimizer เลือกใช้ Index หรือไม่ หากมี Query ที่ทำงานช้าและทำการ Sequential Scan บนตารางขนาดใหญ่ ก็เป็นสัญญาณที่ดีที่จะสร้าง Index บนคอลัมน์ที่ใช้ในเงื่อนไขของ Query นั้น ๆ ครับ แต่ก็ไม่ควรสร้าง Index มากเกินไป เพราะจะเพิ่ม Overhead ในการเขียนข้อมูลและเปลือง Disk Space ครับ

Q: Autovacuum สำคัญอย่างไร และควรตั้งค่าอย่างไรครับ?

A: Autovacuum สำคัญมากครับ มันช่วยลบ “Dead Tuples” ที่เกิดจากการ Update/Delete และอัปเดตสถิติของตาราง ทำให้ฐานข้อมูลมีประสิทธิภาพและป้องกันปัญหา Transaction ID Wraparound ครับ การตั้งค่า Autovacuum ควรเน้นไปที่ autovacuum_max_workers เพื่อให้มี Worker เพียงพอ และปรับ autovacuum_vacuum_scale_factor / autovacuum_vacuum_threshold ให้เหมาะสมกับ Workload ของแต่ละตาราง เพื่อให้ Autovacuum ทำงานได้ทันท่วงทีโดยไม่รบกวนการทำงานปกติมากเกินไปครับ

Q: การใช้ PgBouncer จำเป็นเสมอไปไหมครับ?

A: ไม่จำเป็นเสมอไปครับ แต่แนะนำอย่างยิ่งสำหรับระบบที่มีการเชื่อมต่อจาก Application จำนวนมาก หรือ Application ที่สร้างและปิด Connection บ่อย ๆ เช่น Web Applications ที่ใช้ Serverless Functions หรือ Microservices การใช้ PgBouncer จะช่วยลดภาระงานของ PostgreSQL ได้อย่างมีนัยสำคัญและเพิ่ม Scalability ของระบบโดยรวมครับ หากระบบของคุณมี Connection ไม่มากและไม่ได้สร้าง/ปิดบ่อย ๆ อาจจะยังไม่จำเป็นในขั้นต้นครับ

Q: ทำไมบางครั้ง Query ที่ใช้ Index ก็ยังช้าอยู่ครับ?

A: มีหลายสาเหตุที่เป็นไปได้ครับ เช่น:

Index Bloat: Index อาจมี Dead Tuples สะสมมาก ทำให้โครงสร้างใหญ่และมีประสิทธิภาพลดลง (ลอง REINDEX)
Optimizer เลือกใช้ Index ผิด: Optimizer อาจมีสถิติที่ไม่ทันสมัย (
บทความที่เกี่ยวข้อง
iCafeForex.com — EA Forex และเครื่องมือเทรด · SiamCafe.net — ชุมชน IT ที่ใหญ่ที่สุด

PostgreSQL Performance Tuning คู่มือปรับแต่งฐานข้อมูล

สารบัญ

ทำไมต้องปรับแต่ง PostgreSQL และปัจจัยที่มีผลต่อประสิทธิภาพ

เครื่องมือและขั้นตอนการวิเคราะห์ประสิทธิภาพเบื้องต้น

การตรวจสอบระดับระบบปฏิบัติการ (OS Level Monitoring)

เครื่องมือตรวจสอบภายใน PostgreSQL

pg_stat_activity

pg_stat_statements

การใช้ EXPLAIN ANALYZE เพื่อวิเคราะห์ Query

การตั้งค่า Log สำหรับ Slow Queries

การปรับแต่งไฟล์ postgresql.conf: หัวใจของการกำหนดค่า

ข้อควรระวัง

การจัดการหน่วยความจำ (Memory Parameters)

การปรับแต่ง Write-Ahead Log (WAL)

การปรับแต่ง Checkpoint

การปรับแต่ง Cost Parameters สำหรับ Query Optimizer

การจัดการ Connection และ Parallel Processing

การปรับแต่ง Query และการเลือกใช้ Index ที่เหมาะสม

หลักการเขียน Query ที่มีประสิทธิภาพ

ประเภทของ Index และการเลือกใช้

ประเภทของ Index หลัก ๆ ใน PostgreSQL

ตารางเปรียบเทียบประเภท Index (บางส่วน)

การตรวจสอบและจัดการ Index

การจัดการ Vacuum และ Autovacuum: กุญแจสู่ความเสถียร

ทำความเข้าใจ MVCC และ Dead Tuples

การปรับแต่ง Autovacuum Parameters

การเรียกใช้ VACUUM ด้วยตนเอง

การออกแบบ Schema และ Database ที่มีประสิทธิภาพ

Normalization vs. Denormalization

การเลือกใช้ Data Type ที่เหมาะสม

การทำ Partitioning สำหรับตารางขนาดใหญ่

การใช้ Foreign Keys

การปรับแต่งระดับ Hardware และ I/O

เครื่องมือและเทคนิคเพิ่มเติมเพื่อประสิทธิภาพสูงสุด

PgBouncer (Connection Pooling)

Caching (Application Level & OS Level)

Replication สำหรับ Read Scalability

Monitoring Tools เฉพาะทาง

คำถามที่พบบ่อย (FAQ)

Q: ควรเริ่มต้นปรับแต่ง PostgreSQL จากส่วนไหนก่อนดีครับ?

Q: การเพิ่ม RAM ให้กับ Server จะช่วยเพิ่มประสิทธิภาพ PostgreSQL ได้มากแค่ไหนครับ?

Q: ควรสร้าง Index บนคอลัมน์ใดบ้างครับ?

Q: Autovacuum สำคัญอย่างไร และควรตั้งค่าอย่างไรครับ?

Q: การใช้ PgBouncer จำเป็นเสมอไปไหมครับ?

Q: ทำไมบางครั้ง Query ที่ใช้ Index ก็ยังช้าอยู่ครับ?

บทความที่เกี่ยวข้อง

WiFi 7 vs WiFi 6E เปรียบเทียบจริง 20260316170842

CI/CD Pipeline ด้วย GitHub Actions แบบละเอียด

React Server Components เปลี่ยนวิธีสร้างเว็บ 2026

Terraform Infrastructure as Code สำหรับ Cloud AWS

CI/CD Pipeline ด้วย GitHub Actions แบบละเอียด

PostgreSQL Performance Tuning คู่มือปรับแต่งฐานข้อมูล

© 2026 SiamLancard — จำหน่ายการ์ดแลน อุปกรณ์ Server และเครื่องพิมพ์ใบเสร็จ

Shopping cart