Skip to main content

✂️ Dataset & Chunk Strategy

Untuk memberikan jawaban yang akurat melalui sistem RAG (Retrieval-Augmented Generation), dokumen yang Anda unggah perlu diproses melalui tahapan Chunking dan Semantic Search.


🔍 Apa itu Chunk?

Chunking adalah proses membagi dokumen besar menjadi potongan-potongan kecil yang lebih mudah dikelola oleh AI. Hal ini penting karena:

  • Efisiensi: AI memproses teks lebih cepat dalam potongan kecil.
  • Akurasi: Membantu AI menemukan informasi yang sangat spesifik tanpa "tersesat" di dokumen yang terlalu panjang.
  • Konteks: Setiap potongan (chunk) fokus pada satu topik tertentu.

🛠️ Konfigurasi Chunking

Anda dapat mengatur bagaimana dokumen dipotong melalui parameter berikut:

ParameterFungsi
Max Chunk SizeUkuran maksimal karakter dalam satu potongan.
Overlap SizeJumlah karakter yang tumpang tindih antar potongan agar konteks tidak terputus.
Respect SentenceJika aktif, sistem tidak akan memotong di tengah kalimat.

Rekomendasi Ukuran:

  • Artikel Pendek: Max 600-800 characters.
  • Dokumen Akademik/Legal: Max 1200-1500 characters (butuh konteks lebih luas).
  • Manual/Tutorial: Max 1000 characters dengan Overlap tinggi (200-300).

🧠 Semantic Search & RAG

Setelah dokumen dipotong (chunking), sistem akan menggunakan Semantic Search untuk mencari informasi.

Berbeda dengan pencarian kata kunci tradisional yang mencari kecocokan kata yang persis sama, Semantic Search memahami makna di balik pertanyaan Anda. Contoh: Jika Anda mencari "cara memperbaiki layar hp", sistem juga akan mencari info tentang "reparasi display smartphone".

Cara Mengaktifkan di Agent AI:

  1. Masuk ke setting Agent AI.
  2. Aktifkan fitur Vector Search.
  3. Atur Minimum Score (0-1):
    • Semakin mendekati 1, pencarian semakin ketat/akurat.
    • Semakin mendekati 0, pencarian semakin luas/fleksibel.

📈 Tips Hasil Maksimal

  • Gunakan Overlap: Selalu berikan overlap (misal: 10% dari Max Size) agar informasi di akhir potongan pertama tersambung dengan awal potongan kedua.
  • Data Bersih: Pastikan dokumen asli tidak memiliki banyak karakter aneh atau format yang berantakan.
  • Tuning Score: Jika AI sering menjawab "Saya tidak tahu", coba turunkan sedikit Minimum Score-nya.

Dengan strategi chunking yang tepat, Agent AI Anda akan menjadi sangat cerdas dalam memahami dokumen perusahaan Anda! 🚀