Praktik Terbaik Membangun Aplikasi AI dengan Amazon Bedrock

February 3, 2025 | by Luna
{

Praktik Terbaik dalam Membangun Agen AI Generatif

Mengembangkan agen cerdas yang dapat memahami dan merespons pertanyaan pengguna dengan akurat adalah tugas yang kompleks yang memerlukan perencanaan dan pelaksanaan yang teliti di berbagai tahap. Baik Anda membuat chatbot customer service atau asisten virtual, banyak faktor yang harus dipertimbangkan, mulai dari mendefinisikan ruang lingkup dan kemampuan agen hingga merancang infrastruktur yang kuat dan skalabel. Seri dua bagian ini membahas praktik terbaik untuk membangun aplikasi AI generatif menggunakan Amazon Bedrock Agents. Agen-agen ini mempercepat pengembangan aplikasi AI generatif dengan mengorkestrasi tugas multilangkah, memanfaatkan kemampuan penalaran model dasar (FMs) untuk menguraikan permintaan pengguna menjadi beberapa langkah. Branda juga menggunakan instruksi yang disediakan oleh pengembang untuk membuat rencana orkestrasi, melaksanakannya dengan memanggil API perusahaan dan mengakses basis pengetahuan melalui Retrieval Augmented Generation (RAG) untuk merespons permintaan pengguna. Bagian 1 berfokus pada pembuatan agen yang akurat dan andal, sementara Bagian 2 membahas pertimbangan arsitektur dan praktik siklus pengembangan.

Data Ground Truth Berkualitas Tinggi

Landasan dari setiap agen yang sukses adalah data ground truth berkualitas tinggi—pengamatan dunia nyata yang akurat yang digunakan sebagai tolok ukur untuk mengevaluasi model, algoritma, atau sistem. Sebelum membangun aplikasi agen, penting untuk mengumpulkan serangkaian interaksi atau percakapan ground truth yang akan memandu seluruh siklus hidup agen. Data ini berfungsi sebagai tolok ukur untuk perilaku agen yang diharapkan, termasuk interaksi dengan API yang ada, basis pengetahuan, dan pengaman yang terhubung ke agen. Ini memungkinkan pengujian dan evaluasi yang tepat, membantu mengidentifikasi kasus tepi dan potensi masalah. Untuk membangun dataset ground truth yang kuat, kumpulkan contoh yang beragam yang mencakup berbagai niat dan skenario pengguna. Dataset Anda harus mencakup input dan output yang diharapkan untuk interaksi sederhana dan kompleks. Perbarui dan perluas dataset Anda secara teratur, mendasarkannya pada interaksi pelanggan nyata yang mencerminkan kasus penggunaan aktual, memastikan data diidentifikasi dan dianonimkan.

Definisi Ruang Lingkup Agen

Selanjutnya, definisikan dengan jelas ruang lingkup setiap agen, termasuk tugas yang harus dan tidak boleh ditangani, dan garis besar interaksi pengguna sampel yang diharapkan. Ini melibatkan mengidentifikasi fungsi dan kemampuan utama, keterbatasan dan tugas di luar ruang lingkup, format dan jenis input yang diharapkan, serta format dan gaya output yang diinginkan. Misalnya, ruang lingkup agen asisten HR mungkin mencakup:

Fungsi utama:

  • Memberikan informasi tentang kebijakan HR perusahaan
  • Membantu dengan permintaan cuti dan manajemen waktu libur
  • Menjawab pertanyaan dasar tentang penggajian

Di luar ruang lingkup:

  • Menangani data karyawan yang sensitif
  • Membuat keputusan perekrutan atau pemecatan
  • Memberikan nasihat hukum

Input yang diharapkan:

  • Pertanyaan dalam bahasa alami tentang kebijakan HR
  • Permintaan informasi tentang cuti atau liburan
  • Pertanyaan dasar tentang penggajian

Output yang diinginkan:

  • Respons yang jelas dan ringkas terhadap pertanyaan kebijakan
  • Panduan langkah demi langkah untuk permintaan cuti
  • Penyelesaian tugas untuk memesan, mengambil, mengedit, dan menghapus permintaan cuti
  • Rujukan ke personel HR yang sesuai untuk masalah yang kompleks
  • Pembuatan tiket HR untuk pertanyaan yang tidak dapat dijawab oleh agen

Dengan mendefinisikan ruang lingkup agen Anda, Anda menetapkan batasan dan harapan yang jelas, membimbing proses pengembangan Anda dan membantu menciptakan agen AI yang fokus dan andal.

Pendekatan Arsitektur Agen

Untuk arsitektur agen, prinsip “divide and conquer” efektif. Membangun agen kecil yang fokus yang berinteraksi satu sama lain lebih efektif daripada satu agen besar monolitik. Pendekatan ini menawarkan modularitas dan pemeliharaan yang lebih baik, pengujian dan debugging yang sederhana, fleksibilitas untuk menggunakan FM yang berbeda untuk tugas tertentu, serta skalabilitas dan ekstensi yang ditingkatkan.

Misalnya, pertimbangkan asisten HR yang membantu karyawan internal dan asisten tim penggajian yang mendukung karyawan tim penggajian. Kedua agen memiliki fungsi umum seperti menjawab pertanyaan kebijakan penggajian dan menjadwalkan pertemuan. Namun, branda berbeda dalam ruang lingkup dan izin. Asisten HR merespons berdasarkan pengetahuan internal, sementara agen penggajian menangani informasi rahasia untuk karyawan penggajian. Agen HR menjadwalkan pertemuan antara karyawan dan perwakilan HR, sementara agen penggajian menjadwalkan pertemuan dalam tim penggajian.

Dalam pendekatan agen tunggal, fungsionalitas ditangani dalam agen, mengakibatkan duplikasi kelompok tindakan. Perubahan dalam kelompok tindakan pertemuan perlu disebarkan ke agen yang berbeda. Dalam pendekatan kolaborasi multi-agen, agen HR dan penggajian mengorkestrasi agen yang lebih kecil dan fokus pada tugas dengan instruksi branda sendiri. Pertemuan ditangani oleh agen yang dapat digunakan kembali antara kedua agen. Ketika fungsionalitas baru ditambahkan ke agen asisten pertemuan, hanya agen HR dan penggajian yang perlu diperbarui untuk menangani fungsionalitas tersebut. Pendekatan ini dapat diotomatisasi untuk meningkatkan skalabilitas.

Perencanaan dan Evaluasi Agen

Agen pengawas (agen HR dan penggajian) menetapkan nada aplikasi Anda dan mendefinisikan bagaimana setiap fungsionalitas (basis pengetahuan atau sub-agen) harus digunakan, termasuk menerapkan filter basis pengetahuan dan batasan parameter. Kepribadian agen Anda menetapkan nada untuk interaksi pengguna. Rencanakan nada dan salam agen Anda dengan hati-hati untuk menciptakan pengalaman pengguna yang konsisten dan menarik, dengan mempertimbangkan faktor-faktor seperti suara brand, kepribadian, preferensi audiens target, tingkat formalitas, dan sensitivitas budaya.

Saat membuat agen AI, sangat penting untuk menyelaraskan nada agen dengan identitas brand Anda dan menjaga konsistensi di seluruh interaksi. Misalnya, asisten HR yang formal harus menyapa pengguna dengan gelar dan nama belakang, sementara agen dukungan IT yang ramah dapat menggunakan nada santai dan lelucon terkait teknologi. Komunikasi yang jelas sangat penting untuk agen AI yang efektif. Gunakan bahasa yang tidak ambigu, berikan contoh spesifik, dan definisikan batasan yang jelas antara fungsi yang serupa. Implementasikan mekanisme konfirmasi untuk tindakan kritis.

Saat mendefinisikan fungsi, hindari nama yang ambigu dan tetapkan deskripsi yang jelas untuk parameter. Perbarui basis pengetahuan Anda secara teratur untuk memastikan agen memiliki akses ke informasi terkini. Integrasikan basis pengetahuan dengan Amazon Bedrock untuk menambahkan kemampuan pencarian semantik. Ukur efektivitas agen AI dengan kriteria evaluasi spesifik, termasuk metrik utama dan metrik khusus kasus penggunaan. Implementasikan proses evaluasi yang kuat dengan skrip otomatis, pengujian A/B, dan evaluasi manusia.

Evaluator manusia memberikan umpan balik yang bernuansa tentang pemahaman bahasa alami, kesesuaian respons, potensi bias, dan pengalaman pengguna. Praktik terbaik untuk evaluasi manusia termasuk mendefinisikan kriteria evaluasi yang jelas, melatih evaluator, dan menggunakan evaluator yang beragam. Membangun agen AI yang efektif adalah proses iteratif, melibatkan pengujian ekstensif, pengumpulan umpan balik, dan penyempurnaan terus-menerus. Ini termasuk pengujian komprehensif dengan dataset ground truth, pengujian pengguna dunia nyata, dan analisis kinerja.

Untuk mencapai pengujian yang menyeluruh, pertimbangkan menggunakan AI untuk menghasilkan kasus uji yang beragam. Salah satu alat terbaik dari fase pengujian adalah jejak agen, yang memberikan wawasan tentang rantai pemikiran dan proses penalaran agen. Aktifkan jejak dalam panggilan InvokeAgent Anda selama proses pengujian dan nonaktifkan setelah validasi.

Setelah mengumpulkan dataset ground truth, evaluasi perilaku agen dengan mendefinisikan kriteria evaluasi. Misalnya, buat dataset uji yang membandingkan hasil agen dengan yang diperoleh dengan langsung mengakses database liburan. Evaluasi perilaku agen secara manual atau otomatis menggunakan kerangka kerja seperti Agent Evaluation. Jika pencatatan pemanggilan model diaktifkan, Amazon Bedrock Agents akan menyediakan log Amazon CloudWatch untuk memvalidasi perilaku, debug output, dan menyesuaikan agen.

Rencanakan untuk kelompok pengujian A/B selama penerapan, mendefinisikan aspek perilaku agen yang berbeda, seperti nada, untuk diuji dengan kelompok pengguna yang lebih kecil. Gunakan kemampuan versi bawaan Amazon Bedrock Agents untuk ini. Mengikuti praktik terbaik ini dan terus menyempurnakan pendekatan Anda dapat secara signifikan berkontribusi pada pengembangan agen AI yang kuat, akurat, dan berorientasi pengguna menggunakan Amazon Bedrock.

Di Bagian 2, jelajahi pertimbangan arsitektur, praktik terbaik keamanan, dan strategi untuk meningkatkan agen AI di lingkungan produksi. Untuk contoh, lihat repositori GitHub Amazon Bedrock Agents dan Amazon Bedrock Workshop.

Maira Ladeira Tanke adalah Senior Generative AI Data Scientist di AWS dengan pengalaman lebih dari 10 tahun dalam aplikasi AI. Mark Roy adalah Principal Machine Learning Architect untuk AWS, berfokus pada solusi AI generatif. Navneet Sabbineni adalah Software Development Manager di AWS Bedrock dengan pengalaman industri lebih dari 9 tahun. Monica Sunkara adalah Senior Applied Scientist di AWS, bekerja pada Amazon Bedrock Agents dengan pengalaman industri lebih dari 10 tahun.

}
Recommended Article