LlamaIndex menambahkan data pribadi ke model bahasa besar
Musim gugur yang lalu, setelah bermain-main dengan model AI penghasil teks GPT-3 OpenAI – pendahulu GPT-4 – mantan ilmuwan riset Uber Jerry Liu menemukan apa yang dia gambarkan sebagai “keterbatasan” di sekitar kemampuan model untuk bekerja dengan data pribadi (misalnya, file pribadi). Untuk mengatasinya, ia meluncurkan proyek sumber terbuka, LlamaIndex, yang dirancang untuk membuka kemampuan dan kasus penggunaan model bahasa besar (LLM) seperti GPT-3 dan GPT-4.
“LLM menawarkan kemampuan luar biasa untuk ekstraksi dan penalaran pengetahuan — mereka dapat melakukan penjawaban pertanyaan, ringkasan, dan ekstraksi wawasan, dan bahkan pengambilan keputusan berurutan dengan lingkungan eksternal,” kata Liu kepada TechCrunch dalam wawancara email. “Tapi LLM memiliki batasan.”
Ketika proyek semakin populer (mencapai 200.000 unduhan bulanan), Liu bergabung dengan Simon Suo, salah satu rekan lamanya di Uber, untuk mengubah LlamaIndex menjadi perusahaan yang berkembang sepenuhnya. Saat ini, LlamaIndex (perusahaan) menawarkan kerangka kerja untuk membantu pengembang memanfaatkan kemampuan LLM di atas data pribadi atau organisasi mereka.
“LlamaIndex [helps] pengembang mengelola data mereka untuk aplikasi LLM,” kata Liu. “Toolkit kami berisi aspek yang paling mendalam, dan kami membuatnya mudah untuk diintegrasikan dengan alat lain yang digunakan pengembang.”
Kredit Gambar: LlamaIndex
Kerangka LlamaIndex memungkinkan pengembang untuk menghubungkan data dari file seperti PDF, PowerPoint, aplikasi seperti Notion dan Slack, dan database seperti Postgres dan MongoDB ke LLM. Kerangka kerja tersebut mencakup konektor untuk menyerap sumber data dan format data, serta cara untuk menyusun data sehingga dapat digunakan dengan mudah dengan LLM.
Selain itu, LlamaIndex memiliki fitur pengambilan data dan antarmuka kueri yang memungkinkan pengembang memberi makan input LLM apa pun untuk mendapatkan kembali — seperti yang dijelaskan Liu — output “konteks dan peningkatan pengetahuan”.
“Ada kerangka aplikasi LLM lain di luar sana yang menawarkan blok bangunan dasar untuk aplikasi dan agen LLM,” kata Liu. “Apa yang spesifik untuk LlamaIndex adalah kami fokus untuk menghubungkan sumber data Anda dengan LLM, dan kami memiliki alat ekstensif seputar penyerapan data, pengelolaan dan pengindeksan data, serta pengambilan data sehubungan dengan aplikasi LLM.”
Prospek menambah LLM dengan cara ini merayu investor, yang menjanjikan $8,5 juta untuk LlamaIndex dalam putaran pendanaan awal yang baru saja ditutup. Greylock memimpin dengan partisipasi dari investor malaikat, termasuk Jack Altman, Lenny Rachitsky dan Charles Xie.
Jadi untuk apa LlamaIndex membelanjakan uangnya? Liu mengatakan bahwa itu akan digunakan untuk membangun “solusi perusahaan” di atas proyek open source LlamaIndex, yang akan diluncurkan akhir tahun ini. Satu kemampuan akan memungkinkan pelanggan untuk menggunakan konektor data “tingkat perlindungan” untuk mengurai dan mengirimkan data dalam jumlah besar, sementara kemampuan terkait lainnya akan memungkinkan mereka mengindeks data “khusus domain”.
“LlamaIndex tidak terikat pada teknologi tertentu, sehingga kami dapat terus digunakan dengan LLM seiring perkembangan teknologi,” kata Liu. “Industri AI bergerak sangat cepat sehingga tumpukan awal yang muncul kemungkinan besar akan berubah dalam beberapa bulan ke depan.”