Alat Token AI

Pengira Token Llama — Kira Token Dalam Talian (Percuma)

Kira berapa token teks anda gunakan dengan Llama. Tampal atau taip di bawah — bilangan token dikemas kini secara langsung, sesuai untuk kekal dalam tetingkap konteks Llama, memendekkan prompt dan menganggar kos API sebelum menghantar permintaan.

Pembangun: Meta
Tetingkap konteks: 128K token
Tokenizer: Llama BPE (estimated here)
Ketepatan di sini: Anggaran hampir

Tentang alat ini

Token ialah unit asas yang dibaca oleh model bahasa. Biasanya ia cebisan pendek perkataan — dalam bahasa Inggeris, satu token bersamaan kira-kira 4 aksara atau lebih kurang ¾ perkataan. Llama mengukur segalanya dalam token: kedua-dua tetingkap konteks (berapa banyak teks muat dalam satu permintaan) dan caj API.

Mengetahui bilangan token Llama lebih awal memberi tiga manfaat: anda elak melebihi tetingkap konteks dan dipotong, boleh meramal kos panggilan API, dan boleh memendekkan prompt panjang agar model ada lebih ruang untuk menjawab.

Pengira token Llama ini berjalan sepenuhnya dalam pelayar anda — teks anda tidak pernah dimuat naik atau disimpan. Kiraan OpenAI (GPT) menggunakan pengekodan tiktoken yang tepat; Llama dipaparkan sebagai anggaran hampir kerana tokenizer rasminya tidak diterbitkan untuk pelayar. Untuk teks biasa, anggaran biasanya dalam beberapa peratus.

Bagaimana Llama menukar teks kepada token

Llama tidak membaca perkataan atau huruf secara langsung, sebaliknya memecah teks kepada token dengan tokenizer subperkataan (Llama BPE (estimated here)). Perkataan biasa sering menjadi satu token, manakala perkataan jarang atau panjang, emoji dan kod dipecah kepada beberapa. Ruang dan tanda baca turut dikira — sebab itu "hello world" dan "helloworld" boleh memberi kiraan berbeza.

Teks bukan Inggeris biasanya menggunakan lebih banyak token bagi setiap aksara. Bahasa Cina, Jepun, Korea dan Thai sangat padat — satu aksara boleh menjadi satu atau beberapa token — jadi makna yang sama boleh memakan jauh lebih banyak token berbanding bahasa Inggeris.

Tetingkap konteks dan had token Llama

Llama mempunyai tetingkap konteks kira-kira 128K token, dikongsi antara input (prompt, mesej sistem, sejarah, lampiran) dan output. Jika jumlah melebihi tetingkap, kandungan terlama dibuang atau permintaan ditolak — mengira dahulu mengelakkannya.

Petua praktikal: tinggalkan ruang untuk jawapan. Jika perlu jawapan panjang, kekalkan prompt jauh di bawah had supaya model ada baki token untuk menjawab.

Petua guna token lebih sedikit dengan Llama

Buang arahan dan teks templat berulang, ringkaskan konteks panjang daripada menampalnya penuh, buang contoh tidak perlu dan jangan ulang mesej sistem sama setiap giliran. Memotong token mempercepat jawapan dan mengurangkan kos.

Cara guna

Tampal teks anda — Taip atau tampal sebarang prompt, dokumen atau kod ke dalam kotak.
Baca kiraannya — Nombor besar ialah kiraan token Llama, secara langsung, dengan aksara dan perkataan di sebelahnya.
Bandingkan model — Guna jadual untuk membandingkan kiraan dengan model lain bersebelahan.
Salin atau kosongkan — Salin teks untuk digunakan di tempat lain, atau kosongkan dan mula semula.

Soalan lazim

Berapa token teks saya dalam Llama?

Tampal di atas — pengira memaparkan kiraan token Llama serta-merta, bersama jumlah aksara dan perkataan.

Adakah kiraan token Llama tepat?

Ia anggaran hampir. Tokenizer rasmi Llama tidak berjalan dalam pelayar, jadi kami menganggarkannya; untuk teks biasa lazimnya dalam beberapa peratus. Kiraan OpenAI/GPT dalam jadual adalah tepat.

Apakah tetingkap konteks Llama?

Kira-kira 128K token, dikongsi antara input dan output. Kekalkan jumlah di bawah had ini untuk elak dipotong.

Bagaimana mengira token Llama dalam talian secara percuma?

Halaman ini ialah pengira token Llama dalam talian percuma — tanpa akaun atau pemasangan. Semua dikira dalam pelayar.

Mengapa token penting untuk Llama?

Llama mengecaj setiap token dan mengehadkan permintaan mengikut token, jadi kiraan token menentukan sama ada prompt anda muat dan berapa kosnya.

Adakah teks saya dihantar ke pelayan?

Tidak. Pengiraan berlaku sepenuhnya dalam pelayar — tiada apa-apa dimuat naik, dilog atau disimpan.

Bagaimana mengurangkan penggunaan token?

Pendekkan prompt, ringkaskan konteks panjang, buang arahan berulang dan kurangkan contoh. Token lebih sedikit bermakna permintaan lebih pantas dan murah.