Công cụ token AI
Đổi từ sang token — Văn bản của tôi bao nhiêu token?
Đổi từ sang token và ngược lại. Dán văn bản để có số token GPT chính xác, hoặc nhập số từ để ước tính nhanh — kèm ký tự và từ trực tiếp.
- 1 token
- ≈ 4 ký tự
- 1 token
- ≈ ¾ một từ tiếng Anh
- 1.000 từ
- ≈ 1.300 token
- 1.000 token
- ≈ 750 từ
Giới thiệu công cụ
Mô hình AI đo văn bản bằng token, không phải từ. Quy tắc chung: 1 token ≈ ¾ một từ tiếng Anh, hay khoảng 4 ký tự — nên 1.000 từ vào khoảng 1.300 token, và 1.000 token khoảng 750 từ. Con số chính xác tùy vào cách diễn đạt, ngôn ngữ và dấu câu.
Dán văn bản để có số token GPT chính xác (kèm số từ và ký tự trực tiếp), hoặc gõ số từ để ước tính nhanh. Hữu ích để nhét bài luận, bài viết, thông điệp hệ thống và tài liệu vừa cửa sổ ngữ cảnh của mô hình.
Từ, ký tự và token — giải thích
Ký tự là từng chữ cái và ký hiệu; từ được ngăn bằng dấu cách; token là các mẩu tiểu từ mà mô hình thật sự đọc. Tokenizer giữ nguyên từ thông dụng nhưng tách từ hiếm hoặc dài, nên số token nằm giữa số từ và số ký tự đối với tiếng Anh.
Số token mỗi từ theo ngôn ngữ
Tiếng Anh trung bình khoảng 0,75 từ mỗi token. Các ngôn ngữ hệ Latinh khác cũng tương tự, nhưng tiếng Trung, Nhật, Hàn, Thái, Ả Rập và mã nguồn dùng nhiều token hơn cho cùng một ý — đôi khi một token mỗi ký tự. Luôn kiểm tra văn bản thật thay vì dựa vào một tỷ lệ duy nhất.
Cách dùng
- Dán văn bản — Xem số token, từ và ký tự cập nhật trực tiếp.
- Hoặc nhập số từ — Gõ số từ để ước tính nhanh số token.
- Lập kế hoạch prompt — Dùng các con số để giữ trong cửa sổ ngữ cảnh của mô hình.
Câu hỏi thường gặp
1.000 từ là bao nhiêu token?
Khoảng 1.300 token trong tiếng Anh (1 token ≈ ¾ từ). Con số chính xác tùy văn bản — dán phía trên để có số liệu chính xác.
1.000 token là bao nhiêu từ?
Khoảng 750 từ tiếng Anh. Các ngôn ngữ ngoài tiếng Anh và mã nguồn thường dùng nhiều token hơn mỗi từ.
500 từ là bao nhiêu token?
Khoảng 650 token trong tiếng Anh. Dán văn bản thật để có số chính xác, vì dấu câu và từ hiếm sẽ làm thay đổi kết quả.
Vì sao từ và token không khớp chính xác?
Tokenizer tách theo tiểu từ, dấu cách và dấu câu, nên từ thông dụng thường là một token còn từ hiếm hoặc dài thì nhiều token.
Số token có chính xác không?
Số đếm từ văn bản dán dùng mã hóa GPT (tiktoken) chính xác. Ô từ → token là ước tính nhanh theo quy tắc ¾ từ.