ابزارهای توکن هوش مصنوعی

تبدیل واژه به توکن — متن من چند توکن است؟

واژه را به توکن و برعکس تبدیل کنید. متن را بچسبانید تا عدد دقیق توکن GPT را بگیرید، یا تعداد واژه را برای تخمین سریع وارد کنید — با نویسه و واژهٔ زنده.

۱ توکن
≈ ۴ نویسه
۱ توکن
≈ ¾ یک واژهٔ انگلیسی
۱۰۰۰ واژه
≈ ۱۳۰۰ توکن
۱۰۰۰ توکن
≈ ۷۵۰ واژه

دربارهٔ این ابزار

مدل‌های هوش مصنوعی متن را با توکن می‌سنجند نه واژه. به‌عنوان قاعده: ۱ توکن ≈ ¾ یک واژهٔ انگلیسی یا حدود ۴ نویسه — پس ۱۰۰۰ واژه حدود ۱۳۰۰ توکن و ۱۰۰۰ توکن حدود ۷۵۰ واژه است. عدد دقیق به واژگان، زبان و نشانه‌گذاری بستگی دارد.

متن را بچسبانید تا عدد دقیق توکن GPT را بگیرید (با واژه و نویسهٔ زنده)، یا تعداد واژه را برای تخمین سریع بنویسید. برای جای‌دادن مقاله، انشا، پیام سیستمی و سند در پنجرهٔ زمینهٔ مدل کاربردی است.

واژه، نویسه و توکن — توضیح

نویسه‌ها حروف و نمادهای تک‌اند؛ واژه‌ها با فاصله جدا می‌شوند؛ توکن‌ها تکه‌های زیرواژه‌ای‌اند که مدل واقعاً می‌خواند. توکن‌ساز واژه‌های پرکاربرد را کامل نگه می‌دارد اما کمیاب یا بلند را می‌شکند، پس برای انگلیسی تعداد توکن میان واژه و نویسه قرار می‌گیرد.

چند توکن برای هر واژه برحسب زبان

انگلیسی به‌طور میانگین حدود ۰٫۷۵ واژه به‌ازای هر توکن است. زبان‌های لاتین دیگر مشابه‌اند، اما چینی، ژاپنی، کره‌ای، تایلندی، عربی و کد منبع برای معنای یکسان توکن بیشتری می‌برند — گاهی یک توکن به‌ازای هر نویسه. همیشه متن واقعی را بررسی کنید نه یک نسبت ثابت.

نحوهٔ استفاده

  1. متن را بچسبانید — ببینید توکن، واژه و نویسهٔ آن زنده به‌روز می‌شود.
  2. یا واژه وارد کنید — تعداد واژه را برای تخمین سریع توکن بنویسید.
  3. پرامپت را برنامه‌ریزی کنید — از اعداد برای ماندن در پنجرهٔ زمینهٔ مدل استفاده کنید.

پرسش‌های متداول

۱۰۰۰ واژه چند توکن است؟

حدود ۱۳۰۰ توکن در انگلیسی (۱ توکن ≈ ¾ واژه). عدد دقیق به متن بستگی دارد — در بالا بچسبانید تا مقدار دقیق را ببینید.

۱۰۰۰ توکن چند واژه است؟

حدود ۷۵۰ واژهٔ انگلیسی. زبان‌های غیرانگلیسی و کد اغلب به‌ازای هر واژه توکن بیشتری می‌برند.

۵۰۰ واژه چند توکن است؟

حدود ۶۵۰ توکن در انگلیسی. متن واقعی را بچسبانید تا عدد دقیق به‌دست آید، چون نشانه‌گذاری و واژه‌های کمیاب نتیجه را تغییر می‌دهند.

چرا واژه و توکن دقیقاً برابر نیستند؟

توکن‌سازها بر اساس زیرواژه، فاصله و نشانه‌گذاری می‌شکنند، پس واژه‌های پرکاربرد اغلب یک توکن و کمیاب یا بلند چند توکن می‌شوند.

آیا شمارش توکن دقیق است؟

عدد متن چسبانده‌شده از کدگذاری دقیق GPT ‏(tiktoken) استفاده می‌کند. کادر واژه ← توکن تخمینی سریع با قاعدهٔ ¾ واژه است.