开云体育他在 GitHub 上发布了这份标记列表-开云(中国大陆) Kaiyun·官方网站

开云(中国大陆) Kaiyun·官方网站

你的位置:开云(中国大陆) Kaiyun·官方网站 > 新闻动态 > 开云体育他在 GitHub 上发布了这份标记列表-开云(中国大陆) Kaiyun·官方网站
开云体育他在 GitHub 上发布了这份标记列表-开云(中国大陆) Kaiyun·官方网站
发布日期:2024-07-02 04:41    点击次数:396

开云体育他在 GitHub 上发布了这份标记列表-开云(中国大陆) Kaiyun·官方网站

OpenAI 于 5 月 13 日星期一发布 GPT-4o 后不久开云体育,一些汉文使用者开动疑望到这个聊天机器东谈主的最新版块似乎有些不合劲:它用于默契文本的标记充满了垃圾邮件和色情网站关连的短语。

普林斯顿大学 (Princeton University) 博士生蔡天乐 (Tianle Cai) 洽商大型言语模子(如斯类聊天机器东谈主所因循的模子)的推理效果,走访了 GPT-4o 的天下标记库,并索要了该模子用于默契和压缩汉文请示的 100 个最长的汉文标记列表。

他在 GitHub 上发布了这份标记列表。

东谈主类以单词为单元阅读,而 LLM 则以标记为单元阅读,标记是句子中具有一致且蹙迫含义的不同单元。除了字典中的单词,它们还包括后缀、常用抒发、称呼等。模子编码的标记越多,模子“阅读”句子的速率就越快,破费的策画才气就越少,从而使反映更低廉。

在 100 个胁制中,只消三个在无边对话中很常见;其他齐是稀奇用于赌博或色情内容的单词和抒发神气。最长的标记不绝 10.5 个汉字,字面兴味是“免费日骨子情视频不雅看”。

简略不错思象得出是去什么网站上持的汉文语料了。