持续报道 · 1dFEATUREDHacker News 首页· rssEN20:49 · 06·18
查查你的名字有没有被喂给 GPT-5.5、DeepSeek V4 等 13 个模型
Thomas Dimson 和 Joey Flynn 做了个网站,输入名字就能看它是否出现在 13 个主流模型的训练数据里,包括 GPT-5.5、DeepSeek V4、Llama 3.3 70B 等。它会返回一个“强度”分数,莫扎特、莎士比亚、泰勒·斯威夫特都拿到了 996 分。但正文没解释这个分数是怎么算出来的,也没说数据是来自真实的训练集还是通过...
#Thomas Dimson#Joey Flynn#OpenAI (GPT-5.5, GPT-5.4 Mini)
精选理由
这个点子有爆款潜质,好奇心和分享欲都拉满了。但我会先打个折,因为最关键的分数算法和数据来源一个字都没提,读者看完热闹也不知道该信几分,所以只能给到 featured,到不了 headline。
一句话点评
名人清一色 996 分,但正文没解释分数怎么算、数据源是训练集还是模型行为,这个数字先别太当真。
锐评
Thomas Dimson 和 Joey Flynn 做了个网站,输入名字就能查它是否出现在 13 个主流模型的训练数据里,覆盖 GPT-5.5、DeepSeek V4、Llama 3.3 70B 等。它会返回一个“强度”分数,莫扎特、莎士比亚、泰勒·斯威夫特这些家喻户晓的名字都拿到了 996 分。
但问题在于,正文完全没交代这个分数是怎么算出来的。它可能是基于模型对名字的熟悉程度、生成文本的频率,还是直接查了训练集里的出现次数?也没说数据来源是真实的训练语料,还是通过模型行为反推的。如果是后者,那这个分数更多反映的是模型“知道”这个名字的程度,而不是它真的在训练数据里被喂了多少次。
另外,排行榜上前 20 名全是 996 分,几乎没区分度,说明这个分数要么上限太低,要么算法对名人一视同仁。想拿它当隐私检测工具的人得留个心眼——正文没披露方法论,这个数字只能当个趣味参考,别当成严谨的审计结果。
HKR 分解
hook ✓knowledge —resonance ✓