色哥
最近弱智吧又火了。
说它击败豆瓣、知乎、小红书成为最好华文AI考研数据。
事情肇端于arxiv上的一篇论文,著述里中科院想树立一个优质的华文AI数据集,为此就需要在华文互联网上征集一些语料库。
于是他们就在知乎、豆瓣、小红书等平台上找找素材,再拿去考研大模子。
提及来约略,但不是什么素材都能用。
比如他们在弱智吧上找了500个点赞最高的帖子,然后用GPT-4回答这些帖子(弱智吧的帖子时时是问句体式)。
再把帖子和回答组合成一个教唆微调数据集,流程东谈主工筛选,留住了240组数据。
有了数据材料就不错去考研开源大模子,考研分8项测试,包括问答、头脑风暴、分类、生成、总结、提真金不怕火等,终末用GPT-4给这些测试打分。
精华部分来了。
跑完领域较小的Yi-6B模子后,弱智吧版块的总分排第三。
(CQIA-Subset是从各个数据源里,
再次提真金不怕火出来的精华子集)
到了Yi-34B,弱智吧版块的证实遥遥逾越;
小红书的语料价值则在酬酢媒体之间垫底了。
自后议论东谈主员还作念了安全评估,这方面弱智吧版块也名列三甲。
中国 肛交总的来说,弱智吧的华文数据价值很高。
网友见状一顿狂欢,谁说弱智吧里都是弱智的。
但弱智吧真赢了吗?
比拟于小红书、知乎、豆瓣的上千组数据,弱智吧仅有240组数据,这是不是太少了?
况且,其他数据源用的数据都是原来就有的回答,由东谈主类作出。
(即使小红书数据的回答部分,
看着像一键生成的,
也被标注为东谈主类作出)
弱智吧的那组数据已经用GPT-4去回答、GPT-4来评分的,那这是不是有既当裁判又当默契员的嫌疑呢?
另外,通盘事情也不像媒体报谈的一样,是“弱智吧考研出了超强AI”,而是“借助弱智吧等的语料库对开源大模子进行微调”。
前者是举足轻重的风趣风趣风趣风趣,后者仅仅参与其中。
话说记挂,天然数据不太严谨,然而弱智吧的段子充满了逻辑陷坑和想维失实,很合适用来测试大模子。
这恰是弱智吧树立近二十年来抓之以恒在作念的事:
边搞笑,边让东谈主变得有精明。
弱智吧已成为一个难以名状的言语寰宇。
率先,内部充斥着最基础的傻瓜问题。
只切一刀,如何把四个橘子分给四个小一又友? 孟德尔为什么要花几年去作念实验议论而不是告成看生物书? 为什么每条圣洁上头都压着一座山
虽说“陨石为啥总落在陨石坑”这类问题不值得深想,但你也惟一不被这些问题晃倒本事初学深造。
其次是抖机灵色哥。
古东谈主有那么多封号,是不是讲明古东谈主很爱开外挂? 恐怖分子是由2个恐怖原子组成的,已经由1个恐原子和1个怖原子组成的? 高考满分才750,怎样本事考985? 既然快递要3天才到,为什么不提前3天发?
濒临这些脑经急转弯,发轫你会认为烦扰,但多想一秒就能多一份冷幽默。不算什么赖事。
至于那些前因后果的段子,字里行间流闪现想维上的精确毒辣,它们带着欧亨利式收尾,注定让东谈主爽得不可开交。
-狙击手车精明的击毙了终末又名东谈主质 -使绑匪失去了统统谈判筹码
-我家4400头猪,丢了一头,请示去那儿找啊? -去4399找呀
-严重的恐高症害得我终身无法俯首捡到钱 -我有洁癖每次拉完屎都不敢擦屁股
-一又友烧伤了,我王者荣耀有好多皮肤为什么不可移植给他? -因为一又友没买强者
说得越来越有嗅觉了,体会到言语高涨了吧。
那这时候又怎样少得了黄色见笑呢。
吧主黄医生就曾是这方面的妙手,他们在十多年前脑洞打开,编出各式段子,为的即是构建起弱智吧友好疏导的氛围:
你不错无下限,但一定要够潜入。
什么举世皆浊我独清,任何世东谈主皆醉我独醒,都抵不上我很黄很暴力地醒着。
是以,用病态视角去注视平方社会里不屈方的一面,再合适不外了。不仅如斯,看完之后你会认为那些履行真刺激,那些段子真带劲。
接着一些对社会问题的规戒毛病呼之欲出。
“无头女尸拍大头贴竟被雇主收钱惹群愤”
这是敕令不要宰客。
“阳光洒在地上,到底是照亮了尘埃,已经隐入了尘埃?”
这是告诉我们好多电影没那么敏锐。
别想多了的同期,也别想得太绵薄。
弱智吧里时时计议性别议题。
好多吧友会站出来用浮浅道理让东谈主知谈女性的不易。
弱智吧里也如期关注国际时政。
好多吧友科普学问段子,即是为了揭露海外的阴沉面。
谁说我们只讲无下限段子的,我们也关注寰宇发源、东谈主性污蔑、谈德沦丧,和寰宇和平。
吧友们仅仅在用另一种面孔体恤东谈主类改日。
迟缓地,玄学味很浓的金句联翩而至。
“口角畴昔是不是在时期的长河里依样葫芦”
终末为了升华主题,投合期间精神,
许多段子主打一个劝东谈主向善、辞世就好。
这些帖子里不仅楼主发言机敏,批驳区不异理由深长地讲着警世恒言,让东谈主对寰宇失望悲悼的同期,产生少量点好感。
换言之,弱智吧里都是说最狠的话,讲最善的事。
看到这里你也就显豁,这个吧里真没弱智,反而存在着被东谈主残忍的糊口达东谈主和玄学人人。
他们对寰宇真相的揭露振领提纲。
他们不像告白保举里说得傻里傻气,急需调整。
寰宇衰退不皆,但对才华的识别向来一致。
他们的存在,标明弱智吧在与AI较量中,暂时逾越半个身位。
一个不争的事实是:
目下各平台的言语越来越扁随和匮乏,深度复杂的逻辑越来越没东谈主看了。
要不即是弹幕里粉圈互撕。
连古东谈主都不放过。
要不即是生造缩写。
你惊呼yyds,我修起“蓅氺般の噯情”,我们都有纳降的青涩时光。
要不即是对飚表情包。
你没读懂是你out了,大叔不可怪你,因为年青东谈主扼住了互联网的咽喉。
要不即是阴阳怪气。
批驳区里圣洁选一个表情标识,不打上“崩急乐孝典”等翰墨,都能擢升嘲讽手段。
要不祖安东谈主式骂街。
构建一个“以对方母亲为圆心、嫡派亲戚为半径、生殖器为主火器、意淫为主手段,配以伦理、两性、六畜、宠物、殡葬行业等领域的专有动词及名词”的脏话体系。
要不隔段时期刷“登科轻易”。
前脚是“东谈主不就活几个一忽儿”,后脚是“咱俩一辈子幸福就结束”。
要不劣币结果良币。
“十二生肖过13.5年”本是由“姬霓太好意思”演化出来的段子,但目下手机浏览器里,前几条根柢搜不到正确谜底。
(切换到搜狗或360搜索,
首页里亦然玩梗为主)
终末呢,为了造梗而造梗,而不是去生成鲜嫩的言语艺术。
甚至于狂欢事后,带来的好像仅仅一场场黑话嘉会。
此时此刻,弱智吧这种看似弱智,其实蕴含哲理的想考,格外难能珍重。
莫得连篇客套话,不需要付出强大强壮本钱,终末也不出现卖课告白,有的即是残篇断简告诉你世间一些淘气真相。
可能嘴臭,简略悲不雅,但比矫柔造作好好多。
更何况,东谈主家骂东谈主骂得如斯搞笑,很有工夫难度;更何况,东谈主家也脚踏实地写着中翰墨。
但愿以后对于寰宇的深度想考,不要只可装成是神经病东谈主的呓语才好。
为此,我们终末附向前年下半年的弱智吧精选本色。
篇幅有限,选了45条,群众也不错练一练我方的想维。
(图源:弱智吧日常)色哥
(图源:弱智吧日常)
(图源:弱智吧日常)