Nature:上百个医疗 AI 数据涉嫌造假,且在医院里使用!

2026-04-29 08:182阅读0评论SEO问题
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

image1918×7137 1.1 MB

看起来有点恐怖!

网友解答:
--【壹】--:

先别说手动造假的数据集

space.bilibili.com

医数洞见的个人空间-医数洞见个人主页-哔哩哔哩视频

哔哩哔哩医数洞见的个人空间,提供医数洞见分享的视频、音频、文章、动态、收藏等内容,关注医数洞见账号,第一时间了解UP主动态。AI医疗信息化实战派·行业深度观察者,长期关注医院数字化转型、AI落地、数据治理与制度风险。 视频播客精选自[医数光年]

这个人的视频说了一部分事实就是医院里有些数据不够真实


--【贰】--:

很多东西主观性很强 单标一遍没用 得多专家标注

比如肿瘤勾画

一个临床科室三个医生绘画差别都有20-30%

模型学不明白的


--【叁】--:

离谱了,前两天还看到ai医院啥啥啥的,这就出来数据造假了


--【肆】--:

重大决策上要求都是0失误的,当前AI还前途漫漫


--【伍】--:

都说影像学,是最能被AI替换的, 现在也没看到落地的厂家或系统, 更不要说实际的医院了


--【陆】--:

我觉得还是钱砸得不够多。你看现在所有的模型,哪怕稍微还可以一点的,现在唯一的出路都是在做定制。因为在编程这边,至少程序员这条线还可以走付费包月;你在其他渠道现在也可能就视觉模型能稍微卖点钱。其他方向要想对普通用户赚钱,太难了。

即便这样,你看看定制模型,现在也不是说能怎么发财。就这两天刚发布的 Deepseek, 还被说智力不足呢。写个代码都这么费劲,而且还投入了这么大的人力物力去研究。那你说医疗方面有投这么多钱吗?你没花这么多钱,力气也没花这么多,你想让它效果达到那个程度,我感觉太难了。

想想 2 年前,国产 AI 写代码是什么德行,你看看现在。怎么说呢,现在要比之前要好,但是对比国外,这三家的模型还是差得明显。咱们看定制模型就知道了。不论是医疗模型还是其他,你没有投入那么多的人力物力去搞它,费劲也是很正常的啦。现在就连定制模型都不敢说能达到一定程度。这些模型,他们要是说达到了一定程度,我觉得纯粹是在吹牛逼。

我觉得现在 AI 大模型或者是专门的医疗模型,对于普通人最大的用处就是去纠正一堆完全不懂医疗的人,在日常生活当中一些小问题上去辨别。比如最简单的。真的有很多人他不知道。磕伤了之后。应该擦碘伏还是用酒精消毒?皮破了和皮没破该用哪个?他完全不知道。就包括你肩上如果是起了湿疹,和你屁股上起了湿疹,那用药能是一个吗?我跟你讲,真的有人会用一个药的。那不同部位,那病名都不一样,你用药也不可能一样啊。或者说,有很多人他描述不了自己的病情。他也不知道挂什么科,至少跟 AI 多聊一聊,他去医院能快速的挂对一门科室。那会好很多。你说他直接去医院问行不行?那也可以。但是就普通人那个表达能力。你直接让他去医院。我看他在前台能墨迹半个点才能把挂哪个科室的号给挂明白,不如提前问好,快速去找到医医生。现在这种小问题,我觉得 AI 辅助一下还可以。大问题的话,我看还是算球算球。就跟刚出的 Deepseek V4 Flash 一样。你写一些小需求啊,或者是做一些小辅助的啊啥的可以。但是如果你直接把主力编程模型从 GPT 5.5 换成v4 Flash,那肯定不行。

看coding模型发展过程,医疗模型,远着呢


--【柒】--:

上冗余系统,把错误率降低到十万分之一以下就行。


--【捌】--:

效果差的离谱,泛化性几乎没有。benchmark看似很高实际上数据泄漏严重。
举个例子,很多benchmark是带影像数据测试,但模型其实把prompt拟合好了,只要prompt泄漏到大小、浸润这些相关的词,LLM不看图基本上都能说个八九不离十(就那么多术语)

然后打榜就打的高高的,落地效果是没有的
肿瘤的影像拿给LLM直接描述是看不出来的

一张图描述几次是完全不一样的

只能说路遥远


--【玖】--:

这样就有可能检出率会受到影响了,一般客户都是要求宁可错杀


--【拾】--:

数据和处理能力都是问题 , 出问题的代价太大没人敢负责


--【拾壹】--:

他们会说,病人只是需要能治病的幻觉,至于真的能不能治,不重要。


--【拾贰】--:

会不会在看病这一块人类和AI都将一败涂地 - 搞七捻三 - LINUX DO

是这样的,我在这个帖子里还没提到的一点就是这个,LLM用来NER我做了半年多,这么简单的task,准确率都一直上不去,更遑论其他


--【拾叁】--:

落地要的是资质和政策批准,不是技术。技术再成熟,没资质就没资格搞,圈子你都进不了。


--【拾肆】--:

这让我想起来一家公司了, 要用AI做气象预测, 看历史图来预测, 笑掉大牙


--【拾伍】--:

图片大是问题, 可能不是最大的问题, 优秀的标注数据可能是最缺的,要医生(专家)标注, 成本太高了吧


--【拾陆】--:

肯定有准的,但是不能保证次次准。
很多时候需要这样的神话给投资圈信心。
造神的事情我们最在行了,忽悠大家进来一波割。

前两天我还看见一个妈妈相信AI说的小男孩肚子疼是肠胃炎,没去儿科看病,结果是睾丸扭转,切了个蛋。所以正经事不要迷信AI。
写代码vibe coding尚且不能次次一把过呢


--【拾柒】--:

影像学现在最大问题就是图片太大 ,医学图像的大小常常是十几倍几十倍常规图像大小 , 无论是cnn类还是tf类都不太好做detect和segment