Nature：上百个医疗 AI 数据涉嫌造假，且在医院里使用！

2026-04-29 08:182阅读0评论SEO问题

内容介绍
文章标签
相关推荐

问题描述：

image1918×7137 1.1 MB

看起来有点恐怖！

网友解答：

--【壹】--：

先别说手动造假的数据集

space.bilibili.com

医数洞见的个人空间-医数洞见个人主页-哔哩哔哩视频

哔哩哔哩医数洞见的个人空间，提供医数洞见分享的视频、音频、文章、动态、收藏等内容，关注医数洞见账号，第一时间了解UP主动态。AI医疗信息化实战派·行业深度观察者，长期关注医院数字化转型、AI落地、数据治理与制度风险。视频播客精选自[医数光年]

这个人的视频说了一部分事实就是医院里有些数据不够真实

--【贰】--：

很多东西主观性很强单标一遍没用得多专家标注

比如肿瘤勾画

一个临床科室三个医生绘画差别都有20-30%

模型学不明白的

--【叁】--：

离谱了，前两天还看到ai医院啥啥啥的，这就出来数据造假了

--【肆】--：

重大决策上要求都是0失误的，当前AI还前途漫漫

--【伍】--：

都说影像学，是最能被AI替换的，现在也没看到落地的厂家或系统，更不要说实际的医院了

--【陆】--：

我觉得还是钱砸得不够多。你看现在所有的模型，哪怕稍微还可以一点的，现在唯一的出路都是在做定制。因为在编程这边，至少程序员这条线还可以走付费包月；你在其他渠道现在也可能就视觉模型能稍微卖点钱。其他方向要想对普通用户赚钱，太难了。

即便这样，你看看定制模型，现在也不是说能怎么发财。就这两天刚发布的 Deepseek, 还被说智力不足呢。写个代码都这么费劲，而且还投入了这么大的人力物力去研究。那你说医疗方面有投这么多钱吗？你没花这么多钱，力气也没花这么多，你想让它效果达到那个程度，我感觉太难了。

想想 2 年前，国产 AI 写代码是什么德行，你看看现在。怎么说呢，现在要比之前要好，但是对比国外，这三家的模型还是差得明显。咱们看定制模型就知道了。不论是医疗模型还是其他，你没有投入那么多的人力物力去搞它，费劲也是很正常的啦。现在就连定制模型都不敢说能达到一定程度。这些模型，他们要是说达到了一定程度，我觉得纯粹是在吹牛逼。

我觉得现在 AI 大模型或者是专门的医疗模型，对于普通人最大的用处就是去纠正一堆完全不懂医疗的人，在日常生活当中一些小问题上去辨别。比如最简单的。真的有很多人他不知道。磕伤了之后。应该擦碘伏还是用酒精消毒？皮破了和皮没破该用哪个？他完全不知道。就包括你肩上如果是起了湿疹，和你屁股上起了湿疹，那用药能是一个吗？我跟你讲，真的有人会用一个药的。那不同部位，那病名都不一样，你用药也不可能一样啊。或者说，有很多人他描述不了自己的病情。他也不知道挂什么科，至少跟 AI 多聊一聊，他去医院能快速的挂对一门科室。那会好很多。你说他直接去医院问行不行？那也可以。但是就普通人那个表达能力。你直接让他去医院。我看他在前台能墨迹半个点才能把挂哪个科室的号给挂明白，不如提前问好，快速去找到医医生。现在这种小问题，我觉得 AI 辅助一下还可以。大问题的话，我看还是算球算球。就跟刚出的 Deepseek V4 Flash 一样。你写一些小需求啊，或者是做一些小辅助的啊啥的可以。但是如果你直接把主力编程模型从 GPT 5.5 换成v4 Flash，那肯定不行。

看coding模型发展过程，医疗模型，远着呢

--【柒】--：

上冗余系统，把错误率降低到十万分之一以下就行。

--【捌】--：

效果差的离谱，泛化性几乎没有。benchmark看似很高实际上数据泄漏严重。
举个例子，很多benchmark是带影像数据测试，但模型其实把prompt拟合好了，只要prompt泄漏到大小、浸润这些相关的词，LLM不看图基本上都能说个八九不离十（就那么多术语）

然后打榜就打的高高的，落地效果是没有的
肿瘤的影像拿给LLM直接描述是看不出来的

一张图描述几次是完全不一样的

只能说路遥远

--【玖】--：

这样就有可能检出率会受到影响了，一般客户都是要求宁可错杀

--【拾】--：

数据和处理能力都是问题 , 出问题的代价太大没人敢负责

--【拾壹】--：

他们会说，病人只是需要能治病的幻觉，至于真的能不能治，不重要。

--【拾贰】--：

会不会在看病这一块人类和AI都将一败涂地 - 搞七捻三 - LINUX DO

是这样的，我在这个帖子里还没提到的一点就是这个，LLM用来NER我做了半年多，这么简单的task，准确率都一直上不去，更遑论其他

--【拾叁】--：

落地要的是资质和政策批准，不是技术。技术再成熟，没资质就没资格搞，圈子你都进不了。

--【拾肆】--：

这让我想起来一家公司了，要用AI做气象预测，看历史图来预测，笑掉大牙

--【拾伍】--：

图片大是问题，可能不是最大的问题，优秀的标注数据可能是最缺的，要医生（专家）标注，成本太高了吧

--【拾陆】--：

肯定有准的，但是不能保证次次准。
很多时候需要这样的神话给投资圈信心。
造神的事情我们最在行了，忽悠大家进来一波割。

前两天我还看见一个妈妈相信AI说的小男孩肚子疼是肠胃炎，没去儿科看病，结果是睾丸扭转，切了个蛋。所以正经事不要迷信AI。
写代码vibe coding尚且不能次次一把过呢

--【拾柒】--：

影像学现在最大问题就是图片太大 ,医学图像的大小常常是十几倍几十倍常规图像大小 , 无论是cnn类还是tf类都不太好做detect和segment

标签：人工智能

问题描述：

image1918×7137 1.1 MB

看起来有点恐怖！

网友解答：

--【壹】--：

先别说手动造假的数据集

space.bilibili.com

医数洞见的个人空间-医数洞见个人主页-哔哩哔哩视频

这个人的视频说了一部分事实就是医院里有些数据不够真实

--【贰】--：

很多东西主观性很强单标一遍没用得多专家标注

比如肿瘤勾画

一个临床科室三个医生绘画差别都有20-30%

模型学不明白的

--【叁】--：

离谱了，前两天还看到ai医院啥啥啥的，这就出来数据造假了

--【肆】--：

重大决策上要求都是0失误的，当前AI还前途漫漫

--【伍】--：

都说影像学，是最能被AI替换的，现在也没看到落地的厂家或系统，更不要说实际的医院了

--【陆】--：

看coding模型发展过程，医疗模型，远着呢

--【柒】--：

上冗余系统，把错误率降低到十万分之一以下就行。

--【捌】--：

然后打榜就打的高高的，落地效果是没有的
肿瘤的影像拿给LLM直接描述是看不出来的

一张图描述几次是完全不一样的

只能说路遥远

--【玖】--：

这样就有可能检出率会受到影响了，一般客户都是要求宁可错杀

--【拾】--：

数据和处理能力都是问题 , 出问题的代价太大没人敢负责

--【拾壹】--：

他们会说，病人只是需要能治病的幻觉，至于真的能不能治，不重要。

--【拾贰】--：

会不会在看病这一块人类和AI都将一败涂地 - 搞七捻三 - LINUX DO

是这样的，我在这个帖子里还没提到的一点就是这个，LLM用来NER我做了半年多，这么简单的task，准确率都一直上不去，更遑论其他

--【拾叁】--：

落地要的是资质和政策批准，不是技术。技术再成熟，没资质就没资格搞，圈子你都进不了。

--【拾肆】--：

这让我想起来一家公司了，要用AI做气象预测，看历史图来预测，笑掉大牙

--【拾伍】--：

图片大是问题，可能不是最大的问题，优秀的标注数据可能是最缺的，要医生（专家）标注，成本太高了吧

--【拾陆】--：

肯定有准的，但是不能保证次次准。
很多时候需要这样的神话给投资圈信心。
造神的事情我们最在行了，忽悠大家进来一波割。

--【拾柒】--：

影像学现在最大问题就是图片太大 ,医学图像的大小常常是十几倍几十倍常规图像大小 , 无论是cnn类还是tf类都不太好做detect和segment

标签：人工智能

医数洞见的个人空间-医数洞见个人主页-哔哩哔哩视频

相关推荐

医数洞见的个人空间-医数洞见个人主页-哔哩哔哩视频

相关推荐