外媒 | 避免放射学机器学习模型中的偏见框架-普瑞纯证
本文介绍了放射学中人工智能和机器学习模型中偏见的原因,并提供了避免这些问题的策略。本文是三部曲系列的第一部分,重点介绍数据处理。作者指出,在数据处理过程中,存在12种次优实践可能导致偏见。数据处理被定义为“在ML研究的初始规划之后,到模型开发和训练的所有与数据相关的过程”。基于这个定义,研究人员提出了一个框架,将数据处理分为四个步骤:数据收集、数据调查、数据分割和特征工程。在每个步骤中,都存在三个潜在导致偏见的实践。作者建议进行相关临床和技术文献的深入审查,并寻求专家意见。此外,建议从可信机构收集数据并利用多个数据集。数据调查涉及评估收集的数据以检测潜在问题。当这个过程涉及不充分的探索性数据分析(EDA)、没有领域专业知识的EDA和未观察实际数据时,就会出现偏见的可能性。EDA用于组织和总结原始数据,以识别其中的重要模式,包括标记任何偏差。任何发现都会被解释和处理。不充分的EDA或没有领域专业知识的EDA可能会导致重要的数据偏差被忽视,从而对数据完整性和质量产生负面影响。未观察实际数据,指的是研究人员亲自检查数据而不是其统计属性,也可能导致遗漏的洞见。
版权声明 本网站所有注明“来源:普瑞纯证”或“来源:pureFDA”的文字、图片和音视频资料,版权均属于普瑞纯证网站所有。非经授权,任何媒体、网站或个人不得转载,否则将追究法律责任。取得书面授权转载时,须注明“来源:普瑞纯证”。其它来源的文章系转载文章,本网所有转载文章系出于传递更多信息之目的,转载内容不代表本站立场。