斯坦福团队开发了一个AI数据提取框架,为能源领
作者:bet356官网首页日期:2025/05/25 浏览:
资料来源:尽管DeepTech的精确评估和减少温室气体排放是能源行业的关键挑战,但石油和天然气行业的关键数据通常分散在昂贵的商业数据库中,这些数据库分散,凌乱且难以获得。此外,该领域的官方数据更新相对较慢,传统的手动提取方法效率低下且容易出错。为了应对上述问题,斯坦福大学,陈·Zenling(Chen Zenling)和他的研究团队的博士生开发了一个基于大规模语言模型的创新框架。技术使用大型模型(GPT-4和GPT-4O)(围绕传统的文本识别技术)的较高文本理解能力,从而有效地从石油和天然气领域(Inucuid Multivariate数据格式,例如学术杂志文档和新闻报道)中提取公共文献。该框架说明了两个核的好处。一个是经济不良的改善,唯一的数据点提取成本将减少10倍(0.04美元),以优化GPT-4O应用程序。另一件事是它是有效的,在测试数据集中获得了83.74%的精度和78.16%的F1得分。报道说,这是斯坦福大学在石油和天然气领域的第一次申请。该工具不仅解决了传统的数据收集问题,而且还为对温室气体排放的精确评估以及对生命周期的完整分析提供了可靠的支持,最终优化了科学政策和环境管理决策的制定。照片| Chen Zhenlin(资料来源:Chen Zhenlin)最近在Energy和AI [1]上发表的一个相关的文章,标题是“通过提取大型语言模型对石油和天然气排放的评估”。斯坦福大学博士学生陈·泽林(Chen Zenling)是第一位通讯作者。图|相关文件(来源:能源和IA)创新框架在于使用大规模模型,例如GPT-4和GPT-4O,它可以通过快速的迭代优化(Rapid Engineering)通过快速的词来有效提取石油和天然气行业中的关键数据。为了验证该方法的有效性,研究设备开始了ASES建立了一个专门的数据集,其中包含邪教,涵盖了51个中心参数,例如气体油比和水油比,并使用对现场专家的手动注释,建立参考数据以提高模型的准确性。 Modelo Grande的重要过程分为三个阶段:数据制备(绿色),大型模型管(橙色)和结果的完善(蓝色)(来源:能量和AI)。 Chenzhenlin对DeepTech的解释更多。 。 “研究人员进一步进行了调整,以分析为什么在数据库中提取每个文章以及为什么它与手动标签的结果冲突。详细的错误分析分析结果表明,数据数据偏差可能会出现来自两个方面。更正,将行动培训从前63.6%显着提高到83.74%(下表)。未来的研究,研究人员计划继续优化精度和建筑。TADO对液化天然气碳排放的全球计算进行了详细研究,系统地跟踪了向下游应用程序的上游挖掘完整采矿的完整供应链的碳足迹,并且相关文档已进入提交阶段。大型错误样本分析,现在我们可以看到模型中盲点和错误的简单点。精确确定它。这些结果直接指导模型的后续优化。 “陈·泽林(Chen Zenrin)说。在应用级别上,研究团队完成了对本研究上游链接的定性分析,重点是对中级电流和下游的全面评估。”这项研究将成为深层整合的重要任务Chenllin说。
相关文章