
近日,中国农业科学院农业信息研究所科学数据研究室构建了水稻种质信息自动化提取工作流程,该方法可实现自动提取非结构化文本内的关键种质信息。相关研究成果发表在《大数据杂志(Journal of Big Data)》上。
水稻是保障国家粮食安全和推动农业可持续发展的战略性资源,但大量种质信息分散于文献、报告等非结构化文本中,仍未被充分发掘利用。
科研团队通过将大语言模型与精细化提示词工程相结合,构建水稻种质信息提取框架Chat-RGIE,通过分模块多层级提示词设计提高整体识别的准确性与大模型的指令遵循能力,并有效约束的“幻觉”现象的产生,在实验环境下提取准确率高达95.54%,“幻觉”的发生率约束至1.5%。该研究为水稻种质资源的数字化管理提供了强有力的技术工具,有助于加速种质资源的鉴定评价与共享利用,推动“经验育种”向“智慧育种”的转型升级。
该研究得到中国农业科学院科技创新工程和国家农业科学数据中心项目的支持。(通讯员 刘杉)
原文链接: https://doi.org/10.1186/s40537-025-01236-0





