據介紹,“荀子”大模型包含《四庫全書》在內的絕大多數傳世古籍文獻,擁有超過20億字大型語料庫,是該校團隊在國家社科基金重大項目“中國古代典籍跨語言知識庫構建及應用研究”的支持下,聯合中華書局古聯公司推出的專門進行古籍處理與研究的智能工具。
南京農業大學表示,該模型擁有如下亮點:
智能標引:能夠對古籍中的內容進行高質量主題標引,幫助研究人員快速瞭解文章主題;
信息抽取:能夠自動從古籍中抽取關鍵信息,如人物、事件、地點等,大大節省了信息整理時間;
詩歌生成:能夠根據給定的主題或關鍵詞,自動生成符合語法規則和韻律要求的古詩,為詩詞愛好者提供創作靈感;
高質量翻譯:對於難以理解的古籍文獻,能夠進行精准的現代文翻譯,幫助研究人員更好地理解原文含義;
閱讀理解:能夠對給出的古文文本進行分析解釋,實現對古籍文本的自動閱讀;
詞法分析:可以完成古籍文本的自動分詞和詞性標注,有效提升研究效率;
自動標點:可以快速完成古籍文本的斷句和標點,提升使用者對古籍文本的閱讀體驗。
該模型包含基座模型XunziALLM 和對話模型 XunziChat 兩部分,用戶還可根據自己的需求使用本地訓練語料微調基座模型,從而使其在古籍下游處理任務上取得更優越的處理性能。