材料合成路徑預(yù)測是物質(zhì)科學(xué)領(lǐng)域的重要課題。1990年諾貝爾化學(xué)獎授予了美國有機(jī)化學(xué)家Elias James Corey教授。近年來大語言模型的崛起以及預(yù)訓(xùn)練-微調(diào)方法的應(yīng)用,使得通用大語言模型的理解能力在各垂直領(lǐng)域顯示出了較好的表現(xiàn),但在材料領(lǐng)域仍缺乏相關(guān)的應(yīng)用和研究。
近期,我中心人工智能部和中國科學(xué)院物理研究所SF10組合作,通過使用來自400多萬篇論文中提取的35675個無機(jī)材料固相反應(yīng)合成過程,將數(shù)據(jù)處理為13878條高可信度的合成路徑描述數(shù)據(jù),并對開源大語言模型LLaMA2-7B進(jìn)行微調(diào)訓(xùn)練,成功研發(fā)了專注于無機(jī)材料合成路徑預(yù)測任務(wù)的大語言模型——MatChat(http://chat.aicnic.cn/onchat),目前已經(jīng)上線運行并開放使用。
該模型基本具備材料合成領(lǐng)域知識的生成和推理能力,經(jīng)實驗驗證,在預(yù)測合成復(fù)雜的無機(jī)材料時,具備了超過ChatGPT的性能表現(xiàn)。受限于數(shù)據(jù)集的數(shù)量和質(zhì)量,該研究成果仍然需要更多的語料使其滿足不同材料設(shè)計的需求,但也展示出了大模型在材料領(lǐng)域具有強(qiáng)大的創(chuàng)新潛力和應(yīng)用空間,為材料研究和創(chuàng)新帶來了新啟發(fā)和思路。
該項成果由中國科學(xué)院計算機(jī)網(wǎng)絡(luò)信息中心王彥棡研究員、中國科學(xué)院物理研究所孟勝研究員牽頭,已發(fā)表在Chinese Physics B期刊。論文共同第一作者為我中心人工智能部碩士研究生陳子逸、工程師萬萌,通信作者為物理所劉淼研究員、中心王宗國副研究員。該工作得到中國科學(xué)院網(wǎng)信專項(CAS-WX2023SF-0101)應(yīng)用示范項目的支持。

MatChat模型部署平臺對話實例
相關(guān)成果:
Chen, Z.-Y., et al. (2023). "MatChat: A Large Language Model and Application Service Platform for Materials Science." Chinese Physics B.
論文鏈接:https://iopscience.iop.org/article/10.1088/1674-1056/ad04cb
平臺:http://chat.aicnic.cn/onchat
代碼:https://github.com/materialsCnicCas/CASMatChat
責(zé)任編輯:郎楊琴