本章介绍了研究所选文献数据的获取来源和途径。通过 python 爬取的方式获取大部分文献数

据与元数据,对元数据进行基本处理,为后续分析提供帮助,丰富向量知识库的数据储备。随后为

了最大程度提高向量知识库的可信程度,对文献数据进行筛选,选出带有流程图,数据,输入输出

的英文文献,作为最后使用的数据。精细筛选后,使用 unstructured 库进行数据预处理使其转化

为结构化数据。

向量知识库

向量知识库是一个高效、结构化的数据存储系统,它将各类数据(如文本、图像、音频等)转

化为向量形式进行存储。这种表示方式使得数据之间的相似性和关联性得以量化,从而支持更为精

确和高效的信息检索与数据分析。向量知识库使用特殊的数据结构和索引方法来优化查询效率,可