如何通过 PDF 训练 chatGPT

起因是这样的，因为训练 chatGPT 训练数据的截止时间是2021年9月，任何在此日期之后发生的事件和信息都不在他的训练数据中。假如我想基于最新版的 react 文档查阅一些问题，常规做法则是将语料一点点投喂给它，但是不能超过8,192 tokens（`GPT-4`）。

相对进阶的做法则是将需要投喂的语料转换成文本向量，存储在服务器中，作为chatGPT 的一个语料库。这样的做法，目标是为了解决文本资料过大的问题。核心解决方案采用的是 openAI 提供的embeddings 模型。