起因是这样的,因为训练 chatGPT 训练数据的截止时间是2021年9月,任何在此日期之后发生的事件和信息都不在他的训练数据中。假如我想基于最新版的 react 文档查阅一些问题,常规做法则是将语料一点点投喂给它,但是不能超过8,192 tokens(`GPT-4`)。
相对进阶的做法则是将需要投喂的语料转换成文本向量,存储在服务器中,作为chatGPT 的一个语料库。这样的做法,目标是为了解决文本资料过大的问题。核心解决方案采用的是 openAI 提供的embeddings 模型。
参考链接
gpt4-pdf-chatbot-langchain
mayooear • Updated Aug 31, 2023
chat-embeddings-server
kkaaddff • Updated Apr 15, 2023