把一个超长内容喂给 ChatGPT
怎么把一个超长内容喂给 ChatGPT
以 PDF 为例,以下都是纯 JS 开源工具推荐:
1. github.com/mozilla/pdf.js 能够比较好地解析 pdf 文件,但是解析出来可能是图片?看2
2. github.com/naptha/tessera 能够识别包括汉语等 100 种语言,拿到所有的文本,但内容分批可能出现错误截断?看3
3. github.com/yanyiwu/nodeji 结巴分词,避免将长内容分段的时候,错误截断短语或单词,完成了内容的分批之后?看4
4. github.com/openai/openai- OpenAI 的 API 工具包,利用它将内容分批喂投给 ChatGPT,过程中可以考虑
在将问题提交给 ChatGPT 之前,可以使用 embeddings 将问题与文档中的各个片段进行比较。基于余弦相似度或其他相似度度量,选择与问题最相关的片段进行处理。这样可以减少无关文本的干扰,提高 ChatGPT 回答问题的准确性。