怎么把一个超长内容喂给 ChatGPT

以 PDF 为例,以下都是纯 JS 开源工具推荐:

1. github.com/mozilla/pdf.js 能够比较好地解析 pdf 文件,但是解析出来可能是图片?看2

2. github.com/naptha/tessera 能够识别包括汉语等 100 种语言,拿到所有的文本,但内容分批可能出现错误截断?看3

3. github.com/yanyiwu/nodeji 结巴分词,避免将长内容分段的时候,错误截断短语或单词,完成了内容的分批之后?看4

4. github.com/openai/openai- OpenAI 的 API 工具包,利用它将内容分批喂投给 ChatGPT,过程中可以考虑

Embeddings:https://github.com/openai/openai-cookbook/blob/main/examples/Question_answering_using_embeddings.ipynb

在将问题提交给 ChatGPT 之前,可以使用 embeddings 将问题与文档中的各个片段进行比较。基于余弦相似度或其他相似度度量,选择与问题最相关的片段进行处理。这样可以减少无关文本的干扰,提高 ChatGPT 回答问题的准确性。

版权声明:本文为大坤分享原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://www.1552.cn/914.html