Redis和GCP AI服务搭建RAG参考架构解决方案

2024-03-14

技术 doraemon

本文主要是讲解一个快速搭建比如RAG pipeline相关应用参考方案，结合云厂商GCP AI服务，以及redis stack | vector index，借助 Google Cloud Platform 上易用的开发SDK, 以及使用redislabs 提供的免费30M内存空间服务；GCP新用户前三个月好像是免费使用一些服务，而且提供 $300 的赠金使用，对于前期学习和使用体验服务还是不错的选择，而且个人感觉学习文档很齐全，不会很零散。但是解决方案相对AWS要少些，毕竟AWS做的很深入，搭建解决方案很方便，集成开发工具比较齐全，特别是serverless lambda服务，可以看下以前写的文章『用户行为分析方案设计』通过CDK构建解决方案stack(用于前期架构推演，不要YY，要动手，节约成本是干出来的)。

以前注册的，忘记用了。。。

笔记地址：https://github.com/weedge/doraemon-nb/blob/main/Google_BigQuery_Palm_Redis.ipynb

注：这里使用redis作为向量索引数据库，也可以结合其他向量索引库来搭建相应方案。主要目的是熟悉GCP服务和redis cloud服务。

阅读全文

论文：Retrieval-Augmented Generation for Large Language Models: A Survey [v4]

2024-03-08

RAG LLM 技术 paper

大型语言模型（LLMs）展示了显著的能力，但面临着幻觉、过时知识和不透明、不可追踪的推理过程等挑战。检索增强生成（RAG）已经成为一个有前途的解决方案，通过整合外部数据库的知识。这增强了模型的准确性和可信度，特别适用于知识密集型任务，并允许持续的知识更新和领域特定信息的整合。RAG通过将LLMs的内在知识与庞大、动态的外部数据库资源相结合，产生了协同效应。这篇综述论文详细考察了RAG范式的发展，包括朴素RAG、高级RAG和模块化RAG。它对RAG框架的三方基础进行了细致的了解，其中包括检索、生成和增强技术。该论文强调嵌入(embedding)在每个关键组成部分的最先进技术，并提对RAG系统进展的深入研究了解。此外，该论文介绍了评估RAG模型的指标和基准，以及最新的评估框架。最后，该论文讲了一些研究前景，包括未来挑战、多模态的扩展以及RAG基础设施及其生态系统的进展¹。

论文地址: Retrieval-Augmented Generation for Large Language Models: A Survey | PPT

注：主要是了解RAG的发展过程(召回率)，以及对相关子模块领域的现阶段了解，如果感兴趣，通过索引到论文引用处进一步了解。(提高看相应论文的准确率)

阅读全文

译：内存分析

2024-03-03

performance analysis 技术

内存分析简介

在这个系列的原文博客文章中，你将学习如何收集有关程序与内存交互的高层次信息。这个过程通常被称为内存分析。内存分析帮助你理解应用程序随时间变化的内存使用情况，并帮助你构建程序行为的正确心理模型。以下是它可以回答的一些问题：

程序的总内存消耗是多少，以及它随时间如何变化？
程序何时何地进行堆分配？
哪些代码位置分配了最大量的内存？
程序每秒访问多少内存？

当开发者谈论内存消耗时，他们通常指的是堆使用情况。实际上，堆是大多数应用程序中最大的内存消费者，因为它容纳了所有动态分配的对象。但堆并不是唯一的内存消费者。为了完整性，让我们提及其他内存消费者：

栈：应用程序中帧栈使用的内存。应用程序中的每个线程都有自己的栈内存空间。通常，栈的大小只有几MB，如果超出限制，应用程序将崩溃。总的栈内存消耗与系统中运行的线程数量成正比。
代码：用于存储应用程序及其库的代码（指令）的内存。在大多数情况下，它对内存消耗的贡献不大，但也有例外。例如，Clang C++编译器和Chrome浏览器拥有庞大的代码库，它们的二进制文件中有数十MB的代码段。

接下来，我们将介绍内存使用(memory usage)和内存足迹(memory footprint)或者翻译成内存占用这两个术语，并看看如何对它们进行分析。

注：主要是通过工具分析内存使用情况，尽量利用局部性原理：时间局部性和空间局部性，提高性能。

阅读全文

Performance Analysis and Tuning on Modern CPU 中文翻译

2024-03-01

ebook 技术

📚

这是一本名为Performance Analysis and Tuning on Modern CPU书籍的源文件存储库的中文翻译，原版由 Denis Bakhvalov 等人编写。

原版电子书：https://book.easyperf.net/perf_book
中文翻译(第一版)：https://book.douban.com/subject/36243215/

原作者第二版正在进行中！ 计划的更改在谷歌文档中进行了概述。计划中的新目录在 new_toc.md 中。

目的：

虽然已经有翻译的书籍;但是想follow更新,借助『chatGPT』/『gemini/moonshot(kimi)』翻译成中文，(加速学习节奏，掌握，并举一反三)
英文源书是开源的，翻译成中文工作也持续更新，也是开源的，可以作为学习资料, 在线阅读可编辑，希望一起参与改进。
对每章节的内容通过『chatGPT』/『gemini/moonshot(kimi)』进行归纳总结，结巩固知识点，并对课后练习进行回答,并验证答案。
最后整体勘误，定搞。

[!TIP]

授之以鱼不如授之以渔, 使用AI赋能。

性能优化分析数据可以借助『chatGPT』分析。

『chatGPT』和『moonshot(kimi)』翻译效果差不多(相同的prompt)，但是当问文中的规划练习和代码练习时，『moonshot(kimi)』不能理解问题，不过长文本上传根据章节翻译和归纳总结不错，毕竟不用翻墙就可以使用。

在线阅读地址: https://weedge.github.io/perf-book-cn/zh/

阅读全文

逝去的奶奶

2024-02-02

生活

天上的每一颗星都是爱过我们的人

听说，地上少个人，天上多颗星，每一颗闪烁的星星都在跟地上的亲人说话。

但愿，今夜有星。

但愿，星星会闪。

– 人生大事

简单踏实就好，奶奶经常给说的话，一直记着。【step by step, 懂得珍惜】

阅读全文

构建一个简单的数据库[golang版]

2024-01-10

技术

上篇文章使用chatGPT翻译了db_tutorial 文章，文中使用的是c语言开发；这篇文章使用chatGPT根据db_tutorial中的c源码，使用golang进行重写, 测试的ruby代码使用python进行重写；同理其他语言也适用。

注：利用已有知识结构，通过chatGPT来生成另一种表达(现实中这种转换经常出现，比如一个基础知识点，嚼碎了，揉烂了，底层相通，表达方式不同，变了个花样玩，而且还能通过认知差来盈利，也许精细利己主义会利益最大化吧)，使用AGI工具进行效率编码的一种小小实践。在实践过程中，chatGPT生成的代码不可能都能正常运行，需要调试下(特别是指针操作)。

整体实现代码：https://github.com/weedge/baby-db/tree/main/golang

主要的btree数据结构为leafNode 和 internalNode，叶子节点表数据存放在value中，id存放在key中，序列化和遍历操作需要额外偏移操作；这里仅实现简单的insert和select操作。

leafNode