Awesome-AGI

技术交流

欢迎加入AIGC技术交流群，与AI领域专家和各行各业的AIGC爱好者一起交流技术理论与行业信息！不管你是学术界还是工业界实践者或爱好者，都欢迎加入群体！

交流群二维码	拉你入群(备注AIGC-github)

Table of Context

LLM 体验效果
Model List
DataSet
LLM Pipeline
LLM Concepts
Agent
- LangChain
VectorDB

LLM 体验效果

Model_A	Model_B	Blog
360智脑	讯飞星火	对比效果
阿里通义千问	讯飞星火	对比效果
Bard	Bing_VS_ChatGPT	对比效果
baichuan-53B	ChatGLM-6B	对比效果
文心一言	Bard	对比效果
文心一言	Baize-7B	对比效果
文心一言	OpenAssistant	对比效果
文心一言	ChatGLM-6B	对比效果
文心一言	GPT-4	对比效果
文心一言	GPT-4实测	对比效果
文心一言	讯飞星火	对比效果
GPT4	ChatGPT	对比效果
GPT4	Claude2	对比效果1，对比效果2

Model List

整理主流大模型baichuan、ChatGLM和LLaMA及其扩展模型的一些细节，并且会对目前主流的LLM按照功能和应用领域进行分类整理，更多请参考【Model List】。

dair-ai同样也整理了很多关于LLM和经典论文，感兴趣的读者可以参考：【ML Papers Explained】

DataSet

datasets for pre-training

Name	Release Date	Paper/Blog	Dataset	Tokens (T)	License
Anthropic HH			Anthropic HH
HC3			HC3
koala-test-set			koala-test-set
MTP（massive text pairs）	2023/09	智源发布超3亿对面向中英文语义向量模型训练数据集	BAAI-MTP	1.3
OpenAI WebGPT			OpenAI WebGPT
OpenAI Summarization			OpenAI Summarization
RedPajama	2023/04	RedPajama, a project to create leading open-source models, starts by reproducing LLaMA training dataset of over 1.2 trillion tokens	RedPajama-Data
ShareGPT			ShareGPT
starcoderdata	2023/05	StarCoder: A State-of-the-Art LLM for Code	starcoderdata	0.25	Apache 2.0
Stanford Alpaca			Stanford Alpaca

datasets for instruction-tuning

Name	Release Date	Paper/Blog	Dataset	Tokens (T)	License
Baize
Dolly
databricks-dolly-15k	2023/04	Free Dolly: Introducing the World's First Truly Open Instruction-Tuned LLM	databricks-dolly-15k	15	CC BY-SA-3.0
Evol-Instruct
Flan 2021
LIMA
MPT-7B-Instruct	2023/05	Introducing MPT-7B: A New Standard for Open-Source, Commercially Usable LLMs	dolly_hhrlhf	59	CC BY-SA-3.0
MetaMathQA	2023/09	MetaMath: Bootstrap Your Own Mathematical Questions for Large Language Models，MetaMathQA blog	MetaMathQA	---	---
Natural Instructions
OIG (Open Instruction Generalist)	2023/03	THE OIG DATASET	OIG	44,000	Apache 2.0
OpenAssistant Conversations
P3 (Public Pool of Prompts)
Self-Instruct
Super-Natural Instructions
Unnatural Instructions
xP3

datasets for alignment-tuning

Name	Release Date	Paper/Blog	Dataset	Tokens (T)	License
OpenAssistant Conversations Dataset	2023/04	OpenAssistant Conversations - Democratizing Large Language Model Alignment	oasst1	161	Apache 2.0

更多请参考【DataSet】

LLM Pipeline

Pre-train

Fine Tune

整理关于LLM微调的脚本以及开源工具或者平台的使用案例，更多请参考【Fine Tune】

Deployment

Description	Paper	Code	Blog
BentoML		BentoML Code
CLIP-API-service
CTranslate2
DeepSpeed-MII
FastLLM
Huggingface
JittorLLM
LightLLM
LMDeploy
MLC LLM
OneDiffusion
OpenLLM
Ray Serve

【LLM大语言模型之Generate/Inference（生成/推理）中参数与解码策略原理及其代码实现】【blog】

LLM Concepts

Prompt Engineering

FrameWork	Paper	Code	Blog
AoT	Algorithm of Thoughts: Enhancing Exploration of Ideas in Large Language Models
CoT	Chain-of-Thought Prompting Elicits Reasoning in Large Language Models
CoTSC	Self-Consistency Improves Chain of Thought Reasoning in Language Models
Cue-CoT	Cue-CoT: Chain-of-thought Prompting for Responding to In-depth Dialogue Questions with LLMs	Cue-CoT Code	Cue-CoT blog
GoT	Graph of Thoughts: Solving Elaborate Problems with Large Language Models
PoT	Program of Thoughts Prompting: Disentangling Computation from Reasoning for Numerical Reasoning Tasks
SoT	Skeleton-of-Thought: Large Language Models Can Do Parallel Decoding
ToT	Tree of Thoughts: Deliberate Problem Solving with Large Language Models

Some examples of Prompt Engineering as follows：

Description	Paper	Code	Blog
提示词管理工具agenta			agenta主页
OpenAI 应用人工智能研究负责人Lilian Weng新博文：关于提示工程的介绍			blog
Prompt Engineering全面自动化			blog
ChatGPT提示示例集合	huggingface	ChatGPT提示示例集合	主页
ChatGPT Prompt工程：设计、实践与思考			blog
指令学习综述｜ChatGPT背后的指令学习是什么	Is Prompt All You Need? No. A Comprehensive and Broader View of Instruction Learning		blog

更多请参考【Prompt Engineering】

RLHF

Description	Code	Blog
复现RLHF：通过开源项目 trl 搭建一个通过强化学习算法（PPO）来更新语言模型（GPT-2）	code	blog
详解大模型RLHF过程（配代码解读）		blog
想训练ChatGPT？得先弄明白Reward Model怎么训（附源码）		blog

LLM 扩词表

【LLM大模型之基于SentencePiece扩充LLaMa中文词表实践】【blog】

LLM 长文本

Description	Paper	Code	Blog
Transformer升级之路：一种全局长度外推的新思路			blog
ChatGPT能写长篇小说了，ETH提出RecurrentGPT实现交互式超长文本生成	paper	code	blog，demo1，demo2
语言大模型100K上下文窗口的秘诀			blog
RoPE可能是LLM时代的Resnet			blog
图解RoPE旋转位置编码及其特性			blog
详解基于调整RoPE旋转角度的大模型长度外推方法			blog
无需微调的自扩展大模型上下文窗口	LLM Maybe LongLM: Self-Extend LLM Context Window Without Tuning	---	---

LLM 幻觉

解决幻觉常用的两种方法：1）不断增加模型的数据规模、提升数据质量；2）通过调用搜索等外部工具让模型能够获取实时信息。

Description	Paper	Code	Blog
腾讯AILab等《大型语言模型中的幻觉》，全面阐述检测、解释和减轻幻觉	Siren's Song in the AI Ocean: A Survey on Hallucination in Large Language Models	code	blog
LLM幻觉的解决方案及其应用	Cognitive Mirage: A Review of Hallucinations in Large Language Models	[code](Cognitive Mirage: A Review of Hallucinations in Large Language Models)	blog

LLM 可控性与安全

Description	Paper	Code	Blog
微软提出Control-GPT：用GPT-4实现可控文本到图像生成！	paper		blog
AIGC如何安全可控?中山大学等最新《AIGC中对隐私和安全的挑战及其补救措施：探索隐私计算、区块链潜在应用》全面阐述	paper		blog
ControlVideo: 可控的Training-free的文本生成视频	paper	code	blog
大模型切脑后变身PoisonGPT，虚假信息案例		code	blog
ChatGPT羊驼家族全沦陷！CMU博士击破LLM护栏，人类毁灭计划脱口而出	paper	code	blog

LLM 问答

Description	Code	Blog
基于大语言模型的智能问答系统应该包含哪些环节？	OpenAI 的审核函数接口 Moderation API	blog
搭建本地的chatpdf（原理，文档处理，语义搜索等）		blog
如何避免大语言模型绕过知识库乱答的情况？LlamaIndex 原理与应用简介		官方blog，中文blog
使用 Langchain 和 Azure OpenAI 构建一个聊天机器人来查询您的文档		blog
一文搞懂LangChain是什么		blog

LLM 文本检测

Description	Paper	Code	Blog
美国麻省大学&谷歌研究院：改写文本可以避开AI生成文本的检测器，但检索则是一种有效的防御	paper	code
人工智能生成的文本能被可靠地检测出来吗？	paper		blog
DetectGPT（斯坦福大学）：利用概率曲率检测文本是否大模型生成	paper	code&data	blog
Detecting LLM-Generated-Text综述	paper		blog
一个专为教育者打造的全新 AI 检测模型			blog
OpenAI重磅发布官方「ChatGPT检测器」			blog
斯坦福最新研究：不要过度依赖GPT生成内容，其检测器可能存在不利于非母语英语写作者的偏见	paper
TUM发布最新《检测ChatGPT生成文本现状》综述	paper

LLM RAG

Description	Paper	Code	Blog
RAG从入门到精通-RAG简介			blog
使用Llama index构建多代理 RAG			blog
---	---	---	---
---	---	---	---
---	---	---	---

Agent

Model	Paper	Code	Blog
Agents	Agents: An Open-source Framework for Autonomous Language Agents	Agent Code	Agent 官网，blog
AgentGPT		AgentGPT Code	AgentGPT Chat，AgentGPT docs
AgentVerse
AI Legion		AI Legion Chat
AutoGen			AutoGen blog
AutoGPT		AutoGPT Code	AutoGPT docs ，AutoGPT blog
BabyAGI		BabyAGI Code	BabyAGI docs
Camel		CAMEL Code	CAMEL Chat，CAMEL docs
crewAI		crewAI Code	crewAI Blog
CogAgent	---	---	---
Do Anything Machine			Do Anything Machine Chat
Generative Agents	Generative Agents: Interactive Simulacra of Human Behavior	GPTRPG Code
Gentopia
Godmode			Godmode Chat
GPT-Engineer		GPT-Engineer Code
HuggingGPT		HuggingGPT Code	HuggingGPT Chat
MetaGPT		MetaGPT Code
NexusGPT			NexusGPT Chat
RecurrentGPT
RestGPT	RestGPT: Connecting Large Language Models with Real-World RESTful APIs	RestGPT Code	RestGPT blog
RoboGen	RoboGen: Towards Unleashing Infinite Data for Automated Robot Learning via Generative Simulation	RoboGen Code	项目主页，blog
Toolformer	Toolformer: Language Models Can Teach Themselves to Use Tools		Toolformer blog
XAgent		XAgent Code	XAgent官网，XAgent Blog
Xlang

LangChain

整理关于LangChain的相关笔记和课程，更多请参考【LangChain】

VectorDB

Model	Paper	Code	Blog
Milvus
Pinecone
Weaviate

欢迎共创

【👬🏻】欢迎Star ⭐️⭐️⭐️⭐️⭐️ && 提交 Pull requests 👏🏻👏🏻👏🏻

关于我

个人主页：wshzd.github.io

微信公众号：

声明

以上部分资料来自网络整理，供大家学习参考，如有侵权，麻烦联系我删除！

WeChat：h18821656387

wac81 / awesome-agi Goto Github PK

awesome-agi's Introduction