开源项目_搭建对象存储服务MinIO
1 简介
MinIO 是一个开源的对象存储服务器,与 Amazon S3
兼容。它的设计目标是为大规模数据工作负载提供简单、安全和高性能的存储。
以下是 MinIO 的一些主要特性:高性能,S3
兼容,安全性,可扩展性,开源,简单性。
MinIO
可以在各种环境中运行,包括裸机、虚拟机、容器化环境、私有云和公有云等。这使得
MinIO
成为一个非常灵活的对象存储解决方案,可以适应各种不同的部署需求。
简单来说,这是又小又好用的服务,可以在 300M
以内进行部署,并包含友好的 Web 界面。它的内部存储格式也非常直观。
2 部署
2.1 下拉镜像
1$ docker pull bitnami/minio:latest
image 大小约 270M,是个轻量级的服务。
2.2 启动镜像
1$ docker run --rm --name minio -p 9000:9000 -p 9001:9001 -e MINIO_ROOT_USER=root -e MINIO_ROOT_PASSWORD=密码 -v /exports/tmp/minio/:/bitnami/minio/data -i ...
GPT_SoVITS_原理
1 简介
GPT_SoVITS
可以说是目前最好的中文语音合成模型。我没有找到它的论文和原理说明,然后通过扒代码,脑补了一下其原理。
GPT_SoVITS
不是一个端到端的工具,相反,它是一个由多个工作组合而成的工具链。其核心是
GPT 和 SoVIT 两个模型,这两个模型需要根据不同发音人进行
fine-tune。外围包含去背景音乐、语音识别、去噪、切分、提取音频特征、提取文本含义等多个现成工具,可直接使用。
可以将其分为训练和推理两个阶段来看。训练阶段的输入是目标发音人的音频,输出是经过精调后的模型;推理阶段的输入是文字和语音提示,输出是合成后的音频。
2 核心模型
|600
(推理部分图示)
为了避免混淆,在这里我们尽量不使用“语义”这个词。BERT
模型输出的是我们通常所说的“语义”,在这里我们将其称为“文本含义”。而
Semantic 也被翻译成中文的“语义”,而 cnHubert 模型输出的 Semantic
指的是一种混合了音素和文本含义的概念,我们将其称为“统计音素”。
下面通过分析推理过程来看看这些模型是如何协调工作的。从上图可以看到推理过程中模型
(黄色) 和 ...
开源项目_代码生成模型评测工具
1 引言
优化模型之后,评估是不可避免的。打榜可以证明模型的能力,同时还有其他一些好处:
当我们对模型进行微调或进行工程优化后,需要采用相对客观的标准来评估工作成果。
在选择模型基座或在应用中选择适合自己的模型时,至少要了解一下所选模型在行业内的水平,毕竟论文实验里可能存在田忌赛马的情况。
如果项目庞大且复杂,可能需要建立自己的评估工具,以进行更有针对性的测试。除了评估大型模型的自动编码效果外,还上可评估我们的代码质量。
以下是一些推荐的评估工具和排行榜。EvalPlus 是一个比较推荐的工具,它是
HumanEval 的增强版,并对程序错误进行了更严格的判断。论文首次提交于 2023
年 5
月,排行榜一直在更新。推荐该工具主要因为排行榜得分与我们主观感受比较一致。
2 HumanEval:LLM 代码生成基准
HumanEval
可以算是代码模型的标准测试,一般论文实验部分都使用它评测,它主要评测的是模型自身的性能。
HumanEval 由 HumanEval 数据集和用于评估 LLM 性能的 pass@k
指标组成。这个手工制作的数据集包含 164
个编程挑战的单元测试,以及 ...
论文阅读_参数微调_P-tuning_v2
1 P-Tuning
1234567英文名称: GPT Understands, Too中文名称: GPT也懂链接: https://arxiv.org/abs/2103.10385作者: Xiao Liu, Yanan Zheng, Zhengxiao Du, Ming Ding, Yujie Qian, Zhilin Yang, Jie Tang机构: 清华大学, 麻省理工学院日期: 2021-03-18引用次数: 426
目标:大模型的 Prompt 构造方式严重影响下游任务的效果。离散化的 token
的搜索出来的结果可能并不是最优的,导致性能不稳定。本篇论文旨在探讨,如何提升预训练语言模型进行自然语言提示的有效性。
方法:作者提出了 P-Tuning,设计了一种连续可微的 virtual token(同
Prefix-Tuning 类似)。将 Prompt 转换为可以学习的 Embedding 层,用
MLP+LSTM 的方式来对 Prompt Embedding 进行处理。
结论:弥合 GPT 和 NLU 应用程序之间的差距 (2021 年),P 调参后的 GPT
可以比在 ...
RepoCoder:通过迭代检索和生成实现存储库级代码完成
12345678英文名称: RepoCoder: Repository-Level Code Completion Through Iterative Retrieval and Generation中文名称: RepoCoder:通过迭代检索和生成实现存储库级代码完成链接: http://arxiv.org/abs/2303.12570v3代码: https://github.com/microsoft/CodeT/tree/main/RepoCoder中文介绍:https://zhuanlan.zhihu.com/p/672556695作者: Fengji Zhang, Bei Chen, Yue Zhang, Jacky Keung, Jin Liu, Daoguang Zan, Yi Mao, Jian-Guang Lou, Weizhu Chen机构: 香港城市大学, 微软公司, 武汉大学日期: 2023-03-22
读后感
三句话能说明白的,就不要花太长时间。
最初的代码生成采用了 in-file
方式,仅将当前代码内容传递给模型;后来,采用了 RAG
方式,将项目中相关代 ...
论文阅读_解释大模型_语言模型表示空间和时间
12345678英文名称: LANGUAGE MODELS REPRESENT SPACE AND TIME中文名称: 语言模型表示空间和时间链接: https://www.science.org/doi/full/10.1126/science.357.6358.1344https://arxiv.org/abs/2310.02207作者: Wes Gurnee & Max Tegmark机构: 麻省理工学院日期: 2023-10-03引用次数: 81
1 读后感
作者想要研究的是:模型是只学习字面意思,还是能够学习到更深层次的知识。比如人名、地名以及与时间和空间相关的位置。为了实现这一目标,作者使用了
llama-2
模型,输入数据集中的名称,然后,对每一层的输出进行线性变换,以预测其所属的时间和空间类别。实验证明,在模型的低层就开始构建了关于时间和空间的表示。而在模型中间层达到饱和点时,参数已经学习到了实体相关的时空信息。
2 摘要
目标:分析模型是只学习字面意思,还是能够学习到更深层次的知识。
方法:通过分析 Llama-2
系列模型对三个空间数据集(世界、美国、纽约地 ...
github以ssh方式连不通
github 用 http 方式可连通,用 ssh 方式连不通
试将 22 端口改为 443 端口
试试默认端口 22 能否连通
1ssh -T git@github.com
试试默认端口 443 能否连通
1ssh -T git@github.com -p 443
如果 22 连不通,但 443 正常,可将端口设为 443
1234vi $HOME/.ssh/config Host github.com Hostname ssh.github.com Port 443
Gemini 初体验
1 使用体验
同样需要科学上网。
速度很快,而且还不要钱,据说使用太多可能被限流。
对于小语种翻译效果比 GPT-4 好,其它还没测试。
可通过 ChatBox 界面调用,也可使用 Python 调用。
2 使用 ChatBox 方式调用
在 build with gemini 申请一个 apikey
设置本机代理
下载 ChatBox,并设置模型为 gimini 和 apikey
参考:https://mp.weixin.qq.com/s/Dvc1TU554Kv68OiVp1C6UA
3 使用 Python 调用 Gimini
3.1 安装库
1$ pip install -q -U google-generativeai
3.2 代码
123456789import google.generativeai as genaigenai.configure(api_key="你申请的apikey")model = genai.GenerativeModel('gemini-pro')response = model.generate_c ...
论文阅读_世界模型
12345678英文名称: World Models中文名称: 世界模型链接: https://arxiv.org/abs/1803.10122示例: https://worldmodels.github.io/作者: David Ha, J¨urgen Schmidhuber机构: Google Brain, NNAISENSE, Swiss AI Lab, IDSIA (USI & SUPSI)日期: 27 Mar 2018引用次数: 1033
1 读后感
不同于之前简单的强化学习方法,这篇论文将模型分为三部分:视觉 V、记忆
M 和控制 C。视觉部分 V 将视觉信息压缩到潜空间,记忆部分 M
学习物理空间的变化规律,控制部分 C
则使用强化学习模型来学习智能体的最佳动作。
这相当于将模型拆分为大脑的不同功能区域。复杂的世界信息保留在 V 和 M
中,同时确保强化学习部分 C 足够小,以便快速训练。V 和 M
可以分别看作对空间和时间的建模。
文中还讨论了梦境和海马回放。由于有了时序预测模型
M,我们可以在没有现实输入的情况下通过 M
计算出后续状态,从而生成一个想象中的环 ...
评测本地部署的语音识别模型
1 引言
最近,朋友给我发来了一段音频,想转录成文字,并使用大型润色文本。音频中的普通话带有一定的口音,并且讲解内容较为专业,所以一般的语音识别工具很难达到较高的识别率。
于是试用了两个大模型。Whisper
是目前最好的多语言语音识别技术(ASR),之前的文章已经介绍过它的原理和部署方法;FunAsr
是阿里巴巴智能计算研究院语音实验室在 ModelScope
上开源的深度学习语音识别模型,在海量数据上对中文进行了优化,可谓国产之光。本次评测的
ASR 均能在本地部署,之前测试使用效果都不错。
本次评测将针对相对困难的语音进行真人评估,看看语音识别哪家强。
2 安装及资源占用
2.1 使用说明
这里未使用音频切分降噪进行前处理,直接将音频放入模型进行识别。
2.2 测试环境
FunAsr 使用了 GPT-SoVITS 提供的 docker 镜像中的库和模型,镜像大小
7.09G,外加模型 1.4G。
识别命令如下:
1$ /usr/local/bin/python tools/asr/funasr_asr.py -i /opt/xieyan/tmp/audio/litao/ -o o ...