7646

您的位置：首页 >财经 > 正文

迷你GPT-4抢跑看图聊天：OpenAI有的它都有，服务器已被挤爆

来源：IT之家时间：2023-04-20 13:00:10 阅读量：17852

GPT-4 识图功能迟迟不开放，终于有人忍不住自己动手做了一个。

MiniGPT-4 来了，Demo 开放在线可玩。

传一张海鲜大餐照片上去，就能直接获得菜谱。

传一张商品效果图，就可以让 AI 写一篇带货文案。

手绘一个网页，可以给出对应的 HTML 代码

除了生产力拉满，也支持根据常识推理图上内容是否合理、解释表情包为什么好笑，以及看截图找电影等娱乐玩法。

可以说，GPT-4 发布时展示过的功能，MiniGPT-4 基本也都有了。

这下网友直接把 Demo 服务器挤爆，开发团队连开 4 台备用服务器，都有几十人在排队。

不等 OpenAI 了，现在就能玩

除了研究团队给出的示例，网友也用 MiniGPT-4 玩出了各种花样

有人上传自己画的画，让 AI 评价评价。

有人上传一张从车道拍摄的飞机坠毁瞬间，让 MiniGPT-4 尽可能详细地描述，并思考自动驾驶 AI 能不能理解这个场面。

做到这么好的效果，MiniGPT-4 实现起来却并不复杂。

把图像编码器与开源语言模型 Vicuna整合起来，并且冻结了两者的大部分参数，只需要训练很少一部分。

传统预训练阶段，使用 4 张 A100 在 10 个小时内就可完成，此时训练出来的 Vicuna 已能够理解图像，但生成能力受到很大影响。

为解决这个问题，团队让 MiniGPT-4 与 ChatGPT 合作创建了 3500 个图像文本的高质量数据集，也一并开源。

用新的数据集微调可以显著提高模型的生成可靠性和整体可用性，而且计算效率很高，使用单个 A100 只需要 7 分钟。

并且团队正在准备一个更轻量级的版本，部署起来只需要 23GB 显存。

也就是消费级显卡中拥有 24GB 显存的 3090 或 4090 就可以本地运行了。

MiniGPT-4 开发团队来自 KAUST，包括 4 位华人成员和他们的导师 Mohamed Elhoseiny。

两位正在读博的共同一作还在 GitHub 页面上特别标注正在找工作。

有意向的公司要抓紧抢人了～

在线 Demo:

开源代码:

论文:

声明：以上内容为本网站转自其它媒体，相关信息仅为传递更多企业信息之目的，不代表本网观点，亦不代表本网站赞同其观点或证实其内容的真实性。投资有风险，需谨慎。

文章排行

热门资讯

StrategyAnalytics： 根据StrategyAnalytic...
增程技术成2022百人会热门增程式S 3月27日，中国电动汽车百人会论坛(...
工信部：1-2月份我国软件业务收入1 近日，工信部发布《2022年1－2月...
元宇宙进行时，高通在行动 近期，高通宣布设立总金额达1亿美元的...
Ultrasuede®携手智己L7打 环保可持续发展的理念不断融于各行各业...

资讯播报