在人工智能(AI)领域,每周都有令人瞩目的新进展。上周,X 公司推出了两款备受瞩目的 AI 模型——Grok-2 和 Grok-2 mini,并且集成了 Black Forest Labs 的 FLUX.1 技术,使用户能够生成各种图像。与此同时,谷歌也为其 AI 助手 Gemini 引入了实时语音聊天模式 Gemini Live,提升了用户体验。然而,在 AI 技术的快速发展背后,版权争议也日益凸显,Midjourney 等公司因此面临法律诉讼。此外,还有多项 AI 创新成果发布,如“AI 科学家”系统、AI 生成搜索摘要的新方式等,展现了 AI 在不同领域的应用潜力。
一、X 公司推出 Grok 2 与 Flux 图像生成
近日,埃隆·马斯克旗下的 X 公司宣布推出 Grok-2 和 Grok-2 mini 两款 AI 模型的测试版。这两款模型均具备在 X 社交网络上生成图像的能力,但目前的访问权限仅限于 Premium 和 Premium+用户。据悉,X 公司计划在本月晚些时候通过其企业 API 向开发者开放这两款模型。
Grok-2 和 Grok-2 mini 的推出,标志着 X 公司在 AI 图像生成领域迈出了重要一步。这两款模型不仅能够生成高质量的图像,还具备更高的灵活性和自由度。这一特点使得 Grok-2 和 Grok-2 mini 在创意表达和内容创作方面具有巨大潜力。

除了图像生成能力外,Grok-2 和 Grok-2 mini 还将被应用于 X 公司的 AI 驱动功能中,包括改进搜索功能、帖子分析和回复功能等。这将进一步提升用户在 X 社交网络上的互动体验。
值得一提的是,Grok-2 和 Grok-2 mini 还集成了 Black Forest Labs 的 FLUX.1 技术。FLUX.1 是一种先进的图像生成技术,能够实现更为精细和逼真的图像效果。通过集成 FLUX.1,Grok-2 和 Grok-2 mini 在图像生成方面的性能得到了进一步提升。
然而,Grok-2 和 Grok-2 mini 的图像生成能力也引发了一些争议。由于其生成图像的自由度较高,可能会出现一些敏感或不适当的内容。因此,X 公司需要加强对这些模型的监管和管理,确保其生成的图像符合社会道德和法律法规的要求。
二、谷歌 Gemini 实时聊天模式亮相
谷歌近日为其 AI 助手 Gemini 引入了一项新功能——Gemini Live。这是一种实时语音聊天模式,目前仅适用于 Gemini Advanced 订阅用户。该功能支持对话式交互,用户可以随时打断 AI 的发言或暂停对话。此外,Gemini Live 还能实时解读视频,并在手机锁定或后台运行时继续工作。
Gemini Live 的推出,为用户提供了更加便捷和自然的交互方式。通过实时语音聊天,用户可以更加轻松地与 Gemini 进行沟通和交流,获取所需的信息和建议。同时,该功能还支持多语言和方言识别,进一步提升了用户体验。

除了实时语音聊天外,Gemini Live 还具备强大的视频解读能力。它可以实时分析视频内容,提取关键信息,并为用户提供相关的回答和建议。这一功能在教育、娱乐和商业等领域具有广泛的应用前景。
谷歌表示,Gemini Live 目前已在 Android 设备上推出英语版本,并计划在未来几周内扩展到 iOS 和其他语言。此外,Gemini 还将获得屏幕上下文感知能力,并为 Keep、Tasks、Utilities 和 YouTube Music 等应用添加新的扩展功能。
三、Midjourney 面临版权诉讼
近日,一群艺术家对 AI 公司 Stability 和 Midjourney 提起了版权侵权诉讼。艺术家们指控这些公司在未经许可的情况下,使用包含他们作品的数据集训练 AI 模型,并允许用户复制他们的作品。
法官威廉·奥里克批准了针对 DeviantArt 和 Runway AI 的版权索赔,以及针对 Midjourney 的版权和商标侵权索赔。然而,法官驳回了关于生成器违反《数字千年版权法》以及 DeviantArt 违反其服务条款的索赔。
尽管目前案件的结果尚不确定,但随着艺术家们进入发现阶段,要求公司提供相关信息,这场法律纠纷可能会进一步升级。这一事件引发了人们对 AI 生成内容版权问题的广泛关注和讨论。

四、“AI 科学家”系统助力科研
由 Sakana AI、FLAIR、牛津大学、不列颠哥伦比亚大学、Vector Institute 和加拿大 CIFAR 的研究人员共同开发的“AI 科学家”系统,旨在自动化整个科学研究过程。该系统利用大型语言模型(LLMs)自动生成研究想法、进行实验并自主撰写科学论文。
“AI 科学家”系统分为三个阶段:想法生成、实验迭代和论文撰写。每个阶段都利用 AI 工具提高效率和准确性。该系统已经展示了令人鼓舞的结果,生成的研究论文质量达到或超过了顶级机器学习会议的标准,证明了其在加速研究过程中的潜力。

五、其他 AI 新闻与动态
谷歌 AI 生成搜索摘要更新:谷歌正在改变 AI 生成搜索摘要显示引用的方式,增加了引用网页的新右侧显示,并尝试将链接附加到摘要文本中。
OpenAI 推出 SWE-bench Verified:OpenAI 引入 SWE-bench Verified 以改进 AI 模型在软件工程中的性能评估,解决了先前基准测试的局限性,并提供了更准确的 AI 能力衡量标准。
OpenAI 更新 ChatGPT 模型:根据用户反馈,OpenAI 将 ChatGPT 更新为基于 GPT-4o 模型的新版本。
Anthropic 推出“Prompt Caching”技术:Anthropic 为其 AI 语言模型引入了“Prompt Caching”技术,旨在降低成本和提高效率,为更多企业提供先进的 AI 能力。
Exists 推出 GenAI 平台:AI 初创公司 Exists 推出了其生成式 AI 平台,使任何人都可以使用文本提示创建 3D 游戏,无需编程技能。
Midjourney 发布统一 AI 图像编辑器:Midjourney 在网站上发布了新的统一 AI 图像编辑器,集成了多种功能,并引入了虚拟“画笔”工具进行修复。
Mistral 发布 Agent Builder 平台:Mistral 推出了 Agents API 和 La Plateforme Agent Builder,用于创建自定义 AI 代理,服务于非技术用户和开发者。
Luma 升级 Dream Machine:Luma Labs 的 Dream Machine 已升级至 1.5 版,提供了更好的真实感、运动跟随和提示理解能力。
ElevenLabs 全球发布 Reader 应用:ElevenLabs 的 AI 驱动 Reader 应用现已全球发布,支持 32 种语言,并计划添加离线支持和音频片段分享等功能。
六、AI 商业动态
前华为“天才少年”推出仿人机器人:一位前华为“天才少年”推出的 AI 驱动的仿人机器人,旨在与特斯拉的 Optimus 竞争。
华为计划发布新 AI 芯片:据报道,华为计划发布新 AI 芯片,目标最早于 10 月发货。
AMD 完成对 Silo AI 团队的收购:AMD CEO Lisa Su 在完成对 Silo AI 团队 6.65 亿美元的收购后,正式欢迎其加入 AMD。
AMD 收购服务器制造商 ZT Systems:AMD 以 49 亿美元收购服务器制造商 ZT Systems,以加强其 AI 能力并与 Nvidia 竞争。
SAG-AFTRA 与 Narrativ 达成 AI 数字声音复制协议:SAG-AFTRA 与初创公司 Narrativ 达成了一项开创性的 AI 数字声音复制协议,为该技术的道德使用设定了新标准。
Anysphere 完成 A 轮融资:AI 驱动的编码助手初创公司 Anysphere 在 A 轮融资中筹集了超过 6000 万美元。没错,就是开发了 Cursor 的那家公司。
Waymo 加强冬季自动驾驶测试:Waymo 计划在多个寒冷地区加强其自动驾驶车辆的冬季测试。
WeRide 获得加州无人驾驶测试许可:中国自动驾驶初创公司 WeRide 已获得在加州进行载客无人驾驶汽车测试的许可。
Stability AI 任命新首席技术官:Stability AI 任命 Hanno Basse 为其新任首席技术官。
Andreessen Horowitz 投资 Story 初创公司:Andreessen Horowitz 领导了对 Story 初创公司的 8000 万美元投资,该公司旨在使用区块链改革知识产权制度。
Procreate 拒绝集成生成式 AI:Procreate 发誓永远不会将生成式 AI 集成到其产品中。
Cosine 推出 Genie AI 工程师:Cosine 宣布推出其自主的 AI 驱动工程师 Genie,声称其在第三方基准测试 SWE-Bench 中的表现优于 Devin。
TurboEdit 推出文本图像编辑工具:一款新的基于文本的图像编辑工具 TurboEdit,允许使用基于编码器的迭代反演技术进行精确且解耦的图像编辑。
七、AI 技术与社会影响
AI 助力古代史诗《吉尔伽美什》重建:AI 技术协助重建了破碎的《吉尔伽美什》史诗,加速了这一古老文本的恢复过程。
xGen-MM(BLIP-3):开放的大型多模态模型框架:介绍了 xGen-MM(BLIP-3),这是一个用于开发大型多模态模型(LMMs)的框架,旨在推进该领域的研究。
Imagen 3:高质量文本生成图像模型:Imagen 3,这是一个从文本提示生成高质量图像的潜在扩散模型,注重责任和最小化潜在伤害。
DEI 框架下的软件工程代理多样性:通过 DEI 框架利用多样化的软件工程代理的专业知识,显著提高了问题解决能力。
图表示法提升 LLMs 规划能力:大型语言模型(LLMs)在图表示法的提示下显示出规划任务的潜力,但在复杂场景和分布外示例中仍面临挑战。
SAM2-UNet:自然和医学图像分割的强大编码器:SAM2-UNet 是一个用于自然和医学图像分割的强大编码器,因其开放性、社区性、卓越性和用户数据隐私而受到欢迎。
AI 与隐私保护工具的重要性:随着组织和个体拥抱开放性、社区性、卓越性和用户数据隐私的价值观,AI 和隐私保护工具对于区分真实在线身份至关重要。
JPEG-LM:使用规范编解码器表示的 LLMs 图像生成器:本文提出了一种直接将图像和视频建模为压缩文件的方法,使用 JPEG 等规范编解码器表示,展示了其在图像生成方面相对于基于像素的建模和矢量量化基线的有效性。
以上就是上周 AI 领域的最新动态和趋势。从 X 公司的 Grok 2 和 Flux 图像生成,到谷歌 Gemini 实时聊天模式的亮相,再到 Midjourney 面临的版权诉讼,以及多项 AI 创新成果的发布,都展示了 AI 在不同领域的应用潜力和发展前景。同时,我们也应关注 AI 技术带来的伦理和政策挑战,共同推动这一领域的健康发展。
