腾讯第5代机器人主打家居照顾；豆包发布两款视频生成模型

Key Points

● OpenAI高级语音功能上线，对话更自然流畅；

● 豆包发布两款视频生成模型，一款善于复杂人物，一款清晰度高；

● 腾讯推出第五代机器人，主打人居场景；

● 小米发布中期报告，手机出货同比增长30.8%，汽车交付27367台；

● Google提高Gemini 1.5模型速度，并降低调用价格；

● 国家航天局称2035年完成月球科研站建设，将有无线网；

● Google领投混合现实技术公司Distance Technologies，将任何透明表面变成显示屏。

OpenAI高级语音功能上线，对话更自然流畅

本周二，OpenAI宣布推出高级语音功能（Advanced Voice Mode：AVM），OpenAI表示，它改进了一些外语的口音，提高了对话速度，使用户更自然流畅地与ChatGPT交谈。

最直观的改进是界面设计，OpenAI 5月发布的语音对话黑点升级成了蓝白相间的动画球。用户与其对话时，AVM可以迅速响应，随时切换不同的语言。据OpenAI称，AVM可以用50多种语言说「对不起，我迟到了」。OpenAI还上线了5种不同的新声音：Arbor、Maple、Sol、Spruce 和 Vale，结合此前的Breeze、Juniper、Cove 和 Ember，声音总数达到了9种。

目前，AVM仅适用于订阅ChatGPT Plus和Team的用户，订阅起价为每月20美元。但即使付费，使用次数也不是无限的，据媒体记者测评，使用AVM约半小时后，屏幕显示「还剩15分钟」。OpenAI一位发言人表示，ChatGPT Plus和Team订阅用户使用AVM有每日使用限制，超出后可以使用标准版本。

参考链接

https://x.com/OpenAI/status/1838642444365369814

豆包发布两款视频生成模型，一款善于复杂任务，一款清晰度高

9月24日，字节跳动发布两款视频生成模型，分别是豆包PixelDance和豆包Seaweed。PixelDance模型单次可生成最长10秒的视频，Seaweed可生成最长5秒的视频，可动态延长至20至30秒。

PixelDance模型的优势主要体现在对复杂指令的理解方面，适合人物、剧情更为复杂的视频生成，而Seaweed的优势主要在于生成视频的清晰度。相较于此前发布的其他视频模型，豆包的视频模型在多主体互动和内容一致性方面有突破。

目前，豆包的视频生成模型在即梦AI内测试，未来将逐步开放给所有用户。除了视频模型之外，字节跳动本次还发布了豆包音乐模型和同声传译模型。字节跳动称，截至9月，豆包大模型的日均tokens使用量已经超过1.3万亿。

参考链接

https://mp.weixin.qq.com/s/xugVkTQaUhi59kqNIj4H3w

腾讯推出第五代机器人，主打人居场景

9月24日，腾讯Robotics X机器人实验室发布了其研发的第五代机器人「小五」（The Five）的演示视频。该视频显示，「小五」立项于2023年2月，定位为「人居环境机器人」，针对机器人在人居环境中的移动、人机交互动作、亲和力及安全性等方面都做了大量优化。该机器人高1.4至1.8米，其下半部分采用四轮设计以保持稳定，上半部分则采用类似人类的双手设计。机器人的手臂等外表面下植入了压力传感器，起到类似人类皮肤的触觉功能，能够根据环境不同调整自己的动作力度。

视频重点演示了机器人在养老场景中的应用，包括自己走楼梯、搬运重物、抱扶下半身行动不便的老人下床、根据预定路线推动轮椅、在行驶过程中自动避障以及抵达目的地后自我折叠收纳等。该产品已在今年6月启动了第一轮养老院实测。

参考链接

https://mp.weixin.qq.com/s/pZUKo5OLLdARQGvG7pwM6A

小米发布中期报告，手机出货同比增长30.8%，汽车交付27367台

9月26日，小米发布截至2024年6月30日的中期报告，报告显示，公司上半年营收1643.95亿元，同比增长29.62%；归母净利润92.8亿元，同比增长17.86%。

小米在3月推出首款智能电动汽车后，在财报中将智能手机、loT与生活消费产品、互联网服务和其他合并为统一的「手机x AloT」分部，汽车独立成为一个分部，按照新的分类看：

手机x AloT收入为1580亿元，同比增长24.6%。其中，智能手机业务贡献了该板块近一半的收入：营收930亿元，同比增长29.9%。小米表示，这主要归功于智能手机出货量的增加，智能手机出货量同比增长30.8%，由去年上半年的6330万台增加至今年上半年的8280万台。根据Canalys数据，2024年上半年，全球智能手机出货量小米排名前三，市占率为14.2%。

智能电动汽车等创新业务收入为64亿元，交付量27367台。财报披露，报告期内经调整净利润为127亿元，同比增长51.3%，其中包括智能电动汽车业务经调整净亏损人民币40亿元。

参考链接

https://ir.mi.com/static-files/eb0d2a5b-f600-477d-9411-34c17adb819f

Google提高Gemini 1.5模型速度，并降低调用价格

9月24日，Google宣布更新Gemini 1.5 Flash和Gemini 1.5 Pro两款模型，提高了模型的速率限制和输出速度，并降低了Gemini 1.5 Pro的调用价格。

本次更新后，1.5 Flash和1.5 Pro两款模型的速率限制分别提高到2000RPM（Requests Per Minute）和1000RPM，即用户每分钟可发送的请求数量分别提高至2000次和1000次。Google还宣布降低Gemini1.5 Pro模型的调用价格，在输入和输出小于12.8万token的情况下，输入token降价64%，输出token降价52%，增量缓存token降价64%，该调价于今年10月1日起生效。

参考链接

https://developers.googleblog.com/en/updated-gemini-models-reduced-15-pro-pricing-increased-rate-limits-and-more/

国家航天局称2035年完成月球科研站建设，将有无线网

2024年9月24日，国家航天局宣布，完成嫦娥六号任务后，中国探月工程将在2026年发射嫦娥七号，2028年前后发射嫦娥八号，为国际月球科研站打基础。

国家航天局副局长卞志刚介绍，嫦娥七号用于勘测月球南极的环境和资源，嫦娥八号用于验证月球资源的就地利用技术，2035年前后，中国将完成月球科研站基本型的建设；国家航天局探月与航天工程中心副主任关锋表示，因嫦娥八号任务有通讯需求，中国将在月球上建设无线网与能源。

参考链接

https://stcn.com/article/detail/1330646.html

Google领投混合现实技术公司Distance Technologies，将任何透明表面变成显示屏

9月26日，有消息称芬兰混合现实技术初创公司Distance Technologies完成了1000万欧元的种子轮融资，Google控股公司Alphabet旗下风投部门GV领投，现有投资者FOV Ventures和Maki.vc也参与了此轮融资。

据悉，Distance专注于汽车、航空航天和国防市场，公司开发的技术能够将任何透明表面变成增强现实显示屏，通过计算机生成3D光场，精准在用户眼前投射图像，而无需用户佩戴任何硬件设备。目前，Distance只能使用简单的光学元件和普通的LCD显示屏向潜在合作伙伴展示其技术，其首席执行官称公司正在从研究阶段走向产品阶段。GV负责人Roni Hiranand表示，GV看到了Distance创建下一代用户界面的潜力，对这项技术在汽车和航空航天市场落地的前景感到兴奋。

参考链接

https://www.cnbc.com/2024/09/26/google-backs-distance-startup-bringing-mixed-reality-to-cars-planes.html

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签