Key Points
● OpenAI高级语音功能上线,对话更自然流畅;
● 豆包发布两款视频生成模型,一款善于复杂人物,一款清晰度高;
● 腾讯推出第五代机器人,主打人居场景;
● 小米发布中期报告,手机出货同比增长30.8%,汽车交付27367台;
● Google提高Gemini 1.5模型速度,并降低调用价格;
● 国家航天局称2035年完成月球科研站建设,将有无线网;
● Google领投混合现实技术公司Distance Technologies,将任何透明表面变成显示屏。
OpenAI高级语音功能上线,对话更自然流畅
本周二,OpenAI宣布推出高级语音功能(Advanced Voice Mode:AVM),OpenAI表示,它改进了一些外语的口音,提高了对话速度,使用户更自然流畅地与ChatGPT交谈。
最直观的改进是界面设计,OpenAI 5月发布的语音对话黑点升级成了蓝白相间的动画球。用户与其对话时,AVM可以迅速响应,随时切换不同的语言。据OpenAI称,AVM可以用50多种语言说「对不起,我迟到了」。OpenAI还上线了5种不同的新声音:Arbor、Maple、Sol、Spruce 和 Vale,结合此前的Breeze、Juniper、Cove 和 Ember,声音总数达到了9种。
目前,AVM仅适用于订阅ChatGPT Plus和Team的用户,订阅起价为每月20美元。但即使付费,使用次数也不是无限的,据媒体记者测评,使用AVM约半小时后,屏幕显示「还剩15分钟」。OpenAI一位发言人表示,ChatGPT Plus和Team订阅用户使用AVM有每日使用限制,超出后可以使用标准版本。
参考链接
https://x.com/OpenAI/status/1838642444365369814
豆包发布两款视频生成模型,一款善于复杂任务,一款清晰度高
9月24日,字节跳动发布两款视频生成模型,分别是豆包PixelDance和豆包Seaweed。PixelDance模型单次可生成最长10秒的视频,Seaweed可生成最长5秒的视频,可动态延长至20至30秒。
PixelDance模型的优势主要体现在对复杂指令的理解方面,适合人物、剧情更为复杂的视频生成,而Seaweed的优势主要在于生成视频的清晰度。相较于此前发布的其他视频模型,豆包的视频模型在多主体互动和内容一致性方面有突破。
目前,豆包的视频生成模型在即梦AI内测试,未来将逐步开放给所有用户。除了视频模型之外,字节跳动本次还发布了豆包音乐模型和同声传译模型。字节跳动称,截至9月,豆包大模型的日均tokens使用量已经超过1.3万亿。
参考链接
https://mp.weixin.qq.com/s/xugVkTQaUhi59kqNIj4H3w
腾讯推出第五代机器人,主打人居场景
9月24日,腾讯Robotics X机器人实验室发布了其研发的第五代机器人「小五」(The Five)的演示视频。该视频显示,「小五」立项于2023年2月,定位为「人居环境机器人」,针对机器人在人居环境中的移动、人机交互动作、亲和力及安全性等方面都做了大量优化。该机器人高1.4至1.8米,其下半部分采用四轮设计以保持稳定,上半部分则采用类似人类的双手设计。机器人的手臂等外表面下植入了压力传感器,起到类似人类皮肤的触觉功能,能够根据环境不同调整自己的动作力度。
视频重点演示了机器人在养老场景中的应用,包括自己走楼梯、搬运重物、抱扶下半身行动不便的老人下床、根据预定路线推动轮椅、在行驶过程中自动避障以及抵达目的地后自我折叠收纳等。该产品已在今年6月启动了第一轮养老院实测。
参考链接
https://mp.weixin.qq.com/s/pZUKo5OLLdARQGvG7pwM6A
小米发布中期报告,手机出货同比增长30.8%,汽车交付27367台
9月26日,小米发布截至2024年6月30日的中期报告,报告显示,公司上半年营收1643.95亿元,同比增长29.62%;归母净利润92.8亿元,同比增长17.86%。
小米在3月推出首款智能电动汽车后,在财报中将智能手机、loT与生活消费产品、互联网服务和其他合并为统一的「手机x AloT」分部,汽车独立成为一个分部,按照新的分类看:
手机x AloT收入为1580亿元,同比增长24.6%。其中,智能手机业务贡献了该板块近一半的收入:营收930亿元,同比增长29.9%。小米表示,这主要归功于智能手机出货量的增加,智能手机出货量同比增长30.8%,由去年上半年的6330万台增加至今年上半年的8280万台。根据Canalys数据,2024年上半年,全球智能手机出货量小米排名前三,市占率为14.2%。
智能电动汽车等创新业务收入为64亿元,交付量27367台。财报披露,报告期内经调整净利润为127亿元,同比增长51.3%,其中包括智能电动汽车业务经调整净亏损人民币40亿元。
参考链接
https://ir.mi.com/static-files/eb0d2a5b-f600-477d-9411-34c17adb819f
Google提高Gemini 1.5模型速度,并降低调用价格
9月24日,Google宣布更新Gemini 1.5 Flash和Gemini 1.5 Pro两款模型,提高了模型的速率限制和输出速度,并降低了Gemini 1.5 Pro的调用价格。
本次更新后,1.5 Flash和1.5 Pro两款模型的速率限制分别提高到2000RPM(Requests Per Minute)和1000RPM,即用户每分钟可发送的请求数量分别提高至2000次和1000次。Google还宣布降低Gemini1.5 Pro模型的调用价格,在输入和输出小于12.8万token的情况下,输入token降价64%,输出token降价52%,增量缓存token降价64%,该调价于今年10月1日起生效。
参考链接
https://developers.googleblog.com/en/updated-gemini-models-reduced-15-pro-pricing-increased-rate-limits-and-more/
国家航天局称2035年完成月球科研站建设,将有无线网
2024年9月24日,国家航天局宣布,完成嫦娥六号任务后,中国探月工程将在2026年发射嫦娥七号,2028年前后发射嫦娥八号,为国际月球科研站打基础。
国家航天局副局长卞志刚介绍,嫦娥七号用于勘测月球南极的环境和资源,嫦娥八号用于验证月球资源的就地利用技术,2035年前后,中国将完成月球科研站基本型的建设;国家航天局探月与航天工程中心副主任关锋表示,因嫦娥八号任务有通讯需求,中国将在月球上建设无线网与能源。
参考链接
https://stcn.com/article/detail/1330646.html
Google领投混合现实技术公司Distance Technologies,将任何透明表面变成显示屏
9月26日,有消息称芬兰混合现实技术初创公司Distance Technologies完成了1000万欧元的种子轮融资,Google控股公司Alphabet旗下风投部门GV领投,现有投资者FOV Ventures和Maki.vc也参与了此轮融资。
据悉,Distance专注于汽车、航空航天和国防市场,公司开发的技术能够将任何透明表面变成增强现实显示屏,通过计算机生成3D光场,精准在用户眼前投射图像,而无需用户佩戴任何硬件设备。目前,Distance只能使用简单的光学元件和普通的LCD显示屏向潜在合作伙伴展示其技术,其首席执行官称公司正在从研究阶段走向产品阶段。GV负责人Roni Hiranand表示,GV看到了Distance创建下一代用户界面的潜力,对这项技术在汽车和航空航天市场落地的前景感到兴奋。
参考链接
https://www.cnbc.com/2024/09/26/google-backs-distance-startup-bringing-mixed-reality-to-cars-planes.html
