AtomS3R-M12 火山引擎语音视觉套件

SKU:D062-M12

描述

AtomS3R-M12 火山引擎语音视觉套件 是一款将 M5Stack 硬件与火山引擎云端 AIGC 一站式解决方案深度融合的物联网视觉＋语音开发套件，核心由两部分组成，高性能图像采集单元 AtomS3R‑M12 与 AI 智能语音处理底座 Atomic Voice Base。AtomS3R‑M12 提供 3MP 级别的广角视频采集与边缘计算能力，扩展接口适配多种传感。Atomic Voice Base 集成高保真音频解码，麦克风与扬声器驱动，支持全双工语音唤醒，识别与交互。火山引擎 RTC 与 M5Stack 合作内置一站式解决方案，通过在芯片侧集成音频处理（包括自动唤醒功能、音频 3A 等），在云侧深度整合大模型，语音识别，语音合成，Function calling，知识库等技术，快速实现用户与硬件之间流畅，自然，真人感觉的实时通话功能，适用于智能安防，远程教育，智能家居和工业监测，AI 机器人等领域。

教程 & 快速上手

快速上手

本教程将向你介绍使用 AtomS3R-M12 火山引擎语音视觉套件，通过 M5Burner 烧录火山引擎语音助手测试固件，构建个人语音助手应用。

产品特性

Volcengine RTC 实时通话
AI 视觉识别
AI 语音识别
端云协同与模型管理
集成 ESP32-S3-PICO-1-N8R8 主控
3MP OV3660 摄像头 (120° 广角)
九轴传感器系统
边缘 AI 推理
8MB Flash 和 8MB PSRAM
支持红外发射控制功能
可扩展的引脚与接口
全双工 I2S 语音
24‑bit 音频编解码
MEMS 数字麦克风
D 类功放 (8Ω @ 1W 扬声器)
开发平台
- ESP-IDF
- PlatformIO

包装内容

1 x AtomS3R-M12
1 x Atomic Voice Base

应用场景

智能安防
远程教育
智能家居
工业监测
AI 家教
STEAM 教育

规格参数

规格	参数
SoC	ESP32-S3-PICO-1-N8R8 @ Xtensa® 32 位 LX7 双核处理器，主频 240MHz
存储	8 MB Flash + 8 MB PSRAM
无线	Wi‑Fi 2.4 GHz
云端流处理	Volcengine Stream 实时流接入
云端识别能力	人脸检测，目标跟踪，OCR 文本识别，ASR 语音转文字
摄像头	OV3660，3 MP，F2.4，120° FOV，30 FPS
红外 IR	180° 发射角，无遮挡最远 12.46 m
传感系统	九轴 (BMI270 + BMM150)
接口	USB‑C (供电)，HY2.0‑4P 扩展
音频编解码	ES8311，24‑bit I2S，16 kHz–64 kHz
麦克风	MEMS 数字麦克风，SNR ≥ 65 dB
功放	NS4150B D 类功放，最大输出功率 3W
扬声器	1 W @ 8 Ω ，接口规格 JST 1.25-2P
通信模式	I2S 全双工
工作温度	0 ~ 40 °C
产品尺寸	AtomS3R-M12: 26.4 x 24.0 x 22.5mm Atomic Voice Base: 24.0 x 24.0 x 14.1mm
产品重量	AtomS3R-M12: 10.8g Atomic Voice Base: 6.3g
包装尺寸	138.0 x 93.0 X 44.0mm