博客 – Antonio

AI视觉机械臂_项目框架与流程

Antonio — Tue, 31 Mar 2026 16:41:47 +0000

AI 视觉机械臂 — 项目框架与实施流程

本文档依据毕业论文《AI 视觉机械臂》，并结合本仓库中的 Maixcam 与 Project 代码工程整理，用于说明系统分层、主流程步骤及所需技术栈。

https://github.com/pieceofApple/AI-vision-robotic-arm.git

1. 项目定位与目标

定位：基于边缘计算的「视觉感知 + 机械臂执行」一体化平台，在成本可控前提下实现物体识别、目标定位与抓取类任务。
论文方案：Maixcam（视觉与 AI 推理） + ESP32（运动控制与中继） + 4 轴机械臂（5 路 PWM 舵机驱动），视觉与控制器之间采用 UDP 实时通信。
核心链路：单目图像 → 目标检测 → 像素坐标到棋盘格世界坐标（透视变换）→ 将 ((x,y,z)) 等指令下发 ESP32 → 逆运动学 解算关节角 → PWM 驱动舵机；辅以梯形速度规划、线性插值轨迹以平滑运动。

2. 总体架构（三层）

层次	职责	论文对应	本仓库代码参考
感知层	采集图像、畸变校正、棋盘格角点、YOLO 检测、世界坐标换算	第三章 3.2	`Project/Maixcam/main.py`、`Maixcam/纸团-demo/main.py`
通信层	Maixcam ESP32 的 UDP 文本指令（如坐标、`rst`、`stop` 等）	3.1.3	`main.py` 中 `udp_communication`；ESP 端 `WiFiUDP`
执行层	逆运动学、工作空间校验、轨迹/速度规划、5 路 PWM	3.3	`Project/robot_arm_5PWM/robot_arm_5PWM.ino`

说明：论文中视觉侧强调将训练好的 YOLOv5s 转为 int8 / cvimodel 以适配 TPU；当前工程中的在线推理多采用 Maix 官方 nn.YOLOv5 + .mud 模型（MaixHub 部署路径），原理一致，均为边缘侧 YOLO 推理。仓库 Maixcam/模型文件/ 下另有 YOLO11 OBB 等 .mud，可用于旋转框等扩展场景，与论文正文以 v5s 为主略有差异，选型时以实际任务为准。

3. 硬件框架

Maixcam：GC4653 摄像头、Wi‑Fi/蓝牙；算力侧含 NPU（论文中用于加速 YOLO）。
ESP32：连接同一局域网，监听 UDP；运行逆运动学与 PWM 输出。
机械臂：论文为 4 轴结构、5 路 PWM（多一路如夹爪）；臂长参数见论文表 4.1（如 P、A1～A4），与 robot_arm_5PWM.ino 中宏定义一致。
标定场地：棋盘格（论文示例 6×8 格、中心为原点）；摄像头置于棋盘上方，视野覆盖工作区。

4. 软件模块与目录对应

模块	内容	路径提示
端侧视觉主程序	采集、`lens_corr`、棋盘格、`getPerspectiveTransform`、YOLO 检测、逆透视得世界坐标、UDP	`Project/Maixcam/main.py`
应用描述	Maix 应用元数据	`Project/Maixcam/app.yaml`
纯检测 Demo	无标定与网络，便于验模	`Maixcam/纸团-demo/main.py`
PC 标定与可视化	OpenCV 标定、坐标映射等（论文 PC 端标定）	`Project/Maixcam/PC_cv2/*.py`、`论文代码/相机标定.py`
机械臂固件	WiFi、UDP、逆运动学、状态机、PWM	`Project/robot_arm_5PWM/robot_arm_5PWM.ino`
备份/试验	历史 UDP 测试等	`Project/save_backup/`

5. 主流程步骤（建议实施顺序）

5.1 研发与标定阶段

数据集与训练（PC）：按论文构建场景数据（如小纸团），用 YOLOv5s 训练；再按 Sophgo / Maix 工具链 导出为设备可用的 int8（论文）或按 Maix 流程导出 .mud（工程现状）。
PC 相机标定（可选但推荐）：用棋盘格求内参与畸变，与端上 lens_corr 或粗略校正配合；参考 PC_cv2/ 与论文 2.3、3.2.1。
部署模型到 Maixcam：将模型放到设备约定路径（如 main.py 中的 nn.YOLOv5(model=...)）。

5.2 运行阶段（端侧闭环）

初始化：摄像头分辨率与模型输入一致；启动 目标检测线程 与 UDP 线程（threading）。
每帧视觉：
- 读图 → lens_corr；
- 转 OpenCV 灰度 → findChessboardCorners + cornerSubPix；
- 成功则计算世界四角与图像四角 → 透视矩阵 M（异常时用上一帧 last_M 兜底）；
- YOLO 检测 → 目标中心像素坐标 → cv2.perspectiveTransform（配合 (M^{-1})）得到 世界坐标 (cm 级)。
通信：ESP32 侧按协议发请求或接收指令；Maixcam 将 x,y,z,flag 或论文表 3.1 所列格式发往 ESP32（具体字符串以固件解析为准）。
执行：ESP32 逆运动学 → 关节角 → 梯形规划 + 线性插值 → PWM；完成抓取/放置/复位等状态切换。

5.3 联调与测试

论文第四章：检测准确率、坐标映射误差、实时性、重复定位、整机拾放等；环境为稳定 Wi‑Fi、统一光照与棋盘摆放。

6. 技术栈汇总

类别	技术
视觉 / AI	Python 3（Maix 设备）、maix（camera、display、image、nn、app）、OpenCV（opencv-python）、NumPy；YOLOv5s 训练（PyTorch 生态，PC 端）；模型部署：TPU/NPU 量化 int8（论文）或 Maix `.mud`（工程）
几何与标定	棋盘格角点、透视变换 / 单应性、亚像素角点；可选传统相机标定
通信	UDP（`socket`）、Wi‑Fi；多线程 `threading`、queue
控制	ESP32、Arduino 框架、WiFi / WiFiUDP、math；逆运动学（几何法）、梯形速度规划、线性插值轨迹、PWM 舵机
工具	Arduino IDE + ESP32 板支持；PC 上 Python 标定脚本；可选 SolidWorks / 3D 打印（臂体，论文描述）

7.小结

本项目在论文层面是 「Maixcam 边缘视觉 + ESP32 实时控制 + 单目透视定位」 的完整闭环；在仓库层面，Project/Maixcam/main.py 与 Project/robot_arm_5PWM/robot_arm_5PWM.ino 分别对应感知通信与执行两大核心，Maixcam/纸团-demo 用于快速验证检测模型，PC_cv2 与 论文代码 支撑标定与坐标映射开发。实施时以论文第三章、第四章为理论依据，以当前工程中的 IP、端口、指令字符串和模型路径为运行配置依据。

8.演示视频

AFFINE AI——一个完美替代Notion AI的本地部署笔记软件

Antonio — Thu, 11 Dec 2025 17:28:06 +0000

引言：AppFlowy-Cloud踩坑，原先是想用appflowy的，无奈cloud本地部署踩坑太多，此前对于docker-compose配置不太熟悉，故AI咋说我咋做，一做一个不吱声

首先：认识docker-compose

可以通过docker-compose文件直接将所需的docker镜像安装、配置部署。

具体教程可直接参考：

Docker 一键部署 AFFiNE 教程：开源 Notion + Miro 替代，打造私有知识库

1 搭建方式

1.1 安装docker和docker-compose

1.2 获取 Docker Compose 文件和.env文件

#定义了 AFFiNE 容器、端口映射和卷挂载
wget -O docker-compose.yml https://github.com/toeverything/affine/releases/latest/download/docker-compose.yml

#自动下载示例 .env 文件
wget -O .env https://github.com/toeverything/affine/releases/latest/download/default.env.example

1.3 修改docker-compose.yml和.env配置

通用配置：

（仅需要添加DB数据库密码配置即可）

.env文件

# select a revision to deploy, available values: stable, beta, canary
AFFINE_REVISION=stable

# set the port for the server container it will expose the server on
PORT=3010

# set the host for the server for outgoing links
# AFFINE_SERVER_HTTPS=true
# AFFINE_SERVER_HOST=affine.yourdomain.com
# or 
# AFFINE_SERVER_EXTERNAL_URL=https://affine.yourdomain.com

# position of the database data to persist
DB_DATA_LOCATION=~/.affine/self-host/postgres/pgdata
# position of the upload data(images, files, etc.) to persist
UPLOAD_LOCATION=~/.affine/self-host/storage
# position of the configuration files to persist
CONFIG_LOCATION=~/.affine/self-host/config

# database credentials
DB_USERNAME=affine
DB_PASSWORD=affine
DB_DATABASE=affine

docker-compose.yml文件

name: affine
services:
  affine:
    image: ghcr.io/toeverything/affine:${AFFINE_REVISION:-stable}
    container_name: affine_server
    ports:
      - '${PORT:-3010}:3010'
    depends_on:
      redis:
        condition: service_healthy
      postgres:
        condition: service_healthy
      affine_migration:
        condition: service_completed_successfully
    volumes:
      # custom configurations
      - ${UPLOAD_LOCATION}:/root/.affine/storage
      - ${CONFIG_LOCATION}:/root/.affine/config
    env_file:
      - .env
    environment:
      - REDIS_SERVER_HOST=redis
      - DATABASE_URL=postgresql://${DB_USERNAME}:${DB_PASSWORD}@postgres:5432/${DB_DATABASE:-affine}
      - AFFINE_INDEXER_ENABLED=false
    restart: unless-stopped

  affine_migration:
    image: ghcr.io/toeverything/affine:${AFFINE_REVISION:-stable}
    container_name: affine_migration_job
    volumes:
      # custom configurations
      - ${UPLOAD_LOCATION}:/root/.affine/storage
      - ${CONFIG_LOCATION}:/root/.affine/config
    command: ['sh', '-c', 'node ./scripts/self-host-predeploy.js']
    env_file:
      - .env
    environment:
      - REDIS_SERVER_HOST=redis
      - DATABASE_URL=postgresql://${DB_USERNAME}:${DB_PASSWORD}@postgres:5432/${DB_DATABASE:-affine}
      - AFFINE_INDEXER_ENABLED=false
    depends_on:
      postgres:
        condition: service_healthy
      redis:
        condition: service_healthy

  redis:
    image: redis
    container_name: affine_redis
    healthcheck:
      test: ['CMD', 'redis-cli', '--raw', 'incr', 'ping']
      interval: 10s
      timeout: 5s
      retries: 5
    restart: unless-stopped

  postgres:
    image: pgvector/pgvector:pg16
    container_name: affine_postgres
    volumes:
      - ${DB_DATA_LOCATION}:/var/lib/postgresql/data
    environment:
      POSTGRES_USER: ${DB_USERNAME}
      POSTGRES_PASSWORD: ${DB_PASSWORD}
      POSTGRES_DB: ${DB_DATABASE:-affine}
      POSTGRES_INITDB_ARGS: '--data-checksums'
      # you better set a password for you database
      # or you may add 'POSTGRES_HOST_AUTH_METHOD=trust' to ignore postgres security policy
      POSTGRES_HOST_AUTH_METHOD: trust
    healthcheck:
      test:
        ['CMD', 'pg_isready', '-U', "${DB_USERNAME}", '-d', "${DB_DATABASE:-affine}"]
      interval: 10s
      timeout: 5s
      retries: 5
    restart: unless-stopped

1.4 启动dokcer

# 启动docker
docker compose up -d

# 重启docker
docker compose stop
docker compose start

# 升级docker
docker compose down
docker compose pull
docker compose up -d

1.5 访问AFFiNE

然后自行创建用户

(设置中文)

更多使用跟介绍可以看看官方文档：https://docs.affine.pro/self-host-affine/administer/indexer

遗留问题

用户无法通过自行通过邮箱注册账号，只能在管理员界面新建用户

发送验证码邮件时，affine-sever日志会显示SMTP——500的错误码

迁移Affine服务

需备份好以下三个文件夹，然后迁移：

需保持数据库账号密码一致，否则无法访问（其他默认）
新服务器登录直接使用原来设置的账号

AI服务：

当前使用国内转接：poloai。参考以下配置gemini：

{
"model":"gemini-2.0-flash",
"apiKey":"sk-************",
"baseURL":"https://poloai.top/v1"
}

分享一段word转图片的python脚本

Antonio — Fri, 04 Jul 2025 17:30:29 +0000

以下代码用于将word转换为jpg图片，默认为A4纸尺寸

import os
import tempfile
from PIL import Image
import comtypes.client
import fitz  # PyMuPDF库，用于PDF处理

def word_to_images(input_file, output_folder=None, dpi=300):
    """
    将Word文档转换为图片，保持原始尺寸。

    参数:
        input_file (str): Word文档路径
        output_folder (str, optional): 输出图片文件夹路径，默认为None(创建临时文件夹)
        dpi (int, optional): 图片DPI，默认为300

    返回:
        list: 生成的图片路径列表
    """
    # 创建输出文件夹
    if output_folder is None:
        output_folder = tempfile.mkdtemp()
    os.makedirs(output_folder, exist_ok=True)

    # 获取文件名(不带扩展名)
    base_name = os.path.splitext(os.path.basename(input_file))[0]

    try:
        # 第一步：将Word转换为PDF
        pdf_path = os.path.join(tempfile.gettempdir(), f"{base_name}.pdf")
        
        # 创建Word应用实例
        word = comtypes.client.CreateObject('Word.Application')
        word.Visible = False

        # 打开文档
        doc = word.Documents.Open(os.path.abspath(input_file))
        
        # 保存为PDF
        doc.SaveAs(pdf_path, FileFormat=17)  # 17代表PDF格式
        
        # 关闭文档和应用
        doc.Close()
        word.Quit()
        
        # 第二步：从PDF生成图片
        image_paths = []
        
        # 打开PDF
        pdf_document = fitz.open(pdf_path)
        
        # 处理每一页
        for page_num in range(len(pdf_document)):
            page = pdf_document.load_page(page_num)
            pix = page.get_pixmap(matrix=fitz.Matrix(dpi/72, dpi/72))  # 设置DPI
            
            # 创建图片路径
            image_path = os.path.join(output_folder, f"{base_name}_page{page_num+1}.png")
            
            # 保存图片
            pix.save(image_path)
            image_paths.append(image_path)
            print(f"已生成图片: {image_path}")
            
            # 检查图片尺寸是否为A4
            is_a4 = check_a4_size(image_path, dpi)
            size_info = "A4尺寸" if is_a4 else "非A4尺寸"
            print(f"  - 图片尺寸: {size_info}")
        
        # 关闭PDF文档
        pdf_document.close()
        
        # 删除临时PDF文件
        os.remove(pdf_path)
        
        return image_paths

    except Exception as e:
        print(f"致命错误: {str(e)}")
        # 确保清理资源
        try:
            if 'word' in locals() and word:
                word.Quit()
            if 'pdf_document' in locals() and pdf_document:
                pdf_document.close()
            # 删除可能残留的临时文件
            if os.path.exists(pdf_path):
                os.remove(pdf_path)
        except:
            pass
        return []

def check_a4_size(image_path, dpi=300, tolerance=0.02):
    """
    检查图片是否符合A4尺寸标准
    
    参数:
        image_path (str): 图片路径
        dpi (int): 图片DPI，默认为300
        tolerance (float): 容差范围，默认为0.02 (2%)
        
    返回:
        bool: 如果图片尺寸在A4标准范围内返回True，否则返回False
    """
    # A4纸的标准尺寸(mm)
    a4_width_mm = 210
    a4_height_mm = 297
    
    # 计算A4纸在指定DPI下的像素尺寸
    a4_width_px = round((a4_width_mm / 25.4) * dpi)
    a4_height_px = round((a4_height_mm / 25.4) * dpi)
    
    # 打开图片获取尺寸
    with Image.open(image_path) as img:
        width, height = img.size
    
    # 计算允许的误差范围
    width_min = a4_width_px * (1 - tolerance)
    width_max = a4_width_px * (1 + tolerance)
    height_min = a4_height_px * (1 - tolerance)
    height_max = a4_height_px * (1 + tolerance)
    
    # 检查图片尺寸是否在允许的误差范围内
    # 考虑到图片可能被旋转
    return (
        (width_min <= width <= width_max and height_min <= height <= height_max) or
        (width_min <= height <= width_max and height_min <= width <= height_max)
    )

if __name__ == "__main__":
    # 使用示例
    input_file = "Doc1.docx"  # 替换为你的Word文档路径
    output_folder = "word_images"  # 替换为你想要的输出文件夹
    dpi = 300  # 设置DPI值
    
    images = word_to_images(input_file, output_folder, dpi)
    
    if images:
        print(f"成功生成 {len(images)} 张图片")
    else:
        print("转换失败")

Maixcam使用

Antonio — Sat, 15 Mar 2025 18:44:28 +0000

Maixcam使用

注意：

模型转换时，分辨率需保持一致，若为640X640训练的模型，则后面onnx模型转换为. cvimodel模型时需要保持参数一致！！！（适用于Maixcam的分辨率参数是320X224）
遇到如下问题，先升级ONNXRuntime—pip install –upgrade onnxruntime -i https://pypi.tuna.tsinghua.edu.cn/simple

一般升级后错误消失

在文件夹里放置的图片要求：
1.是数据集集里面的
2.大小必须一致
3.边长一定是32的倍数。如果不是32的倍数，就一定不符合模型的输入张量。补救的方法是用python脚本给他填充成32的倍数也行

用于yolo11n-obb模型：

OBB是什么？——和普通的识别框相比，OBB的识别框可以随物体的姿态转动，更好地标识出物体！你运行Maixvision自带案例中的ai_vision/nn_yolo11n_obb.py试试，看看这框真帅吧！而下图是我自己训练的模型效果：

有人会问：只看Maixpy官方文档的那个YOLO11-obb部署与识别教程可以吗？——可以，但是大概率会踩不少坑。你也许会遇到识别框无法旋转、INT8模型无法转换成功、运行模型后相机卡死、导入模型失败……等一系列烦人的事。所以，请将官方文档和我这篇文章结合起来食用效果更佳。

所用开发环境是Linux ubuntu22.04。若你是在Windows也没关系，其核心思想万变不离其宗。

如有更好的提议请告诉我，谢谢！

查看相机Maixpy版本

在相机内打开设置——设备信息，查看你的MaixPy版本。MaixPy不仅有电脑pip安装的，相机内部也有自己的MaixPy。要确保MaixPy是比较新的版本。

在Maixpy的github仓库中可以看到，自4.9.3开始才支持YOLO11-OBB检测（没找到YOLOV8-OBB是什么时候，所以最好用YOLO11来进行OBB检测）。如果你需要升级相机的maixpy版本，就要准备一个读卡器，烧录教程看maixcam官方文档的即可，很详细我这里就不说了。

采集数据集

大多数人常用相机里那个Maixhub客户端来在线设备采集，然而这种设备采集的曝光时间、增益值是自动的，如果你对数据集曝光要求比较严格，那就需要自己写个拍摄的程序。

例如我编写的是下面的采集程序。启动程序后，每秒拍摄4张图片储存在相机SD卡中。你可以随意修改它的曝光，设为-1代表自动。

from maix import camera, display, app, time
import os

# 设置摄像头分辨率
cam = camera.Camera(660, 280)
disp = display.Display()

cam.skip_frames(200)# 延时，等待相机稳定

exposure=cam.exposure(value = 3000)
gain=cam.gain(value = 3300)

# 保存文件夹路径。这是关于相机内的路径，和电脑路径无关
save_folder = "/root/photo"
if not os.path.exists(save_folder):
    os.makedirs(save_folder)

# 设置拍摄频率（每秒4张）
capture_interval = 0.25# 每张图片间隔时间
last_capture_time = time.time()

while not app.need_exit():
    img = cam.read()
    disp.show(img)# 显示图片

    current_time = time.time()
    if current_time - last_capture_time >= capture_interval:
# 生成文件名
        timestamp = int(current_time * 1000)# 使用时间戳作为文件名
        file_path = os.path.join(save_folder, f"{timestamp}.jpg")

# 保存图片
        img.save(file_path)
        print(f"Saved: {file_path}")

# 更新上次拍摄时间
        last_capture_time = current_time

    time.sleep(0.01)# 稍微延迟一下，避免占用过多CPU

下载、配置yolo11训练工程

给它单独开一个conda环境，我用的python 3.10。

从https://github.com/ultralytics/ultralytics下载源码，不用选版本，直接下就行。下载好后执行 pip install -r ultralytics transformers -i https://pypi.tuna.tsinghua.edu.cn/simple。之后如果报错缺少XX包，你就pip安装什么包。另外注意pip包之间容易有版本冲突，所以不能无脑下载，而是应该提前去百度包和包、包和环境之间的版本对应关系。

准备数据集

（1）数据集文件介绍

制作好的数据集的文件夹分布是这样的：

images/train 里面放训练图片，labels/train 里面放训练txt。

images/val 里面放验证图片，labels/val 里面放验证txt。

test里面可以是空的。

（2）txt格式介绍

用上海交通大学交龙战队开源的那个就行https://github.com/xinyang-go/LabelRoboMaster，它生成的txt格式完全符合标准。标注的方法看它的readme。

关于训练图片，最好是每张图片分辨率完全一样！！虽说理论上任何大小的图片都可以用于训练。但是训练的图片最好不要有的图片width过大、有的图片hight过大，因为之后训练的时候程序会给它们填充灰边使其统一大小。

（3）整理好的数据集放在哪都行，我习惯放在Ultralytics工程目录下。

获取yolo11n-obb.pt文件

从这个链接可以下载所有的官方pt权重文件https://github.com/ultralytics/assets/releases。注意我们要的不是普通的yolo11n.pt，而是yolo11n-obb.pt ！！它俩结构不一样，只有后者用于检测旋转矩形。

使用yolo11s-obb乃至其他字母的行吗？——我的建议是一定要基于yolo11n-obb进行训练。我曾经试过 s 的，但是一开始推理相机就卡死、掉线，必须重启，说明相机内存爆了！去官网查看pt文件的大小，n 文件大小为5MB，而 s 文件19MB体量太大，其他字母的更不用说了，一个比一个大根本不能用。

必备的两个yaml（1）——路径与标签

在工程目录下创建myfile-obb.yaml，输入：

path: /home/wp/ultralytics-main/my_data# dataset root dirtrain: images/train
val: images/val
#test: images/testnames:
  0: apple

简单解释一下：train和val是相对于path路径的。有个一劳永逸、安全但麻烦的方法是都使用绝对路径，当然我上面的代码可没有这样做。

这里我只写了一个类别。你可以随意更改类别的数目、内容。

必备的两个yaml（2）——网络定义

先声明一点：这个yaml是官方的，自己不用写，我们常说的“基于yolo…”就是选择的这个yaml。

在 ultralytics/cfg/models 下，你会看到从v3到v11所有版本的yaml，里面还细分了pose、obb、普通等各种模型，这个 yolo11-obb.yaml 就是我们想要的，复制一份放在工程目录下。

一定要重命名为yolo11n-obb.yaml，刚拿出来是不带s、n……这些字母的。

内容只需要改标签类别(nc)这个数字。

网上有博主给你的，其网络结构大概率和官方的这个yaml内容一模一样，用vscode对比就能看出来。

编写训练器train.py

在工程目录下新建一个train.py，那个imgsz是缩放 / 填充预处理，如果你的图片小于这个数，就会填充黑边再训练。其余的改改路径就行：

而v8训练出来的模型识别框根本无法旋转，角度永远输出-1.0000。

可能出现的问题：明明我指定的是yolo11s的pt文件，但是训练前期非要给我下载yolo11n.pt

先说明一点——不要使用yolo11s训练。不过我们还是要解决这个问题：找到amp这个参数，将它关闭就行。在ultralytics-main官方文件中，amp参数在ultralytics/cfgdefault.yaml 中，以键值对的方式，默认为True，把它改为False就行了。

from ultralytics import YOLO

def main():
    model = YOLO('yolo11n-obb.yaml').load('/home/wp/ultralytics-main/yolo11n-obb.pt')# build from YAML and transfer weights
    model.train(data='myfile-obb.yaml', epochs=100, imgsz=416, batch=4, workers=4)
if __name__ == '__main__':
    main()

检查训练结果，获得pt模型文件

训练好之后，在 runs/obb 下就能看到检测结果了。

pt转ONNX

工程目录下新建transform.py，代码如下。

这里的 width、height 一定要设置成32的倍数。如>果你没有设置为32的倍数，程序会悄悄设置成32的倍数，之后可能不符合你的预期而浪费时间。

转换成功后，在pt文件的同目录下就生成了。

from ultralytics import YOLO

net_name = "/home/wp/ultralytics-main/runs/obb/train5/weights/best.pt"
input_width = 864# 一定是32的倍数
input_height = 288

model = YOLO(net_name)
path = model.export(format="onnx", imgsz=[input_height, input_width], dynamic=False, simplify=True, opset=17)# export the model to ONNX formatprint(path)

ONNX转mud和cvimodel

（1）确定ONNX模型的输出节点

上https://netron.app/查看ONNX文件的结构图。按ctrl+F分别搜索：/model.23/dfl/conv/Conv_output_0，/model.23/Sigmoid_1_output_0，/model.23/Sigmoid_output_0。看看有没有这三个节点，如果缺少了说明模型错了。

（2）部署并配置算能的tpu-mlir

先装好docker吧，用小鱼ROS命令装很轻松。终端输入：按照小鱼的指引一步步来就行。（Windows用其他方式安装）

wget http://fishros.com/install -O fishros && . fishros

终端执行命令 wget https://sophon-file.sophon.cn/sophon-prod-s3/drive/24/06/14/12/sophgo-tpuc_dev-v3.2_191a433358ad.tar.gz 下载它的压缩包，下载好后执行docker load -i sophgo-tpuc_dev-v3.2_191a433358ad.tar.gz 。
在home目录下新建文件夹MaixCAM，在此文件夹下打开终端，执行 docker run –privileged –name MaixCAM -v $PWD:/workspace -it sophgo/tpuc_dev:v3.2 ，创建来一个MaixCAM的容器。没问题，然后关闭终端。
前往https://github.com/sophgo/tpu-mlir/releases，下载一个tpu_mlir-1.15b0-py3-none-any.whl，下载好后将它移动到MaixCAM，在文件夹内打开终端，输入 docker start MaixCAM && docker attach MaixCAM 打开容器，执行 pip install tpu_mlir-1.15b0-py3-none-any.whl ，完成后如下图所示。（3）将你需要转换的onnx文件放到MaixCAM文件夹中，再将一些待会测试的图片放进去。这里注意，test.jpg和images文件夹里的所有图片有3点要求：1.这些图片来自于数据集。2.大小必须一致。补救的方法是用python脚本用(114,114,114)的灰色填充为大小一致。3.边长一定是32的倍数。如果不是32的倍数，就一定不符合模型的输入张量。补救的方法是用python脚本用(114,114,114)的灰色填充为32的倍数。

这里的test.jpg的作用是什么？用于程序内部预处理验证、模型测试。从数据集中选取一张与模型输入相同大小的图片即可。images里面的图像作用又是什么？你会发现这只是专为INT8的转换而传入的。因为模型从浮点类型转为int类型需要生成“校准表”，用来调整网络中各种阈值参数。这个过程可以看做小规模的数据集训练，最后得到程序所需的参数。你需要从训练集中尽可能挑选各种特色鲜明、非极端情况的图片100~1000张。详细原理看https://doc.sophgo.com/sdk-docs/v23.03.01/docs_latest_release/docs/tpu-mlir/developer_manual/html/07_calibration.html

（4）建立转换脚本

新建 .sh 脚本，命名为convert_yolo11_to_cvimodel，里面输入下面的代码。

你需要修改的是：把net_name改成模型文件名字，宽和高改成模型输入口的大小。–output_names改成你自己的模型名称。

可能出现的问题：在容器内报错：[ONNXRuntimeError] : 9 : NOT_IMPLEMENTED : Could not find an implementation for Reshape(19) node with name ‘/model.22/Reshape’

那就在容器内执行 pip install –upgrade onnxruntime -i https://pypi.tuna.tsinghua.edu.cn/simple 升级onnxruntime就行。

#!/bin/bash

set -e

net_name=my_obb
input_w=864
input_h=288

# mean: 0, 0, 0# std: 255, 255, 255# mean# 1/std# mean: 0, 0, 0# scale: 0.00392156862745098, 0.00392156862745098, 0.00392156862745098mkdir -p workspace
cd workspace

# convert to mlir
model_transform.py 
--model_name ${net_name} 
--model_def ../${net_name}.onnx 
--input_shapes [[1,3,${input_h},${input_w}]] 
--mean "0,0,0" 
--scale "0.00392156862745098,0.00392156862745098,0.00392156862745098" 
--keep_aspect_ratio 
--pixel_format rgb 
--channel_format nchw 
--output_names "/model.23/dfl/conv/Conv_output_0,/model.23/Sigmoid_1_output_0,/model.23/Sigmoid_output_0" 
--test_input ../test.jpg 
--test_result ${net_name}_top_outputs.npz 
--tolerance 0.99,0.99 
--mlir ${net_name}.mlir

# export bf16 model#   not use --quant_input, use float32 for easy coding
model_deploy.py 
--mlir ${net_name}.mlir 
--quantize BF16 
--processor cv181x 
--test_input ${net_name}_in_f32.npz 
--test_reference ${net_name}_top_outputs.npz 
--model ${net_name}_bf16.cvimodel

echo "calibrate for int8 model"
# export int8 model
run_calibration.py ${net_name}.mlir 
--dataset ../images 
--input_num 200 
-o ${net_name}_cali_table

echo "convert to int8 model"
# export int8 model#    add --quant_input, use int8 for faster processing in maix.nn.NN.forward_image
model_deploy.py 
--mlir ${net_name}.mlir 
--quantize INT8 
--quant_input 
--calibration_table ${net_name}_cali_table 
--processor cv181x 
--test_input ${net_name}_in_f32.npz 
--test_reference ${net_name}_top_outputs.npz 
--tolerance 0.9,0.6 
--model ${net_name}_int8.cvimodel

（5）生成cvimodel文件，制作mud文件

在容器中执行 chmod +x convert_yolo11_to_cvimodel.sh && ./convert_yolo11_to_cvimodel.sh 命令。如果没问题的话，在 workspace 就能生成cvimodel文件。

有2种精度，选一种拷贝一份出来（更推荐使用INT8，虽然精度低，但是非常快），改名为my_model.cvimodel，再新建my_mud.mud文件，内容如下，改一下模型名称，改一下标签。

[basic]
type = cvimodel
model = my_model.cvimodel

[extra]
model_type = yolo11
input_type = rgb
mean = 0, 0, 0
scale = 0.00392156862745098, 0.00392156862745098, 0.00392156862745098
labels = apple

很容易报如下图的错：这是因为文件夹中放置的用于INT8转换的图片不符合上述的3点要求，所以你再仔细检查检查。然而此时精度bf16的cvimodel文件已经输出了，你要是不用INT8，就可以不理会这个报错。

（6）模型导入MaixCAM，打包为软件

打开Maixvision，将相机连接。在文件管理器内，新建my_project文件夹，将cvimodel和mud文件同时导入。

在电脑上新建test.py输入下面的代码，Maixvision打开该文件然后运行。

from maix import camera, display, image, nn, app

detector = nn.YOLO11(model="/root/my_project/my_mud.mud", dual_buff = True)

cam = camera.Camera(detector.input_width(), detector.input_height(), detector.input_format())
disp = display.Display()

while not app.need_exit():
    img = cam.read()
    objs = detector.detect(img, conf_th = 0.7, iou_th = 0.65)# 阈值for obj in objs:

        points = obj.get_obb_points()
        msg = f'{detector.labels[obj.class_id]}: {obj.score:.2f}, {obj.angle * 180:.1f}'
        img.draw_string(points[0], points[1] - 4, msg, color = image.COLOR_RED)
        detector.draw_pose(img, points, 8 if detector.input_width() > 480 else 4, image.COLOR_RED, close=True)
# 打印识别框的信息print(obj)
    disp.show(img)

如果报错“’maix._maix.nn.Object’ object has no attribute ‘get_obb_points’”未找到get_obb_points这个函数，说明你相机内部的MaixPy版本低于4.9.3，一定要升级。

WEB服务器、图床、FRP内穿——大成！

Antonio — Wed, 12 Mar 2025 20:02:29 +0000

历经两天，终于完成了WEB服务器应用，它终究成为了我满意的样子。

时间线

Orangepi zero2W wordpress部署，感慨加载速度极慢——弃用
原内网穿透方案不适用，花生壳不让白嫖了，开始在免费方案的域名访问界面加入跳转广告了，等待10s极慢——弃用
从香橙派迁移Wordpress至NAS中
- 部分备份、迁移插件真不好用哈，还收费，推荐——WPvivid备份插件
寻找内网穿透替代方案
- 购买阿里云轻量级服务器（68一年！）
- 选择宝塔实例，安装FRP服务（FRPS服务端）——内网穿透方案
- NAS安装mysql（Docker）
- NAS部署FRPC客户端（Docker）
- 实现NAS IP内网穿透
思考良久，还是直接在云服务器部署Wordpress更方便，宝塔一键部署Wordpress！
将已经购买一直未使用的域名进行ICP备案（不到12小时就完成了，工信部好评！）
WordPress媒体库一般，图片不好管理，于是——开干！
- NAS上装了一个chevereto图床，上传壁纸、图片
- NAS内穿后的访问效率还是有点低，给的公网服务器带宽不太够
- 算了，云服务也装一个吧
- 提示：chevereto图床上传最大2M——更改php.ini可以设置上传文件最大内存
主题不好看？推荐Argon，美化一下效果旧很OK了，没那么多花里胡哨的东西。

准备进行网站公安局备案…（待进行） 2025/3/13

小插曲：

插曲虽小，耗时不少。（差不多一半时间花这儿了）

偶然看到Hexo方案的开源主题精美（shokax二次元），遂考虑替换Wordpress方案，结果就是一系列bug，修bug。（吐槽一句，npm真难用，比apt、pnmp、yarn等包管理器难用多了）

终于完成的时候，发现shokax不太适合我这类懒人，很多功能、CCS效果等都需要自己改代码！

于是——弃用！

Openmediavault-树莓派4B

Antonio — Fri, 06 Dec 2024 15:04:18 +0000

树莓派4B NAS Jellyfin

不要让你的树莓派吃灰啦，搭一个简易NAS、文件服务器，让你的文件处理更加丝滑吧！

——————————————————————————————————

基于树莓派stable lite系统搭建的OMV系统：

家庭多媒体影院 Jellyfin：

SMB文件服务器：

手机端可直接下载CX文件处理器通过SMB协议访问
PC端可直接通过windows文件管理器网络访问

\\主机名.域名\共享文件夹名\
\\IP地址\共享文件夹名\

Markdown！

Antonio — Sat, 21 Sep 2024 19:55:34 +0000

不到10个语法，让你的爱上写笔记

参考：Markdown 基本语法 | Markdown 官方教程

# Markdown语法指南

## 标题
使用 # 符号，后跟空格：
# 一级标题
## 二级标题
### 三级标题

也可以使用 = 或 - 来创建一级和二级标题：
一级标题
=========
二级标题
---------

## 段落和换行
段落之间空一行。
行末加两个空格
实现换行。

## 强调
*斜体* 或 _斜体_
**粗体** 或 __粗体__
***粗斜体*** 或 ___粗斜体___

## 引用
> 这是一个引用
>> 这是嵌套引用

> - 引用中的列表项

## 列表
无序列表：
- 项目1
- 项目2
  - 子项目2.1
  - 子项目2.2

有序列表：
1. 第一项
2. 第二项
   1. 子项2.1
   2. 子项2.2

## 代码
行内代码：`code`

代码块：
```python
def hello_world():
    print("Hello, World!")

RTOS（计划中）

Antonio — Sun, 25 Aug 2024 13:59:51 +0000

实时操作系统：

概念：进程、线程、栈、堆、信号量、互斥量、互斥锁

RT-Thread

1.移植流程：

下载RT-Thread源码
…

2.常用函数

一些常用算法（LeetCode.面）

Antonio — Sat, 17 Aug 2024 15:12:35 +0000

罗列一些常用算法（不定期更新）：

双指针-快慢指针
摩尔投票算法

1.双指针-快慢指针

// 时间复杂度：O(n)
// 空间复杂度：O(1)
class Solution {
public:
int removeElement(vector& nums, int val) {
int slowIndex = 0;
for (int fastIndex = 0; fastIndex < nums.size(); fastIndex++) {
if (val != nums[fastIndex]) {
nums[slowIndex++] = nums[fastIndex];
 }
 }
return slowIndex;
 }
};

2.摩尔投票算法（求众数）

// 摩尔投票算法
int majorityElement(int* nums, int numsSize) {
    int count = 0;
    int candidate = 0;

    for (int i = 0; i < numsSize; i++) {
        if (count == 0) {
            candidate = nums[i];
        }
        count += (nums[i] == candidate) ? 1 : -1;
    }
    return candidate;
}

XIAOMI10S搭配Google Camera拍摄

Antonio — Sun, 04 Aug 2024 11:27:21 +0000

使用几年前的手机搭配谷歌相机的算法拍出来的效果依旧惊人：