普通人如何指挥 AI 干活:从图片中提取图形与数学公式(实战示例)

通过一个真实案例,演示普通人如何在 Codex 中指挥 AI 完成公式识别、LaTeX 转换与图形裁剪关联,并总结实操中的效果与问题。

前提条件

安装 VS Code,并安装 Codex 插件,可参考 VS Code Codex使用的文章。
使用这些工具并不要求你有编程经验。VS Code 在这里主要用于组织文件;你只需提出需求,AI 就会自动编写程序并执行。
本文记录完整操作过程,目的是抛砖引玉,探索更多 AI 的实用方法,让更多普通人受益。

任务目标

准备一张同时包含数学公式和示意图形的图片:

我们希望实现三件事:

  1. 将图形切分成干净的小图。
  2. 识别公式并转换为 LaTeX,便于后续修改。
  3. 将图形与对应公式建立关联。

过程

  1. 先识别图片,生成 Markdown 文档,并将公式转换为 LaTeX

转换结果:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
# 1.png 识别结果

## 几何公式(LaTeX)

1. 三角形面积(边长与外接圆半径):

$$
S = \frac{abc}{4R}
$$

2. 三角形面积(内切圆半径与半周长):

$$
S = pr
$$

3. 圆台体积:

$$
V = \frac{\pi\left(r^2 + Rr + R^2\right)h}{3}
$$

4. 圆台侧面积:

$$
S = \pi a(R + r)
$$

5. 圆柱体积:

$$
V = \pi r^2 h
$$

6. 圆柱侧面积:

$$
S = 2\pi rh
$$

7. 球体积:

$$
V = \frac{4}{3}\pi R^3
$$

8. 球表面积:

$$
S = 4\pi R^2
$$

9. 正弦定理:

$$
\frac{a}{\sin A}=\frac{b}{\sin B}=\frac{c}{\sin C}=2R
$$

10. 余弦定理:

$$
a^2=b^2+c^2-2bc\cos A
$$

$$
b^2=a^2+c^2-2ac\cos B
$$

$$
c^2=a^2+b^2-2ab\cos C
$$

公式都被识别出来了,AI 还自动补充了公式名称,效果很好;但此时还没有完成小图裁剪。

  1. 尝试让 AI 裁剪图片
 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
# 1.png 识别结果(图文并排,精修裁图)

<table>
  <tr>
    <td><img src="crops/01_triangle_circum.png" width="220" /></td>
    <td>

$$
S = \frac{abc}{4R}
$$

</td>
  </tr>
  <tr>
    <td><img src="crops/02_triangle_incircle.png" width="220" /></td>
    <td>

$$
S = pr
$$

</td>
  </tr>
  <tr>
    <td><img src="crops/03_frustum.png" width="220" /></td>
    <td>

$$
V = \frac{\pi\left(r^2 + Rr + R^2\right)h}{3}
$$

$$
S = \pi a(R + r)
$$

</td>
  </tr>
  <tr>
    <td><img src="crops/04_cylinder.png" width="220" /></td>
    <td>

$$
V = \pi r^2 h
$$

$$
S = 2\pi rh
$$

</td>
  </tr>
  <tr>
    <td><img src="crops/05_sphere.png" width="220" /></td>
    <td>

$$
V = \frac{4}{3}\pi R^3
$$

$$
S = 4\pi R^2
$$

</td>
  </tr>
  <tr>
    <td><img src="crops/06_laws.png" width="220" /></td>
    <td>

$$
\frac{a}{\sin A}=\frac{b}{\sin B}=\frac{c}{\sin C}=2R
$$

$$
a^2=b^2+c^2-2bc\cos A
$$

$$
b^2=a^2+c^2-2ac\cos B
$$

$$
c^2=a^2+b^2-2ab\cos C
$$

</td>
  </tr>
</table>

结果: 图片已经裁剪并放到了对应位置,但仍有干扰区域,裁剪边缘不够干净。

  1. 修正“裁切过度”问题:先尽量保留完整图形,再手工去除多余部分
    这一步的效果还不稳定,目前不确定是提示词问题,还是模型在视觉定位上的波动。

总结

使用 Codex 和直接在 chatgpt.com 对话,体验明显不同。
在 chatgpt.com 中,更像是 AI 在指导你完成工作;而在 Codex 中,更像是 AI 按照你的要求去执行工作。
当你提出需求后,AI 会生成程序、运行程序并完成任务,你会更明显地感受到“自己在指挥 AI 干活”。
整个流程对编程基础要求并不高,普通人也可以逐步上手并产出成果。

记录并分享
使用 Hugo 构建
主题 StackJimmy 设计