普通人如何指揮 AI 幹活:從圖片中提取圖形與數學公式(實戰示例)

透過一個真實案例,示範普通人如何在 Codex 中指揮 AI 完成公式識別、LaTeX 轉換與圖形裁切關聯,並總結實作中的效果與問題。

前提條件

安裝 VS Code,並安裝 Codex 外掛,可參考 這篇文章
使用這些工具並不要求你有程式設計經驗。VS Code 在這裡主要用於整理檔案;你只需提出需求,AI 就會自動編寫程式並執行。
本文記錄完整操作過程,目的是拋磚引玉,探索更多 AI 的實用方法,讓更多普通人受益。

任務目標

準備一張同時包含數學公式與示意圖形的圖片:

我們希望實現三件事:

  1. 將圖形切分成乾淨的小圖。
  2. 識別公式並轉換為 LaTeX,方便後續修改。
  3. 將圖形與對應公式建立關聯。

過程

  1. 先識別圖片,生成 Markdown 文件,並將公式轉換為 LaTeX

轉換結果:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
# 1.png 識別結果

## 幾何公式(LaTeX)

1. 三角形面積(邊長與外接圓半徑):

$$
S = \frac{abc}{4R}
$$

2. 三角形面積(內切圓半徑與半周長):

$$
S = pr
$$

3. 圓台體積:

$$
V = \frac{\pi\left(r^2 + Rr + R^2\right)h}{3}
$$

4. 圓台側面積:

$$
S = \pi a(R + r)
$$

5. 圓柱體積:

$$
V = \pi r^2 h
$$

6. 圓柱側面積:

$$
S = 2\pi rh
$$

7. 球體積:

$$
V = \frac{4}{3}\pi R^3
$$

8. 球表面積:

$$
S = 4\pi R^2
$$

9. 正弦定理:

$$
\frac{a}{\sin A}=\frac{b}{\sin B}=\frac{c}{\sin C}=2R
$$

10. 餘弦定理:

$$
a^2=b^2+c^2-2bc\cos A
$$

$$
b^2=a^2+c^2-2ac\cos B
$$

$$
c^2=a^2+b^2-2ab\cos C
$$

公式都被識別出來了,AI 還自動補充了公式名稱,效果很好;但此時還沒有完成小圖裁剪。

  1. 嘗試讓 AI 裁剪圖片
 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
# 1.png 識別結果(圖文並排,精修裁圖)

<table>
  <tr>
    <td><img src="crops/01_triangle_circum.png" width="220" /></td>
    <td>

$$
S = \frac{abc}{4R}
$$

</td>
  </tr>
  <tr>
    <td><img src="crops/02_triangle_incircle.png" width="220" /></td>
    <td>

$$
S = pr
$$

</td>
  </tr>
  <tr>
    <td><img src="crops/03_frustum.png" width="220" /></td>
    <td>

$$
V = \frac{\pi\left(r^2 + Rr + R^2\right)h}{3}
$$

$$
S = \pi a(R + r)
$$

</td>
  </tr>
  <tr>
    <td><img src="crops/04_cylinder.png" width="220" /></td>
    <td>

$$
V = \pi r^2 h
$$

$$
S = 2\pi rh
$$

</td>
  </tr>
  <tr>
    <td><img src="crops/05_sphere.png" width="220" /></td>
    <td>

$$
V = \frac{4}{3}\pi R^3
$$

$$
S = 4\pi R^2
$$

</td>
  </tr>
  <tr>
    <td><img src="crops/06_laws.png" width="220" /></td>
    <td>

$$
\frac{a}{\sin A}=\frac{b}{\sin B}=\frac{c}{\sin C}=2R
$$

$$
a^2=b^2+c^2-2bc\cos A
$$

$$
b^2=a^2+c^2-2ac\cos B
$$

$$
c^2=a^2+b^2-2ab\cos C
$$

</td>
  </tr>
</table>

結果: 圖片已經裁剪並放到了對應位置,但仍有干擾區域,裁剪邊緣不夠乾淨。

  1. 修正「裁切過度」問題:先盡量保留完整圖形,再手工去除多餘部分
    這一步的效果還不穩定,目前不確定是提示詞問題,還是模型在視覺定位上的波動。

總結

使用 Codex 和直接在 chatgpt.com 對話,體驗明顯不同。
在 chatgpt.com 中,更像是 AI 在引導你完成工作;而在 Codex 中,更像是 AI 按照你的要求去執行工作。
當你提出需求後,AI 會生成程式、執行程式並完成任務,你會更明顯地感受到「自己在指揮 AI 幹活」。
整個流程對程式設計基礎要求並不高,普通人也可以逐步上手並產出成果。

记录并分享
使用 Hugo 建立
主題 StackJimmy 設計