經驗分享

有視覺能力的GPT-4，拿來做筆記效果如何？

先講結論：

對於表格辨識和轉換的效果蠻不錯的，但目前的反應速度仍然慢到很影響體驗

背景

不知道大家是否有遇過這樣的情況——
「台上講者的簡報內容非常豐富，但是沒有足夠時間紀錄下來」

於是便拿著自己的手機拍下來，但其實之後再重新看的機會也不高
然後這些照片就變成所謂的「數位廢棄物」佔用著我們手機的空間

而要重新把這樣有結構的內容，轉換成適合筆記的格式一直以來也都是一件不容易的事情
許多相關的應用光是要把這樣的文字提取出來就已經十分吃力了
不過最近更新有了視覺能力的GPT-4可以把這個做的更好嗎？

剛好最近上的一門課就遇到了這樣的表格內容(如圖)

於是就拿它來試看看好了，以下是我下的指令

請你幫我把這個表格中的資訊提取出來，用Markdown表格的方式呈現。
然後整理這個頁面的重點和關鍵字

以下是ChatGPT整理成Markdown輸出的表格：

I/S	2022/1-12	%	註解
1. 營業收入	100	100%	(1)P1Q1+…+PnQn - (2)退貨退款
2. 營業成本	80	80%	營業成本 : 進貨+材料+直接人工
營業毛利	20	20%	毛利率 : (1)進貨降價 (2)提升overhead
3. 營業費用	40	40%	費用成本 : 行銷+管理+研發+攤提
本業淨利(損)	(20)	(20%)	本業淨利損計算
4. 營業外收支	20	20%	事非營業之收支或資產 : 並註明金額CF
資產剩餘利(損)	0	0%
所得稅	0	0%
所得稅後利(損)	0	0%
EBITDA			Earning before interest, tax, depreciation and amortization

對照一下原始的內容，可以發現在一些註解的地方還是有少數的錯誤
不過在表格的格式上卻是完全正確的，算是滿令人驚艷的

最後就是關於它反應速度的部分
在剛上傳圖片後大概會有5～10秒沒有輸出，之後的輸出速度大概每個字會花差不多1秒左右
以這邊的表格來說大概就需要2～3分鐘了，算是目前用起來體驗比較不好的地方吧