先講結論:

對於表格辨識和轉換的效果蠻不錯的,但目前的反應速度仍然慢到很影響體驗

背景

不知道大家是否有遇過這樣的情況——
「台上講者的簡報內容非常豐富,但是沒有足夠時間紀錄下來」

於是便拿著自己的手機拍下來,但其實之後再重新看的機會也不高
然後這些照片就變成所謂的「數位廢棄物」佔用著我們手機的空間

而要重新把這樣有結構的內容,轉換成適合筆記的格式一直以來也都是一件不容易的事情
許多相關的應用光是要把這樣的文字提取出來就已經十分吃力了
不過最近更新有了視覺能力的GPT-4可以把這個做的更好嗎?

測試內容

剛好最近上的一門課就遇到了這樣的表格內容(如圖)

於是就拿它來試看看好了,以下是我下的指令

請你幫我把這個表格中的資訊提取出來,用Markdown表格的方式呈現。
然後整理這個頁面的重點和關鍵字

以下是ChatGPT整理成Markdown輸出的表格:

I/S 2022/1-12 % 註解
1. 營業收入 100 100% (1)P1Q1+…+PnQn - (2)退貨退款
2. 營業成本 80 80% 營業成本 : 進貨+材料+直接人工
營業毛利 20 20% 毛利率 : (1)進貨降價 (2)提升overhead
3. 營業費用 40 40% 費用成本 : 行銷+管理+研發+攤提
本業淨利(損) (20) (20%) 本業淨利損計算
4. 營業外收支 20 20% 事非營業之收支或資產 : 並註明金額CF
資產剩餘利(損) 0 0%
所得稅 0 0%
所得稅後利(損) 0 0%
EBITDA Earning before interest, tax, depreciation and amortization

對照一下原始的內容,可以發現在一些註解的地方還是有少數的錯誤
不過在表格的格式上卻是完全正確的,算是滿令人驚艷的

最後就是關於它反應速度的部分
在剛上傳圖片後大概會有5~10秒沒有輸出,之後的輸出速度大概每個字會花差不多1秒左右
以這邊的表格來說大概就需要2~3分鐘了,算是目前用起來體驗比較不好的地方吧

結論

目前GPT-4的視覺能力還只有開放在網頁版上
等到它之後開放API,應該也會有非常多有意思的東西可以期待了