讓LLM看網路文章

在使用各種大型語言模型(LLM)的時候
偶爾會需要透過額外的網路上的資訊來輔助任務的進行

通常用的這幾種方式其實都各有缺點:

  1. 使用有內建幫忙寫好爬蟲閱讀的工具➡️不是每一款工具都有,而且也比較難自己調整
  2. 直接整個網頁原始碼丟進去➡️很容易就花費了太大量的token,導致任務重點被模糊掉
  3. 自己寫對應的爬蟲➡️開發週期很長

Reader API

現在這款名為 Reader API 的工具
就是專門來解決這個問題的

它透過內建的爬蟲與AI解析工具
來將原始碼中的內容轉換成適合LLM使用的文字

如此一來,LLM再去做後續的處理的時候就變得更加輕鬆準確了

目前它是完全免費的
有興趣的都可以去試看看!

應用連結
🔗 https://jina.ai/reader

Reader API 使用方式

而且它的 API 使用方式也很簡單
將目標網頁的網址放入 https://r.jina.ai/後即可

舉例來所
目標網站如果是https://udn.com/news/story/6809/7898221

直接訪問

https://r.jina.ai/https://udn.com/news/story/6809/7898221

demo效果

左邊:網頁原始碼
右邊:抓出來的文字(markdown格式)