Tôi đã thử chạy inference nội bộ trên iPhone để tóm tắt nội dung họp. Sử dụng Whisper (model nhỏ) cho chuyển giọng nói, và các LLM đã quantize (≤2‑3 tỷ tham số) chuyển sang CoreML để tăng tốc. Kết quả: chạy offline, tốc độ ổn, nhưng tiêu thụ pin cao, cần giới hạn tần suất inference. Các mô hình nhỏ cho summarization trên di động là lựa chọn tốt. #LLM #iOS #LocalAI #Offline #Privacy #TríTuệNhânTạo #iPhone #TómTắtCuộcHọp
https://www.reddit.com/r/LocalLLaMA/comments/1qmutct/anyone_running_local_ll