目錄
Toggle今天我決定試一件以前不會做的事:純用說話寫文章,而不是打字
這是我第一篇幾乎完全靠語音完成的電子報。( 我會說幾乎,因為有些字仍要打出來)
不是比喻。你現在讀到的這些字,最早都是我對著麥克風講出來的。廣東話夾英文,很口語,有時講到一半停一停,有時繞了一圈才回到重點。之後再轉成文字、整理、後製,才變成你眼前這篇文章。
我也不知道這個實驗最後會走到哪裡。
但今天是第一天。我想先把第一天的狀態記下來:我做了什麼、我在想什麼、還有哪些問題我其實還沒搞清楚。你如果也對這套做法有興趣,這封信裡我會把目前跑得動的版本直接給你,包含工具、資料夾結構,還有我在用的提示詞。你可以照著試。
為什麼是今天?
因為前幾天我剛好看到 Guri Singh 第一篇文章講 voice-first writing。
我第一個反應其實不是「哇,這就是未來」,而是「這好像有點有趣,但應該不會是我會用的東西吧」。
我平常一直都會跟別人說:想 prompt、想點子、卡思路的時候,與其慢慢打字,不如直接講出來。講話比較快,也比較不容易被自己打斷。但老實說,我以前真的沒想過,連整個寫作流程都可以搬去語音上。
看完那篇文章後,我沒有再想太久。我就直接試了。
沒有「等研究清楚」。
沒有「下星期有空再弄」。
是今天。
這幾年我越來越相信一件事:很多有用的系統,不是先規劃到很完整才開始,而是先跑起來,再修。
第一天,我到底做了什麼?
我只用了兩個工具。刻意保持簡單。
第一個是 VoiceDash。
它表面上是語音轉文字,但對我真正有用的地方,不是「能轉」,而是「轉得像我平常在說話」。我平常講話不是純粵語,也不是純國語,更不是完整書面語。就是香港人那種自然混合版:廣東話底,加一點中文書面語,再夾幾個英文詞。
iPhone 原生內建語音輸入不是不能用,但它有個問題:你要講得夠書面,它才會轉得比較準。這件事對我來說很不自然。等於我一邊說話,一邊還要負責把自己翻譯成機器聽得懂的版本。那個負擔其實很重。
VoiceDash 比較像是:你照平常方式講,它幫你收拾。
這件事對我來說差很多。
剛好最近 Voicedash 有終身買斷方案。我就直接買了。沒有想太久。(其他替代: Super Whisper , Typeless )
第二個工具是 Openclaw (ChatGPT也可)。
因為語音轉成文字只是前半段。真正決定這東西能不能用的,是後半段的整理。
我把自己以前幾篇文章丟進 Openclaw,叫它分析我的寫法。不是叫它稱讚我寫得怎樣,而是拆解我到底平常怎麼寫:我句子長短怎麼配、我喜歡怎樣起承轉合、我常用哪些詞,甚至我習慣怎樣把抽象概念講得比較像人話。
然後我把那份分析存成一個檔案:voice.md。
你可以把它想像成一份「我平常怎麼寫字」的說明書。之後 AI 在整理我的語音稿時,不是單純幫我修順,而是盡量照著我的語氣來整理。
就這樣:兩個工具,一個上午,先把第一版跑起來。
三個我現在還沒有答案的問題
我覺得做系統最真實的時刻,不是你很有把握的時候,而是你明明覺得它可能有用,但又知道自己其實還沒驗證完。
我現在就卡在這個狀態。
第一個問題是:語音真的會讓我表達得更多嗎?
這是我最期待的地方。
因為打字的時候,人其實很容易只寫出「自己想得到的字」,而不是「自己真正想講的東西」。有些意思你心裡知道,但你一時想不到那個詞,或不知道怎樣寫得夠準,你就很容易直接跳過。
例如有時腦裡明明想的是「畫蛇添足」那種感覺,但你一時忘了這個成語,你就要額外花力氣繞一大圈去描述。很多細節就是在這種時候不見的。
語音寫作背後有一個吸引我的假設:人用嘴巴講的時候,通常比用手打的時候更直接,也更少自我審查。你先把整個意思講出來,哪怕它有點亂,之後再交給 AI 幫你整理。
這件事聽起來合理,但到底是不是這樣,我還要再多用幾次才知道。
第二個問題是:語音和打字,到底是要二選一,還是應該一起用?
我這一刻的答案是應該混合一起用的。
因為打字不只是輸入工具,它本身其實也是一種思考方式。你在打字時,會被迫把腦裡模糊的東西壓縮成一句一句更清楚的文字。那種過程本身,就會讓想法變得更清。
所以我會想:如果我以後太依賴語音,會不會少了那一段思考清楚的過程?
還是更合理的做法其實是分工?
例如語音拿來發散,先把原始想法講出來。打字拿來收斂,把結構和判斷補回去。
我現在比較傾向後者,但老實說,這種事不是一天能知道的。要跑幾星期,甚至幾十篇內容,才看得出來。
第三個問題是:多加一個工具,到底是省時間,還是只是多一層麻煩?
這個問題很俗氣,但也最重要。
因為每次你加一個新工具,不只是在加功能,也是在加維護成本。VoiceDash 要用熟。Obsidian 的 Inbox 要設。Shortcut 要調。OpenClaw 要接。之後工具一更新,介面一改,原本順的流程可能又要修。
那些麻煩都不是以後才出現,是你今天就要付出的。
所以我一直在提醒自己:不要只看理想中的效率提升,也要看自己願不願意長期養這套東西。
目前我的答案是:值得試。
不是因為我已經確定它會替我省很多時間,而是因為它至少值得我給它幾星期,看看它到底能不能變成真的習慣。三個月後再回頭看,答案可能完全不一樣。
如果你也想試:這是我目前整理出來最簡單的版本
第一步:找一個你願意天天打開的語音輸入工具
要求不用太多,但有幾個點最好先測清楚:
它要支援你平常真的會說的語言。尤其你如果像我一樣,講話本來就會混語言,那準確度很重要。
它最好能自動清掉一些口語雜訊。像是「嗯」、「那個」、「就是說」這些。如果每次都要自己手動清,久了很煩。
還有一點很實際:最好能即時轉。不要每次都等很久,不然你會懶得用。
我現在用的是 VoiceDash,Mac 跟 iPhone 都能配合。你如果平常主要說國語,iPhone 內建語音輸入其實也可以先用,不一定一開始就要買工具。
第二步:先把你的工作目錄搭好
我現在在 Obsidian 裡是這樣放的:
~/Brain/
├── Inbox/
├── voice.md
└── Output/
├── Articles/
├── Ideas/
├── Tasks/
└── Threads/
Inbox 很單純,就是全部原始語音稿先丟進來,不分類,不加工,先儲口錄檔。
voice.md 是你的風格檔案。這個東西我反而覺得很關鍵。因為很多人不是沒有內容,而是 AI 一整理完就整篇變得不像自己。它的建立方式不難。
把你過去寫過的 5 到 10 篇文章,或幾篇你覺得最像自己的貼文,丟進 ChatGPT,讓它分析你的語氣、句型、常用詞、結構習慣,還有思考方式。
我當時用的提示大概是這樣:
你是一位專業的寫作風格分析師。
請分析以下我寫的文章,提煉出:
- 我的語氣和語調特徵
- 我常用的句式結構
- 我慣用的詞彙和表達方式
- 我的文章結構傾向
- 我的思維模式
最後請輸出一份「個人寫作風格說明書」,讓另一個 AI 可以根據這份說明書,把我的口語錄音整理成符合我風格的書面文章。
以下是我的文章:
[貼上文章]
產出的結果不用太完美,但要夠像你。存成 voice.md 就可以了。
第三步:做一個 Dispatcher,把原始稿送去正確地方
這一步是整個系統真正開始的地方。
因為你不只是在把語音轉成文字,而是在把一段原始輸入,自動判斷它到底是文章、靈感、待辦,還是社群貼文,然後再照你的風格整理。
我現在用的提示詞是這樣:
你是我的個人寫作助手。
我的寫作風格詳見 voice.md(已附上)。
你的任務:
- 閱讀以下原始語音逐字稿
- 判斷這段內容屬於哪個類型:
- Article(文章/電子報)
- Ideas(靈感/想法)
- Tasks(待辦事項)
- Threads(社媒貼文)
- 根據類型,用我的個人風格後製這段文字:
- 去除口語贅詞
- 補充邏輯連接
- 保留我的原始意圖和語氣
- 輸出書面語繁體中文
- 最後說明你把它分類到哪個 Output 資料夾,以及理由
原始語音稿:
[貼上你的 Inbox 內容]
自動化版本(進階):
如果你用 OpenClaw 或其他自動化工具,可以設定每天定時掃描 Inbox 資料夾,自動執行 Dispatcher 流程,處理完後清空 Inbox。
你現在先手動跑也可以。之後如果你習慣了,再考慮接自動化。
我現在是怎樣的?
先給你看我今天真的在用的版本,不是理想版,是現在能跑的版本。
電腦端:我用 VoiceDash 開錄音,講完之後直接轉譯,然後把文字貼進 Obsidian 的 Inbox。
iPhone 端:我用 Shortcut 一鍵開新筆記,直接丟到 Inbox,再開始錄。
後製端:OpenClaw 去掃 Obsidian,看看 Inbox 有沒有新的原始稿。有的話就跑 Dispatcher,分類、整理、輸出。做完之後再把 Inbox 清空。
整套流程目前就是這樣。
我講 → 系統接受 → AI 整理 → 我最後看成品
它還沒有完美到讓我想跟所有人說「這就是答案」,但至少已經不是紙上談兵。
如果你也想做這個實驗
我現在真的不知道,三個月後我還會不會繼續用語音寫作。
有可能我最後發現:我還是喜歡打字。因為打字比較像思考。
也有可能我發現:語音真的讓我多產很多,而且比較不容易卡住。
更可能的情況是:兩種方式都留下來,只是各自負責不同階段。
但至少今天,我不想再停在想像裡。
我想先做,再看。
所以如果你最近也在想:自己能不能少一點內耗,少一點打開空白文件卻發呆的時間,也許你可以試一次。你不用一次把所有自動化都架好。先找個順手的語音工具,把第一段話講出來,再慢慢補後面的系統。
第一天真正重要的,從來不是流程有多完整,而是你有沒有開始記錄自己的真實聲音。
如果你也試了,或者你已經在某個地方卡住了,回信告訴我。
我也想知道,你的第一個阻力會出現在哪裡。
Isaac
這篇電子報用 VoiceDash 和 OpenClaw 完成。從錄音到後製再到校對,今天大概花了 45 分鐘。 ( 其實,大概30分鐘已經完成了。不過,因為我要將整個流程再具體地變成一個可以跟大家分享到的步驟,所以又要再試一次、再收拾一些東西,時間才花久了。如果純寫的話,其實真的不用太久,30分鐘已經可以完成)



