人工智慧如何改寫資料科學家的日常工作

從消除低價值任務到加速高影響力項目，人工智慧正在重塑資料科學工作流程。

在我之前的文章中，我探討並比較了幾種人工智慧工具，例如Google的資料科學代理， ChatGPT vs. Claude vs. Gemini 對於數據科學和深尋V3諸如此類。然而，這只是所有可用人工智慧工具的一小部分。數據科學例如，我在工作中使用的一些工具包括：

開放人工智能API我用它來對客戶回饋進行分類和總結，並找出產品中的不足之處。
ChatGPT 和 雙子座他們會幫我起草 Slack 訊息和電子郵件、撰寫分析報告，甚至進行績效評估。
收集人工智能Glean AI 用於快速尋找文件和內部溝通中的答案。
光標和 副駕駛: 我喜歡只需按 Tab-Tab 鍵即可自動補全程式碼和註解。
十六進制魔法我在工作中使用 Hex 進行協作帳簿管理。它還提供了一個名為“ 十六進制魔法使用對話式人工智慧編寫程式碼並修復錯誤。
雪花皮層Cortex AI 使用戶能夠呼叫 Llm 端點、建置 RAG 以及使用來自 Snowflake 的資料執行文字到 SQL 的轉換服務。

我相信你也可以把Plus也加到這個清單裡，而且每天都有新的AI工具發布。現在幾乎不可能列出一份完整的清單。所以，在本文中，我想退一步，聚焦一個更宏大的問題： 身為資料專業人員，我們真正需要什麼？人工智慧又能如何提供協助？؟

在下面的章節中，我將重點放在兩個主要方向上——消除低價值任務和加速高價值工作。

1. 取消低價值任務

我成為資料科學家，因為我真心喜歡從複雜的資料中挖掘商業洞察，並以此做出明智的商業決策。然而，在這個領域工作七年多後，我不得不承認，並非所有工作都像我當初期望的那樣令人興奮。在進行高階分析或建立機器學習模型之前，我們每天都會遇到許多不可避免的低價值工作流程——在許多情況下，這是因為我們缺乏合適的工具來賦能利益相關者，讓他們能夠自助式地進行分析。讓我們來看看我們目前的處境以及理想的情況：

現況：我們從事資料解讀和把關工作（有時也被稱為「SQL猴子」）。

簡單的資料檢索請求 她每週都會在 Slack 上問我和我的團隊：“上個月的商品交易總額 (GMV) 是多少？”“你能提供一份符合這些條件的客戶名單嗎？”“你能幫我把這個數字填到我明天要做的演示文稿裡嗎？”
商業智慧 (BI) 工具對自助服務用例的支援並不理想。我們採用了 Looker 和 Tableau 等商業智慧工具，讓利害關係人能夠輕鬆瀏覽資料並監控指標。但現實情況是，簡潔性和自助服務之間總是存在著權衡。有時，我們會用少量指標來建立易於理解的儀表板，但這些儀表板只能滿足有限的使用情境。同時，如果我們使工具高度可自訂，允許使用者自由探索指標和底層數據，利害關係人可能會覺得工具難以理解，缺乏使用信心，最糟糕的情況下，數據可能會被誤解和錯誤呈現。
文件很少或年代久遠。這種情況很常見，但其根源可能有很多——或許是我們行動過快，過於注重結果，又或許是缺乏完善的資料文檔或治理政策。結果，對於資料團隊以外的人員來說，先驗知識就成了使用資料的瓶頸。

理想情況：賦予利害關係人自助服務的能力，從而減少低價值工作。

利害關係人可以輕鬆自信地執行簡單的資料提取並回答基本資料問題。
數據團隊花費在準備定期報告或基本一次性查詢上的時間更少。
無需直接幫助，即可發現、理解和操作這些儀錶板。

那麼，為了更接近理想狀態，人工智慧可以發揮什麼作用呢？據我觀察，人工智慧工具目前正朝著以下幾個方向努力，以彌補差距：

使用自然語言查詢資料（文字轉SQL）降低技術門檻的一種方法是讓利害關係人能夠用自然語言查詢資料。目前業界有很多文字轉SQL的專案正在進行中。
- 例如，雪花它是取得長足進步的公司之一 Text2SQL模型於是，該公司開始將這項功能整合到其產品中。
- 許多公司（包括我所在的公司）也探索過內部開發的 Text2SQL 解決方案。例如，我曾參與過一個專案。 尤伯杯 她的旅程 Uber 的 QueryGPT 為了簡化營運團隊的資料查詢流程，本文詳細介紹了 Uber 如何設計用於查詢產生的多代理架構。文章還揭示了該領域面臨的重大挑戰，包括準確解讀使用者意圖、處理大型表結構以及避免幻覺。
- 坦白說，要讓文字轉SQL真正發揮作用，對查詢的準確性要求非常高——即使工具只出錯一次，也會破壞信任，最終利益相關者會來找你驗證查詢結果（然後你需要重新閱讀和編寫查詢，工作量幾乎翻倍🙁）。到目前為止，我還沒有找到完美的文字轉SQL模型或工具。我認為只有在針對特定、標準化的用例查詢一小部分文檔齊全的核心資料集時，它才有可能實現，但要擴展到所有可用資料和不同的業務場景則非常困難。
- 當然，鑑於該領域的大量投資和人工智慧的快速發展，我相信我們將越來越接近準確且可擴展的文字到 SQL 解決方案。
基於聊天功能的商業智慧 (BI) 助手另一個提升利害關係人使用商業智慧工具體驗的熱門領域是基於聊天的商業智慧助理。它實際上比文字轉SQL更進一步——它不僅根據使用者提示產生SQL查詢，還會以視覺化格式和文字摘要的形式回應。
- 雙子座的觀察者 這是一個例子。 Looker 隸屬於 Google，因此他們與 Gemini 整合是順理成章的事。 Looker 在建立其 AI 功能方面還有另一個優勢：資料欄位已在 LookML 語義層中記錄，常用關聯和指標也已定義並嵌入到儀表板中。因此，它擁有大量可供學習的寶貴數據。 Gemini 允許使用者自訂 Looker 的儀表板，提出有關資料的問題，甚至可以建立用於對話式分析的自訂資料代理程式。然而，根據我有限的使用經驗，它經常無法回答一些簡單的問題。如果您有不同的體驗，並且它對您有效，請告訴我…
- Tableau 也推出了類似的功能。 表格人工智慧我自己沒有使用過，但根據演示來看，它可以幫助資料團隊快速準備資料並使用自然語言建立儀表板，在「Tableau Pulse」中匯總資料見解，以便利害關係人輕鬆識別異常指標變化和趨勢。
資料索引工具人工智慧還可以幫助克服資料文檔少或過時的難題。
- 在一次內部黑客馬拉鬆活動中，我記得我們資料工程師的一個專案是利用LLM來增強表格文件的覆蓋範圍。人工智慧能夠讀取程式碼庫並在大多數情況下準確地描述相應的列，因此它可以幫助快速改進文檔，最大限度地減少人工驗證和編輯。
- 同樣地，當我的團隊創建新表時，我們開始要求 Cursor 編寫表格文檔的 YAML 文件，以節省我們的時間並實現高品質的生產。
- 還有許多資料索引和治理工具也整合了人工智慧。當我搜尋「AI 資料索引」時，會看到 Atlan、Alation、Collibra、Informatica 等資料索引工具的圖示。（聲明：我沒有使用過其中任何一款。）這顯然是一個行業趨勢。

2. 加速高價值工作的進度

既然我們已經討論了人工智慧如何幫助消除低價值任務，接下來讓我們探討它如何加速高價值資料專案。「高價值工作」指的是將卓越的技術與業務背景結合，並透過跨職能協作產生實際影響的資料項目。例如，深入分析產品使用模式並據此改進產品；或建立客戶流失預測模型，識別有流失風險的客戶並指導流失預防措施。讓我們將現狀與理想的未來進行比較：

目前情況：存在瓶頸生產率在日常工作流程中

探索性資料分析（EDA）需要很長時間。這步驟對於初步了解資料是必要的，但進行所有單變量和多變量分析可能會很耗時。
浪費在編碼和調試上的時間說實話，沒人能記住所有 NumPy 和 Pandas 的語法以及 Sklearn 模型參數。我們在編寫程式碼時需要不斷查閱文件。
非結構化豐富數據尚未充分利用。企業每天都會從問卷、客服工單和評論中產生大量文字資料。但如何從這些數據中提取可擴展的洞察仍然是一個挑戰。

理想情況下，資料科學家應該專注於深度思考，而不是語法。

編寫程式碼時無需查閱語法，速度似乎更快了。
分析師花更多時間解讀結果，而花更少時間處理資料。
非結構化資料不再是障礙，可以快速進行分析。

在構想理想場景時，我相信您腦海中已經浮現出一些人工智慧工具。讓我們來看看人工智慧究竟能帶來哪些影響或改變：

AI助理在編碼和調試中的應用我認為對於任何從事程式設計的人來說，這無疑是最可靠的人工智慧工具。而且我們已經看到它被廣泛複製應用。
- 當LLM聊天機器人出現時，例如 ChatGPT 和 克勞德工程師意識到，他們只需向聊天機器人詢問文法問題或錯誤訊息，就能獲得高度準確的答案。這雖然會中斷編碼工作流程，但遠比點擊數十個 Stack Overflow 標籤頁好得多——而後者感覺已經變成了過去式。
- 後來，我們看到整合式人工智慧編碼工具不斷湧現——整合了更多類似的工具。 GitHub 副駕駛 和光標借助你的程式碼編輯器，他們可以讀取你的程式碼庫，主動提供程式碼補全建議，並在你的 IDE 中修復問題。
- 正如我在開頭簡要提到的，數據工具，例如雪花和 十六進制 此外，還可以引入人工智慧編碼助手，幫助資料分析師和資料科學家更輕鬆地編寫程式碼。
人工智慧在探索性資料分析的應用這與我上面提到的基於聊天工具的商業智慧助理有些類似，但它的目標更宏大——它從原始資料集入手，旨在自動化整個分析週期，從資料清洗和預處理到探索性分析，有時甚至包括建模。這些工具通常被宣傳為「取代數據分析師」（但它們真的能做到嗎？）。
- Google 資料科學代理 這是一個非常令人印象深刻的新工具，只需一個簡單的提示即可建立完整的 Jupyter Notebook。我最近寫了文章它明確說明了自身的功能和限制。簡而言之，它可以快速生成結構良好的 Jupyter Notebook，並按照可自訂的實作方案運行。然而，它缺乏根據後續問題修改 Jupyter Notebook 的功能，仍然需要具備紮實資料科學知識的人員來審查方法並進行手動迭代，並且需要清晰的資料問題描述以及乾淨、文檔齊全的資料集。因此，我認為它是一個節省初始編碼時間的優秀工具，而不是會危害我們工作的工具。
- 它也可以歸類 ChatGPT 數據分析工具 在這個區域內，使用者可以上傳資料集並與之交互，進行分析、建立視覺化圖表和回答問題。您可以閱讀我之前的文章，其中詳細介紹了它的功能。這裡它也面臨類似的挑戰，最適合作為 EDA 助手，而不是取代資料分析師。
自然語言處理（NLP）的功能易於使用且可擴展。LLM非常適合對話交流。因此，如今有了LLM，NLP（神經語言程式學）的學習變得更加容易。
- 我們公司每年都會舉辦內部黑客馬拉松。我記得三年前我的黑客馬拉松專案是嘗試使用 BERT 和其他傳統的主題建模方法來分析 NPS 調查回复，這很有趣，但說實話，要做出準確且具有商業意義的結果非常困難。然後，兩年前，在一次黑客馬拉松中，我們嘗試了… 開放人工智能API 對回饋資料本身進行分類和匯總——它簡直神奇，只需一次 API 呼叫即可完成高分辨率的主題建模、情感分析和反饋分類。輸出結果能夠根據系統提示無縫融入我們的業務場景。之後，我們建立了一個內部數據管道，可以輕鬆擴展，涵蓋調查回應、支援工單、銷售電話、用戶研究筆記等各種文字數據，成為客戶回饋的中心樞紐，並為我們的產品路線圖提供資訊。您可以在以下位置找到 Plus：這篇技術博客.
- 此外，還有許多新興公司正在開發基於人工智慧的客戶回饋分析工具、產品評論分析工具、客戶服務助理工具等等。這些工具的理念大同小異——利用語言學習者（LLM）理解文本上下文和參與對話的能力，創建專門從事文本分析的人工智慧代理。

結論

人們很容易沉迷於追逐最新的人工智慧 (AI) 工具。但歸根結底，最重要的是利用 AI 消除阻礙我們前進的因素，並加速推動我們前進的步伐。關鍵在於保持務實：採納當下行之有效的方法，對新興技術保持好奇心，並且永遠不要忘記數據科學的根本目的——透過更深入的理解做出更明智的決策。