Posts

Showing posts from September, 2018

TensorFlow是程序員們公認的AI最酷的開發框架!

Image
通過新的Google投資,TensorFlow現在是AI的領先開發框架 深度學習,機器學習和其他人工智能的開發人員越來越多地采用TensorFlow框架。 盡管TensorFlow不是官方的Apache項目,但幾年前它的開發商Google LLC仍在開源,該公司繼續對該框架進行深入投資。在加利福尼亞州山景城舉行的TensorFlow開發者峰會上,谷歌發布了多項聲明,表明其對TensorFlow發展的承諾依然強勁。 TensorFlow成熟為真正的企業級AI開發工具現在正在進行中。由于超過500名現場與會者和更多人通過直播,Google宣布它已經在TensorFlow周圍的工具,支持平臺和開發者生態系統方面進行了以下新的投資: 端到端的TensorFlow開發管道平臺:谷歌宣布了未來端到端AI管道平臺的路線圖,稱為TensorFlow Extended或TFX。該平臺將包括目前已發布的組件,包括TensorFlow模型分析,TensorFlow轉換,Estimators和TensorFlow服務,以及未來的集成組件,以幫助開發人員準備數據,培訓,驗證和部署生產中的TensorFlow模型。 TensorFlow客戶端支持:Google宣布推出TensorFlow.js,這是一個面向Java開發人員的基于瀏覽器的新ML框架。 TensorFlow.js是一個交互式框架,用于開發客戶端ML應用程序,其中數據完全保留在瀏覽器中。它完全在瀏覽器中支持ML模型構建和培訓。它還支持導入離線訓練的TensorFlow和Keras模型,以便使用WebGL加速支持基于瀏覽器的推理。谷歌宣布對TensorFlow Lite進行更新,包括更輕,更快的核心解釋器,用于在移動和其他邊緣設備上部署經過培訓的ML模型,包括在Raspberry Pi上運行的設備。它宣布開放TensorFlow for Swift,支持在iOS上運行的移動應用程序的ML / DL開發。 TensorFlow開發人員體驗:Google為TensorFlow開發人員推出了直觀的編程模型。 這個名為eager execution的新模型提供了一個命令式的Python編程環境,可以在TensorFlow中立即評估計算圖操作,而無需額外的圖形構建步驟。 熱切的執行可以對小型模型和小型數據進行快

被特斯拉嘲笑,英偉達放狠話要造超級AI晶片!

Image
NVIDIA的數據中心業務最近一直處于虧損狀態,過去幾年每年大約翻一番。 它在2018財年達到了19.3億美元,比上一年增長了近130%。 這種增長主要是由于HPC中普遍使用NVIDIA GPU以及人工智能研究和開發的神經網絡培訓。 然而,常識說,在某些時候,運行AI應用程序的需求將變得比構建它們的需求更大(假設這些AI工具確實有用)。 考慮到這一點,現在有很多公司,無論大小,都在為推理處理設計晶片,包括Google,Intel,Wave Computing和Graph Core。 進入基于圖靈的Tesla T4和TensorRT 5軟件 當NVIDIA宣布圖靈GPU,定位可視化和實時渲染時,它包含了一些非常有趣的規格,表明它可以成為一個很好的推理引擎。行業觀察家們想知道NVIDIA GPU是否是引領這種向“生產AI”過渡的合適技術,因此對NVIDIA首席執行官Jensen Huang來說,展示公司在推理處理中的地位至關重要。令人失望的是,黃先生在GTC-Japan主題演講中宣布推出基于Turing的全新Tesla T4,這是該公司首款專門針對數據中心推理處理的GPU。 迄今為止,NVIDIA的推理平臺一直專注于機器人和自動駕駛,例如用于汽車的DrivePX中的Xavier SOC和用于機器人的Jetson。就數據中心的推理處理而言,NVIDIA表示其P4和P40 GPU在云中非常受AI歡迎 - 提供視頻,語音處理,運行電子商務推薦引擎的圖像識別,以及用于分析和翻譯的自然語言處理演講成文。NVIDIA共享的一個例子是微軟Bing,它使用這些GPU為其視覺搜索功能提供了比使用CPU快60倍的能力。此外,每個P4 GPU可以處理30個同步的視頻流,以每秒30幀的速度運行。 全新的NVIDIA Tesla T4 GPU將有效取代P4,并采用圖1所示的薄型PCIe封裝。新型晶片僅耗電75瓦,具有針對推理作業中流行的整數計算優化的320“Turing Tensorcores”。 它可以產生每秒130萬億的8位整數和260萬億次4位整數運算(或TOPS)。 如果您需要浮點運算,例如神經網絡訓練所需的,T4可以處理65 TFLOPS進行16位計算 - 大約是NVIDIA Volta GPU性能的一半,而功耗僅為1/4。 最終結果是處理前面提到的視頻流的速度提高了

惊!谷歌發布Edge TPU是為了AIY項目?

Image
Google通過AIY項目套件向成千上萬的人們介紹了人工智能和機器學習概念,例如帶語音識別的AIY Voice Kit和用于計算機視覺應用的AIY Vision Kit。 該公司現已進一步推出Edge TPU,它自己的專用ASIC芯片設計用于在邊緣運行TensorFlow Lite ML模型,以及相應的AIY Edge TPU開發板,以及AIY Edge TPU加速器USB添加到任何USB兼容硬件。 Edge TPU是一款用于機器學習(ML)的小型芯片,針對每瓦性能和每美元性能進行了優化。 它既可以加速設備上的ML推理,也可以與Google Cloud配對,創建完整的云端到邊緣ML堆棧。 在任何一種情況下,本地處理都可以減少延遲,消除對持久網絡連接的需求,增加隱私,并使用更少的功率實現更高的性能。 該芯片將支持新的Cloud IoT Edge軟件,該軟件允許您在Edge TPU或基于GPU和CPU的加速器上執行在Google Cloud中訓練的ML模型。Cloud IoT Edge可以在Android Things或基于Linux OS的設備上運行。 它有三個主要組件: 具有至少一個CPU的網關類設備的運行時,用于在本地存儲,轉換,處理和從邊緣數據中獲取智能,同時與其余的Cloud IoT平臺進行互操作。 Edge IoT Core運行時可以更安全地將邊緣設備連接到云。 基于TensorFlow Lite的Edge ML運行時,使用預先訓練的模型執行本地ML推理 用戶在邊緣做得越多越好,但對于像培訓和更強大的框架這樣的任務,仍然需要云。 谷歌還將提供一個帶有系統級模塊(SoM)的開發板,該系統將Edge TPU與NXP i.MX 8M處理器以及基板暴露端口和I/O相結合。 該板采用Raspberry Pi的一些提示,信用卡外形和40針連接器,但連接器的位置不會使其與RPI配件兼容。 Edge TPU Dev Board將運行Debian Linux或Android Things,并支持TensorFlow Lite。 但是,如果您已經熟悉特定的開發板和環境,那么您可能不想再購買另一個,并再次學習。 就像英特爾的Movidius神經計算棒一樣,AIY Edge TPU加速器是一種USB棒,旨在通過USB接口為現

Google发布Edge TPU加速器,秋季上线!

Image
谷歌最近宣布已將其用于神經網絡的開源TensorFlow機器智能(ML)庫移植到Raspberry Pi,這是谷歌及其首席人工智能競爭對手Nvidia的一系列國際象棋移動中的最新一項,以贏得嵌入式Linux的核心和鍵盤開發人員。此次競賽是與亞馬遜,微軟,英特爾和其他公司展開更廣泛戰斗的一部分,旨在將云分析帶入物聯網網絡的邊緣,以減少延遲,提高可靠性并提高安全性。 由于與Raspberry Pi Foundation的合作,最新的TensorFlow 1.9版本現在可以使用Python的pip包系統從預構建的二進制文件安裝在Raspberry Pi 2或3 SBC上。 Raspbian 9用戶可以使用兩個簡單的命令安裝它。 將TensorFlow模型集成到嵌入式項目中提出了進一步的挑戰。然而,正如谷歌已經展示了用于Raspberry Pi的AIY Projects套件,你可以在基于Raspberry Pi的機器人,視覺系統和其他嵌入式設備中添加一些ML智能,而沒有巨大的學習曲線。 在Raspberry Pi教育社區中,TensorFlow端口應該特別受歡迎。正如RPi基金會的Eben Upton在關于“大量新聞”的祝賀推文中寫道,TensorFlow端口將實現“酷機器學習教育內容”。 TensorFlow本質上是在Linux上運行,但在服務器或臺式機上運行,而不是像Raspberry Pi那樣適度的SBC。它現在可以在所有主要的服務器和桌面平臺上運行,并已移植到Android和iOS。然而,Raspberry Pi是一個特別嚴峻的挑戰,谷歌TensorFlow開發商Pete Warden在公告中寫道。在Raspberry Pi 2和3配備更快的四核處理器之前,它甚至無法實現。 一年前,Warden和他的團隊設法在RPi 3上交叉編譯TensorFlow,但這是一個緩慢,復雜,容易崩潰的過程。從預先構建的二進制文件安裝的新功能現在使更多的開發人員可以加入該聚會。 雖然谷歌的AIY項目試圖將基于云的平臺壓縮到一個簡單的黑客板上,但其團隊開始使用低成本紙板構建的套件,其附加板用于連接與谷歌云相關的嵌入式技術。其中包括用于Raspberry Pi Zero W和WH的AIY Vision Kit,它可以執行基于TensorFlow的視覺識別。

面對Google的TPU,英偉達慌了!竟然也在偷偷研發!

Image
人工智能已成為構建最佳云服務平臺的戰斗中的一種秘密武器。 谷歌云平臺目前處于劣勢,落后于亞馬遜網絡服務和微軟Azure。 但谷歌認為強大的人工智能將使其具備趕上所需的優勢。 兩年前由谷歌推出的Tensor處理單元(TPU)是針對TensorFlow上的機器學習工作負載量身定制的專用集成電路(ASIC)。 今年2月,Google為Google云平臺上的研究人員和開發人員提供了TPU V2.0或Cloud TPU。 Cloud TPU采用四個定制ASIC構建,可提供強大的64 GB高帶寬內存和180 TFLOPS性能。 在向公眾開放TPU之前,谷歌已在內部廣泛實施。 AlphaGo--在中國古代棋盤游戲Go中擊敗人類冠軍的Google AI杰作 - 使用了48個TPU進行推理。 Cloud TPU為縮短機器學習模型的培訓時間提供了一個很好的解決方案。谷歌大腦團隊負責人杰夫迪恩在Twitter上發布推文說,云TPU可以在24小時內將ResNet-50模型的準確率提高到75%。去年,谷歌宣稱它的TPU比現代GPU和推理CPU快15到30倍,并且TOPS / Watt測量值提高了30-80倍。在機器學習培訓中,云TPU的性能更強(180對120 TFLOPS),內存容量(64 GB對16 GB內存)比Nvidia最好的GPU Tesla V100大四倍。 在Google Cloud Next上,該公司宣布其TPU 3.0--兩個月前推出的下一代AI芯片,功能比其前代產品強八倍,可實現高達100 petaflops的性能 - 現已推出alpha版本。 谷歌云首席人工智能科學家Fei-fei Li表示,“TPU允許eBay將他們的視覺搜索模型的培訓時間從幾個月縮短到幾十天。” 云計算和物聯網(IoT)是不可分割的,谷歌已經在物聯網上投入了大量資金,其中包括Android Things,Nest,Google Home等產品。幾個月前,該公司宣布推出Cloud IoT Core,這是一項連接服務 來自使用Google云平臺的數百萬個分散設備的數據,并提供數據密集型處理,可視化和分析。 然而,如果沒有邊緣計算,設備與Google Cloud Platform之間的來回通信仍會導致高延遲。 谷歌昨天采取了兩個新產品:Edge TPU和Cloud I

TPU也有玄機?告訴你谷歌AI芯片背后的小秘辛!

Image
Google在Google Cloud NEXT 2018活動中宣布推出新AI芯片Edge TPU,這個芯片功能是什么?和過往的第一代到第三代TPU芯片(又稱為Cloud TPU)哪里不同呢? 主攻工業物聯網,10月銷售開發版套件 根據Google官方資料,Edge TPU是一種低功耗低成本的ASIC芯片,而且體積非常小,小于1美分銅板。ASIC專用芯片和GPU通用芯片比較之下,芯片功耗較低,延遲性也較低,運算效率較高,如Edge TPU在高分辨率影音上可以以每秒30幀的速度,在每幀上同時執行多個AI模型。 另外,Google也將推出Edge TPU開發版套件(module development kit)。其中含有恩智浦CPU、Edge TPU、Wi-Fi功能和加密芯片的開發版在今年10月就會對外販售。 Google也提到Edge TPU將主攻預測性維護、異常檢測、機器視覺、機器人、語音識別等工業物聯網應用場景,除了在工業制造領域,在醫療、零售、智能空間與交通等領域也是用。而LG已經計劃在產品線上使用Edge TPU。 而支援Edge TPU的框架和軟體服務則全都綁定在Google自家的架構之中,打造「封閉的生態系」意圖明顯。希望開發者或企業也會采用Edge TPU后,也會被綁定在Google Cloud服務中。因此在使用上必須搭配Google的 Cloud IoT Edge 軟體,并且針對 TensorFLow 機器學習模型優化。 EdgeTPU新芯片和Google過往推出的TPU芯片不同。Google過往推出的第一代到第三代TPU芯片用途在資料中心,也就是云端運算的機器學習訓練和推論使用,因此被稱為Cloud TPU,而剛推出的新芯片則用在終端裝置,也就是邊緣運算的推論,也因此Gogole以Edge TPU稱之。 邊緣運算的推論又是什么意思呢? 什么是邊緣運算與推論?根據臺灣產業分析公司拓墣的描述:邊緣運算可說是物聯網時代下的產物,「邊緣運算在傳統云端與裝置端的連接中間,多了一層運算層──Edge 端,Edge 其實指的是靠近數據源的運算單位,包括閘道器、路由器,以及硬體底層相關的各種機器、裝置、設備與系統。」 「有了 Edge 端直接針對多裝置、龐大訊息先做擷取、過濾與處理,對裝置端做出回饋與反應,不用讓所有資料

揭秘谷歌TPU:阿法狗用了一顆就把人類打哭!

Image
如何用一件奇妙的技術連接谷歌服務,如谷歌搜索,街景,谷歌照片和谷歌翻譯?原來他們都使用谷歌的Tensor處理單元,也就是TPU,加速他們在幕后的神經網絡計算。我們去年宣布了TPU,最近對其性能和架構進行了詳細研究。 簡而言之,我們發現TPU的性能比現代CPU和GPU高15-30倍,每瓦性能提高30-80倍。 這些優勢有助于Google的許多服務大規模運行最先進的神經網絡并且價格合理。 在這篇文章中,我們將深入了解Google TPU內部的技術,并討論它如何提供如此出色的性能。 通往TPU的道路 雖然谷歌早在2006年就考慮過為神經網絡構建專用集成電路(ASIC),但2013年情況變得緊迫。那時我們意識到神經網絡快速增長的計算需求可能需要我們將數量增加一倍。 我們經營的數據中心。通常,ASIC開發需要幾年時間。 然而,就TPU而言,我們在短短15個月內就將處理器設計,驗證,構建并部署到我們的數據中心。 TPU項目的技術負責人Norm Jouppi(也是MIPS處理器的主要架構師之一)以這種方式描述了sprint: ‘我們做了一個非常快速的芯片設計。 這非常了不起。 我們開始發布第一個芯片,沒有錯誤修復或掩碼更改。 考慮到我們正在招聘團隊,因為我們正在構建芯片,然后雇用RTL(電路設計)人員并急于雇用設計驗證人員,這是忙亂的。’ TPU ASIC采用28nm工藝制造,運行頻率為700MHz,運行時功耗為40W。 由于我們需要盡快將TPU部署到Google的現有服務器,因此我們選擇將處理器打包為外部加速卡,該卡可插入SATA硬盤插槽以進行插入式安裝。 TPU通過PCIe Gen3 x16總線連接到主機,提供12.5GB / s的有效帶寬。 神經特定的架構 在本文中,我們已經看到TPU卓越性能的秘訣在于其對神經網絡推理的專注。 當我們決定專注于神經網絡推理時,量化選擇,CISC指令集,矩陣處理器和最小設計都成為可能。 谷歌有信心投資TPU,因為我們看到神經網絡推動了計算的范式轉變,我們預計未來幾年TPU將成為快速,智能和價格合理服務的重要組成部分。 由于CPU和GPU等通用處理器必須在各種應用程序中提供良好的性能,因此它們已經發展出了無數復雜的,以性能為導向的機制。 作為副作用,這些處理器的行為可能難以預測,這使得難以保證對神經網絡推斷的某些延遲限制。 相

Google 神秘秋季新品將曝光!開發者大呼激動人心!

Image
谷歌設計了一款低功耗版本的本土AI數學加速器,被稱為Edge TPU,并承諾在10月份之前將其發布給開發人員。 ASIC是今天在2018年的Google宣布,ASIC是其Tensor Processing Unit(TPU)系列內部設計協處理器的縮減版。TPU在內部用于為其基于機器學習的服務提供支持,或者可通過其公共云租用。這些芯片專門設計用于訓練神經網絡并進行推理。 現在,這個網絡巨頭已經開發出一種適用于在物聯網網關中運行的僅限于推斷的推理版本。我們的想法是,您家中,工廠,辦公室,醫院等都有一堆傳感器和設備連接到其中一個網關,然后連接到云端的Google后端服務以進行其他處理。 網關內部是Edge TPU,可能還有圖形處理器,以及運行Linux或Android和Google的Cloud IoT Edge軟件堆棧的通用應用程序處理器。該堆棧包含基于Tensorflow的輕量級庫和模型,可訪問Edge TPU以在硬件中高速執行AI任務。如有必要,還可以在應用程序CPU和GPU核心上執行此工作。如果您愿意,可以使用自己的自定義模型。 堆棧確保網關和后端之間的連接是安全的。如果您愿意,您可以使用Google的Cloud TPU訓練神經網絡模型,并讓Edge TPU在本地執行推理。 AIY Edge TPU Dev 開發板是一體化開發板,可以用來對要求快速 ML 推理的嵌入式系統進行原型設計。其基板可提供您對設備進行高效原型開發所需的全部外設連接,包括一個可與各種電氣元件集成的 40 引腳 GPIO 接頭。其另一特點在于,當您準備好擴展后,可以將其可移動模塊化系統 (SOM) 子板直接集成到您自己的硬件中。 AIY Edge TPU 加速器是一個適用于您現有系統的神經網絡協處理器。這個小巧的 USB-C 設備可以連接到任何基于 Linux 的系統,執行 ML 推理加速。其外殼上有多個安裝孔,可以連接主機板(例如 Raspberry Pi Zero)或您的自定義設備。 其目標是使用來自傳感器和設備的傳入數據盡可能多地在網關上進行AI推理,這意味著在小工具和后端互聯網服務器之間來回傳遞的信息更少,這意味著更低的延遲和更快的決策,更少的帶寬消耗,并降低數據安全風險。 我們被告知Edge TPU使用PCIe或USB與主機片上系統接口,可以使用8位和16位整數精度,以高達每

1分鐘看懂TPU!谷歌內部技術深度揭秘!

Image
我們生活在一個技術推動整個文明基石的時代。但是,盡管擁有所有輝煌的發明和技術進步,今天世界比以往更傾向于速度和敏捷性。我們已經從傳統的有線撥號互聯網連接轉移到第四代無線網絡。光纖的廣泛分布使得連接到互聯網并以快速的速度訪問數據成為可能。同樣,當涉及到處理器和GPU時,我們已經從僅包含6000個晶體管的傳統8位8080微處理器芯片轉變為時鐘速度高達1.7 GHz的最先進的Octa核心處理器。嗯,這肯定提升了即將推出的技術的標準。 作為世界領先的技術領先公司之一,谷歌推出了高速定制機器學習芯片Tensor Processing Units(TPU),從而提高了標準。這些芯片最初是在2016年5月由該公司進行的 I/O 開發者大會上推出的。但谷歌對TPU的了解并不多,原因很明顯。然而,該公司最近發布了一篇文章,其中包含對TPU的深入分析。您可以閱讀該論文以獲得詳細摘要。在這篇博客中,我們將向您展示Google揭示的芯片的主要亮點。 什么是TPU? Tensor Processing Units或TPU是由Google設計的定制機器學習芯片,用于成功執行其常規機器學習工作負載。 谷歌現在正致力于實施這些TPU,而不是使用CPU,GPU和兩者的組合,據稱這些TPU比標準CPU和GPU快15-30倍。 此外,在功耗方面,這些芯片的TeraOps /瓦特高出30到80倍。 發展歷史 谷歌透露,該公司并不知道公司的額外硬件資源可以像TPU一樣有用和強大。早在2006年,該公司就開始尋找新的方法來有效利用其過多的硬件資源,包括GPU,FPGA芯片和ASIC。在未來幾年內,Google Datacenters進行了大量實驗。但是,主要的轉變發生在2013年,當時DNN越來越受歡迎,并且在未來幾年它應該會更大。谷歌推斷,如果發生這種情況,公司可用的硬件資源將不足以滿足增強的計算要求。就在那時,公司開始著手一個高優先級項目,設計一系列定制ASIC芯片,以更低的功耗和更快的速度處理更多的任務。這些定制ASIC芯片被谷歌稱為“Tensor Processing Units”。 TPU芯片旨在用于處理其內部操作,以便通過先進的機器學習算法為用戶改進其云平臺。雖然谷歌目前不太可能在其自己的云平臺之外推出TPU,但它確實展示了通向世界的道路并為新發明鋪平了道路。