學機器學習要選擇 Python 的13個原因

作者：信我這一回 2019-08-01 15:40:31

Python程序語言與機器學習實踐可以稱得上是“珠聯璧合”。

1. Python是解釋語言，程序寫起來非常方便

寫程序方便對做機器學習的人很重要。

因為經常需要對模型進行各種各樣的修改，這在編譯語言里很可能是牽一發而動全身的事情，Python 里通常可以用很少的時間實現。

舉例來說，在 C 等編譯語言里寫一個矩陣乘法，需要自己分配操作數(矩陣)的內存、分配結果的內存、手動對 BLAS 接口調用 GEMM 、最后如果沒用 smart pointer 還得手動回收內存空間。Python 幾乎就是 import numpy;numpy.dot 兩句話的事。

當然現在很多面向C/C++庫已經支持托管的內存管理了，這也讓開發過程容易了很多，但解釋語言仍然有天生的優勢--不需要編譯時間。這對機器學習這種需要大量 prototyping 和迭代的研究方向是非常有益工作效率的。

2. Python的開發生態成熟，有很多有用的庫可以用

除了上面說到的NumPy，還有SciPy、NLTK、OS(自帶)等等不一而足。Python 靈活的語法還使得包括文本操作、list / dict comprehension 等非常實用的功能非常容易高效實現(編寫和運行效率都高)，配合 Lambda 等使用更是方便。這也是 Python 良性生態背后的一大原因。相比而言，Lua雖然也是解釋語言，甚至有 LuaJIT 這種神器加持，但其本身很難做到 Python 這樣，一是因為有 Python 這個前輩占領著市場份額，另一個也因為它本身種種反常識的設計(比如全局變量)。不過借著 Lua-Python bridge 和 Torch 的東風，Lua 似乎也在寄生興起。

3. Python的效率很高

解釋語言的發展已經大大超過許多人的想象。很多比如 list comprehension 的語法糖都是貼近內核實現的。除了JIT[1]之外，還有 Cython 可以大幅增加運行效率。最后，得益于 Python 對 C 的接口，很多像 gnumpy ，theano 這樣高效、Python 接口友好的庫可以加速程序的運行，在強大團隊的支撐下，這些庫的效率可能比一個不熟練的程序員用 C 寫一個月調優的效率還要高。

4. 數據存儲方便

有 SQL，Hadoop，MongoDB，Redis，Spark 等。

5. 數據獲取方便

有 Scrapy，Beautiful Soup，Requests，paramiko 等。

6. 數據運算方便

有 Pandas，Numpy，scipy 等。

7. 輸出結果方便

有 Matplotlib，VisPy 等。

8. 和其他語言交互方便

有 ctypes，rpy2，Cython，SWIG，PyQt，Boost.Python 。

9. 加速方便

有 PyPy，Cython，PyCUDA 等。

10. 圖形圖像方便

有 PyOpenGL，PyOpenCV，Mayavi2 。

11. 信號處理方便

PyWavelets，scipy.signal。

12. 云系統支持方便

GitHub，SourceForge，EC2，BAT，HPC。

13. python開源

Python支持的平臺多，包括 Windows / Linux / UNIX / macOS。而 MATLAB 太貴，只能調用其 API，用 Python 省錢，省錢就是賺錢。

Python 和 C++ 做個比較。

C++ 的 CPU 效率是遠遠高于 Python 的不過 python 是一門膠水語言，它可以和任何語言結合，基于這個優點，很多數據處理的 Python 庫底層都是 C++ 實現的，意思就是說：你用 Python 寫 code，但效率是C++的。只有那些 for 循環，還是用Python的效率高。

近年來機器學習最要是深度學習，而深度學習使用 CUDA GPU 加速遠比 CPU 要快，而cuda 是C++寫的。所以現在TensorLayer、theano 等深度學習庫都是 Python 編程、底層C++。

責任編輯：華軒來源： QIKU

Python 機器學習編程語言