close
資料分析,要用R照樣Python
這兩種都是Data Analysis經常使用的程式說話,想知道更多的話可以參考以下這幾本O'reilly的書翻譯
- Python for Data Analysis (Python)
- Machine Learning For Hackers (R)
- Data Analysis with Open Source Tools (R and Python)
以R來講,這是設計給統計領域的人做資料剖析的說話。學過其他說話的人會發現R有許多奇異的內建型別,像是:
- Factor:這是R的一種資料型別,透露表現這資料是屬於種別變數(Categorical variable),有別於連氣兒變數(Continuous Variable)
- Formula:示意一個公式,如y相依於x可以默示成"y ~ x"
區分這些內建型別對於統計來講是很天然的,因為這些物件在統計上都有分歧的用處與操作體式格局翻譯然則其他說話是很少會內建這些器材的。
所以,以下幾個狀態我會建議先嘗嘗R:
- 索求性工作:想快速索求資料集的特征,試用一些常見算法的結果,以決意後續的剖析體式格局。
- 要在既有模子上做優化:R供應更多的優化選項與更好的社群支撐
- 大量的統計靠山或統計工作:如 parameter/interval estimation
至於Python呢,我的建議是:
- 快速Prototyping:Python跟其他說話/GUI接合比較輕易,如果要快速做出可展現的系統,用Python較輕易。
- 渙散式處置懲罰:假如資料量很大,用Python會比用R更輕易將資料divide & counquer,不外資料假如真的很大,照樣先考慮一下Hadoop/Mahout對照現實...
- 只需要利用常見的資料剖析模子時
別的,在R的社群問Data Analysis問題的話會對照能獲得謎底,這應該也算是個長處翻譯
R的問題之一在於延展性,所以較量爭論與暫存資料預設都是利用Memory,所以Memory不敷大的話,能處置的資料集巨細也會受限。固然有一些公司在改進這個瑕玷,但天成翻譯公司不肯定是不是這些公司的產品是不是能施展影響力。
R是一個專門的統計剖析說話,不只語法獨樹一格,且在其他方面能做的事情不多;但也因為目的專一,所以假如有什麼新的統計闡明手藝的話,在R上也會比較輕易找到相幹的實作。
說其實的,天成翻譯公司兩個都不是很熟XD,所以我只能很不專業的對照。
文章標籤
全站熱搜
留言列表