傑瑞窩在這

程式開發的心得與筆記

Category: Python (page 1 of 2)

[python] 使用 Spark與 Hive進行 ETL

之前實作 ETL系統是透過 Python + MongoDB/MySQL完成,對於少量的資料綽綽有餘,但如果想處理大量資料,又想要借用 Spark MLlib機器學習套件的話,那麼就使用 PySpark + Hive來達成任務吧。能使用熟悉的Python與 SQL語法,無痛轉移。

繼續閱讀

[python] 透過youtube搜尋抓取影片代碼與截圖

抓取youtube影片的相關資料,可以使用官方提供的youtube data api,不過還有另外一個方法,直接透過搜尋的方式,擷取影片代碼值,拼湊出相關內容。以下分三個部分介紹

繼續閱讀

[python] 使用pandas來撈資料

之前撈網站資料都用python的beautiful soup,覺得已經很方便了,不過在sitcon聽講者介紹pandas,發現用它來抓網頁的table更方便快速呀!pandas一樣是python的套件,可以擷取json, csv, excel, html table等等格式的資料。資料型態為DataFrame格式,可以使用index(row)或column存取資料,整理資料的時候相當好用。

繼續閱讀

[python] 抓取證券編碼一覽表

知道如何抓取個股歷史資料後,接著就是批次爬取了。需要建立一個股票列表,通過列表來捉所有股票資料

繼續閱讀

[python] 利用Yahoo Finance API抓取歷史股價

[2017/07/10 更新] Yahoo API已關閉,目前只能透過爬網頁的方式撈取資料

ichart not working in my app (2017/05/22)

最近對於股票有一點興趣,剛好又修完一門關於ETL的課程,想說就來撈撈看股市資料,加以分析。儘管CMoney上的股市資訊就已經相當足夠了,有技術分析、到價提醒等等好用的功能,但能看到的歷史資料範圍有限,所以還是徒手來試試看,希望能做一個自己的理財工具

繼續閱讀

Older posts

© 2017 傑瑞窩在這

Theme by Anders NorenUp ↑