Recent Posts

Ruby - 爬網頁時遇到的編碼錯亂問題

less than 1 minute read

問題描述 編碼問題是寫爬蟲常會遇到的問題。當你沒有處理好編碼問題,爬回來的網頁無法進行字串的切割,也無法使用 nokogiri 抽離需要的部份。 解決方法 找到原始網頁的編碼chartset='big' 把網頁 force_encoding 至原始格式 將網頁轉換成 utf-8,這是 ruby...

Ruby - 利用 ARGV 特性執行指定的方法

less than 1 minute read

情境 我想手動執行 class 的某個方法。這邊的例子是當我想移動的時候,我可以選擇走路、跑步或是游泳。 方法一: 在 irb 中引入 Ruby 檔 class Move def self.walking puts "walking" end def self.running ...

Ruby 爬蟲小技巧 - 處理 Html Entity

less than 1 minute read

這是一個在工作上遇到的小問題。 把網頁爬回來的時候有 HTML Entity 的編碼,看起來很不美觀。 舉例來說,爬回來的標題如果含有 HTML Entity 會是這個樣子: PURUS空氣清淨器(鴻海集團創星出品) 如果我想要使用資料建立自己資料庫的時候勢必要對 html ...

ActiveRecord - 更新大量資料

1 minute read

前言 本文使用的兩種方法,實際上都是用一個 sql 插入或更新所有的資料。 原因是使用其他的方法都沒有使用一個sql插入快。 如果插入的筆數過多,需要調整 sql buffer 的大小。 本例子的情景是一次更新100筆資料,資料量不大,所以不會遇到這個問題。 方法一:純 SQL 因為欄位很多,我要傳送...

Linux - 如何查詢 OS 版本

less than 1 minute read

要接手 Server 第一件事情就是要了解 server 的環境啦。 這邊要記錄的是如何判別 Linux 系統類別的方式 1. 確認 Kernel 版本 使用 uname -or 可以取得 kernel 的版本 $ uname -or => 3.10.0-327.el7.x86_64 GNU/Linu...