在網(wǎng)絡(luò)普及廣度和深度逐步增加的時(shí)代,校園網(wǎng)成為高校師生日常使用頻次很高的一個(gè)接觸點(diǎn)、聚集地,每天會(huì)由此產(chǎn)生大量的數(shù)據(jù)。想不想知道哪個(gè)星座哪個(gè)系的最愛(ài)上網(wǎng)呢?本文通過(guò)愛(ài)上網(wǎng)的互聯(lián)網(wǎng)“原住民”在校園網(wǎng)登錄日志數(shù)據(jù)的分析,對(duì)用戶屬性與上網(wǎng)時(shí)長(zhǎng)相關(guān)性的探索,來(lái)了解和關(guān)注互聯(lián)網(wǎng)“原住民”,并繪制出進(jìn)一步清晰的互聯(lián)網(wǎng)“原住民”畫(huà)像。每一張畫(huà)像,都是有價(jià)值的,能夠?yàn)楣芾聿块T(mén)的管理決策支撐起到一定的參考作用。
用戶畫(huà)像技術(shù)(做框起來(lái)的圖表)
用戶畫(huà)像是用戶的標(biāo)識(shí),用來(lái)認(rèn)識(shí)用戶并確定如何對(duì)待這些用戶--他們喜歡什么時(shí)候上網(wǎng)、在哪兒上網(wǎng)、買(mǎi)的哪個(gè)套餐最多、是夜貓子還是起得早。比如說(shuō)一個(gè)用戶:男,19歲,大一,每個(gè)月上網(wǎng)消費(fèi)200元,總喜歡晚上上網(wǎng),總喜歡在宿舍上網(wǎng),喜歡看電影。這樣一串描述即為用戶畫(huà)像的典型案例。如果用一句話來(lái)描述,即:用戶信息標(biāo)簽化。如果用一幅圖來(lái)展現(xiàn)。
用戶畫(huà)像技術(shù)是指將用戶標(biāo)簽化的標(biāo)簽內(nèi)容進(jìn)行拆解,利用數(shù)據(jù)挖掘技術(shù)針對(duì)用戶畫(huà)像標(biāo)簽內(nèi)容進(jìn)行處理,最后得出標(biāo)簽的數(shù)據(jù)模型并將數(shù)據(jù)進(jìn)行語(yǔ)義翻譯解釋后描述用戶特征的一種分析技術(shù)。
用戶畫(huà)像的核心工作是為用戶打標(biāo)簽,這些標(biāo)簽也是用戶數(shù)據(jù)分析的基礎(chǔ)字段,按照展現(xiàn)這些標(biāo)簽指標(biāo),將所需要的數(shù)據(jù)建立數(shù)據(jù)倉(cāng)庫(kù),根據(jù)不通的標(biāo)簽主題建立相應(yīng)的數(shù)據(jù)集市,通過(guò)每個(gè)數(shù)據(jù)集市分析出用戶的一個(gè)或者多個(gè)標(biāo)簽項(xiàng)最后展現(xiàn)出來(lái),本文通過(guò)將校園網(wǎng)6年記錄的8000萬(wàn)條上網(wǎng)日志數(shù)據(jù)以及數(shù)據(jù)中心中用戶的屬性數(shù)據(jù)作為研究基礎(chǔ),針對(duì)此次畫(huà)像建立一個(gè)數(shù)據(jù)倉(cāng)庫(kù),按照用戶生肖、用戶星座、用戶院系、用戶部分上網(wǎng)時(shí)段、用戶生源地等標(biāo)簽屬性建立5個(gè)數(shù)據(jù)集市,利用ETL工具將指標(biāo)數(shù)據(jù)化,最后利用數(shù)據(jù)挖掘算法中的概念對(duì)數(shù)據(jù)進(jìn)行分析。