0 引 言
網絡基礎設施建設的互聯網+提速與普及和移動互聯網相關服務應用的迅猛發展,使得全球每分每秒產生的時代數據越來越多, 這些數據價值巨大,廣電龐大的大數用戶群所提供的無限增長的數據, 正在等待時機釋放出巨大的據挖掘研究商業能量。一旦挖掘出數據價值, 那么商業機會將會變得無窮大。
1 “互聯網”+ 時代大數據對廣電行業的影響
大數據是指無法在一定時間內用常規機器和軟硬件工具對其進行感知、獲取、管理、處理和服務的數據集合。
近幾年,網絡媒體迅猛發展,信息更新速度極快,隨時向人們推送各種信息,人們可以自由選擇信息的來源,大數據的產生給廣電行業等傳統媒體制造了巨大的壓力和挑戰。大數據對傳統廣電影響巨大,廣電行業必須面對現實,充分利用大數據,挖掘大數據背后的意義,對傳統的經營與思維模式進行創新與變革,在新時代立于不敗之地。
“互聯網”+ 時代,網絡己蔓延至人類生存的方方面面, 以新聞網站為代表的網絡媒體迅速崛起,影響著廣大受眾的信息接觸習慣和信息獲取方式,對傳統媒體造成了極大沖擊。目前網絡媒體的廣告收入已基本和傳統媒體的收入持平,傳統電視媒體的廣告份額在逐年減少。電視仍是目前最具影響力的媒體之一,在社會生活各個方面的信息傳遞中起著舉足輕重的作用。因此,廣電行業雖然面臨巨大挑戰,但也面對著更廣闊的發展空間。廣電媒體掌握著大量核心數據,可以充分利用這一優勢加以變革,使廣電行業迎來更加美好的明天。
2 廣電大數據的挖掘研究
2.1 數據挖掘概述
數據挖掘就是使用模式識別技術、統計和數學技術在大量數據中發現有意義的新關系模式和趨勢的過程,即從海量數據中挖掘出可能有潛在價值的信息技術。它可實現以下功能:
(1) 分類 :按照訓練對象的特征屬性,通過建立不同的組對事物進行描述,為目標對象或事件分類。
(2) 關聯 :分析有聯系的對象或記錄,由此對有潛在關聯的事件做出推斷,從而對可能重復發生的模式進行識別。
(3) 聚類:對訓練集進行識別,分析數據之間的內在規則,進而把目標對象按照規則分成若干類。
(4) 預測 :對訓練對象的發展規律進行分析,從而預測目標對象未來的發展趨勢。
各種社交網絡平臺、巨大的市場和客戶群,會產生龐大的數據資源,網絡平臺的結構、標準、系統等都沒有統一的標準,且網絡產生的大數據資源是動態的,變化迅速,廣電若要在瞬息萬變的大數據環境中快速、準確地處理大量數據, 就必須采用互聯網化思維進行大數據挖掘。因此,有效、快速的深度挖掘與進行客戶訂制化是廣電發展之根本。
2.2 廣電大數據采集
廣電大數據采集是指接收來自不同平臺的客戶端(網絡媒體、社交APP 或者傳感器等)數據,建立多個大數據庫,用戶可根據自己的喜好使用大數據庫,查詢定制個性化產品,從而滿足自身需求。
當前,由于網絡媒傳和傳統廣電媒體的充分融合發展, 廣電組織結構重構,大眾可以從許多渠道獲得信息并發布信息, 我們也可以通過多渠道進行廣電大數據采集。
(1) 利用電視平臺收集用戶數據,選播電視節目時,實時記錄用戶選臺的詳細信息,比如所選節目、頻道、時間范圍等。
(2) 利用電視平臺中電視互動點播收集用戶數據,記錄用戶喜愛的節目類型、時間范圍、頻次等。
(3) 利用各種網絡收集用戶數據,記錄用戶在網絡媒體上發布的信息、手機實時瀏覽的信息等,要從 PC端、手機端、電視端等渠道采集廣電大數據。保證廣電大數據的全面、及時、準確,為廣電大數據挖掘處理做充分準備。
當然,由于同時訪問不同網絡的用戶成千上萬,訪問操作的并發數高,因此,在大數據的采集過程中難度很大,挑戰性極高,比如黃金時段的熱點新聞、電視直播的NBA 球賽、年輕人喜歡的一些綜藝節目等,它們并發的訪問量在峰值時可達上千萬,需要在采集端部署大量數據庫才能支撐。并且如何分配合理的時間片以及負載給大量數據庫,都是在大數據采集中需要面對和攻克的問題,需要深入的思考和設計。
2.3 廣電大數據挖掘
數據挖掘能夠滿足一些高級別數據分析的需求,一般不會預先設定好主題,關鍵是基于各種算法對現有大數據源進行數據計算與處理,用以對未來數據進行預測。
數據挖掘算法多樣,關聯規則算法是比較常用的一種。此算法根據在同一事件中出現的不同項之間的相關性可以很好地預測數據項之間存在的關聯規則。比如能夠追蹤用戶在選臺中所做的不同選擇之間的相關性,得出節目之間的關聯規則, 從而比較準確地預測用戶喜好,有效為用戶提供個性化定制服務等。本文利用關聯規則算法探討對廣電大數據的精確挖掘, 為廣電行業的發展提供一定的理論依據。
關聯規則算法符號標識 :
設 L- 數據項集 ={ i1,i2,…,iL}。
數據項集 A 的支持度 :支持度用來衡量關聯規則的重要性,s(A)=σ(A)/N。
關聯規則 :假設 A和 B是不相交的項集,即 :A∩ B= ,那么蘊含的關聯規則為 A → B。
可信度 :可信度用以衡量關聯規則的準確度,在包含 A 的數據中 B 也同時出現的概率值,形如 :c(A → B)=σ(A ∪ B)/σ(A)。
規則 A → B 的支持度 :數據項集 A 和數據項集 B 同時出現的概率,形如 :s(A → B)=σ(A ∪B)/N。
可信度和支持度的高低共同確定了關聯規則質量的好壞,一條規則在所有事務中的代表性主要由支持度決定,支持度越大,可信度越高,關聯規則越重要,如果可信度很高,但支持度不高,則說明該關聯規則實用的機會不大,因而關聯規則用處極為有限。所以在關聯規則挖掘過程中,應通過不斷修改閾值形成滿足一定最小可信度及最大支持度的具有較大作用的關聯規則集。
算法應用分析 :采集到的大數據集記錄了用戶的訪問信息,用戶記錄中包含用戶收看的節目清單表,如節目的名稱、類型、收看時間段、節目數、訪問模式等。打開并使用數據集,可以看到其中的詳細記錄信息 :M 條記錄,N 個節目,及其他內容,建立合適的數學統計模型,統計計算出支持度 S 和可信度 C,進而為數據建立關聯規則 A → B。此外,為了避免由于誤操作而使一些節目被多次點擊,我們需要設置它們各自合適的閾值,去除規則庫中創建的無用規則,保存有效的、具有高支持度、可信度的規則,以提高規則庫的性能。通過使用規則庫,追蹤分析預測出單個用戶的訪問模式、傾向以及偏好,高效為用戶提供定制服務。
3 數據挖掘的發展趨勢
數據挖掘技術被廣泛應用于各個領域,如廣電業、銀行業、生物學以及工業領域等,可幫助各行業進行市場行為分析預測及客戶流失性分析預測等。
由于網絡的廣泛應用及網絡種類的復雜多樣,產生了海量復雜的結構、半結構數據,形成了多樣組織結構不兼容的各類型數據庫,大數據庫遍布各行各業,導致數據挖掘技術需面向各行業復雜的大數據環境,因此需要對結構不同、來源不同的不兼容大數據庫進行挖掘處理,發現其潛在意義。這是非常艱巨的挑戰,甚至還需要對多維數據、多媒體數據以及生物醫學方面的數據進行更全面、深化的挖掘處理。數據挖掘技術的應用有遠大的前景和無限的發展空間。
4 結 語
“互聯網 +”時代,大數據的產生對廣電行業有很大影響, 而廣電的核心優勢是已積累的海量數據,同時也是廣電應對當今形勢的基石。在現有海量數據的基礎上,運用網絡新技術搜集大量實時動態相關數據,形成海量大數據庫,然后利用數據挖掘手段,對數據庫中的受眾層級進行分析處理,預測目標人群的喜好和需求,并根據分析預測的結果,按照目標人群的差異化、個性化要求,通過加快技術創新和應用創新, 使產品內容多樣化、服務人性化,滿足受眾的個性化需求,提高和改善用戶體驗,培育和提升客戶忠誠度。廣電一定會在大數據時代中形成強大的市場影響力。