流行電視劇數據分析

時間:2022-11-15 09:48:01

導語:流行電視劇數據分析一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。

流行電視劇數據分析

1數據

1.1數據收集。本文共收集了包括《楚喬傳》《人民的名義》《夏至未至》等八部正在更新或已經更新完的電視劇的單集點擊量,收視率,評論數等數據。采用的電視劇每集點擊量,評論數來自于中國網絡視頻指數(index.youku.com)和愛奇藝指數(index.iqiyi.com),網站提供視頻上線之后的每集電視劇的點擊量總數,電視劇每天至少更新一集。播出時段的收視率來自于央視索福瑞(www.csm.com.cn),其中有同一天晚上播出多集的使用同一個收視率數據,同步更新的電視劇使用收集數據當天之前的數據,之后的數據不再進行統計。1.2數據預處理。為了避免因播放源不同而引起的數據之間難以考慮到的誤差,本文所使用的八部電視劇均為湖南衛視同一時段播放的,且網絡點擊量的數據均來自于中國網絡視頻指數。此外,為了方便數據的使用,本文將點擊量的單位定為百萬次,收視率的單位為%,評論數的單位為千條。此外,本文還會去掉一些因為上線時間較短等其他因素導致的一些異常值,以求得更精準的模型。和圖2)

2理論基礎

一元線性回歸模型具有簡單易行的特點,且經過多次數據處理和計算后發現擬合度較高,所以本文所使用的模型的理論基礎均為一元線性回歸模型的理論。對于一元線性回歸模型f(x)=w0+w1x,每一個xi都有一個實際的yi和本文通過回歸得出的f(xi)與其對應,本文令yi=w0+w1xi+εi,,其中εi,是真實值與預測值之間的差值,即εi,=yi-f(xi),當殘差平方和RSS最小時,證明該模型與實際擬合程度最高,即該模型越精確。其中RSS=ε12+ε22+…+εn2=∑i=1n[yi-f(x)i]2殘差平方和是回歸參數w0和w1的函數,即表示為RSS(w0,w1),要找到最好的回歸方程,即求L=min∑i=1n(yi-[w0+w1xi])2,在求解L時,本文采用梯度下降的方法:對L求偏導數得到∂L∂w1=[(w1x+w0)-y]x和∂L∂w0=(w1x+w0)-y。令w1i+1=w1i-α∂L∂w1,w0i+1=w0i-α∂L∂w0,其中α為學習率(learningrate),直到∂L∂w1=0且∂L∂w0=0,求出當時的w0和w1。

3模型的建立與處理

3.1基于一元非線性時間序列預測模型對收視率的預測。收視率,指在某個時段收看某個電視節目的目標觀眾人數占總目標人群的比重,以百分比表示。收視率越高,則該電視劇與同期節目相比受到的關注度就越高,一般來說,當t-1時刻的電視劇收視率越高時,觀眾對t時刻的電視劇的期望就越高,t時刻的收視率就越高。因此本文猜想,t-1時的收視率與t時刻的收視率存在某種關系。本文以t-1時刻的收視率為自變量來預測t時刻的收視率,進行了多次數據分析。以《楚喬傳》為例:如圖3是真實的t時刻與t-1時刻的電視劇收視率的關系:圖3電視劇《楚喬傳》t時的收視率與t-1時收視率的關系由上圖可以看出,t-1時刻的收視率與t時刻的收視率基本符合一元二次的函數關系,得到的模型擬合程度較高。之后以上圖中得到的回歸方程,預測最后5集電視劇收視率,得出結果后再與前面幾集的收視率做回歸分析,得到如下圖4:圖4《楚喬傳》預計的t時收視率與t-1時收視率的關系該數據同樣得到了擬合程度很高的模型,與真實結果相比差距很小。其中,實際結果得出的二次項系數為負而上圖中二次項系數為正,可能是因為使用的數據量過少。同時本文對當時電視劇播出的背景做過調查后發現,最后五集播出時處于工作日。很多人因為工作的原因不能及時收看電視,這也可能是造成預測結果偏大的一個原因。最后本文經過多次驗證得出該模型可以很好的擬合數據,對任一時刻的收視率,該模型都具有很好的預測效果。因而本文可以認為,熱播電視劇的收視率與上一集的收視率存在一元二次的函數關系。3.2一元線性模型預測單集電視劇評論數。通常來講,對于一部熱播電視劇,如果某一集相比較其他更加吸引觀眾,便更會引起人們對他的關注,反映到數據上的一方面就是該集的評論數就會越多。而在收視率和點擊量兩個可能可以預測評論數的因素中,本文猜想點擊量能更好地預測評論數,并通過數據驗證了本文的猜想。以《人民的名義》和《三生三世十里桃花》為例(如圖5和圖6)從下圖可以看出,不論是單集還是整體,在收視率這一方面《人民的名義》遠超《三生三世十里桃花》,而點擊量方面的結果恰好相反,《三生三世十里桃花》則是更勝一籌,但如果本文比較兩部電視劇的評論數(如圖7),《三生三世十里桃花》占據了絕對優勢。造成這種結果的原因是因為兩部電視劇收看的人群年齡段不同,《人民的名義》的觀眾群體年齡相對較高,多通過電視收看電視劇,很少會到網絡上發表對這部電視劇的看法;而《三生三世十里桃花》的觀眾群體相對年輕,多通過網絡收看電視劇,并樂于與其他人商量對這部電視劇的觀點。因而造成了點擊量與評論數的數據更為相符。通過比較可以初步驗證本文的猜想,但這只能說明點擊量比收視率能更好地預測單集的評論數,是否點擊量就能與評論數很好地契合,這還需要本文進一步的數據分析。以《擇天記》為例,本文以《擇天記》的單集點擊量為自變量,該集的評論數為因變量,刪除一些誤差較大的數據后得到20組單集評論數和點擊量數據。將這20組數據進行回歸分析得到的結果如表1和圖8所示:表120組數據所得回歸直線的評估參數圖820組數據預測的t時評論量與真實值的對比通過回歸分析本文可以看出,這二十組數據間的線性相關性較強,擬合程度較好。本文再以前十五組數據為訓練集,最后五組數據為測試集。將預測的五組數據與真實的五組數據作對比,并計算二者的相關系數ρ,即得表2:表2所得回歸方程的預測能力檢驗二者的相關系數ρ=0.792,即二者的相關性較強,因而本文可以看出電視劇的單集點擊量對當集的評論數有著較好的預測能力。當本文把電視劇的數量擴展到6部時,本文先將156組數據進行回歸分析,結果如表3和圖9所示:表3156組數據所得回歸直線的評估參數圖9156組數據預測的t時評論數與真實值的對比刪去這些數據中較大的66組數據,剩余的90組數據中,以其中85組為訓練集,另外5組為測試集,計算該模型的預測能力,如表4:表4回歸直線的預測能力檢驗由此可見,當數據更大時,點擊量與評論數的線性相關性加強,而點擊量對評論數的預測能力也一直十分優秀,所以本文可以推測,當數據數目足夠大時,點擊量與評論數將符合一元線性回歸模型。3.3單集收視率、點擊量與集數的關系。一般來講,電視劇開播初期,因為不同電視劇的明星陣容、宣傳力度不同,在不知道劇情的情況下,電視劇的收視率與點擊量可能會有不同程度的波動,但隨電視劇的播出,人們對該電視劇了解進一步深入,這種波動可能會逐漸減小。因而本文推測,隨集數的增長,單集電視劇的收視率與點擊量都會趨于平緩,且隨劇情深入,人們對電視劇的期望應該會越高,因而二者都應緩慢上升。下面本文分別以八部電視劇的集數為自變量,同一集(同為第一集、第二集等)的平均收視率和平均點擊量為因變量探究二者的關系,結果如圖10和圖11。由圖本文不難看出,真實的結果與本文的預期有一定的偏差:收視率與本文的預期基本相符,始終波動較小,且有小幅上升,到最后達到最大值,這也反映了人們對電視劇結尾的期望。但點擊量始終保持較大的波動,偶爾會有小幅上揚,但總體來看一直在下降,且在3/10/30集左右都出現了明顯的斷層情況,一直到最后都沒有再大幅回升,不符合人們對大結局的期望值。探究這種現象發生的原因,本文認為這與二者所代表的受眾群體相關:常使用優酷、土豆等網上觀看電視劇的多為二三十歲的中青年人,他們的時間相對緊湊,沒有時間每天晚上都在電視機前等待電視劇的更新,大多數時候只是通過網絡回看已經播出的電視劇,在這種情況下,他們對電視劇的觀看就有了選擇性,某一集的劇情吸引人,可能該集的點擊量會有一個激增,其他的集數點擊量可能就較少,也正是由于這個原因,他們更偏愛集數較短的電視劇,因而隨集數的增長,電視劇的點擊量會逐步下降;而收視率的受眾群體多為其他人群,生活更加規律,時間相對寬裕,受眾群體穩定因而收視率的變化相對平緩,且隨電視劇的深入,知道這部電視劇的人就更多,收看電視劇的人數就會逐步增多,因而電視劇的平均收視率會平緩地上升。

4結論與展望

在如今電視劇風靡的背景下,本文研究了電視劇的一些數據,以一元線性回歸模型的原理為理論基礎,發現收視率符合一元二次的時間序列預測模型,即知道某一集的收視率,便能比較好的預測出下一集電視劇的收視率,對于電視劇的出版方來說,合理的安排好劇情精彩的集數,以此大幅帶動周圍集數的收視率就顯得尤為重要。此外,本文還研究了單集點擊量與該集評論數的關系,發現某集的點擊量與該集的評論數成正相關,因此,網絡視頻播出方可以加大宣傳的力度,提高該集的關注度,以此提高單集點擊量。最后,本文發現隨集數的增加,收視率平緩上升,而視頻點擊量則在波動下降,對于集數較多的電視劇更為明顯,因此電視臺方面可以在收視后期多插播一些廣告或延長時長以增加收益,而出版方則要控制好電視劇的長短,既要使電視劇的收視率達到一個令人滿意的高度,又要保證點擊量不會太低,以求得最大的收益。上述模型經驗證后發現擬合程度都很高,能夠很好地進行預測,這些問題的研究對于提高出版方與播出方的收益都有十分重要的意義。在未來對這些問題的深入研究中,通過更多電視劇的數據,以及更高級的算法模型,使得模型能夠更加精確,具有更好的現實解釋力。

作者:王一鳴 單位:諸城市實驗中學

參考文獻:

[1]陳春燕,張鈺,常標等.基于ARMA模型的在線電視劇流行度預測[J].計算機科學與探索,2016,10(3).

[2]毋世曉,趙翠.基于時序分析的視頻點擊量預測[J].電腦編程技巧與維護,2016(20).

[3]趙忠仁.電視劇參數這樣讀[J].成功營銷,2013(4).[4]石光.電視劇收視率在大數據環境下的分析[J].西部廣播電視,2017(11).