youtube数据集

YouTube fbbusiness123 7个月前 (07-02) 22次浏览 0个评论

许多人都在问youtube网站热门视频的数据集里面包含哪些内容。许多人都对该平台的数据集跟业务背景的介绍不是特别了解。许多人都对youtube数据集等这方面的内容感觉到非常陌生。接下来就带各位来说一说关于youtube数据集等这方面的内容进行探讨交流欢迎大家进来讨论。

youtube数据集

youtube网站数据集

这个数据集是youtube网站上Trending List的每日统计信息。时间跨度是2017年11月14日至2018年6月14日。它里面含有美国、英国、德国、加拿大、法国等国家跟地区,每个地区一个文件,在这里选取了美国的数据。

“Trending List”的该官方中文翻译是“时下流行”,大家能够明白为热门视频的榜单。相似微博的热搜机制,榜单内容在同一地区是相同的,不按照用户个人的喜好而做个性化推荐。然而Trending List并不只是按照播放量等单一指标来进行排序的,该平台综合了多种因素权衡用户对视频的互动热度(里面含有播放量、分享数、评论跟点赞等等)。

youtube的数据集简介

数据来源通过Google数据搜索引擎,在Kaggle上找到的数据Trending YouTube Video Statistics,www.kaggle.com。

数据集为csv格式,文件大小59.8M。数据总共16个字段,40726条。

详细字段如下:

video_id(视频ID)

trending_date(推荐日期)

title(标题)

channel_title(频道标题)

category_id(类型id)

publish_time(发布时间)

tags(标签)

views(观看数)

likes(点赞数)

dislikes(不喜欢数)

comment_count(评论数)

thumbnail_link(缩略图链接)

comments_disabled(是否允许评论)

ratings_disabled(是否允许打分)

video_error_or_removed(视频是否损坏或移除)

description(描述)

业务背景

用户可以使用极值能够处理底下的相关问题:

Trending榜单中

哪些视频跟频道被收录热门榜单(Trending List)天数最多?

哪类视频播放量最高/最低?

哪类视频评论率最高/最低?

哪类视频的点赞率最高/最低?

热门榜单(Trending List)中标题长度多少词的视频最多?

用户使用箱型图能够描述不同类别的整体情况:

各类视频的观看数、点赞数、评论数的整体情况

用户可以使用正态分布,来取得知道观看数、点赞数、不喜欢数、评论数等分别是不是相符正态分布,从而能够再验证它们之间是不是存在线性相关(Pairs plot 矩阵散点图、协方差矩阵及其相关系数)

用户可以用底下业务问题来进行处理

1.哪些因素会影响该网站视频的受欢迎程度?是怎么影响的?

2.人们最感兴趣的是哪种类型的视频?

3.Trending榜单上的视频一般可以存放多少天?

4.视频的发布日期跟被推荐日期之间是不是存在某种联系?

5.视频的标签数越多越好吗?视频描述越详细越好吗?

6.是不是存在视频发布的黄金时间(每月/每周中是不是存在周期性的高热度)?

a.时间

trending_date(推荐日期)

publish_time(发布时间)

b.内容类型

channel_title(频道)

category_id(类型id)

c.互动

views(观看数)

likes(点赞数)

dislikes(不喜欢数)

comment_count(评论数)

喜欢 (0)
发表我的评论
取消评论
表情 贴图 加粗 删除线 居中 斜体 签到

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址