当前位置: 首页 > news >正文

怎么做赛事直播网站阿里指数官网

怎么做赛事直播网站,阿里指数官网,如何让网站做网页适配,怎么做网站的搜索引擎数据挖掘流程 加载数据 把需要的模型数据先计算出来 特征工程 提取数据特征,对特征数据进行清洗转化 数据的筛选和清洗数据转化 类型转为 性别 男,女 ----> 1,0特征交叉 性别/职业/收入 —> 新特这 优质男性程序员 将多个特征值组合在一起特征筛选…

数据挖掘流程

  • 加载数据

    • 把需要的模型数据先计算出来
  • 特征工程 提取数据特征,对特征数据进行清洗转化

    • 数据的筛选和清洗
    • 数据转化 类型转为 性别 男,女 ----> 1,0
    • 特征交叉 性别/职业/收入 —> 新特这 优质男性程序员 将多个特征值组合在一起
    • 特征筛选 筛选和计算需求强关联的特征
    • 特征清洗 空值处理,重复值处理
    • 数据经过特征处理后会转为向量数据
  • 模型训练

    • 将特征工程的数据传递算法训练
    • 模型评估
      • 数据划分 100万 80万 训练 20万 评估
        • 样本数据 训练模型
        • 测试数据 评估模型
  • 模型的上线部署

    • 模型评估没有问题就可以上线部署

    spark实现机器学习

from pyspark.ml
  • 各类算法
    • 分类算法,聚类,协调过滤…
  • 特征处理方法
    • 特征抽取,转化,选择…
  • 管道
    • 传递数据方法
  • 持久化
    • 保存数据

特征工程

安装numpy模块

pip install numpy -i https://pypi.tuna.tsinghua.edu.cn/simple

将字符串数据转为数值,在算法模型训练需要用到的是数值
根据需求选择

1、创建df数据

# 机器学习模块使用
from pyspark.sql import SparkSession
# 导入特征工程方法
from pyspark.ml.feature import StringIndexer,VectorAssembler, MinMaxScaler# 创df数据
ss = SparkSession.builder.getOrCreate()
df = ss.createDataFrame([[1,'张三',20,'男'],[2,'韩梅梅',21,'女'],[3,'王五',19,'男'],[4,'蔡徐坤',28,'男'],[5,'蔡文姬',19,'女'],[6,'小乔',22,'女'],],schema='id int,name string,age int,gender string'
)
df.show()

2、特征工程处理 StringIndexer方法

# 2- 特征转化 将男转为0 女转为1
# 特征转化  将字符串数据转为数值 StringIndexer
# inputCol指定需要转化的字段
# outputCol 指定输出字段
data_str = StringIndexer(inputCol='gender',outputCol='gender_index')
# fit() 添加df数据
data_fit = data_str.fit(df)
# transform() 转化df数据
df_gender = data_fit.transform(df)
df_gender.show()

特征交叉

3、特征交叉处理 VectorAssembler方法

# 3、特征交叉 将多个特征组合  将性别和年龄组合
# inputCols 指定多个字段
data_vector = VectorAssembler(inputCols=['age','gender_index'],outputCol='age_gender')
# 对上一步的df_gender交叉转化
# 将年龄和性别进行组合,转化成列表的形式
df_age_gender = data_vector.transform(df_gender)
df_age_gender.show()

特征缩放

4、特征缩放(归一处理) MinMaxScaler

# 3、特征缩放
# 多个特征数据量级保持一致,归一化处理(将数据转化为0-1的范围)
min_max = MinMaxScaler(inputCol='age_gender',outputCol='min_age_gender')
# 添加数据
m_fit = min_max.fit(df_age_gender)
# 转换
df_age_gender_min = m_fit.transform(df_age_gender)
df_age_gender_min.show(truncate=False)
http://www.pjxw.cn/news/26506.html

相关文章:

  • 佛山微信网站建设多少钱今天最新的新闻头条新闻
  • seo网站推广有哪些网站关键词搜索
  • 凡科建设网站图片怎么删除长沙百家号seo
  • 政府类wap网站建设方案windows7优化大师官方下载
  • 石家庄房和城乡建设部网站推广方案范例
  • 武汉 网站建设app推广实名认证接单平台
  • 网站模板下载好之后如何安装seo提升排名技巧
  • 网站前端做报名框代码苏州seo关键词排名
  • 龙华做网站 熊掌号seo排名优化代理
  • 建网站淄博seo包括什么
  • 产品设计网站官网西安关键词seo
  • 吉林省建设监理协会网站诚信建设网络运营课程培训班
  • wordpress的vps建站流程2023年10月爆发新冠
  • 备案通过后怎么做网站新郑网络推广外包
  • 商城网站建设大连百度快速排名优化技术
  • 做网站香港行不行seo优化推广工程师
  • 杭州制作企业公司网站推广软件赚钱违法吗
  • 北京网络营销推广培训哪家好宁波关键词优化排名工具
  • 公司网站上线流程广州seo成功案例
  • 怎么用织梦做网站短链接在线生成器
  • 做it的兼职网站怎么做一个网站的步骤
  • 网站建设的目的与意义网络推广平台
  • 网页模板怎么做网站seo外推软件
  • php做的网站有哪些站长工具seo推广 站长工具查询
  • 公司建设网站申请报告范文哈尔滨seo网站管理
  • wap网站制作怎么做百度小说排行榜第一名
  • 专做动漫的网站广州seo外包
  • 在线系统seo是搜索引擎优化吗
  • 沈阳做网站在哪教育培训加盟
  • 昆明做网站做的好的公司网站seo策划方案