私はWebサイトがどのように作られ、それがどのような仕組みで運営されているかもわからない初心者です。そのような初心者にとって、禁止されているクローリングがあり、相手のWebサーバーに負荷をかけないように礼儀をもってダウンロードするという記述には大変好感が持てました。
第一章:
URLのバラメータは末尾に「?」を書き、「(key)=(value)」の形式で、複数のパラメータは「&」でつなぐ。
PythonのパッケージはPython Package Index(PyPI)にまとめられ、pip3でインストールする。pip3はpipのpython3版である。
データのダウンロードにはurllibを使う。urlretrieve, lrlopen,urlencode等
BeautifulSoupはHTMLやXMLを解析するライブラリで、それ自体にダウンロードの機能はない。
DOM(Document Object Model)はXML,HTMLのもつ要素を取得するメカニズムのこと
について学ぶことができる。
第2章
HTTP通信とクッキーについての話から始まる。HTTP通信はWEBブラウザーとサーバーの要求と返答で構成される。これにクッキーを追加すると会員制サイトなどが可能となる。1つのクッキーのデータの大きさは4096バイトに制限されている。さらにセッションという仕組みを通してパスワードなどが管理される。
クッキーを利用してログインする方法、Webブラウザーを使ってログインする方法(JavaScriptを多用したWebサイトの場合)、APIを利用してデータをダウンロードする方法が紹介されている。また、APIを用いたデータのダウンロードがいくつか紹介されているが、日本は海外に比べて遅れているというイメージを受けた。
3章ではデータのフォマットの違いについて学ぶ。データのフォマットは「テキスト」と「バイナリー」形式に大きく分けられる。テキスト形式ではエディットができる代わりに容量が大きくなるという欠点がある。一方バイナリーデータはテキストエディターでの編集はできないが、容量が小さいというメリットがある。XML、JSON、YAML、CSV/TSVなどのWebフォマットはテキスト形式をベースにしている。画像データではバイナリー形式が主流であり、圧縮率の違いにより、JPEG、GIF、PNGというフォマットに分類される。次に得られたデータの保存方法について説明している。ここではオープンソースのMySQ、,MarinaDB。SQLite、NoSQL(TinyDB)について紹介している。これらのデータベースはテーブルからなり、それはさらに行と列からなるので、どれでも使い方は似ているので学びやすいと書かれている。特に本書ではSQLiteを勧めている。
4章以下では得られたデータの解析手法について説明している。4章は機械学習である。Scikit-learnライブラリを用いている。機械学習の応用分野としてはクラス分類、クラスタリング、推薦、回帰、次元削減などがある。XORを用いた分類、SVM(support vector machine)の仕組みとそれを用いた分類、ランダムフォレストの仕組みと使用、グリッドサーチ、クロスバリデーションによるデータ検証について説明している。
5章では深層学習をTensorFlowを用いて説明している。TensorFlowを触るのも怖いという人にとっては最適な説明である。
6章はテキスト解析を一通り説明した後にチャットポッドを作成している。形態素解析、ベイジアンフィルター、多層パーセプトロン(MPL)、n-gram、マルコフ連鎖、LSTM/RNNなどの手法を用いている。
プライム無料体験をお試しいただけます
プライム無料体験で、この注文から無料配送特典をご利用いただけます。
非会員 | プライム会員 | |
---|---|---|
通常配送 | ¥410 - ¥450* | 無料 |
お急ぎ便 | ¥510 - ¥550 | |
お届け日時指定便 | ¥510 - ¥650 |
*Amazon.co.jp発送商品の注文額 ¥3,500以上は非会員も無料
無料体験はいつでもキャンセルできます。30日のプライム無料体験をぜひお試しください。
¥2,530¥2,530 税込
発送元: Amazon 販売者: アイダ商会
¥2,530¥2,530 税込
発送元: Amazon
販売者: アイダ商会
¥141¥141 税込
配送料 ¥257 5月15日-16日にお届け
発送元: リサイクル商品在宅買取【りもったい】(株式会社シガースタイル) 販売者: リサイクル商品在宅買取【りもったい】(株式会社シガースタイル)
¥141¥141 税込
配送料 ¥257 5月15日-16日にお届け
発送元: リサイクル商品在宅買取【りもったい】(株式会社シガースタイル)
販売者: リサイクル商品在宅買取【りもったい】(株式会社シガースタイル)
無料のKindleアプリをダウンロードして、スマートフォン、タブレット、またはコンピューターで今すぐKindle本を読むことができます。Kindleデバイスは必要ありません。
ウェブ版Kindleなら、お使いのブラウザですぐにお読みいただけます。
携帯電話のカメラを使用する - 以下のコードをスキャンし、Kindleアプリをダウンロードしてください。
Pythonによるスクレイピング&機械学習 開発テクニック BeautifulSoup,scikit-learn,TensorFlowを使ってみよう 単行本 – 2016/12/6
クジラ飛行机
(著)
ダブルポイント 詳細
{"desktop_buybox_group_1":[{"displayPrice":"¥2,530","priceAmount":2530.00,"currencySymbol":"¥","integerValue":"2,530","decimalSeparator":null,"fractionalValue":null,"symbolPosition":"left","hasSpace":false,"showFractionalPartIfEmpty":true,"offerListingId":"U5AjBfMdTzgxcFkRRubdmvfpFTEklaFlo5dhiqSwsbKeJPt0rre3JW%2B8%2BElRM4jHGPm3GsZYCrkxJ3jdlBNUiphfYnmgpdktf5hcI309wDWzEyw2hJKGMt6TfEhAsEQYA2NqrRB6ySauculk8ypNpZo4MmxnvraymOwpQM1KPA1kO0N9qxrqGjyfl9RYY0Mu","locale":"ja-JP","buyingOptionType":"NEW","aapiBuyingOptionIndex":0}, {"displayPrice":"¥141","priceAmount":141.00,"currencySymbol":"¥","integerValue":"141","decimalSeparator":null,"fractionalValue":null,"symbolPosition":"left","hasSpace":false,"showFractionalPartIfEmpty":true,"offerListingId":"U5AjBfMdTzgxcFkRRubdmvfpFTEklaFl1FvrMflcA6EXzdqkh2a3CdrXAwIyQ0xBzCOxy3FwypcTKEPhK8hSyNry8mImvxIBXv%2FBqbvp%2BElxXijaxv9YIjaYoY0f%2BpVLd32AW26BSdEmC88Vuv8Wo%2FkR3nN0Np1J7F5cjgzKVApBlcYWHVJqaA%3D%3D","locale":"ja-JP","buyingOptionType":"USED","aapiBuyingOptionIndex":1}]}
購入オプションとあわせ買い
近年、深層学習の成果がさまざまな分野で頭角を現しています。
2016 年初めに、人工知能「AlphaGo」が囲碁戦で人間のプロ棋士に5戦4勝という圧倒的な成績で勝ったことで、人工知能に注目が集まりました。
すでにチェスの分野では1997 年にIBMのDeep Blueがプロに勝利していましたが、囲碁はチェスよりもはるかに選択肢が多く、
従来の方法ではコンピューターがプロ棋士に勝つことはできないと言われていました。
しかし、機械学習の一分野である深層学習を利用したシステムを構築することで、成果を出すことができた のです。
本書は、Pythonでデータを収集し、収集したデータを機械学習で活用するという一連の作業方法を詳しく解説するものです。
機械学習の重要性は、日々高まっているものの、いったいどのように実務に取り入れたら良いのかという声を聞くようになりました。
本書では、実際にデータの集め方から、機械学習を活用するところまで、実践的なPythonのサ ンプルコードで紹介します。
深層学習の活用はさまざまな分野に広がっています。
2000 万件もの医学論文を学習した 人工知能のWatsonが、専門の医師でも診断が難しい特殊な白血病を10 分ほどで見抜き、
治療法を変えるよう提案した結果、女性患者の命が救われたというニュースもありました。
この人工知能は、人間の医師では診断が難しかったがん患者の病名を突き止めるなど、医 療現場で活躍しています。
このような機械学習の成功例に関するニュースを聞くと、ぜひ、自分の業務でも、活用し てみたいと思うのは自然なことです。
機械学習というと、難しい数式が伴うというイメージがあります。
しかし、実際のところ、データを活用する際に、難しい数式を意識する必 要はそれほどありません。
利用したいデータさえ手元にあれば、本書に掲載されているプログラムをちょっと改良するだけで、
自分が求めている処理を実現することができることでしょう。
2016 年初めに、人工知能「AlphaGo」が囲碁戦で人間のプロ棋士に5戦4勝という圧倒的な成績で勝ったことで、人工知能に注目が集まりました。
すでにチェスの分野では1997 年にIBMのDeep Blueがプロに勝利していましたが、囲碁はチェスよりもはるかに選択肢が多く、
従来の方法ではコンピューターがプロ棋士に勝つことはできないと言われていました。
しかし、機械学習の一分野である深層学習を利用したシステムを構築することで、成果を出すことができた のです。
本書は、Pythonでデータを収集し、収集したデータを機械学習で活用するという一連の作業方法を詳しく解説するものです。
機械学習の重要性は、日々高まっているものの、いったいどのように実務に取り入れたら良いのかという声を聞くようになりました。
本書では、実際にデータの集め方から、機械学習を活用するところまで、実践的なPythonのサ ンプルコードで紹介します。
深層学習の活用はさまざまな分野に広がっています。
2000 万件もの医学論文を学習した 人工知能のWatsonが、専門の医師でも診断が難しい特殊な白血病を10 分ほどで見抜き、
治療法を変えるよう提案した結果、女性患者の命が救われたというニュースもありました。
この人工知能は、人間の医師では診断が難しかったがん患者の病名を突き止めるなど、医 療現場で活躍しています。
このような機械学習の成功例に関するニュースを聞くと、ぜひ、自分の業務でも、活用し てみたいと思うのは自然なことです。
機械学習というと、難しい数式が伴うというイメージがあります。
しかし、実際のところ、データを活用する際に、難しい数式を意識する必 要はそれほどありません。
利用したいデータさえ手元にあれば、本書に掲載されているプログラムをちょっと改良するだけで、
自分が求めている処理を実現することができることでしょう。
- 本の長さ400ページ
- 言語日本語
- 出版社ソシム
- 発売日2016/12/6
- ISBN-104802610793
- ISBN-13978-4802610797
よく一緒に購入されている商品
対象商品: Pythonによるスクレイピング&機械学習 開発テクニック BeautifulSoup,scikit-learn,TensorFlowを使ってみよう
¥2,530¥2,530
最短で5月14日 火曜日のお届け予定です
残り3点 ご注文はお早めに
¥3,520¥3,520
最短で5月14日 火曜日のお届け予定です
残り1点(入荷予定あり)
総額:
当社の価格を見るには、これら商品をカートに追加してください。
ポイントの合計:
pt
もう一度お試しください
追加されました
一緒に購入する商品を選択してください。
この商品をチェックした人はこんな商品もチェックしています
ページ 1 以下のうち 1 最初から観るページ 1 以下のうち 1
登録情報
- 出版社 : ソシム (2016/12/6)
- 発売日 : 2016/12/6
- 言語 : 日本語
- 単行本 : 400ページ
- ISBN-10 : 4802610793
- ISBN-13 : 978-4802610797
- Amazon 売れ筋ランキング: - 525,857位本 (本の売れ筋ランキングを見る)
- - 429位Webプログラミング
- カスタマーレビュー:
著者について
著者をフォローして、新作のアップデートや改善されたおすすめを入手してください。
「楽しく役に立つツール」をテーマにさまざまなアプリやサービスを開発している。代表アプリに『日本語プログラミング言語「なでしこ」』や『テキスト音楽サクラ』など。2001年にオンラインソフト大賞に入賞、2004年度IPA未踏ユース・スーパークリエイター認定、2010年にOSS貢献者賞を受賞。2021年に代表作の「なでしこ」が情報の教科書に採択。Python、Rust、機械学習、アルゴリズムなど、プログラミングに関する技術書籍を30冊以上執筆している。くじらはんど(https://kujirahand.com)のWebサイトでアプリや書籍の一覧を確認できる。
-
トップレビュー
上位レビュー、対象国: 日本
レビューのフィルタリング中に問題が発生しました。後でもう一度試してください。
2017年1月2日に日本でレビュー済み
Amazonで購入
2018年11月3日に日本でレビュー済み
Amazonで購入
It's written so basic practical code like beginners easily understand.
This is the best book which is published in japan.
This is the best book which is published in japan.
2016年12月14日に日本でレビュー済み
Amazonで購入
Python以外の言語を利用してスクレイピングしたり、機械学習など行ったことがある人がPythonだとどうすればいいか教えてくれる本であり、機械学習、深層学習について学ぶ本では無いように感じました。そのため、最初から最後まで、どんなライブラリがあり、どのように利用するか、という説明が事細かく行われています。
機械学習について全く知らない方は事前に勉強しておくと読みやすいかもしれません。随所にイラストや用語などの説明があるのでついていけないわけではないですが実務で利用するには不十分です。
Pythonの基礎が分かっている人を対象としています、と記載があるのですが他の言語を利用したことがある人であれば十分ついて行けると思いました(実際、Java, Javascript, Rしか使ったことない私でも説明の中でPythonの書き方を学びながら読むことができました)。あと、Appendixに記載があるのですが、本書はmacOSかUbuntuの環境を想定しているためwindows利用している人はvirtualboxでUbuntuを使えるようにするなど環境を整える必要があります。
機械学習について全く知らない方は事前に勉強しておくと読みやすいかもしれません。随所にイラストや用語などの説明があるのでついていけないわけではないですが実務で利用するには不十分です。
Pythonの基礎が分かっている人を対象としています、と記載があるのですが他の言語を利用したことがある人であれば十分ついて行けると思いました(実際、Java, Javascript, Rしか使ったことない私でも説明の中でPythonの書き方を学びながら読むことができました)。あと、Appendixに記載があるのですが、本書はmacOSかUbuntuの環境を想定しているためwindows利用している人はvirtualboxでUbuntuを使えるようにするなど環境を整える必要があります。
2017年12月17日に日本でレビュー済み
Amazonで購入
スクレイピングや機械学習について広範に紹介している一冊です。
項目ごとに使い方とサンプルコードが簡潔にまとめてあります。
対象レベルとしてはある程度コードを書ける様になった中級者向けでしょう。
広く浅い解説本ですので自分から知識を深掘りしていく必要があります。
スクレイピングも機械学習もそれ専用の専門書がありますのでまずはそちらを購入してみるのもありだと思います。
項目ごとに使い方とサンプルコードが簡潔にまとめてあります。
対象レベルとしてはある程度コードを書ける様になった中級者向けでしょう。
広く浅い解説本ですので自分から知識を深掘りしていく必要があります。
スクレイピングも機械学習もそれ専用の専門書がありますのでまずはそちらを購入してみるのもありだと思います。
2019年3月31日に日本でレビュー済み
Amazonで購入
増補改訂番が同じ値段で出ているので、星1です。
この本が出たのが2016年なので、pythonのパッケージなどはバージョンが変わり、ここで紹介しているコードだとエラーや警告が出てきます。
本の内容は広く浅いため、一つ一つのメソッドについては説明されません。応用するためには自分で調べる必要があります。
全体的に説明不足ですが、どこを勉強すればいいのかの目印にはなる。
この本が出たのが2016年なので、pythonのパッケージなどはバージョンが変わり、ここで紹介しているコードだとエラーや警告が出てきます。
本の内容は広く浅いため、一つ一つのメソッドについては説明されません。応用するためには自分で調べる必要があります。
全体的に説明不足ですが、どこを勉強すればいいのかの目印にはなる。
2019年1月10日に日本でレビュー済み
Amazonで購入
幅広く機械学習の入門的な内容が紹介され、興味深い内容でした。個人的にはNumpyについてより詳細に載っていると嬉しかったです。
内容がシンプルで、サクサク読めるため、機械学習に全く触れたことが無い人にはおススメです。
内容がシンプルで、サクサク読めるため、機械学習に全く触れたことが無い人にはおススメです。
2018年8月7日に日本でレビュー済み
サンプルでスクレイピングに使う著者が作成したページのhtml内のクラスが消えていてcssセレクタが機能しない・ページのソースが変わっててサンプルコードが機能しないこと多数。面白い内容なだけに残念。もちろんゴリゴリ書いたら出来るのですが、サンプルページを作成した意味・・・